일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- 후기
- 웹/모바일
- 운영체제론
- 백준 #baekjoon # 2563
- Virtual Box 7.0.6
- 보기 편하라고 만든
- 부스트캠프
- 네이버 부스트 코스
- 8기
- Ubuntu 20.04
- 네이버
- id # tr # 환경변수
- Today
- Total
목록2024/01 (18)
Miner
ETL ETL : Extract, Transform, and Load Data Pipeline, ETL, Data Workflow, DAG Called DAG(Directed Acyclic Graph) in Airflow ETL vs ELT ETL : 데이터를 데이터 웨어하우스 외부에서 내부로 가져오는 프로세스 보통 데이터 엔지니어들이 수행 ELT : 데이터 웨어하우스 내부 데이터를 조작해서 (보통은 추상화되고 요약된) 새로운 데이터를 만드는 프로세스 보통 데이터 분석가들이 많이 수행 이 경우 데이터 레이크 위에서 이런 작업들이 벌어지기도 함 이런 프로세스 전용 기술들이 있으며 dbt가 가장 유명 : Analytics Engineering dbt : Data Build Tool Data Lake vs D..
하둡 설치 하둡 3.0을 의사분산 모드로 리눅스 서버에 설치 의사분산 모드 : 1개 resource manager, 1개 Node manager 의사분산 모드는 Hadoop 관련 프로세스들을 개별 JVM으로 실행 AWS 우분투 EC2 t2.medium 인스턴스 사용 자바 8이 필요. 우분투 설치 문서 데모
맵리듀스 프로그래밍 목표가 큰 데이터를 처리하는데 있다. 그렇다보니까 데이터셋의 포맷도 하나로 단순화 시켰다. 데이터 셋은 Key, Value의 집합이며 변경 불가(immutable) 데이터 조작은 map과 reduce 두 개의 오퍼레이션으로만 가능 Reduce는 Map의 출력 중에 같은 키를 갖는 출력을 모아 처리해서 새로운 key-value 페어를 만들어 주는 것 이 두 오퍼레이션은 항상 하나의 쌍으로 연속으로 실행됨 이 두 오퍼레이션의 코드를 개발자가 채워야 함 맵리듀스 시스템이 Map의 결과를 Reduce 단으로 모아준다. 이 단계를 보통 셔플링이라고 부르며, 네트웍단을 통한 데이터 이동이 생긴다. 일반적으로 맵리듀스 한 번으로 원하는 결과를 얻지 못하고 몇 번을 거쳐서 원하는 결과를 낸다. 맵과..
Yarn 분산 컴퓨팅 시스템 : 하둡 2.0 (Yarn 1.0) 세부 리소스 관리가 가능한 범용 컴퓨팅 프레임워크 리소스 매니저 - Job Scheduler, Application Manager 노드 매니저 컨테이너 - 앱 마스터, 태스크 Spark가 이 위에서 구현되었다. Yarn의 동작 클라이언트는 MapReduce 나 Spark 실행하려는 코드와 환경 정보를 RM(Resource Manager)에게 넘김 실행에 필요한 파일들은 application ID에 해당하는 HDFS 폴더에 복사가 미리 복사됨 RM은 NM(Node Manager)로 부터 컨테이너를 받아 AM(Application Master) 실행 AM은 프로그램 마다 하나씩 할당되는 프로그램 마스터에 해당된다 AM은 입력 데이터 처리에 필요..
요약 빅데이터의 처리를 위해 하둡이라는 오픈소스가 등장 분산 파일 시스템(HDFS)과 분산 컴퓨팅 시스템(맵리듀스/YARN)으로 구성 맵리튜스 프로그래밍의 제약성으로 인해 SQL이 재등장 Spark은 대세 대용량 데이터 분산 컴퓨팅 기술 Pandas + Scikit Learn의 스테로이드 버전 SQL과 스트림 데이터와 그래프 처리도 제공 빅데이터의 정의 : 1. 서버 한대로 처리할 수 없는 규모의 데이터 판다스로 처리해야 할 데이터가 너무 커서 처리가 불가능하다면 어떻게 할 것인가? 2. 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터 - 대표적인 기존 소프트웨어 오라클이나 MYSQL과 같은 관계형 데이터베이스 (분산환경을 염두해 두지 않음, Scal-up 접근방식(vs. Scale-out) : 메모..
1. 터미널 프로그램에서 적당한 폴더(docker) 만들고 폴더로 이동 2. Airflow setup을 Github repo를 클론한다. git clone https://github.com/keeyong/airflow-setup.git 3. airflow-setup 폴더로 이동하고 2.5.1 이미지 관련 yml 파일 다운로드 cd airflow-setup curl -LfO 'https://airflow.apache.org/docs/apache-airflow/2.5.1/docker-compose.yaml' Window의 경우, Invoke-WebRequest -Uri 'https://airflow.apache.org/docs/apache-airflow/2.5.1/docker-compose.yaml' -Ou..