일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 운영체제론
- 후기
- Ubuntu 20.04
- 네이버
- id # tr # 환경변수
- 네이버 부스트 코스
- Virtual Box 7.0.6
- 백준 #baekjoon # 2563
- 부스트캠프
- 보기 편하라고 만든
- 웹/모바일
- 8기
- Today
- Total
목록데이터 엔지니어링/Airflow (9)
Miner
* airflow 에서 Dag 파일 인식 문제에 관해 조금만 함수가 맞지 않아도 인식이 안됨 한글을 적으면 바로 인식을 못함 ( 한글 주석 조차 인식을 못함 ) 리턴 값을 데이터 프레임으로 했을 때 오류 ( Xcom 문제 ?) -> Json 파일로 리턴시킴 1. stck_pastdata_to_s3 2월 17일 ~ 현재까지 데이터도 가져오도록 하기 중간에 "0"으로 에러처리 했으니까 ELT 과정에서 제거하기 variable 처리 -acml_vol 누적 거래량 String Y 18 누적 거래량 (하루 거래량이 안나옴) **elt 과정에서 다시 해야됨 짜 2. stck_pastdata_to_s3 주말에 돌렸을 때의 문제 ( 24일 토요일 에 돌리면 23 일 데이터 가 나옴 ) 3. stck_pastdata_t..
1. Docker Desktop을 실행한 상태에서 2. CLI 로 들어가 docker ps airflow-setup-airflow-webserver-1 의 ID를 찾는다. 3. docker exec -it [docekr_id] /bin/bash 를 통해 안으로 들어간다. 4. pip install s3fs 5. docker restart [docker_id]
# AWS 리소스와 상호 작용하기 위한 boto3 import boto3 # 데이터 추출 및 변환을 위한 pandas 및 기타 관련 라이브러리 import pandas as pd # Airflow에서 DAG 및 작업을 정의하는 데 사용되는 모듈 from airflow import DAG from airflow.operators.python_operator import PythonOperator # Airflow에서 날짜 및 시간 관련 기능을 사용하기 위한 모듈 from datetime import datetime # task라는 데코레이터를 사용해서 실행될 각 작업을 정의하고 # 코드의 재사용성을 높이고 작업 간의 의존성을 명확하게 만들 수 있다 from airflow.decorators import t..
사용할 데이터 웨어하우스 Redshift dc2.large 2 CPU, 15GB memory, 160GB SSD Host : learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com Port : 5439 Database : dev ID 와 PW
데이터 파이프라인 만들 때 유의점 이상 / 환상 내가 만든 데이터 파이프라인은 문제 없이 동작하고 관리하는 것은 어렵지 않을 것이다. 현실 / 실상 데이터 파이프라인은 많은 이유로 실패하게 된다 버그 / 데이터 소스상의 이유 / 데이터 파이프라인들간의 의존도에 이해도 부족 / 데이터 파이프라인의 수가 늘어나면 유지보수 비용이 기하급수적으로 늘어남 / 데이터 소스간의 의존도가 생기면서 이는 더 복잡해짐. 만일 마케팅 채녈 정보가 업데이트가 안된다면 마케팅 관련 다른 모든 정보들이 갱신되지 않음 Best Practices (1) 가능하면 데이터가 작을 경우 매번 통채로 복사해서 테이블을 만들기 (Full Refresh) Incremental update만이 가능하다면, 대상 데이터소스가 갖춰야할 몇 가지 조..
ETL ETL : Extract, Transform, and Load Data Pipeline, ETL, Data Workflow, DAG Called DAG(Directed Acyclic Graph) in Airflow ETL vs ELT ETL : 데이터를 데이터 웨어하우스 외부에서 내부로 가져오는 프로세스 보통 데이터 엔지니어들이 수행 ELT : 데이터 웨어하우스 내부 데이터를 조작해서 (보통은 추상화되고 요약된) 새로운 데이터를 만드는 프로세스 보통 데이터 분석가들이 많이 수행 이 경우 데이터 레이크 위에서 이런 작업들이 벌어지기도 함 이런 프로세스 전용 기술들이 있으며 dbt가 가장 유명 : Analytics Engineering dbt : Data Build Tool Data Lake vs D..