Miner

Dag 작성 중 알게 된 사실 본문

데이터 엔지니어링/Airflow

Dag 작성 중 알게 된 사실

MineTime76 2024. 2. 24. 18:24

* airflow 에서 Dag 파일 인식 문제에 관해

 

조금만 함수가 맞지 않아도 인식이 안됨

한글을 적으면 바로 인식을 못함 ( 한글 주석 조차 인식을 못함 )

리턴 값을 데이터 프레임으로 했을 때 오류 ( Xcom 문제 ?) -> Json 파일로 리턴시킴

 

1. stck_pastdata_to_s3

2월 17일 ~ 현재까지 데이터도 가져오도록 하기

중간에 "0"으로 에러처리 했으니까 ELT 과정에서 제거하기

 

 

variable 처리

 

-acml_vol 누적 거래량 String Y 18 누적 거래량 (하루 거래량이 안나옴) **elt 과정에서 다시 해야됨

 

2. stck_pastdata_to_s3

주말에 돌렸을 때의 문제 ( 24일 토요일 에 돌리면 23 일 데이터 가 나옴 )

 

3. stck_pastdata_to_rds

 

만약 데이터를 AWS RDS로 보내려면 DataFrame을 적절한 형태로 변환한 후에 AWS RDS에 업로드해야 합니다. 이 과정은 pandas의 DataFrame을 SQL 쿼리로 변환하거나, 다른 데이터 로딩 도구를 사용하여 처리할 수 있습니다. 데이터의 양과 형식에 따라 적합한 방법을 선택할 수 있습니다.

 

s3_filename = 'rawdata_past.parquet' ---> 이거나중에 이름 바꾸기 

conn_postgre() 함수 airflow 인식 못함 --> 이유가 host 가 올바르지 않아서?

create table 할때 데이터 타입 그냥 문자열로 해도 되나?

 

또 XCOM,,, JSON 파일이 아니라서 

 

 

airflow 위에 라이브러리 설치하는 방법 -> yaml 파일 위에 ~

 

stck_vol과 acml_vol 중복

 

 

1. --> 기존 파일 지우 **

2. pgadmin에서 table 조회가 안되는 이유 

3. airflow 에 pip install 한다고 했는데 어떻게 하는지

--> Dockerfile 작성

yaml 파일에 추

4. ELT 시 해야 할 것 : 중간에 "0" 데이터 제거

 

5. NV3 

RDS 연결 까지는 되는데 Create table에서 syntax 에러남

 

풀어서 써서 해결.
df의 모든 것을 문자열 형으로 교체

 

'데이터 엔지니어링 > Airflow' 카테고리의 다른 글

데이터프레임 타입  (0) 2024.03.01
로컬 Airflow 모듈 설치  (0) 2024.02.22
Dag 작성 - 필요 모듈  (0) 2024.02.19
Airflow (4) - ETL 작성  (0) 2024.01.24
Airflow (3) - Caution  (0) 2024.01.24