일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 네이버
- Ubuntu 20.04
- 후기
- id # tr # 환경변수
- Virtual Box 7.0.6
- 운영체제론
- 웹/모바일
- 백준 #baekjoon # 2563
- 보기 편하라고 만든
- 네이버 부스트 코스
- 8기
- 부스트캠프
- Today
- Total
Miner
Dag 작성 중 알게 된 사실 본문
* airflow 에서 Dag 파일 인식 문제에 관해
조금만 함수가 맞지 않아도 인식이 안됨
한글을 적으면 바로 인식을 못함 ( 한글 주석 조차 인식을 못함 )
리턴 값을 데이터 프레임으로 했을 때 오류 ( Xcom 문제 ?) -> Json 파일로 리턴시킴
1. stck_pastdata_to_s3
2월 17일 ~ 현재까지 데이터도 가져오도록 하기
중간에 "0"으로 에러처리 했으니까 ELT 과정에서 제거하기
variable 처리
-acml_vol 누적 거래량 String Y 18 누적 거래량 (하루 거래량이 안나옴) **elt 과정에서 다시 해야됨
짜
2. stck_pastdata_to_s3
주말에 돌렸을 때의 문제 ( 24일 토요일 에 돌리면 23 일 데이터 가 나옴 )
3. stck_pastdata_to_rds
만약 데이터를 AWS RDS로 보내려면 DataFrame을 적절한 형태로 변환한 후에 AWS RDS에 업로드해야 합니다. 이 과정은 pandas의 DataFrame을 SQL 쿼리로 변환하거나, 다른 데이터 로딩 도구를 사용하여 처리할 수 있습니다. 데이터의 양과 형식에 따라 적합한 방법을 선택할 수 있습니다.
s3_filename = 'rawdata_past.parquet' ---> 이거나중에 이름 바꾸기
conn_postgre() 함수 airflow 인식 못함 --> 이유가 host 가 올바르지 않아서?
create table 할때 데이터 타입 그냥 문자열로 해도 되나?
또 XCOM,,, JSON 파일이 아니라서
airflow 위에 라이브러리 설치하는 방법 -> yaml 파일 위에 ~
stck_vol과 acml_vol 중복
1. --> 기존 파일 지우 **
2. pgadmin에서 table 조회가 안되는 이유
3. airflow 에 pip install 한다고 했는데 어떻게 하는지
--> Dockerfile 작성
4. ELT 시 해야 할 것 : 중간에 "0" 데이터 제거
5. NV3
RDS 연결 까지는 되는데 Create table에서 syntax 에러남
'데이터 엔지니어링 > Airflow' 카테고리의 다른 글
데이터프레임 타입 (0) | 2024.03.01 |
---|---|
로컬 Airflow 모듈 설치 (0) | 2024.02.22 |
Dag 작성 - 필요 모듈 (0) | 2024.02.19 |
Airflow (4) - ETL 작성 (0) | 2024.01.24 |
Airflow (3) - Caution (0) | 2024.01.24 |