일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 8기
- 보기 편하라고 만든
- Virtual Box 7.0.6
- 후기
- 웹/모바일
- 네이버
- Ubuntu 20.04
- 네이버 부스트 코스
- 운영체제론
- id # tr # 환경변수
- 백준 #baekjoon # 2563
- 부스트캠프
- Today
- Total
목록데이터 엔지니어링 (28)
Miner
* airflow 에서 Dag 파일 인식 문제에 관해 조금만 함수가 맞지 않아도 인식이 안됨 한글을 적으면 바로 인식을 못함 ( 한글 주석 조차 인식을 못함 ) 리턴 값을 데이터 프레임으로 했을 때 오류 ( Xcom 문제 ?) -> Json 파일로 리턴시킴 1. stck_pastdata_to_s3 2월 17일 ~ 현재까지 데이터도 가져오도록 하기 중간에 "0"으로 에러처리 했으니까 ELT 과정에서 제거하기 variable 처리 -acml_vol 누적 거래량 String Y 18 누적 거래량 (하루 거래량이 안나옴) **elt 과정에서 다시 해야됨 짜 2. stck_pastdata_to_s3 주말에 돌렸을 때의 문제 ( 24일 토요일 에 돌리면 23 일 데이터 가 나옴 ) 3. stck_pastdata_t..
1. Docker Desktop을 실행한 상태에서 2. CLI 로 들어가 docker ps airflow-setup-airflow-webserver-1 의 ID를 찾는다. 3. docker exec -it [docekr_id] /bin/bash 를 통해 안으로 들어간다. 4. pip install s3fs 5. docker restart [docker_id]
# AWS 리소스와 상호 작용하기 위한 boto3 import boto3 # 데이터 추출 및 변환을 위한 pandas 및 기타 관련 라이브러리 import pandas as pd # Airflow에서 DAG 및 작업을 정의하는 데 사용되는 모듈 from airflow import DAG from airflow.operators.python_operator import PythonOperator # Airflow에서 날짜 및 시간 관련 기능을 사용하기 위한 모듈 from datetime import datetime # task라는 데코레이터를 사용해서 실행될 각 작업을 정의하고 # 코드의 재사용성을 높이고 작업 간의 의존성을 명확하게 만들 수 있다 from airflow.decorators import t..
실시간 데이터 처리 단계 이벤트 데이터 모델/스키마 결정 이벤트 데이터 전송/저장 - Kafka 이벤트 데이터 처리 이벤트 데이터 관리 이슈 모니터링과 해결 이벤트 데이터 모델 결정 최소 Primary Key와 Timestamp가 필요! 사용자 정보가 필요할 수도 있음 이벤트 자체에 대한 세부 정보 필요 이벤트 데이터 모델 전송/저장 (다시** 더 정리할 것) Point to Point (다시** 더 정리할 것) Many to Many 연결이 필요 Messaging Queue 중간에 데이터 저장소를 두고 생산자와 소비자가 decouple된 상태로 작업 - 독립 이벤트 데이터 처리 앞서 데이터 저장 모델과 활용 사례에 데이터 처리 모델도 결정됨 Point-to-Point 형태의 경우 Consumer쪽의 부..
Events are everywhere - Online Service 온갖 종류의 Funnel Data Product Impressions, Clicks (Click Stream), Purchase, ... User Registration (회원등록 버튼 클릭 -> 상세정보 입력 -> ... -> 등록 버튼) Page Views and Performance Data 페이지별로 렌더링 시간을 기록하면 나중에 문제 발생시 원인 파악이 쉬워짐 이를 디바이스 타입에 따라 기록(데스크탑, 모바일, ...) 또한 페이지별로 에러발생시 에러 이벤트 등록 사용자 등록, 사용자 로그인, 방문자 발생 이런 사용자 행동 데이터들의 데이터 모델 정의와 수집이 중요해짐 데이터가 제대로 수집된 후에 저장과 소비도 가능 그러다보니..
장점 즉각적인 인사이트 발견 운영 효율성 향상 사고와 같은 이벤트에 대한 신속 대응 더 효율적인 개인화된 사용자 경험 IOT 및 센서 데이터 활용 사기 탐지 및 보안 실시간 협업 및 커뮤니케이션 단점 전체적으로 시스템이 복잡해짐 배치 시스템은 주기적으로 동작하며 보통은 실제 사용자에게 바로 노출되는 일을 하지 않음 실시간 처리의 경우에는 실제 사용자와 관련된 일에 사용될 확률이 더 높기에 시스템 장애 대응이 중요해짐 배치 추천 vs 실시간 추천 Devops의 영역으로 들어가기 시작함 이에 따른 운영 비용 증가 배치처리는 잘못 되어도 데이터 유실 이슈가 적지만 실시간 처리는 데이터 유실의 가능성이 커지기에 항상 데이터 백업에 신경을 써야함 실시간 처리 : Realtime vs Semi-Realtime Re..