'분류 전체보기' 카테고리의 글 목록 (4 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록분류 전체보기 (115)

Miner

데이터 파이프라인 핵심 가이드

책 2024. 1. 30. 01:33

딥러닝 (1)

딥러닝 대량의 데이터로부터 학습하는 머신러닝의 한 종류 인간의 두뇌에서 영감을 받은 알고리즘인 인공 신경망의 다른 이름 이미지 및 음성 인식, 자연어 처리에 엄청난 혁신을 가진다 기존 머신 러닝 : Features를 직접 만들어야 함 딥러닝 : Features를 알아서 배워가는 형태에 가까움 이는 이미지, 오디오, 자연어 프로세싱의 경우 더더욱 두드러진다. MNIST "Hello World" of 딥러닝 숫자 인식기(0-9) ImageNet 퍼셉트론(뉴런) | 다수의 신호를 입력으로 받아 하나의 신호를 출력 동작 방식 : 활성함수 | 입력노드의 가중치와 입력치를 곱한 것을 모두 합한 값을 입력으로 받아 임계치 기준으로 출력값 결정 보통 임계치 0을 사용 / 최종합이 0보다 크면 퍼셉트론이 활성화 된다. ..

카테고리 없음 2024. 1. 29. 15:00

Airflow (4) - ETL 작성

사용할 데이터 웨어하우스 Redshift dc2.large 2 CPU, 15GB memory, 160GB SSD Host : learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com Port : 5439 Database : dev ID 와 PW

데이터 엔지니어링/Airflow 2024. 1. 24. 15:59

Airflow (3) - Caution

데이터 파이프라인 만들 때 유의점 이상 / 환상 내가 만든 데이터 파이프라인은 문제 없이 동작하고 관리하는 것은 어렵지 않을 것이다. 현실 / 실상 데이터 파이프라인은 많은 이유로 실패하게 된다 버그 / 데이터 소스상의 이유 / 데이터 파이프라인들간의 의존도에 이해도 부족 / 데이터 파이프라인의 수가 늘어나면 유지보수 비용이 기하급수적으로 늘어남 / 데이터 소스간의 의존도가 생기면서 이는 더 복잡해짐. 만일 마케팅 채녈 정보가 업데이트가 안된다면 마케팅 관련 다른 모든 정보들이 갱신되지 않음 Best Practices (1) 가능하면 데이터가 작을 경우 매번 통채로 복사해서 테이블을 만들기 (Full Refresh) Incremental update만이 가능하다면, 대상 데이터소스가 갖춰야할 몇 가지 조..

데이터 엔지니어링/Airflow 2024. 1. 24. 15:08

Airflow (2) - ETL, ELT, 데이터 파이프라인

ETL ETL : Extract, Transform, and Load Data Pipeline, ETL, Data Workflow, DAG Called DAG(Directed Acyclic Graph) in Airflow ETL vs ELT ETL : 데이터를 데이터 웨어하우스 외부에서 내부로 가져오는 프로세스 보통 데이터 엔지니어들이 수행 ELT : 데이터 웨어하우스 내부 데이터를 조작해서 (보통은 추상화되고 요약된) 새로운 데이터를 만드는 프로세스 보통 데이터 분석가들이 많이 수행 이 경우 데이터 레이크 위에서 이런 작업들이 벌어지기도 함 이런 프로세스 전용 기술들이 있으며 dbt가 가장 유명 : Analytics Engineering dbt : Data Build Tool Data Lake vs D..

데이터 엔지니어링/Airflow 2024. 1. 24. 14:32

Airflow (1)

데이터 엔지니어링/Airflow 2024. 1. 24. 13:54

Spark(4) - Install Hadoop

하둡 설치 하둡 3.0을 의사분산 모드로 리눅스 서버에 설치 의사분산 모드 : 1개 resource manager, 1개 Node manager 의사분산 모드는 Hadoop 관련 프로세스들을 개별 JVM으로 실행 AWS 우분투 EC2 t2.medium 인스턴스 사용 자바 8이 필요. 우분투 설치 문서 데모

데이터 엔지니어링/Spark 2024. 1. 22. 23:28

Spark(3) - MapReduce 프로그래밍

맵리듀스 프로그래밍 목표가 큰 데이터를 처리하는데 있다. 그렇다보니까 데이터셋의 포맷도 하나로 단순화 시켰다. 데이터 셋은 Key, Value의 집합이며 변경 불가(immutable) 데이터 조작은 map과 reduce 두 개의 오퍼레이션으로만 가능 Reduce는 Map의 출력 중에 같은 키를 갖는 출력을 모아 처리해서 새로운 key-value 페어를 만들어 주는 것 이 두 오퍼레이션은 항상 하나의 쌍으로 연속으로 실행됨 이 두 오퍼레이션의 코드를 개발자가 채워야 함 맵리듀스 시스템이 Map의 결과를 Reduce 단으로 모아준다. 이 단계를 보통 셔플링이라고 부르며, 네트웍단을 통한 데이터 이동이 생긴다. 일반적으로 맵리듀스 한 번으로 원하는 결과를 얻지 못하고 몇 번을 거쳐서 원하는 결과를 낸다. 맵과..

데이터 엔지니어링/Spark 2024. 1. 22. 18:07

이전 Prev 1 2 3 4 5 6 7 ··· 15 Next 다음

목록분류 전체보기 (115)

Miner

티스토리툴바