Miner

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Yarn 분산 컴퓨팅 시스템 : 하둡 2.0 (Yarn 1.0) 세부 리소스 관리가 가능한 범용 컴퓨팅 프레임워크 리소스 매니저 - Job Scheduler, Application Manager 노드 매니저 컨테이너 - 앱 마스터, 태스크 Spark가 이 위에서 구현되었다. Yarn의 동작 클라이언트는 MapReduce 나 Spark 실행하려는 코드와 환경 정보를 RM(Resource Manager)에게 넘김 실행에 필요한 파일들은 application ID에 해당하는 HDFS 폴더에 복사가 미리 복사됨 RM은 NM(Node Manager)로 부터 컨테이너를 받아 AM(Application Master) 실행 AM은 프로그램 마다 하나씩 할당되는 프로그램 마스터에 해당된다 AM은 입력 데이터 처리에 필요..

데이터 엔지니어링/Spark 2024. 1. 22. 17:32

Spark(1)

요약 빅데이터의 처리를 위해 하둡이라는 오픈소스가 등장 분산 파일 시스템(HDFS)과 분산 컴퓨팅 시스템(맵리듀스/YARN)으로 구성 맵리튜스 프로그래밍의 제약성으로 인해 SQL이 재등장 Spark은 대세 대용량 데이터 분산 컴퓨팅 기술 Pandas + Scikit Learn의 스테로이드 버전 SQL과 스트림 데이터와 그래프 처리도 제공 빅데이터의 정의 : 1. 서버 한대로 처리할 수 없는 규모의 데이터 판다스로 처리해야 할 데이터가 너무 커서 처리가 불가능하다면 어떻게 할 것인가? 2. 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터 - 대표적인 기존 소프트웨어 오라클이나 MYSQL과 같은 관계형 데이터베이스 (분산환경을 염두해 두지 않음, Scal-up 접근방식(vs. Scale-out) : 메모..

데이터 엔지니어링/Spark 2024. 1. 22. 16:58

Airflow, Docker 위에 설치법

1. 터미널 프로그램에서 적당한 폴더(docker) 만들고 폴더로 이동 2. Airflow setup을 Github repo를 클론한다. git clone https://github.com/keeyong/airflow-setup.git 3. airflow-setup 폴더로 이동하고 2.5.1 이미지 관련 yml 파일 다운로드 cd airflow-setup curl -LfO 'https://airflow.apache.org/docs/apache-airflow/2.5.1/docker-compose.yaml' Window의 경우, Invoke-WebRequest -Uri 'https://airflow.apache.org/docs/apache-airflow/2.5.1/docker-compose.yaml' -Ou..

데이터 엔지니어링/Airflow 2024. 1. 10. 09:46

프로그래머스 데이터엔지니어링 2기

데이터 엔지니어링 2024. 1. 10. 09:37

airflow

https://airflow.apache.org/docs/apache-airflow/2.5.1/docker-compose.yaml

협업 2024. 1. 9. 20:27

10 주차 Simple ETL 실습

구글 colab을 바탕으로 CSV 파일을 받아 Redshift 테이블로 로딩하기 1. !pip install ipython-sql==0.4.1 !pip install SQLAlchemy==1.4.49 ! 는 외부 셸 명령어를 실행하라는 뜻 ex) !ls 리눅스 셸 명령어 사용가능 ipython-sql은 ipython 환경에서 SQL 코드를 실행할 수 있게 해주는 확장 모듈 SQLAlchemy 는 SQL 데이터베이스와 상호 작용하기 위한 파이썬 SQL 툴킷 및 ORM 라이브러리 2. %load_ext sql %로 시작하는 IPython 매직 명령어의 일종으로, 특정 기능을 확장하거나 추가하는 역할 %load_ext sql는 ipython-sql 라이브러리의 일부로 제공되는 IPython 확장을 로드하는데 ..

데브코스 2024. 1. 1. 17:13

[카카오] Tech직군 Infra - Database Platform Engineering, 네이버

◆ 세부 업무 (1) 대용량 데이터베이스 플랫폼 개발 Database as a Service(DBaaS)를 개발하고 운영합니다. 서비스 장애시간을 최소화 시키기 위해 자동화된 고가용성(HA) 방안을 연구하고 이를 위한 플랫폼을 구축합니다. DBMS의 성능을 튜닝하고 New Feature들을 검토하여 서비스에 적용합니다. DBMS 성능 향상과 안정적 운영을 위한 DBMS Internal 기술을 연구합니다. (2) 카카오 및 카카오공동체 서비스 지원 서비스에 최적화된 데이터를 모델링하고 쿼리를 가이드합니다. 서비스 성능 향상을 위해 SQL 튜닝을 수행합니다. DB 관련 서비스 장애시 자동으로 복구되었는지 검증하고 트러블 슈팅을 담당합니다. 서비스와 데이터베이스 지표를 모니터링하고 DBMS 성능 향상과 안정적..

카테고리 없음 2023. 12. 31. 23:46

프론트엔드 프로젝트 계획

기간 2월까지 드림코딩아카데미 1. 자바스크립트 마스터리 https://academy.dream-coding.com/courses/javascript 자바스크립트 마스터리 (ES6+) ES6+ 최신 자바스크립트 문법 강의를 통해 프로그래밍 스킬을 쌓아나가기 academy.dream-coding.com 2. 자바스크립트 포트폴리오 웹사이트 클론코딩 https://academy.dream-coding.com/courses/portfolio 포트폴리오 웹사이트 클론코딩 반응형 동적 포트폴리오 사이트 클론 코딩 | HTML, CSS, JavaScript academy.dream-coding.com 3. 프론트엔드 필수 브라우저 101 https://academy.dream-coding.com/courses/br..

프론트엔드 2023. 12. 27. 19:05

Miner

목록전체 글 (115)

Miner

티스토리툴바