일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 부스트캠프
- 네이버
- 보기 편하라고 만든
- 네이버 부스트 코스
- Virtual Box 7.0.6
- Ubuntu 20.04
- 8기
- 후기
- 백준 #baekjoon # 2563
- 운영체제론
- 웹/모바일
- id # tr # 환경변수
- Today
- Total
목록데이터 엔지니어링/Spark (10)
Miner
Yarn 분산 컴퓨팅 시스템 : 하둡 2.0 (Yarn 1.0) 세부 리소스 관리가 가능한 범용 컴퓨팅 프레임워크 리소스 매니저 - Job Scheduler, Application Manager 노드 매니저 컨테이너 - 앱 마스터, 태스크 Spark가 이 위에서 구현되었다. Yarn의 동작 클라이언트는 MapReduce 나 Spark 실행하려는 코드와 환경 정보를 RM(Resource Manager)에게 넘김 실행에 필요한 파일들은 application ID에 해당하는 HDFS 폴더에 복사가 미리 복사됨 RM은 NM(Node Manager)로 부터 컨테이너를 받아 AM(Application Master) 실행 AM은 프로그램 마다 하나씩 할당되는 프로그램 마스터에 해당된다 AM은 입력 데이터 처리에 필요..
요약 빅데이터의 처리를 위해 하둡이라는 오픈소스가 등장 분산 파일 시스템(HDFS)과 분산 컴퓨팅 시스템(맵리듀스/YARN)으로 구성 맵리튜스 프로그래밍의 제약성으로 인해 SQL이 재등장 Spark은 대세 대용량 데이터 분산 컴퓨팅 기술 Pandas + Scikit Learn의 스테로이드 버전 SQL과 스트림 데이터와 그래프 처리도 제공 빅데이터의 정의 : 1. 서버 한대로 처리할 수 없는 규모의 데이터 판다스로 처리해야 할 데이터가 너무 커서 처리가 불가능하다면 어떻게 할 것인가? 2. 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터 - 대표적인 기존 소프트웨어 오라클이나 MYSQL과 같은 관계형 데이터베이스 (분산환경을 염두해 두지 않음, Scal-up 접근방식(vs. Scale-out) : 메모..