Spark(2) - Yarn

Notice

Recent Posts

Tags more

Archives

관리 메뉴

Miner

데이터 엔지니어링/Spark

MineTime76 2024. 1. 22. 17:32

분산 컴퓨팅 시스템 : 하둡 2.0 (Yarn 1.0)

세부 리소스 관리가 가능한 범용 컴퓨팅 프레임워크

Spark가 이 위에서 구현되었다.

클라이언트는 MapReduce 나 Spark

실행하려는 코드와 환경 정보를 RM(Resource Manager)에게 넘김
- 실행에 필요한 파일들은 application ID에 해당하는 HDFS 폴더에 복사가 미리 복사됨
RM은 NM(Node Manager)로 부터 컨테이너를 받아 AM(Application Master) 실행
- AM은 프로그램 마다 하나씩 할당되는 프로그램 마스터에 해당된다
AM은 입력 데이터 처리에 필요한 리소스를 RM에게 요구
- RM은 data locality를 고려해서 리소스(컨테이너)를 할당
AM은 할당받은 리소스를 NM을 통해 컨테이너로 론치하고 그 안에서 코드를 실행
- 이 때, 실행에 필요한 파일들이 HDFS에서 Container가 있는 서버로 먼저 복사
각 태스크는 상황을 주기적으로 AM에게 보고(heartbeat)
- 태스크가 실패하거나 보고가 오랜 시간 없으면 태스크를 다른 컨테이너로 재실행

Yarn 2.0을 사용

파일 시스템

'데이터 엔지니어링/Spark' Related Articles