Spark(9) - 데이터 구조

Notice

Recent Posts

Tags more

Archives

관리 메뉴

Miner

데이터 엔지니어링/Spark

MineTime76 2024. 2. 7. 19:45

Immutable Distributed Data
RDD (Resilient Distributed Dataset) - 클러스터내의 서버에 분산된 데이터를 지칭, 레코드별로 존재하지만 스키마가 존재하지 않음, 구조화, 비구조화 된 데이터 모두 지
RDD(low_level) 가 가장 밑 바닥에 있는 구조, 그 위에 DataFrame과 Dateset 이 올라가 있는 구조
RDD로 할 수 있는 일은 많지만 생산성이 낮아서 대부분 파이썬으로 코딩을 한다고 하면 DataFrame을 사용하고 Scala혹은 Java로 코딩한다고 하면 Dataset을 사용한다. 구조화된 데이터를 사용한다고 하면 SparkSql을 사용하는 것이 일반적, Pyspark에서는 DataFrame을 사용
DataFrame은 RDD 보다 조금 더 구조화가 되어 있다. Record에 Field가 있다. 꼭 타입이 있지는 않는다. Dataset은 타입이 지정이 되고 다양한 데이터 소스(HDFS, Hive, 외부 데이터베이스, RDD)에 지원이 된다. 지원지금은 Dataset의 특수한 형태가 DataFrame이라고 보면 된다.

변경이 불가능한 분산 저장된 데이터

일반 파이썬 데이터는 parallelize함수로 RDD로 변환

'데이터 엔지니어링/Spark' Related Articles