Miner

Spark(10) - 프로그램 구조 본문

데이터 엔지니어링/Spark

Spark(10) - 프로그램 구조

MineTime76 2024. 2. 7. 19:56

Spark Session 생성

Spark 프로그램의 시작은 Spark Session 이라는 Object를 만드는 것 그리고 Spark Session에 다양한 환경설정을 하게 됨 

  • 프로그램마다 하나를 만들어 Spark Cluster와 통신: Singleton 객체
  • Spark 2.0에서 처음 소개됨

Spark Session을 통해 Spark이 제공해주는 다양한 기능을 사용 

  • DataFrame, SQL, Streaming, ML API 모두 이 객체로 통신
  • config 메소드를 이용해 다양한 환경설정 가능
  • 단 RDD와 관련된 작업을 할때는 SparkSession 밑의 sparkContext 객체를 
    사용

Spark Session API 문서

pyspark.sql.SparkSession — PySpark 3.1.1 documentation (apache.org)

 

pyspark.sql.SparkSession — PySpark 3.1.1 documentation

Interface through which the user may create, drop, alter or query underlying databases, tables, functions, etc.

spark.apache.org

 

'데이터 엔지니어링 > Spark' 카테고리의 다른 글

Spark(9) - 데이터 구조  (0) 2024.02.07
Spark(8) : 데이터 처리  (0) 2024.02.07
Spark(7)  (0) 2024.01.30
Spark(6) - Spark 사용  (0) 2024.01.30
Spark(5) - Spark  (0) 2024.01.30