Kim-Baek 개발자 이야기

[Spark] Spark 3.0 공식 버전 Release 본문

개발/Spark

[Spark] Spark 3.0 공식 버전 Release

킴백 개발자 2020. 9. 1. 21:51

2020-06-10 spark 3.0.0 이 정식 Release 됐다.

https://spark.apache.org/releases/spark-release-3-0-0.html

 

Spark Release 3.0.0 | Apache Spark

Spark Release 3.0.0 Apache Spark 3.0.0 is the first release of the 3.x line. The vote passed on the 10th of June, 2020. This release is based on git tag v3.0.0 which includes all commits up to June 10. Apache Spark 3.0 builds on many of the innovations fro

spark.apache.org

 

큰 Feature 들은 아래와 같다

Highlight

  • [Project Hydrogen] Accelerator-aware Scheduler
  • Adaptive Query Execution
  • Dynamic Partition Pruning
  • Redesigned pandas UDF API with type hints
  • Structured Streaming UI
  • Catalog plugin API
  • Java 11 support
  • Hadoop 3 support
  • Better ANSI SQL compatibility
  • ...

 

Spark3 개발 JIRA를 통해 어떤 부분의 수정이 많이 되었는지를 파악 가능하다.

Spark SQL, Spark Core 쪽의 많은 부분이 수정되었다.

 

기존 Spark 2.4 버전과 Spark 3.0 버전을 비교했을때, TPC-DS 30TB 기준 아래와 같은 성능차이를 보여주고 있다.

Spark SQL, Spark Core 이외에도 다양한 업데이트들이 이루워졌다.

 

앞으로 Spark 3.0 버전에 대한 포스팅을 통해 주요 변화들에 대해서 알아보려고 한다.

특히 Perfomance 를 상향시켜준 아래 2가지 핵심 아이디어에 대해 포스팅할 예정이다.

- AQE (Adaptive Query Execution)

- DPP (Dynamic Partition Prunning)

 

Referrence

 - databricks.com/blog/2020/06/18/introducing-apache-spark-3-0-now-available-in-databricks-runtime-7-0.html

 

Introducing Spark 3.0 - Now Available in Databricks Runtime 7.0

Learn more about the latest release of Apache Spark, version 3.0.0, including new features like AQE and how to begin using it through Databricks Runtime 7.0.

databricks.com

 

반응형

'개발 > Spark' 카테고리의 다른 글

Spark 란? Spark 구조 & 동작 과정  (3) 2020.12.30
Comments