티스토리 뷰

BigData/Spark

Spark 2.0 Technical Preview

Tomining 2016. 5. 15. 20:44
Databricks 에서 게제한 Spark 2.0 Technical Preview 글을 요약해 보았습니다.

spark 1.0 이 공개된 뒤 2년 만에 2.0 release 를 앞두고 있습니다.
Databricks 에서 공개한 Technical Preview 에서는 Spark 2.0의 3가지의 주요 특징을 소개하고 있습니다.

Easier, Faster, Smarter

  • Easier
    • 표준 SQL 지원
      서브쿼리도 지원하는 새로운 Ansi-SQL 파서 적용
    • DataFrame/Dataset API 통합
      • Java/Scala 에서 DataFrame/Dataset 통합
      • SparkSession
        SQLConext 나 HiveContext 를 대체할 DataFrame API 를 위한 진입점
      • 좀 더 간단하고 성능 좋은 Accumlator API
      • 머신러닝 기반의 DataFrame
      • R 을 위한 분산 알고리즘

  • Faster
    • 물리적 실행 영역을 다시 설계
      • CPU 낭비시간 해소
        • 가상함수 호출 시간
        • CPU cache 나 memory 에 데이터를 쓰고 읽는 시간
    • 10억 건을 집계/Join 한 결과

    • Parquet Scan 성능도 3배 이상 개선

  • Smarter
    • Streaming engine 이상의 역할
      외부 저장 시스템(예, RDBMS) 과의 연계, 비즈니스 로직을 잘 처리하는 능력 등
      End-to End “Continuous application” (전체적인 흐름을 아우르는 Application)
    • Structured Streaming API + DataFrame/Dataset API
      실시간 데이터 분석을 가능


아직은 Spark 2.0 이 preview package 이나 몇 주 내로 release 된다고 하니 기대가 됩니다.
Spark Streaming 과 DataFrame/Dataset API 를 잘 활용하면 실시간 분석을 쉽고 간단하게 할 수 있을 것 같습니다.
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함