본문 바로가기
BigData/Spark

Learning Spark Chapter. 1 스파크를 이용한 데이터 분석

by Tomining 2015. 7. 3.
  1. What is Apache Spark?
    • 빠르다
    • General Purpose
      아래 내용들을 하나의 단일 machine 에서 수행가능
      • 배치작업
      • 복잡한 알고리즘(ex. Machine Learning)
      • interactive queries
      • streaming
    • Python/Java/Scala/SQL  API 지원
    • local filesystem, hdfs, Amazon S3, cassandra, hive, hbase 등 파일 접근 지원
  2. Spark Stack

    • Spark core
      • RDDs
    • Spark SQL
      • Hive Table, Parquet, JSON 지원
    • Spark streaming
      • 실시간 분석
    • MLlib
    • GraphX
    • Cluster Manager
      • Hadoop Yarn
      • Apache mesos
      • Standalone Scheduler
        Spark 를 단일 장비에서 수행할 때 기본적으로 설치되는 Scheduler