BigData/Spark
Learning Spark Chapter. 1 스파크를 이용한 데이터 분석
Tomining
2015. 7. 3. 22:28
- What is Apache Spark?
- 빠르다
- General Purpose
아래 내용들을 하나의 단일 machine 에서 수행가능- 배치작업
- 복잡한 알고리즘(ex. Machine Learning)
- interactive queries
- streaming
- Python/Java/Scala/SQL API 지원
- local filesystem, hdfs, Amazon S3, cassandra, hive, hbase 등 파일 접근 지원
- Spark Stack
- Spark core
- RDDs
- Spark SQL
- Hive Table, Parquet, JSON 지원
- Spark streaming
- 실시간 분석
- MLlib
- GraphX
- Cluster Manager
- Hadoop Yarn
- Apache mesos
- Standalone Scheduler
Spark 를 단일 장비에서 수행할 때 기본적으로 설치되는 Scheduler
- Spark core