스파크는 scala 로 구현되어 있다. 따라서 JVM 환경에서 구동된다. java 6 이상, python 2.6 이상 환경이 필요하다(단, python 3은 지원하지 않는다.) 일단 Apache Spark 를 다운로드 받아보자. http://www.apache.org/dyn/closer.cgi/spark/spark-1.4.0/spark-1.4.0-bin-hadoop2.6.tgz 다운로드 받아서 tar 압축을 해제하면, 기본적인 설치는 끝난다. 물론 기본 설정만으로 spark-shell(뒤에서 자세히 알아본다.) 을 수행하는데는 문제가 없다. tar -zxvf spark-1.4.0-bin-hadoop.2.6.tgz 여기서는 hadoop built-in 버전을 받았다. source code로 다운받아서 빌드..
What is Apache Spark? 빠르다 General Purpose 아래 내용들을 하나의 단일 machine 에서 수행가능 배치작업 복잡한 알고리즘(ex. Machine Learning) interactive queries streaming Python/Java/Scala/SQL API 지원 local filesystem, hdfs, Amazon S3, cassandra, hive, hbase 등 파일 접근 지원 Spark Stack Spark core RDDs Spark SQL Hive Table, Parquet, JSON 지원 Spark streaming 실시간 분석 MLlib GraphX Cluster Manager Hadoop Yarn Apache mesos Standalone Schedu..
- Total
- Today
- Yesterday
- mongo
- Hdfs
- spark
- 태그를 입력해 주세요.
- jenkins
- flume
- jenkins2.0
- jackson
- HADOOP
- bigdata
- java
- spring
- 데이터 리터러시
- mongodb
- exception
- json
- Apache Spark
- 책요약
- Oracle
- Django
- 확률분포
- 알고리즘
- Sqoop
- Git
- PYTHON
- linux
- Learning Spark
- mysql
- db
- 데이터과학자
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |