Learning Spark10 Learning Spark Chapter. 2 스파크 설치 및 무작정 시작하기 스파크는 scala 로 구현되어 있다. 따라서 JVM 환경에서 구동된다. java 6 이상, python 2.6 이상 환경이 필요하다(단, python 3은 지원하지 않는다.) 일단 Apache Spark 를 다운로드 받아보자. http://www.apache.org/dyn/closer.cgi/spark/spark-1.4.0/spark-1.4.0-bin-hadoop2.6.tgz 다운로드 받아서 tar 압축을 해제하면, 기본적인 설치는 끝난다. 물론 기본 설정만으로 spark-shell(뒤에서 자세히 알아본다.) 을 수행하는데는 문제가 없다. tar -zxvf spark-1.4.0-bin-hadoop.2.6.tgz 여기서는 hadoop built-in 버전을 받았다. source code로 다운받아서 빌드.. 2015. 7. 3. Learning Spark Chapter. 1 스파크를 이용한 데이터 분석 What is Apache Spark? 빠르다 General Purpose 아래 내용들을 하나의 단일 machine 에서 수행가능 배치작업 복잡한 알고리즘(ex. Machine Learning) interactive queries streaming Python/Java/Scala/SQL API 지원 local filesystem, hdfs, Amazon S3, cassandra, hive, hbase 등 파일 접근 지원 Spark Stack Spark core RDDs Spark SQL Hive Table, Parquet, JSON 지원 Spark streaming 실시간 분석 MLlib GraphX Cluster Manager Hadoop Yarn Apache mesos Standalone Schedu.. 2015. 7. 3. 이전 1 2 3 다음