본문 바로가기

BigData66

Learning Spark Chapter. 4 Key/Value Pairs 사용하기 key/value 로 구성된 RDD 에 대해서 알아보자. 먼저 PairRDD 는 아래와 같이 만들 수 있다. package com.tomining.spark.tutorial.example; import java.io.Serializable; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.PairFunction; import scala.Tuple2; public class PairRDDExample implements Serializable { publ.. 2015. 7. 3.
Learning Spark Chapter. 3 RDD 프로그래밍 RDD 란? An RDD in Spark is simply an immutable distributed collection of objects. 스파크에서 RDD 란 수정불가능한 분산 Collection 이다. 각 RDD 는 여러 node에서 다룰 수 있도록 여러 조각으로 나눠서 처리된다. RDD 기본. RDD를 생성할 수 있는 방법에는 두 가지가 있다. 외부 데이터 셋을 로딩 sc.textFile(“README.md”) 처럼 local storage 나 HDFS 에서 파일을 읽어 RDD 로 생성 기존 데이터 Collection 을 기반으로 생성 sc.parallelize(Arrays.asList(“test”, “test2”)); 처럼 기존 데이터로 생성 RDD 에는 두 종류의 operation 을 가진.. 2015. 7. 3.
Learning Spark Chapter. 2 스파크 설치 및 무작정 시작하기 스파크는 scala 로 구현되어 있다. 따라서 JVM 환경에서 구동된다. java 6 이상, python 2.6 이상 환경이 필요하다(단, python 3은 지원하지 않는다.) 일단 Apache Spark 를 다운로드 받아보자. http://www.apache.org/dyn/closer.cgi/spark/spark-1.4.0/spark-1.4.0-bin-hadoop2.6.tgz 다운로드 받아서 tar 압축을 해제하면, 기본적인 설치는 끝난다. 물론 기본 설정만으로 spark-shell(뒤에서 자세히 알아본다.) 을 수행하는데는 문제가 없다. tar -zxvf spark-1.4.0-bin-hadoop.2.6.tgz 여기서는 hadoop built-in 버전을 받았다. source code로 다운받아서 빌드.. 2015. 7. 3.
Learning Spark Chapter. 1 스파크를 이용한 데이터 분석 What is Apache Spark? 빠르다 General Purpose 아래 내용들을 하나의 단일 machine 에서 수행가능 배치작업 복잡한 알고리즘(ex. Machine Learning) interactive queries streaming Python/Java/Scala/SQL API 지원 local filesystem, hdfs, Amazon S3, cassandra, hive, hbase 등 파일 접근 지원 Spark Stack Spark core RDDs Spark SQL Hive Table, Parquet, JSON 지원 Spark streaming 실시간 분석 MLlib GraphX Cluster Manager Hadoop Yarn Apache mesos Standalone Schedu.. 2015. 7. 3.