Spark 에서 사용할 수 있는 파일 포멧은 아래와 같다. Text File JSON CSV SequenceFiles Protocol buffers Object files Text File 텍스트형 파일을 RDD 로 읽으려면 간단히 textFile() 을 사용하면 된다. JavaRDD lines = sc.textFile("REAMME.md"); 만약 여러 파일을 읽어 RDD 로 만들고 싶다면 2가지 방법이 있다. textFile(“디렉토리 경로”) 또는 textFile(“디렉토리/*txt”) 디렉토리 경로를 전달하거나 wildcard 를 활용할 수 있다. wholeTextFiles() PairRDD 로 반환되며, key 는 파일명이 된다. RDD 를 파일로 저장하려면, saveAsTextFile() 을 ..
spark application 수행시 config 정보를 설정하는 방법은 크게 두 가지가 있다. Spark 서버에 설정 spark-env.sh Spark Process 수행시 환경변수 설정 값 spark-default.properties Spark 설정 기본값 Spark Application 에서 SparkConf() 에 설정 수많은 설정 파라메터들이 있으나, 기본값들이 미리 다 지정되어 있기 때문에 변경이 필요한 값들만 변경해서 설정하면 된다. 설정을 진행하다보면, worker 와 executor 설정들이 나온다. 예를 들면, SPARK_WORKER_INSTANCES, SPARK_WORKER_MEMORY spark.executor.instances, spark.executor.memory worker..
key/value 로 구성된 RDD 에 대해서 알아보자. 먼저 PairRDD 는 아래와 같이 만들 수 있다. package com.tomining.spark.tutorial.example; import java.io.Serializable; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.PairFunction; import scala.Tuple2; public class PairRDDExample implements Serializable { publ..
RDD 란? An RDD in Spark is simply an immutable distributed collection of objects. 스파크에서 RDD 란 수정불가능한 분산 Collection 이다. 각 RDD 는 여러 node에서 다룰 수 있도록 여러 조각으로 나눠서 처리된다. RDD 기본. RDD를 생성할 수 있는 방법에는 두 가지가 있다. 외부 데이터 셋을 로딩 sc.textFile(“README.md”) 처럼 local storage 나 HDFS 에서 파일을 읽어 RDD 로 생성 기존 데이터 Collection 을 기반으로 생성 sc.parallelize(Arrays.asList(“test”, “test2”)); 처럼 기존 데이터로 생성 RDD 에는 두 종류의 operation 을 가진..
- Total
- Today
- Yesterday
- mongodb
- Apache Spark
- jenkins
- HADOOP
- 데이터 리터러시
- spark
- 태그를 입력해 주세요.
- jenkins2.0
- spring
- Learning Spark
- java
- Hdfs
- bigdata
- linux
- Git
- mongo
- 데이터과학자
- 확률분포
- jackson
- exception
- Sqoop
- flume
- Django
- db
- 책요약
- mysql
- 알고리즘
- json
- Oracle
- PYTHON
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |