Total220 spark-submit 을 이용하여 Custom Argument 전달하기 Spark Application 을 작성하게 되면 실행시 argument 가 필요한 경우가 있다. spark-class 에서는 -arg 옵션을 통해서 전달했는데, spark-submit 에서는 어떻게 할 수 있을까? https://spark.apache.org/docs/1.1.0/submitting-applications.html Spark 문서(위 URL 참고) 에 보면 아래와 같이 설명하고 있다. ./bin/spark-submit \ --class --master \ --deploy-mode \ --conf = \ ... # other options \ [application-arguments] [application-arguments] 즉, command 마지막 부분에 argument 들을 나열하면.. 2015. 7. 17. Learning Spark Chapter. 5 Loading & Saving Data Spark 에서 사용할 수 있는 파일 포멧은 아래와 같다. Text File JSON CSV SequenceFiles Protocol buffers Object files Text File 텍스트형 파일을 RDD 로 읽으려면 간단히 textFile() 을 사용하면 된다. JavaRDD lines = sc.textFile("REAMME.md"); 만약 여러 파일을 읽어 RDD 로 만들고 싶다면 2가지 방법이 있다. textFile(“디렉토리 경로”) 또는 textFile(“디렉토리/*txt”) 디렉토리 경로를 전달하거나 wildcard 를 활용할 수 있다. wholeTextFiles() PairRDD 로 반환되며, key 는 파일명이 된다. RDD 를 파일로 저장하려면, saveAsTextFile() 을 .. 2015. 7. 17. Spark Memory Config on Apache YARN spark application 수행시 config 정보를 설정하는 방법은 크게 두 가지가 있다. Spark 서버에 설정 spark-env.sh Spark Process 수행시 환경변수 설정 값 spark-default.properties Spark 설정 기본값 Spark Application 에서 SparkConf() 에 설정 수많은 설정 파라메터들이 있으나, 기본값들이 미리 다 지정되어 있기 때문에 변경이 필요한 값들만 변경해서 설정하면 된다. 설정을 진행하다보면, worker 와 executor 설정들이 나온다. 예를 들면, SPARK_WORKER_INSTANCES, SPARK_WORKER_MEMORY spark.executor.instances, spark.executor.memory worker.. 2015. 7. 15. java.io.InvalidClassException http://craftingjava.blogspot.kr/2012/06/javaioinvalidclassexception-no-valid.html 위 페이지를 번역한 내용입니다. java.io.InvalidClassException 은 Object Serialization 을 사용하다보면 흔히 접할 수 있는 오류이다. 이 오류는 3가지 주요 원인이 있는데, 이는 다음과 같다. 클래스의 Serial 버전이 다른 경우 알 수 없는 데이터 타입을 포함한 경우 기본 생성자가 없는 경우 여기서는 디폴트 생성자가 없는 경우를 살펴보도록 하자. InvalidClassException 이란? 이름에서도 알 수 있듯이, Serialized 또는 Deserialized 된 객체가 위에서 언급한 3가지 이유 중 하나로 in.. 2015. 7. 15. 이전 1 ··· 35 36 37 38 39 40 41 ··· 55 다음