본문 바로가기

BigData/Spark24

Learning Spark Chapter. 2 스파크 설치 및 무작정 시작하기 스파크는 scala 로 구현되어 있다. 따라서 JVM 환경에서 구동된다. java 6 이상, python 2.6 이상 환경이 필요하다(단, python 3은 지원하지 않는다.) 일단 Apache Spark 를 다운로드 받아보자. http://www.apache.org/dyn/closer.cgi/spark/spark-1.4.0/spark-1.4.0-bin-hadoop2.6.tgz 다운로드 받아서 tar 압축을 해제하면, 기본적인 설치는 끝난다. 물론 기본 설정만으로 spark-shell(뒤에서 자세히 알아본다.) 을 수행하는데는 문제가 없다. tar -zxvf spark-1.4.0-bin-hadoop.2.6.tgz 여기서는 hadoop built-in 버전을 받았다. source code로 다운받아서 빌드.. 2015. 7. 3.

Learning Spark Chapter. 1 스파크를 이용한 데이터 분석 What is Apache Spark? 빠르다 General Purpose 아래 내용들을 하나의 단일 machine 에서 수행가능 배치작업 복잡한 알고리즘(ex. Machine Learning) interactive queries streaming Python/Java/Scala/SQL API 지원 local filesystem, hdfs, Amazon S3, cassandra, hive, hbase 등 파일 접근 지원 Spark Stack Spark core RDDs Spark SQL Hive Table, Parquet, JSON 지원 Spark streaming 실시간 분석 MLlib GraphX Cluster Manager Hadoop Yarn Apache mesos Standalone Schedu.. 2015. 7. 3.

Spark App 수행시 memory 이슈 Spark App 을 수행할 때 종종 아래와 같이 memory 할당 실패로 오류가 발생한다. 실제 장비에서 memory를 할당하지 못한 경우인 것 같은데. 정확한 원인은 알 수가 없다. 일단 로그를 열어보자... 로그파일의 제일 하단에 보면 아래와 같이 나와있다. swap 영역의 free 공간은 0k로 존재하지 않으며, 실제적인 물리 메모리도 28236k로 약 28MB정도만 남아있다. Spark App 수행시 기본적으로 jvm_opts 정보를 환경변수로 사용되는데. 로그 중간 부분을 확인해보면 아래와 같이 수행됨을 확인 할 수 있다. Perm 영역이 128MB이고, xms 가 512MB로 수행된다. 다시 Spark App 수행시 console 로그를 확인해보자. 약 340MB 를 할당하지 못해 오류가 발.. 2015. 5. 22.

Spark로 WordCount 구현하기. #2 #1 을 해봤다면, 조금 불편함을 느꼈을 것이다. 분석 대상 파일과 output 경로를 모두 code에 포함되어 있기 때문이다. 그렇다면 이런 값들을 파라메터로 받아서 처리할 순 없을까? spark-submit으로 수행시에는 AppClass 내에 파라메터를 전달할 방법이 마땅치 않다. http://coe4bd.github.io/HadoopHowTo/sparkJava/sparkJava.html 위 블로그를 참고하여 진행해보자. 우선 아래와 같이 Argument를 파싱하는 Enum을 생성해 보았다. public static void main(String[] args) throws Exception { if (ArrayUtils.getLength(args) > 4) { LOGGER.debug(""); LOGG.. 2015. 5. 21.

이전 1 2 3 4 5 6 다음

티스토리툴바