스파크는 scala 로 구현되어 있다. 따라서 JVM 환경에서 구동된다. java 6 이상, python 2.6 이상 환경이 필요하다(단, python 3은 지원하지 않는다.) 일단 Apache Spark 를 다운로드 받아보자. http://www.apache.org/dyn/closer.cgi/spark/spark-1.4.0/spark-1.4.0-bin-hadoop2.6.tgz 다운로드 받아서 tar 압축을 해제하면, 기본적인 설치는 끝난다. 물론 기본 설정만으로 spark-shell(뒤에서 자세히 알아본다.) 을 수행하는데는 문제가 없다. tar -zxvf spark-1.4.0-bin-hadoop.2.6.tgz 여기서는 hadoop built-in 버전을 받았다. source code로 다운받아서 빌드..
What is Apache Spark? 빠르다 General Purpose 아래 내용들을 하나의 단일 machine 에서 수행가능 배치작업 복잡한 알고리즘(ex. Machine Learning) interactive queries streaming Python/Java/Scala/SQL API 지원 local filesystem, hdfs, Amazon S3, cassandra, hive, hbase 등 파일 접근 지원 Spark Stack Spark core RDDs Spark SQL Hive Table, Parquet, JSON 지원 Spark streaming 실시간 분석 MLlib GraphX Cluster Manager Hadoop Yarn Apache mesos Standalone Schedu..
Spark App 을 수행할 때 종종 아래와 같이 memory 할당 실패로 오류가 발생한다. 실제 장비에서 memory를 할당하지 못한 경우인 것 같은데. 정확한 원인은 알 수가 없다. 일단 로그를 열어보자... 로그파일의 제일 하단에 보면 아래와 같이 나와있다. swap 영역의 free 공간은 0k로 존재하지 않으며, 실제적인 물리 메모리도 28236k로 약 28MB정도만 남아있다. Spark App 수행시 기본적으로 jvm_opts 정보를 환경변수로 사용되는데. 로그 중간 부분을 확인해보면 아래와 같이 수행됨을 확인 할 수 있다. Perm 영역이 128MB이고, xms 가 512MB로 수행된다. 다시 Spark App 수행시 console 로그를 확인해보자. 약 340MB 를 할당하지 못해 오류가 발..
#1 을 해봤다면, 조금 불편함을 느꼈을 것이다. 분석 대상 파일과 output 경로를 모두 code에 포함되어 있기 때문이다. 그렇다면 이런 값들을 파라메터로 받아서 처리할 순 없을까? spark-submit으로 수행시에는 AppClass 내에 파라메터를 전달할 방법이 마땅치 않다. http://coe4bd.github.io/HadoopHowTo/sparkJava/sparkJava.html 위 블로그를 참고하여 진행해보자. 우선 아래와 같이 Argument를 파싱하는 Enum을 생성해 보았다. public static void main(String[] args) throws Exception { if (ArrayUtils.getLength(args) > 4) { LOGGER.debug(""); LOGG..
- Total
- Today
- Yesterday
- mongodb
- mysql
- spring
- Oracle
- Sqoop
- bigdata
- jackson
- 책요약
- db
- linux
- 확률분포
- mongo
- Apache Spark
- flume
- json
- 데이터 리터러시
- jenkins
- java
- HADOOP
- 알고리즘
- exception
- Git
- PYTHON
- 데이터과학자
- Hdfs
- Django
- spark
- 태그를 입력해 주세요.
- Learning Spark
- jenkins2.0
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |