#1 을 해봤다면, 조금 불편함을 느꼈을 것이다. 분석 대상 파일과 output 경로를 모두 code에 포함되어 있기 때문이다. 그렇다면 이런 값들을 파라메터로 받아서 처리할 순 없을까? spark-submit으로 수행시에는 AppClass 내에 파라메터를 전달할 방법이 마땅치 않다. http://coe4bd.github.io/HadoopHowTo/sparkJava/sparkJava.html 위 블로그를 참고하여 진행해보자. 우선 아래와 같이 Argument를 파싱하는 Enum을 생성해 보았다. public static void main(String[] args) throws Exception { if (ArrayUtils.getLength(args) > 4) { LOGGER.debug(""); LOGG..
WordCount 로직을 구현해보자. Java로 구현하더라도 함수형 언어 코딩 개념이 필요하다.(java8을 경험해봤다면 좀 더 쉽게 이해할 수 있을 것이다.) public void executeSparkTask(String sourceFilePath, String outputFilePath) throws Exception { SparkConf conf = new SparkConf() .setAppName("SampleApp") .setMaster("yarn-cluster") .setExecutorEnv("cores", "1") ; JavaSparkContext javaSparkContext = new JavaSparkContext(conf); try { JavaRDD logData = javaSpark..
- Total
- Today
- Yesterday
- 데이터과학자
- db
- flume
- Hdfs
- PYTHON
- mongodb
- 확률분포
- Oracle
- bigdata
- Git
- 태그를 입력해 주세요.
- 데이터 리터러시
- linux
- Sqoop
- jackson
- java
- Apache Spark
- jenkins
- Django
- HADOOP
- Learning Spark
- spark
- spring
- exception
- mongo
- 알고리즘
- json
- mysql
- jenkins2.0
- 책요약
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |