BigData/Spark

Spark로 WordCount 구현하기. #2

Tomining 2015. 5. 21. 14:03
#1 을 해봤다면, 조금 불편함을 느꼈을 것이다.

분석 대상 파일과 output 경로를 모두 code에 포함되어 있기 때문이다.
그렇다면 이런 값들을 파라메터로 받아서 처리할 순 없을까?

spark-submit으로 수행시에는 AppClass 내에 파라메터를 전달할 방법이 마땅치 않다.


위 블로그를 참고하여 진행해보자.
우선 아래와 같이 Argument를 파싱하는 Enum을 생성해 보았다.

public static void main(String[] args) throws Exception {
if (ArrayUtils.getLength(args) > 4) {
LOGGER.debug("");
LOGGER.debug("Usage : ArgumentSampleApp <sourceFilePath> <outputFilePath> [appName] [hadoop uri]");
System.exit(1);
}

String sourceFilePath = ARGUMENT.SOURCE_FILE.getArgument(args);
String outputFilePath = ARGUMENT.OUTPUT_FILE.getArgument(args);
String appName = ARGUMENT.APP_NAME.getArgument(args, DEFAULT_APP_NAME);
String hdfsUri = ARGUMENT.HADOOP_URI.getArgument(args, DEFAULT_HDFS_MASTER_PATH);

ArgumentSampleApp app = new ArgumentSampleApp();
app.executeSparkTask(appName, hdfsUri, sourceFilePath, outputFilePath);
}

enum ARGUMENT {
SOURCE_FILE(0),
OUTPUT_FILE(1),
APP_NAME(2, true),
HADOOP_URI(3, true);

private int index;
private boolean isOptinal;
private ARGUMENT(int index) {
this(index, false);
}

private ARGUMENT(int index, boolean isOptinal) {
this.index = index;
this.isOptinal = isOptinal;
}

public String getArgument(String[] args) throws IllegalArgumentException {
return this.getArgument(args, StringUtils.EMPTY);
}

public String getArgument(String[] args, String defaultValue) throws IllegalArgumentException {
if (ArrayUtils.isEmpty(args)) {
return defaultValue;
}

int argsCount = ArrayUtils.getLength(args);
if (argsCount < this.index + 1) {
if (!this.isOptinal) { //필수 파라메터가 누락된 경우
throw new IllegalArgumentException();
}

return defaultValue;
} else {
return args[this.index];
}
}
}

간단한 기능이지만 필수정보와 옵션을 분리하여 기본값을 세팅할 수 있는 구조로 만들어보았다.
이런 기능을 제공해주는 OtpionParser가 있는 것으로 알고 있다. 테스트가 완료되면 그 Class를 적용하도록 하자.
일단 여기서는 위 샘플대로 테스트를 진행한다.

수행은 spark-submit 이 아닌 spark-class로 수행해야 한다.

~/apps/spark/bin/spark-class org.apache.spark.deploy.yarn.Client --jar hdfs://dev-umn-udm001.ncl:9000/umon-udm-1.0.0.jar --class com.nhncorp.umon.spark.app.ArgumentSampleApp --arg /README.md --arg /README2 --arg /ArgumentSampleApp2


output이 지정한대로 README2 디렉토리에 잘 저장이 되었다.