본문 바로가기

Total220

HDFS 내에 있는 파일에 Append 하기 HDFS 파일을 작성할 때 기존에 존재하는 파일에 내용을 write 하면 이미 존재하는 파일이라고 오류가 발생한다. 이를 어떻게 해결할 수 있을까? 기존에 있는 파일이라면 파일에 내용을 Append 할 순 없을까? 구글링을 해 보니 dfs.support.append 옵션을 활용할 수 있다. 이 옵션이 true 일 경우 좀 더 간편한 반면, false라면 좀 복잡하긴 하나 가능은 하다. 두 가지 경우에 대해서 테스트를 진행해보자. 1. dfs.support.append 속성이 true 인 경우 먼저 hdfs-site.xml에 아래와 같이 설정하자. dfs.support.append true 그리고 아래와 같이 Util 클래스를 하나 만들었다. /** * HDFS 내 파일에 데이터 작성 * @param hd.. 2015. 5. 20.
Custom Sink 만들어보기 Flume Custom Sink로 Mongo Sink를 한 번 만들어보자. 1. 단일 건별 Sink 처리 public class MongoSingleSink extends AbstractSink implements Configurable { private static final Log LOG = LogFactory.getLog(MongoSingleSink.class); private String host; private int port; private String dbName; private Mongo mongo; private DB db; @Override public synchronized void start() { try { mongo = new MongoClient(host, port); db =.. 2015. 5. 12.
Sqoop 을 이용하여 Oracle에서 HDFS로 데이터를 전송할 때 Hdfs내에 파일명 지정이 가능할까? Sqoop2 를 이용해서 Oracle to HDFS 로 데이터를 전송할 때, HDFS 파일이 생성된다. 이 때 파일명은 sequene 하게 만들어지는 듯 한데. 이를 원하는 파일명 하나로 생성할 수 있을까? 일단 Job을 하나 생성해서 돌려보면 아래와 같이 파일이 생성된다. (아래 예제는 uMON WKLOG_USER 테이블의 하루치 데이터를 옮긴 것이다.) sqoop-connector-hdfs 컴포넌트에서 관련 코드를 확인이 가능하다. HdfsConnector 관련 클래스는 위와 같다. 실제로 HdfsWriter 클래스들이 HDFS 파일을 쓰게되며, 그 filename은 HdfsLoader에서 결정한다. 코드를 상세히 살펴보자. HdfsTestWriter @Override public void initi.. 2015. 4. 28.
기계 학습 알고리즘 관련 R패키지 소개 아래 내용은 데이터 과학자 책 P.150에 소개된 내용을 발췌한 내용입니다. 기계 학습 알고리즘 관련 R 패키지 소개 인공 신경망(Artificial Neural Networks) 패키지 nnet 간단한 ANN. 기본 R에 포함되어 있다. RSNNS Stuttgart Neural Network Simulator 를 위한 UI를 제공하기 좋은 패키지. ANN 의 함수를 배우는 데 훌륭한 도구이다. 재귀 분할(Recursive Partitioning) 패키지 rpart "CART" 형의 의사결정 트리에 이상적이다. 기본 R 프로그램에 포함되어 있다. tree 다양한 의사결정 트리를 위한 패키지 Rweka 잘 알려진 WEKA 도구 상자를 위한 인터페이스로 아주 다양한 기계 학습 프로그램을 포함하고 있다. Cu.. 2015. 4. 16.