Flume Custom Sink로 Mongo Sink를 한 번 만들어보자. 1. 단일 건별 Sink 처리 public class MongoSingleSink extends AbstractSink implements Configurable { private static final Log LOG = LogFactory.getLog(MongoSingleSink.class); private String host; private int port; private String dbName; private Mongo mongo; private DB db; @Override public synchronized void start() { try { mongo = new MongoClient(host, port); db =..
Sqoop2 를 이용해서 Oracle to HDFS 로 데이터를 전송할 때, HDFS 파일이 생성된다. 이 때 파일명은 sequene 하게 만들어지는 듯 한데. 이를 원하는 파일명 하나로 생성할 수 있을까? 일단 Job을 하나 생성해서 돌려보면 아래와 같이 파일이 생성된다. (아래 예제는 uMON WKLOG_USER 테이블의 하루치 데이터를 옮긴 것이다.) sqoop-connector-hdfs 컴포넌트에서 관련 코드를 확인이 가능하다. HdfsConnector 관련 클래스는 위와 같다. 실제로 HdfsWriter 클래스들이 HDFS 파일을 쓰게되며, 그 filename은 HdfsLoader에서 결정한다. 코드를 상세히 살펴보자. HdfsTestWriter @Override public void initi..
아래 내용은 데이터 과학자 책 P.150에 소개된 내용을 발췌한 내용입니다. 기계 학습 알고리즘 관련 R 패키지 소개 인공 신경망(Artificial Neural Networks) 패키지 nnet 간단한 ANN. 기본 R에 포함되어 있다. RSNNS Stuttgart Neural Network Simulator 를 위한 UI를 제공하기 좋은 패키지. ANN 의 함수를 배우는 데 훌륭한 도구이다. 재귀 분할(Recursive Partitioning) 패키지 rpart "CART" 형의 의사결정 트리에 이상적이다. 기본 R 프로그램에 포함되어 있다. tree 다양한 의사결정 트리를 위한 패키지 Rweka 잘 알려진 WEKA 도구 상자를 위한 인터페이스로 아주 다양한 기계 학습 프로그램을 포함하고 있다. Cu..
단일 싱크 구조는 아래와 같다. 하나의 source와 channel, sink를 가지는 구조이다. 위 그림에서는 Flume을 이용하여 MongoDB에 저장하는 구조이다. 여기서 하나의 Event에 대해 2군데 데이터를 전송하려면 어떻게 해야할까? 예를 들어 하나의 Event를 보냈을 때, MongoDB에도 저장하고 HDFS 에도 저장하려고 한다. 2개의 sink를 연결해 볼 수 있다. 이 경우에는 Event 정보가 MongoDB나 HDFS 둘 중에 하나만 저장이 된다. 어떤 Sink가 선택이 되는지는 알 수 없으나, 설정상 나중에 연결된 sink 부터 전달되는 듯 하다. 테스트를 해보면 위 경우 HDFS Sink를 먼저 시도한다. 이 때 HDFS sink에 실패한다면 Mongo Sink를 시도한다 이는 ..
- Total
- Today
- Yesterday
- 태그를 입력해 주세요.
- mongo
- Apache Spark
- 알고리즘
- Oracle
- jackson
- exception
- db
- spark
- 데이터과학자
- json
- Learning Spark
- PYTHON
- mongodb
- java
- 책요약
- spring
- HADOOP
- Django
- jenkins
- bigdata
- linux
- flume
- Git
- Hdfs
- jenkins2.0
- 데이터 리터러시
- 확률분포
- Sqoop
- mysql
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |