Sqoop2 를 이용해서 Oracle to HDFS 로 데이터를 전송할 때, HDFS 파일이 생성된다. 이 때 파일명은 sequene 하게 만들어지는 듯 한데. 이를 원하는 파일명 하나로 생성할 수 있을까? 일단 Job을 하나 생성해서 돌려보면 아래와 같이 파일이 생성된다. (아래 예제는 uMON WKLOG_USER 테이블의 하루치 데이터를 옮긴 것이다.) sqoop-connector-hdfs 컴포넌트에서 관련 코드를 확인이 가능하다. HdfsConnector 관련 클래스는 위와 같다. 실제로 HdfsWriter 클래스들이 HDFS 파일을 쓰게되며, 그 filename은 HdfsLoader에서 결정한다. 코드를 상세히 살펴보자. HdfsTestWriter @Override public void initi..
Sqoop이란? Apache Sqoop is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases. Apache Sqoop은 SQL-to-Hadoop 의 약자로 Apache Hadoop과 정형화된 Datasource, 예를 들어, Oracle 같은 RDB 간의 대량 데이터를 전송하기 위해 만들어진 툴이다. Oracle DB에 저장된 대량의 데이터를 HDFS 로 옮겨 분석을 하고자 할 때 쉽게 데이터를 Import 할 수 있으며, 반대로 분석 결과(HDFS)를 RDB로 Export 할 수 있다. 또한 Hive, Pig, Hba..
- Total
- Today
- Yesterday
- spring
- 데이터과학자
- Hdfs
- spark
- java
- Sqoop
- jenkins
- HADOOP
- linux
- flume
- 데이터 리터러시
- Oracle
- 태그를 입력해 주세요.
- Learning Spark
- mongodb
- db
- mysql
- mongo
- Django
- Apache Spark
- exception
- json
- 책요약
- Git
- jenkins2.0
- 확률분포
- 알고리즘
- PYTHON
- jackson
- bigdata
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |