Hadoop 은 기본적으로 Input 파일 갯수만큼 Map Task 가 생성된다. 만약 작은 파일이 엄청 많다면? Block Size 이하의 파일들이 많은 경우는? block size(64MB) 보다 작은 파일이 여러 개 더라도 Map Task 는 파일 당 하나씩 생성된다. 그렇다면 어떻게 처리하는 것이 좋을까? http://blog.recopick.com/24 위 블로그에 잘 정리되어 있다. 결론만 정리해보면 아래와 같다. hdfs 에 저장할 때, 파일 내용을 append 하는 방법 작은 파일들을 하나로 합치는 작업을 주기적으로 실행하는 방법 hadoop archive (har) 파일을 이용하는 방법 파일 이름과 파일 내용을 각각 키와 값으로 해서 sequence file 로 저장하는 방법 Combin..
flume 설정 agent.sources = testSource agent.channels = testChannel agent.sinks = testSink # For each one of the sources, the type is defined agent.sources.testSource.type = syslogtcp agent.sources.testSource.host = 127.0.0.1 agent.sources.testSource.port = 9999 agent.sources.testSource.channels = testChannel # Each sink's type must be defined agent.sinks.testSink.type = logger agent.sinks.testSink..
페이스북 통계마당 그룹에서 어떤 분이 올려주신 공부 로드맵이다.평소에 데이터마이닝 쪽에 관심이 많아서 혼자 공부하던 중에 도움이 될 것 같아서 복사해 두었다. 내용만 복사 해 두어서 어떤 분이 작성했는지는 기억이 나질 않는다. 그 분께 감사하다고 이야기 하고 싶다. # 데이터마이닝 공부 로드맵 for 파이썬제목과 관련하여 얼마전에 정리한 내용이 있어 공유 드립니다. 제가 공부한 과정이기도 하고, 제가 운영하는 연구실의 코스웤이기도 합니다. 현재 학교에서도 이 코스로 MOOC 강좌를 개발하고 있습니다... 언제 끝날지는 ㅎㅎ 필요하신 분께 도움이 되었으면 합니다.1) 리눅스 공부: 데이터 분석을 위해서는 리눅스와 command line interface(CLI)에 익숙해 져야 합니다. 리눅스 공부를 먼저 ..
Flume Avro 데이터를 전송하기 위한 방법은 몇가지가 있으나, 보통 쉬운 log4j appender 를 이용하는 것으로 알고 있다. log4j appender 의 경우 flume-ng-sdk.jar 에서 제공되기 때문에 log4j 설정만 하면되는 간편함이 있다. 하지만 log4j 특성상 전송되는 Event 에 Header에 데이터를 포함해서 전송할 수 없다. 만약 Flume 으로 데이터 전송시 Header 에 원하는 데이터를 전달할 수 있다면, Multiplexing 설정을 통해 좀 더 General 한 source-channel-sink 구조를 만들 수 있을 것이라 생각했다. 이를 위해서 Flume 에서 제공되는 것이 RpcClient 클래스이다. Flume 1.6.0(최신버전 at 2016/01..
- Total
- Today
- Yesterday
- mongo
- Git
- Django
- linux
- spark
- mongodb
- exception
- spring
- Hdfs
- Apache Spark
- 책요약
- flume
- jenkins
- json
- 데이터 리터러시
- jenkins2.0
- 데이터과학자
- 확률분포
- bigdata
- db
- Oracle
- java
- 알고리즘
- jackson
- HADOOP
- 태그를 입력해 주세요.
- mysql
- PYTHON
- Learning Spark
- Sqoop
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |