Hadoop 에서 작은 크기의 파일을 처리하는 방법

BigData/Hadoop

Tomining 2016. 2. 10. 22:07

Hadoop 은 기본적으로 Input 파일 갯수만큼 Map Task 가 생성된다. 만약 작은 파일이 엄청 많다면? Block Size 이하의 파일들이 많은 경우는?

block size(64MB) 보다 작은 파일이 여러 개 더라도 Map Task 는 파일 당 하나씩 생성된다.

그렇다면 어떻게 처리하는 것이 좋을까?

위 블로그에 잘 정리되어 있다.

결론만 정리해보면 아래와 같다.