본문 바로가기

BigData/Hadoop9

[하둡완벽가이드] 3장 HDFS Hadoop이란?MapReduce + HDFS + (YARN) HDFS 데이터 블록 크기 = 128MB HDFS 구성요소Namenode: 데이터 블록의 위치를 저장Secondary Namenode: HDFS 파일시스템 이미지 및 Edit Log 병합DataNode: 데이터 블록 저장 데이터 읽기 데이터 쓰기 첨부 2017. 4. 19.

Hadoop shell 사용법 http://hadoop.apache.org/docs/r0.20.0/hdfs_shell.html Overview The FileSystem (FS) shell is invoked by bin/hadoop fs . All FS shell commands take path URIs as arguments. The URI format is scheme://autority/path. For HDFS the scheme is hdfs, and for the local filesystem the scheme is file. The scheme and authority are optional. If not specified, the default scheme specified in the configuration i.. 2016. 2. 10.

Hadoop 에서 작은 크기의 파일을 처리하는 방법 Hadoop 은 기본적으로 Input 파일 갯수만큼 Map Task 가 생성된다. 만약 작은 파일이 엄청 많다면? Block Size 이하의 파일들이 많은 경우는? block size(64MB) 보다 작은 파일이 여러 개 더라도 Map Task 는 파일 당 하나씩 생성된다. 그렇다면 어떻게 처리하는 것이 좋을까? http://blog.recopick.com/24 위 블로그에 잘 정리되어 있다. 결론만 정리해보면 아래와 같다. hdfs 에 저장할 때, 파일 내용을 append 하는 방법 작은 파일들을 하나로 합치는 작업을 주기적으로 실행하는 방법 hadoop archive (har) 파일을 이용하는 방법 파일 이름과 파일 내용을 각각 키와 값으로 해서 sequence file 로 저장하는 방법 Combin.. 2016. 2. 10.

HDFS 내에 여러 파일을 하나의 파일로 합쳐보기 Hadoop ecosystem을 사용하다 보면 output 디렉토리에 여러 파일이 생기는 경우가 있다. 보통 output 파일은 하나로 나와야 하나, 병렬처리를 하다보면 병목현상을 줄이기 위해 output 파일을 여러개로 만들기도 하는데. 최종 처리를 하기 위해 하나의 파일로 합치는 게 필요할 수도 있다. HDFS에서 파일을 합치는 것은 어떻게 할 수 있을까? HDFS FileSystemShell 가이드에 보면 getmerge라는 command가 존재한다. http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html getmerge Usage: hadoop fs -getmerge [addnl] Tak.. 2015. 5. 21.

이전 1 2 3 다음

티스토리툴바