본문 바로가기

BigData66

[하둡완벽가이드] 3장 HDFS Hadoop이란?MapReduce + HDFS + (YARN) HDFS 데이터 블록 크기 = 128MB HDFS 구성요소Namenode: 데이터 블록의 위치를 저장Secondary Namenode: HDFS 파일시스템 이미지 및 Edit Log 병합DataNode: 데이터 블록 저장 데이터 읽기 데이터 쓰기 첨부 2017. 4. 19.
Beeline 으로 Hive command 수행해 보기 Beeline 이란 HiveServer2 에 접속하여 command shell 을 수행할 수 있도록 도와주는 client 입니다. SQLLine CLI 를 기반으로하는 jdbc client 이기도 합니다. Beeline shell 은 두 가지 방식으로 수행됩니다. Embeded mode - Hive CLI 와 유사하게 embeded hive 를 수행합니다. Remote mode - Thrift 통신을 통해 원격지에 있는 HiveServer2 에 접속하여 수행됩니다. 단, Thrift 통신만 허용합니다. 이제 beeline shell 에 접속해 봅시다. {hive 설치경로}/bin 하위에 보면 beeline command 를 확인 할 수 있습니다. 접속하면 위처럼 prompt 화면을 확인할 수 있습니다. .. 2016. 7. 12.
Spark Streaming Resiliency(자동복구) Netflix Tech Blog 에서 Spark Streaming 의 자동복구와 관련된 글에 대한 요약 및 개인 생각을 정리해 보았습니다. Spark Streaming 은 Chaos Monkey 이겨낼까? 여기서 Chaos Monkey 란? AWS 에서 제공되는 서비스로 클라우드 내에서 Auto Scaling Group 을 찾고, Instance 를 종료하는 서비스입니다. 이런 서비스를 실행하는 이유는 Failure(의도하지 않는 서비스 중지) 가 발생했을 때, 어떻게 되는지 확인하기 위함입니다. Spark Streaming Resiliency (Spark Streaming 복구 종류) Driver Resiliency Master Resiliency Worker Process Resiliency Exec.. 2016. 5. 15.
Spark 2.0 Technical Preview Databricks 에서 게제한 Spark 2.0 Technical Preview 글을 요약해 보았습니다. spark 1.0 이 공개된 뒤 2년 만에 2.0 release 를 앞두고 있습니다. Databricks 에서 공개한 Technical Preview 에서는 Spark 2.0의 3가지의 주요 특징을 소개하고 있습니다. Easier, Faster, Smarter Easier 표준 SQL 지원 서브쿼리도 지원하는 새로운 Ansi-SQL 파서 적용 DataFrame/Dataset API 통합 Java/Scala 에서 DataFrame/Dataset 통합 SparkSession SQLConext 나 HiveContext 를 대체할 DataFrame API 를 위한 진입점 좀 더 간단하고 성능 좋은 Accu.. 2016. 5. 15.