본문 바로가기

spark10

Spark Memory Tuning Case-Study Spark 기본 구조 Spark Memory JVM 내부 Reserved Memory Spark Memory Execution Memory (operation) Storage Memory (cache): RDD Persistance JVM 외부 OffHeap Memory External Process Memory 5GB 기준 메모리 영역 예제 Q) 빠르다고 해서 Spark 를 사용하는데, 느려요~??? Memory 는 충분한가? 무한정 늘릴 순 없다 YARN (Resource Manager) 적절히 분배해 주는가? => Spark Properties 정해진 메모리를 효율적으로 사용하고 있는가? spark.executor.memory 늘려준다 spark.executor.cores 조정 (얼마가 적당할까?).. 2024. 4. 14.
Spark Dataframe 에서 특정 컬럼 타입 변경 Spark 에서 Schema 를 지정해 Dataframe 을 생성한다면 좋겠지만 csv 등 schemaless 하게 Dataframe 을 생성한 경우 타입을 변경해야 할 일이 있을 수 있다. 기본적으로 아래와 같이 캐스팅 하면 된다. df.withColumn(columnName, col(columnName).cast("type"))​ 만약 변경해야 하는 컬럼이 여러 개라면? import org.apache.spark.sql.DataFrame import org.apache.spark.sql.functions._ val DEFAULT_COLUMN_TYPES_MAP = Map( "SEQ" -> "decimal(9,0)", "AMT" -> "decimal(9,0)" ) object DataFrameExtens.. 2023. 10. 27.
Flamingo Seminar(2016/11/25) 후기 2016년 11월 25일 강남토즈점에서 진행된 Flamingo Seminar 참석 1. Flamingo Project 소개 Flamingo란 Hadoop Ecosystem과 연계하여 빅데이터를 처리할 수 있는 솔류션 시스템입니다. 2016년 12월에 Flamingo 3.0(FEM)을 공개할 예정이며, 특징으로는 프로젝트의 목적에 맞게 컴포넌트가 분리되어 제공됩니다.(아래 3가지 참고) Flamingo Analytics(FEA) Flamingo(FL) Flamingo Management(FEM) Flamingo 개발환경은 jdk 1.8에서 개발되고 있습니다.(그 외 버전 정보들을 소개하였으나 너무 많아서 생략합니다.) FEM에는 아래와 같은 특징이 있었습니다.(FEM 시연 영상을 보고 정리한 내용) 대시보.. 2016. 11. 26.
Spark Streaming Resiliency(자동복구) Netflix Tech Blog 에서 Spark Streaming 의 자동복구와 관련된 글에 대한 요약 및 개인 생각을 정리해 보았습니다. Spark Streaming 은 Chaos Monkey 이겨낼까? 여기서 Chaos Monkey 란? AWS 에서 제공되는 서비스로 클라우드 내에서 Auto Scaling Group 을 찾고, Instance 를 종료하는 서비스입니다. 이런 서비스를 실행하는 이유는 Failure(의도하지 않는 서비스 중지) 가 발생했을 때, 어떻게 되는지 확인하기 위함입니다. Spark Streaming Resiliency (Spark Streaming 복구 종류) Driver Resiliency Master Resiliency Worker Process Resiliency Exec.. 2016. 5. 15.