본문 바로가기

BigData/Spark24

Spark Memory Tuning Case-Study Spark 기본 구조 Spark Memory JVM 내부 Reserved Memory Spark Memory Execution Memory (operation) Storage Memory (cache): RDD Persistance JVM 외부 OffHeap Memory External Process Memory 5GB 기준 메모리 영역 예제 Q) 빠르다고 해서 Spark 를 사용하는데, 느려요~??? Memory 는 충분한가? 무한정 늘릴 순 없다 YARN (Resource Manager) 적절히 분배해 주는가? => Spark Properties 정해진 메모리를 효율적으로 사용하고 있는가? spark.executor.memory 늘려준다 spark.executor.cores 조정 (얼마가 적당할까?).. 2024. 4. 14.
Spark Dataframe 에서 특정 컬럼 타입 변경 Spark 에서 Schema 를 지정해 Dataframe 을 생성한다면 좋겠지만 csv 등 schemaless 하게 Dataframe 을 생성한 경우 타입을 변경해야 할 일이 있을 수 있다. 기본적으로 아래와 같이 캐스팅 하면 된다. df.withColumn(columnName, col(columnName).cast("type"))​ 만약 변경해야 하는 컬럼이 여러 개라면? import org.apache.spark.sql.DataFrame import org.apache.spark.sql.functions._ val DEFAULT_COLUMN_TYPES_MAP = Map( "SEQ" -> "decimal(9,0)", "AMT" -> "decimal(9,0)" ) object DataFrameExtens.. 2023. 10. 27.
Spark Streaming Resiliency(자동복구) Netflix Tech Blog 에서 Spark Streaming 의 자동복구와 관련된 글에 대한 요약 및 개인 생각을 정리해 보았습니다. Spark Streaming 은 Chaos Monkey 이겨낼까? 여기서 Chaos Monkey 란? AWS 에서 제공되는 서비스로 클라우드 내에서 Auto Scaling Group 을 찾고, Instance 를 종료하는 서비스입니다. 이런 서비스를 실행하는 이유는 Failure(의도하지 않는 서비스 중지) 가 발생했을 때, 어떻게 되는지 확인하기 위함입니다. Spark Streaming Resiliency (Spark Streaming 복구 종류) Driver Resiliency Master Resiliency Worker Process Resiliency Exec.. 2016. 5. 15.
Spark 2.0 Technical Preview Databricks 에서 게제한 Spark 2.0 Technical Preview 글을 요약해 보았습니다. spark 1.0 이 공개된 뒤 2년 만에 2.0 release 를 앞두고 있습니다. Databricks 에서 공개한 Technical Preview 에서는 Spark 2.0의 3가지의 주요 특징을 소개하고 있습니다. Easier, Faster, Smarter Easier 표준 SQL 지원 서브쿼리도 지원하는 새로운 Ansi-SQL 파서 적용 DataFrame/Dataset API 통합 Java/Scala 에서 DataFrame/Dataset 통합 SparkSession SQLConext 나 HiveContext 를 대체할 DataFrame API 를 위한 진입점 좀 더 간단하고 성능 좋은 Accu.. 2016. 5. 15.