Spark Memory Tuning Case-Study
2024. 4. 14. 14:54
Spark 기본 구조
Spark Memory
JVM 내부
- Reserved Memory
- Spark Memory
- Execution Memory (operation)
- Storage Memory (cache): RDD Persistance
JVM 외부
- OffHeap Memory
- External Process Memory
5GB 기준 메모리 영역 예제
Q) 빠르다고 해서 Spark 를 사용하는데, 느려요~???
- Memory 는 충분한가?
- 무한정 늘릴 순 없다
- YARN (Resource Manager) 적절히 분배해 주는가? => Spark Properties
- 정해진 메모리를 효율적으로 사용하고 있는가?
- spark.executor.memory 늘려준다
- spark.executor.cores 조정
- (얼마가 적당할까?) 참고: executor 개수 정히가
- 많으면 좋을까? 적은게 좋을까? => 왕도가 없음. 적절한 수치를 찾아야 함.
- 효율적 가이드 (케이스마다 다르니 꼭 테스트 할 것!)
- spark.executor.memory >= 4G
- 1 < spark.executor.cores <= 5
Q) 이게 다 인가???
- Partition 수 조정 (Shuffle Partition)
- spark.sql.files.maxPartitionBytes
- coalesce vs repartition
- repartition: full shuffle. 데이터 균등 분배. 파티션 수 늘리기 가능. 특정 컬럼 기준으로 파티션 가능
- coalesce: partial shuffle. 데이터 skew. 파티션 수 늘리기 불가. 컬럼 기준으로 파티션 불가.
- partial shuffle이라 보통 더 빠르지만, 불균형하게 분배된 데이터에서는 더 느릴 수 있음
- spark.memory.fraction or spark.memory.storageFraction
- Spill 방지
- file 을 나눠서 처리
