BigData66 Spark Memory Tuning Case-Study Spark 기본 구조 Spark Memory JVM 내부 Reserved Memory Spark Memory Execution Memory (operation) Storage Memory (cache): RDD Persistance JVM 외부 OffHeap Memory External Process Memory 5GB 기준 메모리 영역 예제 Q) 빠르다고 해서 Spark 를 사용하는데, 느려요~??? Memory 는 충분한가? 무한정 늘릴 순 없다 YARN (Resource Manager) 적절히 분배해 주는가? => Spark Properties 정해진 메모리를 효율적으로 사용하고 있는가? spark.executor.memory 늘려준다 spark.executor.cores 조정 (얼마가 적당할까?).. 2024. 4. 14. REST Api 로 Zeppelin Note 실행하기 글 작성 시점 기준 0.10.1 버전이 최신 버전으로 해당 버전 기준으로 작성한다. Zeppelin 은 REST API 를 제공하고 있다. (docs) Note 목록 조회, 생성, 삭제, 실행 등 기본적인 기능은 모두 제공하고 있다. 기본적으로 HTTP 호출을 할 수 있다면 어렵지 않게 접근할 수 있다. 만약 Zeppelin 에 인증이 붙어있다면 어떻게 해야 할까? login 처리가 필요하며 아래와 같은 헤더 (쿠키) 정보가 필요하다 Set-Cookie: ZEPPELINJSESSIONID={SessionId 값} 다양한 방식으로 구현할 수 있지만, 아래 샘플은 curl 을 활용한 방식으로 작성해 봤다. STATUS_CHECK_COUNT=20 SLEEP_TIME=5 COOKIE_FILE=cookies.tx.. 2023. 11. 23. REST Api 로 Zeppelin Note 실행하기 글 작성 시점 기준 0.10.1 버전이 최신 버전으로 해당 버전 기준으로 작성한다. Zeppelin 은 REST API 를 제공하고 있다. (docs) Note 목록 조회, 생성, 삭제, 실행 등 기본적인 기능은 모두 제공하고 있다. 기본적으로 HTTP 호출을 할 수 있다면 어렵지 않게 접근할 수 있다. 만약 Zeppelin 에 인증이 붙어있다면 어떻게 해야 할까? login 처리가 필요하며 아래와 같은 헤더 (쿠키) 정보가 필요하다 Set-Cookie: ZEPPELINJSESSIONID={SessionId 값} 다양한 방식으로 구현할 수 있지만, 아래 샘플은 curl 을 활용한 방식으로 작성해 봤다. STATUS_CHECK_COUNT=20 SLEEP_TIME=5 COOKIE_FILE=cookies.tx.. 2023. 10. 27. Spark Dataframe 에서 특정 컬럼 타입 변경 Spark 에서 Schema 를 지정해 Dataframe 을 생성한다면 좋겠지만 csv 등 schemaless 하게 Dataframe 을 생성한 경우 타입을 변경해야 할 일이 있을 수 있다. 기본적으로 아래와 같이 캐스팅 하면 된다. df.withColumn(columnName, col(columnName).cast("type")) 만약 변경해야 하는 컬럼이 여러 개라면? import org.apache.spark.sql.DataFrame import org.apache.spark.sql.functions._ val DEFAULT_COLUMN_TYPES_MAP = Map( "SEQ" -> "decimal(9,0)", "AMT" -> "decimal(9,0)" ) object DataFrameExtens.. 2023. 10. 27. 이전 1 2 3 4 5 6 ··· 17 다음