본문 바로가기

Scala2

Spark Dataframe 에서 특정 컬럼 타입 변경 Spark 에서 Schema 를 지정해 Dataframe 을 생성한다면 좋겠지만 csv 등 schemaless 하게 Dataframe 을 생성한 경우 타입을 변경해야 할 일이 있을 수 있다. 기본적으로 아래와 같이 캐스팅 하면 된다. df.withColumn(columnName, col(columnName).cast("type")) 만약 변경해야 하는 컬럼이 여러 개라면? import org.apache.spark.sql.DataFrame import org.apache.spark.sql.functions._ val DEFAULT_COLUMN_TYPES_MAP = Map( "SEQ" -> "decimal(9,0)", "AMT" -> "decimal(9,0)" ) object DataFrameExtens.. 2023. 10. 27.

001. Spark를 설치해서 무작정 돌려보자. Spark를 설치해서 무작정 돌려보자. 일단 Spark 다운로드... 현재 최신 버전은 1.2.1이다.(2015/02/26 기준) https://spark.apache.org/downloads.html 에 접속해서 spark 다운로드를 받는다. hadoop을 포함한 pre-built 버전으로 설치해 본다. (추후 소스코드 받아서 compile해보자.) 위 처럼 지정하고 Download 받아 압축을 해제하면 된다. 편의상 심볼릭 링크를 생성해 두었다. 설치 끝? Spark-Shell을 이용하여 Spark를 간단히 돌려보자. ./bin/spark-shell 을 수행하면 아래처럼 확인할 수 있다. ({SPARK_HOME} 설치 디렉토리에서 위처럼 수행하자. 테스트 샘플 데이터 파일이 Spark 설치 디렉토리에.. 2015. 3. 5.

이전 1 다음

티스토리툴바