본문 바로가기

DataFrame2

Spark Dataframe 에서 특정 컬럼 타입 변경 Spark 에서 Schema 를 지정해 Dataframe 을 생성한다면 좋겠지만 csv 등 schemaless 하게 Dataframe 을 생성한 경우 타입을 변경해야 할 일이 있을 수 있다. 기본적으로 아래와 같이 캐스팅 하면 된다. df.withColumn(columnName, col(columnName).cast("type")) 만약 변경해야 하는 컬럼이 여러 개라면? import org.apache.spark.sql.DataFrame import org.apache.spark.sql.functions._ val DEFAULT_COLUMN_TYPES_MAP = Map( "SEQ" -> "decimal(9,0)", "AMT" -> "decimal(9,0)" ) object DataFrameExtens.. 2023. 10. 27.

Spark 2.0 Technical Preview Databricks 에서 게제한 Spark 2.0 Technical Preview 글을 요약해 보았습니다. spark 1.0 이 공개된 뒤 2년 만에 2.0 release 를 앞두고 있습니다. Databricks 에서 공개한 Technical Preview 에서는 Spark 2.0의 3가지의 주요 특징을 소개하고 있습니다. Easier, Faster, Smarter Easier 표준 SQL 지원 서브쿼리도 지원하는 새로운 Ansi-SQL 파서 적용 DataFrame/Dataset API 통합 Java/Scala 에서 DataFrame/Dataset 통합 SparkSession SQLConext 나 HiveContext 를 대체할 DataFrame API 를 위한 진입점 좀 더 간단하고 성능 좋은 Accu.. 2016. 5. 15.

이전 1 다음

티스토리툴바