Spark 에서 Schema 를 지정해 Dataframe 을 생성한다면 좋겠지만 csv 등 schemaless 하게 Dataframe 을 생성한 경우 타입을 변경해야 할 일이 있을 수 있다. 기본적으로 아래와 같이 캐스팅 하면 된다. df.withColumn(columnName, col(columnName).cast("type")) 만약 변경해야 하는 컬럼이 여러 개라면? import org.apache.spark.sql.DataFrame import org.apache.spark.sql.functions._ val DEFAULT_COLUMN_TYPES_MAP = Map( "SEQ" -> "decimal(9,0)", "AMT" -> "decimal(9,0)" ) object DataFrameExtens..
중간 이상의 어려운 문제를 출제하라 여러 가지 난관을 거쳐야 하는 문제를 찾으라 알기 어려운 지식이 아닌 풀기 어려운 문제를 출제하라 겁을 주는 문제는 피하라 수학 또는 확률, Raw Level 지식(메모리할당), 시스템 디자인 또는 확장성 P33. 문제참고 지원자를 긍정적으로 대하라 행동 질문을 철저히 하라 지원자에게 조언하라 지원자가 과거에 무엇을 했는지 이해하기 어렵다고 해서 중요한 일을 하지 않았다고 판단하지 마라 만약 지원자가 했던 일이 대단치 않다고 생각되면 더 깊게 캐물어라 그들이 생각할 시간을 원한다면 생각할 시간을 주라 “뭘 어떻게 해야 할지 모르겠어”와 “생각 중이야”를 구별할 수 있어야 한다 방식을 정하라 Sanity Check: 기본적인 질문, 최소한의 레벨 체크 Quality: 좀..
개요 개발을 진행하다 보면 문자열에서 HTML 관련 태그를 모두 삭제하고자 하는 경우가 있다. HTML 내용에는 예외 상황이 많기 때문에 정규식으로 완벽히 지우기는 어렵긴 하다. 그래서 공통 코드로 하나 만들어 보았다. 개발 public class HtmlUtils { private enum HtmlTagPatterns { SCRIPTS("]*>.*?", Pattern.DOTALL), STYLE("", Pattern.DOTALL), TAGS("]+|[a-zA-Z!-:]+)>"), N_TAGS("
START_YMD ~ END_YMD 까지 일자별 script 수행 #! /bin/bash START_YMD=$(date -d $1 +"%Y%m%d")END_YMD=$(date -d $2 +"%Y%m%d")END_YMD_S=$(date -d $2 +"%s") echo "startDate: $START_YMD" echo "endDate: $END_YMD" if [ $START_YMD -ge $END_YMD ]; then echo "start ~ from parameter are invalid." fi CURRENT="$START_YMD"CURRENT_S=$(date -d $CURRENT +"%s") while [ $CURRENT_S -le $END_YMD_S ]; do echo $CURRENT # run s..
- Total
- Today
- Yesterday
- bigdata
- HADOOP
- Apache Spark
- json
- flume
- linux
- jenkins2.0
- PYTHON
- Hdfs
- Oracle
- 알고리즘
- 확률분포
- 데이터 리터러시
- spark
- 데이터과학자
- Learning Spark
- db
- mongo
- 책요약
- java
- jackson
- Django
- Sqoop
- jenkins
- spring
- mysql
- 태그를 입력해 주세요.
- exception
- mongodb
- Git
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |