글 작성 시점 기준 0.10.1 버전이 최신 버전으로 해당 버전 기준으로 작성한다. Zeppelin 은 REST API 를 제공하고 있다. (docs) Note 목록 조회, 생성, 삭제, 실행 등 기본적인 기능은 모두 제공하고 있다. 기본적으로 HTTP 호출을 할 수 있다면 어렵지 않게 접근할 수 있다. 만약 Zeppelin 에 인증이 붙어있다면 어떻게 해야 할까? login 처리가 필요하며 아래와 같은 헤더 (쿠키) 정보가 필요하다 Set-Cookie: ZEPPELINJSESSIONID={SessionId 값} 다양한 방식으로 구현할 수 있지만, 아래 샘플은 curl 을 활용한 방식으로 작성해 봤다. STATUS_CHECK_COUNT=20 SLEEP_TIME=5 COOKIE_FILE=cookies.tx..
글 작성 시점 기준 0.10.1 버전이 최신 버전으로 해당 버전 기준으로 작성한다. Zeppelin 은 REST API 를 제공하고 있다. (docs) Note 목록 조회, 생성, 삭제, 실행 등 기본적인 기능은 모두 제공하고 있다. 기본적으로 HTTP 호출을 할 수 있다면 어렵지 않게 접근할 수 있다. 만약 Zeppelin 에 인증이 붙어있다면 어떻게 해야 할까? login 처리가 필요하며 아래와 같은 헤더 (쿠키) 정보가 필요하다 Set-Cookie: ZEPPELINJSESSIONID={SessionId 값} 다양한 방식으로 구현할 수 있지만, 아래 샘플은 curl 을 활용한 방식으로 작성해 봤다. STATUS_CHECK_COUNT=20 SLEEP_TIME=5 COOKIE_FILE=cookies.tx..
Spark 에서 Schema 를 지정해 Dataframe 을 생성한다면 좋겠지만 csv 등 schemaless 하게 Dataframe 을 생성한 경우 타입을 변경해야 할 일이 있을 수 있다. 기본적으로 아래와 같이 캐스팅 하면 된다. df.withColumn(columnName, col(columnName).cast("type")) 만약 변경해야 하는 컬럼이 여러 개라면? import org.apache.spark.sql.DataFrame import org.apache.spark.sql.functions._ val DEFAULT_COLUMN_TYPES_MAP = Map( "SEQ" -> "decimal(9,0)", "AMT" -> "decimal(9,0)" ) object DataFrameExtens..
개요 개발을 진행하다 보면 문자열에서 HTML 관련 태그를 모두 삭제하고자 하는 경우가 있다. HTML 내용에는 예외 상황이 많기 때문에 정규식으로 완벽히 지우기는 어렵긴 하다. 그래서 공통 코드로 하나 만들어 보았다. 개발 public class HtmlUtils { private enum HtmlTagPatterns { SCRIPTS("]*>.*?", Pattern.DOTALL), STYLE("", Pattern.DOTALL), TAGS("]+|[a-zA-Z!-:]+)>"), N_TAGS("
- Total
- Today
- Yesterday
- 확률분포
- 통계학
- db
- mongodb
- Learning Spark
- Sqoop
- Oracle
- jenkins2.0
- jenkins
- mysql
- CI
- mongo
- spark
- PYTHON
- linux
- Django
- flume
- exception
- 책요약
- Apache Spark
- bigdata
- 태그를 입력해 주세요.
- json
- Hdfs
- Git
- java
- spring
- 알고리즘
- HADOOP
- jackson
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |