데이터 과학자의 가설 사고 를 읽고 정리해 본 내용이다. 데이터 리터러시를 배우기 위해 기초적인 소양으로 아래 3가지를 언급하고 있다. 데이터를 읽는 힘 데이터를 설명하는 힘 데이터를 다루는 힘 책의 목차를 보면 아래와 같이 이뤄지고 있다. 데이터를 읽고 -> 설명하고 -> 분류하고 -> 규칙을 발견 (insight) -> 예측한다. 데이터 과학자란? 데이터에서 가치를 창출하고, 비즈니스 과제에 답을 찾는 프로세셔널 데이터 과학자는 결국 읽고, 설명하고, 분류하고 그 속에서 Insight 를 찾고 예측하는 모든 능력을 보유해야 한다.
Spark 기본 구조 Spark Memory JVM 내부 Reserved Memory Spark Memory Execution Memory (operation) Storage Memory (cache): RDD Persistance JVM 외부 OffHeap Memory External Process Memory 5GB 기준 메모리 영역 예제 Q) 빠르다고 해서 Spark 를 사용하는데, 느려요~??? Memory 는 충분한가? 무한정 늘릴 순 없다 YARN (Resource Manager) 적절히 분배해 주는가? => Spark Properties 정해진 메모리를 효율적으로 사용하고 있는가? spark.executor.memory 늘려준다 spark.executor.cores 조정 (얼마가 적당할까?)..
ffmpeg 을 통해 영상으로 부터 이미지를 추출 하려고 하는데, 아래와 같이 오류가 발생했다. (ffmpeg -version 은 아래와 같다) ffmpeg version 6.0 Copyright (c) 2000-2023 the FFmpeg developers built with Apple clang version 14.0.3 (clang-1403.0.22.14.1) configuration: --prefix=/opt/homebrew/Cellar/ffmpeg/6.0_1 --enable-shared --enable-pthreads --enable-version3 --cc=clang --host-cflags= --host-ldflags= --enable-ffplay --enable-gnutls --enabl..
글 작성 시점 기준 0.10.1 버전이 최신 버전으로 해당 버전 기준으로 작성한다. Zeppelin 은 REST API 를 제공하고 있다. (docs) Note 목록 조회, 생성, 삭제, 실행 등 기본적인 기능은 모두 제공하고 있다. 기본적으로 HTTP 호출을 할 수 있다면 어렵지 않게 접근할 수 있다. 만약 Zeppelin 에 인증이 붙어있다면 어떻게 해야 할까? login 처리가 필요하며 아래와 같은 헤더 (쿠키) 정보가 필요하다 Set-Cookie: ZEPPELINJSESSIONID={SessionId 값} 다양한 방식으로 구현할 수 있지만, 아래 샘플은 curl 을 활용한 방식으로 작성해 봤다. STATUS_CHECK_COUNT=20 SLEEP_TIME=5 COOKIE_FILE=cookies.tx..
- Total
- Today
- Yesterday
- PYTHON
- mongo
- bigdata
- 통계학
- Oracle
- db
- jenkins
- java
- json
- linux
- jenkins2.0
- flume
- 태그를 입력해 주세요.
- 확률분포
- CI
- 책요약
- Hdfs
- mongodb
- Apache Spark
- exception
- Git
- spark
- Django
- Learning Spark
- 알고리즘
- spring
- jackson
- HADOOP
- Sqoop
- mysql
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |