Total220 데이터 리터러시 #1 데이터 과학자의 가설 사고 1장을 읽고 정리해 본 내용이다. 데이터 리터러시를 배우기 위해 기초적인 소양으로 아래 3가지를 언급하고 있다. 데이터를 읽는 힘 데이터를 설명하는 힘 데이터를 다루는 힘 책의 목차를 보면 아래와 같이 이뤄지고 있다. 데이터를 읽고 -> 설명하고 -> 분류하고 -> 규칙을 발견 (insight) -> 예측한다. 데이터 과학자란? 데이터에서 가치를 창출하고, 비즈니스 과제에 답을 찾는 프로세셔널 데이터 과학자는 결국 읽고, 설명하고, 분류하고 그 속에서 Insight 를 찾고 예측하는 모든 능력을 보유해야 한다. 2024. 4. 17. Spark Memory Tuning Case-Study Spark 기본 구조 Spark Memory JVM 내부 Reserved Memory Spark Memory Execution Memory (operation) Storage Memory (cache): RDD Persistance JVM 외부 OffHeap Memory External Process Memory 5GB 기준 메모리 영역 예제 Q) 빠르다고 해서 Spark 를 사용하는데, 느려요~??? Memory 는 충분한가? 무한정 늘릴 순 없다 YARN (Resource Manager) 적절히 분배해 주는가? => Spark Properties 정해진 메모리를 효율적으로 사용하고 있는가? spark.executor.memory 늘려준다 spark.executor.cores 조정 (얼마가 적당할까?).. 2024. 4. 14. ffmpeg 에서 partial file Error demuxing input file 0 오류 ffmpeg 을 통해 영상으로 부터 이미지를 추출 하려고 하는데, 아래와 같이 오류가 발생했다. (ffmpeg -version 은 아래와 같다) ffmpeg version 6.0 Copyright (c) 2000-2023 the FFmpeg developers built with Apple clang version 14.0.3 (clang-1403.0.22.14.1) configuration: --prefix=/opt/homebrew/Cellar/ffmpeg/6.0_1 --enable-shared --enable-pthreads --enable-version3 --cc=clang --host-cflags= --host-ldflags= --enable-ffplay --enable-gnutls --enabl.. 2023. 11. 23. REST Api 로 Zeppelin Note 실행하기 글 작성 시점 기준 0.10.1 버전이 최신 버전으로 해당 버전 기준으로 작성한다. Zeppelin 은 REST API 를 제공하고 있다. (docs) Note 목록 조회, 생성, 삭제, 실행 등 기본적인 기능은 모두 제공하고 있다. 기본적으로 HTTP 호출을 할 수 있다면 어렵지 않게 접근할 수 있다. 만약 Zeppelin 에 인증이 붙어있다면 어떻게 해야 할까? login 처리가 필요하며 아래와 같은 헤더 (쿠키) 정보가 필요하다 Set-Cookie: ZEPPELINJSESSIONID={SessionId 값} 다양한 방식으로 구현할 수 있지만, 아래 샘플은 curl 을 활용한 방식으로 작성해 봤다. STATUS_CHECK_COUNT=20 SLEEP_TIME=5 COOKIE_FILE=cookies.tx.. 2023. 11. 23. 이전 1 ··· 3 4 5 6 7 8 9 ··· 55 다음