본문 바로가기

BigData66

Lambda Architecture Yes24 에서 Lambda Architecture 검색 해 보니 가장 최근 책이 2018년 04월 책그 만큼 오래전에 나온 개념이며, 대세로 MVC 처럼 많이 사용되는 구조 Ingestion LayerStreaming Layer (Real-Time Layer or Speed Layer)Batch LayerServing Layer각 Layer에 따라 활용되는 기술 스텍도 많이 다르다. 아래 Youtube 사례를 참고하면 그 특징을 참고할 수 있다. Youtube 사례https://www.youtube.com/watch?v=mJsLK-iPagc⏱ Chapter Timestamps ==================== 00:00 - Intro 00:30 - Agenda 01:08 - Batch vs Stre.. 2024. 6. 15.
Zeppelin 에서 checkbox input form 다루기 제플린에서 Input (Text, Password, Select, Checkbox)를 사용할 수 있다. 이를 Dynamic Form 이라고 부른다.크게 2가지 방법이 있다.Using form Templates (scope: paragraph)Using form Templates (scope: note) => 1번과 동일하나 '$'를 하나 더 붙이면 된다.Creates Programmatically (scope: paragraph)3번의 경우 scala or python으로 활용하기에 input을 받아서 변환하기가 용이하다. 1번 form template을 활용하는 경우 편리한 부분도 있지만 3번만큼 자유도가 있진 않다. 사용하면서 삽질한 사례가 있어 소개해 본다.Checkbox로 Dynamic Form을.. 2024. 6. 5.
데이터 리터러시 #6 데이터 과학자의 가설 사고 6장을 읽고 정리해 본 내용이다.  5장까지 데이터를 배경을 보고 분류하고 패턴/경향을 파악하여 의사결정트리를 만들어 예측을 해 봤다면 6장에서는 판별문제가 아닌 수치 예측을 다루고 있다. 1. 수치 데이터의 관계성을 확인하자.1, 3, 5, 7, ?  물음표에는 어떤 숫자가 들어올까? (아마도 어렵지 않을 것이다.) 정답은 9이다. 단순히 2씩 증가하는 등차수열이다. 꼭 등차/등비가 아닌 수식을 기반한 패턴을 가질 수도 있다. 이처럼 수치의 패턴을 파악할 때 앞/뒤 관계성을 잘 파악해야 한다. 하지만 주어진 데이터로부터는 관계성을 찾는 것이 어려울 수도 있다. (아래 그림 참고) 센서 X값이 0~3까지는 거의 유사하나 4부터 점점 벌어지더니 엄청난 차이를 보이고 있다. 만약 .. 2024. 5. 11.
데이터 리터러시 #5 데이터 과학자의 가설 사고 5장을 읽고 정리해 본 내용이다.  5장에서는 데이터에서 법칙을 발견하고 판별 문제를 다뤄본다. 이 때 의사결정 트리 모델을 적용해 보고 정밀도를 판단해 보는 내용을 다루고 있다. 1. 데이터에서 법칙을 발견한다.  K, L, M씨 의 생존 상황을 예상해 보자. 아마도 조금만 고민하면 정답인지 모르더라도 나름의 규칙으로 답을 낼 수 있을 거라고 예상해 본다. 어떻게 생각했는가? 단순히 여객 클래스 -> 연령대 -> 성별 순서로 살펴 보았다. (타이타닉 영화를 본 경험이 있어 그 부분도 문제 풀이에 한 몫 했다) K씨는 1등 객실이라 생존했을 것으로 예상했다. L씨의 경우 어린이라서 생존, M씨는 3등 객실에 성인이라 사망했을 것으로 예상된다. 사실 어느정도 지식이 있는 상황이기.. 2024. 5. 9.