본문 바로가기

데이터 리터러시6

데이터 리터러시 #6 데이터 과학자의 가설 사고 6장을 읽고 정리해 본 내용이다.  5장까지 데이터를 배경을 보고 분류하고 패턴/경향을 파악하여 의사결정트리를 만들어 예측을 해 봤다면 6장에서는 판별문제가 아닌 수치 예측을 다루고 있다. 1. 수치 데이터의 관계성을 확인하자.1, 3, 5, 7, ?  물음표에는 어떤 숫자가 들어올까? (아마도 어렵지 않을 것이다.) 정답은 9이다. 단순히 2씩 증가하는 등차수열이다. 꼭 등차/등비가 아닌 수식을 기반한 패턴을 가질 수도 있다. 이처럼 수치의 패턴을 파악할 때 앞/뒤 관계성을 잘 파악해야 한다. 하지만 주어진 데이터로부터는 관계성을 찾는 것이 어려울 수도 있다. (아래 그림 참고) 센서 X값이 0~3까지는 거의 유사하나 4부터 점점 벌어지더니 엄청난 차이를 보이고 있다. 만약 .. 2024. 5. 11.
데이터 리터러시 #5 데이터 과학자의 가설 사고 5장을 읽고 정리해 본 내용이다.  5장에서는 데이터에서 법칙을 발견하고 판별 문제를 다뤄본다. 이 때 의사결정 트리 모델을 적용해 보고 정밀도를 판단해 보는 내용을 다루고 있다. 1. 데이터에서 법칙을 발견한다.  K, L, M씨 의 생존 상황을 예상해 보자. 아마도 조금만 고민하면 정답인지 모르더라도 나름의 규칙으로 답을 낼 수 있을 거라고 예상해 본다. 어떻게 생각했는가? 단순히 여객 클래스 -> 연령대 -> 성별 순서로 살펴 보았다. (타이타닉 영화를 본 경험이 있어 그 부분도 문제 풀이에 한 몫 했다) K씨는 1등 객실이라 생존했을 것으로 예상했다. L씨의 경우 어린이라서 생존, M씨는 3등 객실에 성인이라 사망했을 것으로 예상된다. 사실 어느정도 지식이 있는 상황이기.. 2024. 5. 9.
데이터 리터러시 #4 데이터 과학자의 가설 사고 4장을 읽고 정리해 본 내용이다.  3장에서 데이터 비교는 Apple to Apple 처럼 비슷한 분류의 데이터 사이에 이뤄져야 한다고 언급했다. 그렇다면 비슷한 데이터들끼리 분류가 필요하다. 4장에서는 데이터를 어떻게 분류하고 그룹핑하는지 소개하고 있다.특징이 비슷한 데이터로 그룹을 만드는 방법목적에 따라 데이터를 분류하는 일의 중요성데이터를 기계적으로 분류하는 방법데이터를 분류하는 순서특징이 비슷한 데이터를 그룹화하자.  어느 카페에서 커피와 디저트 주문 횟수를 시각화 한 사례이다. 대략 손님을 그룹핑하면 우측 그림처럼 될 것이다. (책에는 3가지 선택지를 가진 퀴즈로 소개하는데, 간단한 부분이라 생략하고 정답만 소개한다) 그룹1, 2, 3으로 나눠진 기준은 무엇일까?그룹1.. 2024. 4. 27.
데이터 리터러시 #3 데이터 과학자의 가설 사고 3장을 읽고 정리해 본 내용이다.  3장에서는 데이터를 설명하는 방법에 대해서 소개를 한다. 데이터 설명을 위해서 수치를 시각화하고 비교하는 연습이 필요하다. 시각화 데이터를 시각화 하는 방법은 너무나도 다양하다. 시각화 영역만을 다루는 업무가 있을 정도로 전문적인 영역이며, 데이터 패턴, 특징, 경향을 파악하는데에도 큰 도움을 줄 뿐만 아니라 데이터를 보는 사람에게 강력한 첫인상을 남기기도 하고 때로는 심각한 편향을 일으키기도 한다.  (책에서 소개하고 있는) 막대 그래프, 꺽은선 그래프, 산포도, 원 그래프는 시각화를 잘 모르는 사람들도 주변에서 많이 보았을 것이다. 아주 기본적인 그래프라서 따로 설명하지 않으려고 한다. (궁금한 사람은 구글에 검색만 해 봐도 많은 이미지들.. 2024. 4. 25.