BigData/Data Science

데이터 리터러시 #6

Tomining 2024. 5. 11. 13:48
데이터 과학자의 가설 사고 6장을 읽고 정리해 본 내용이다.

 

 5장까지 데이터를 배경을 보고 분류하고 패턴/경향을 파악하여 의사결정트리를 만들어 예측을 해 봤다면 6장에서는 판별문제가 아닌 수치 예측을 다루고 있다.

 

1. 수치 데이터의 관계성을 확인하자.

1, 3, 5, 7, ?

 

 물음표에는 어떤 숫자가 들어올까? (아마도 어렵지 않을 것이다.) 정답은 9이다. 단순히 2씩 증가하는 등차수열이다. 꼭 등차/등비가 아닌 수식을 기반한 패턴을 가질 수도 있다. 이처럼 수치의 패턴을 파악할 때 앞/뒤 관계성을 잘 파악해야 한다. 하지만 주어진 데이터로부터는 관계성을 찾는 것이 어려울 수도 있다. (아래 그림 참고) 센서 X값이 0~3까지는 거의 유사하나 4부터 점점 벌어지더니 엄청난 차이를 보이고 있다. 만약 주어진 데이터가 0~3까지만 있다면? 3개 그래프 중 어떤 관계성을 갖는지 확인할 수 있을까? (어렵다.)

 

2. 내삽과 외삽에 주의하자.

 

 캔 맥주를 155엔에 팔았을 때 얼마나 팔렸을 지 예측할 수 있는가? 주어진 데이터를 기반으로 650개로 예측을 해 볼 수도 있겠으나 사실은 알 수 없다. 낮아진 가격만큼 사재기를 위해 엄청 판매될 수 있고, 오히려 너무 싸다고 판단되어 판매가 위축될 수도 있다. 이처럼 주어진 데이터 범위 밖에 데이터를 외삽이라고 한다. (당연히 범위 안은 내삽)

 예를들어 보면 아래 문제처럼 강수량이 없을 때 하천수위를 예측할 수 있을까? (- 0.5m 로 예상하는 사람은 없을 것이다)

 

3. 데이터의 치우침에 주의하자.

 

 관계성을 파악하고 적용할 때 데이터의 치우침(편향)에 주의해야 한다. 위 캡쳐를 보고 D단지 3번가 지점의 매출을 예측해 볼 수 있나? (개인적으로는 520/500으로 예측했다.) A, B, C 빌딩점은 오피스 빌딩이었고 D지점은 주택단지 였을 가능성이 크다. 오피스 빌딩의 경우 근무 요일인 평일은 매출이 높으나 주말은 상대적으로 낮아지는 반면 주택 단지에서는 꾸준한 수요가 있는 곳이기 때문이다. 이처럼 배경을 잘 알아야 함은 물론이고 주어진 데이터(A, B, C, D)에서 치우침이 없는지 항상 주의해야 한다. 이를 배제하고 데이터 관계성을 기반으로 예측한다면 오차가 커 질 가능성으 아주 높다.

 

4. 시간 변화에 주목하자.

 시계열 데이터에는 같은 주기로 변화를 반복하는 주기성이 보여진다. 이를 트렌드라고 한다. 우리나라에서 강수량 그래프를 보면 우기(장마철)에 강수량이 높아졌다가 그 외에는 낮아진다. (오피스) 건물의 사용 전력량의 경우도 근무시간에는 높다가 퇴근 이 후에는 낮게 유지된다. 이처럼 시간 또는 날짜, 시기에 따라 보여지는 주기나 트렌드를 예측에 활용할 수 있다.

 (주식의 경우 아주 다양한 변수들이 많지만) 차트의 주기나 트렌드를 보고 투자를 하는 기법도 있다. 주식은 대표적인 시계열 데이터이다.

 

5. 데이터를 보고 예측하자.

 

 책 5장에서도 예측 연습을 해 본 것처럼 동일하게 적용해 볼 수 있다. 위에서 언급한 외삽 주의, 치우침, 시간변화 등을 고려해서 연습해보자.

  1. 데이터 항목을 확인하고, 대략적인 가설을 세워보자.
  2. 데이터를 관찰하고, 비정형 데이터가 없는지 확인하자.
  3. 수치 데이터의 관계성을 찾아내자.
  4. 수치 데이터에서 찾아낸 관계성을 적용해 예측하자.

 

 식비가 가장 양의 상관관계를 보여주고 있다. 계산을 해 보진 않았지만 (책에서는 0.99라고 한다) 거의 선형적으로 증가함을 볼 수 있다. 이를 기반으로 세대 수입을 예측해 보면 될 것이다. (대략 P > R > Q 순으로 세대 수입이 예측될 것 같다.)

 

 7장의 경우 대부분 업무에서 경험할 수 있는 사례들을 소개하는 수준이라 별도로 정리하지 않을 예정이다. 개인별로 처해 있는 상황이 다르고 특정 도메인에 특화된 데이터는 모르는 입장에서는 이해가 어려울 수도 있다. 데이터는 배경(즉, 도메인)이 5할 이상이라고 개인적으로 생각한다. 분석에 관심이 있다면 데이터에 대한 이해도를 높이기 위한 노력도 병행해야 한다. 개인적으로 야구 데이터에 관심이 많아 KBO 데이터나 야구 시청, 관람 등 꾸준히 하고 있다.