데이터 리터러시 #2
데이터 과학자의 가설 사고 2장을 읽고 정리해 본 내용이다.
2장에서는 데이터를 읽는 방법을 소개하고 있다.
EDA(Exploratory Data Analysis, 탐색적 데이터 분석) 과정을 의미하기도 한다.
도메인 -> 특징&경향 -> 세부내용 -> 관계 파악
목적 즉, 데이터의 도메인을 생각하고 특징과 경향(평균, 중간값, 분포 등)을 파악하고 세부내용(상이값, 이상값 등)을 살펴보고 데이터 사이의 관계(상관관계, 인과관계)에 대해서 살펴보는 과정이다.
1. 생각하면서 데이터를 읽자
데이터를 읽을 때에는 배경 즉, 데이터 도메인을 알아야 한다. 영화 판매 데이터를 본다고 할 때 영화의 lifecycle 을 전혀 모르고는 데이터를 정확히 파악하기 어렵다. (실제로 데이터 과학자들은 실생활 데이터를 볼 때 직/간접 경험을 많이 하려고 한다. 예를들면 야구팀 전력분석관은 실제로 선수 출신들이 많다.) 이처럼 어떤 관점(도메인 이해도)을 가지고 데이터를 보는가에 따라 달리 보이는 것이 데이터이다.
책에 나온 간단한 퀴즈이다. 데이터 배경, 경향, 목적을 알아야 한다고 이야기 하고 있다.
2. 전체의 경향을 파악하자
그렇다면 경향은 어떻게 파악할 수 있을까?
보통은 데이터의 대표값을 먼저 점검하게 된다.
- 평균 (mean) : (아래에서도 언급하겠지만 평균의 함정에 빠지지 말아야 한다)
- 최빈값(mode) : 데이터에서 가장 빈도가 높은 데이터
- 중앙값 (median): 매년 통계청에서 발표하는 가계 소득을 보면 평균값과 중위값은 차이가 난다. 즉 중산층을 이야기 할 때에는 평균값을 사용하면 안 된다.
SBS 드라마 스토브리그 대화중에 아래와 같은 대사가 나온다. (평균의 함정)
(백승수 단장)
1985년 노스캐롤라이나 대학교 지리학과 졸업생들 평균 초봉이 10만달러입니다.
그러니까 지금 환율기준으로 1억 천만원이 넘는거죠. 왜 그렇게 높은줄 아세요?
그 졸업생 중에 마이클 조던이 포함되 있기 때문입니다.
평균의 함정에 속지 마십시오. 이거 도대체 언제적 우승통계 얘기를 지금까지 하십니까?
데이터의 경향을 파악하기 위해서 많이 사용되는 히스토그램을 살펴 볼 수 있다.
책에서 17세의 신장 분포를 언급하고 있는데, 이 때 남/여 구분해서 파악해야 한다고 이야기하고 있다. 보통의 경우 남성이 신장이 좀 더 크기 때문에 함께 생각하면 안 된다는 의미이다. 즉, 데이터 배경이나 관측된 배경을 생각하면서 데이터를 읽는 습관을 들여야 한다.
야구의 경우 무더운 여름의 팀 성적이 최종 순위에 가깝다는 이야기를 하곤 한다. 야구는 보통 4월에 시작해 10월(또는 11월)에 끝난다. 6개월 가량 시즌을 진행하는데, (최근 여름이 길어진 느낌은 있으나) 보통 7~8월 순위가 그대로 이어지는 경향이 있다. (모두 그런 것은 아니다)
위 자료는 2023년 KBO 팀별 순위 변화이다. 변화무쌍 한 시즌 초를 지나 7~8월이 되면 변동폭이 확 줄이든다. 이는 여러가지 요인이 있지만 실제 야구를 알지 못한다면 이해하기 어려운 부분이기도 하다. 매년 비슷한 패턴을 보인다. 2023년에는 결국 LG가 우승했다. (참고로 2위를 차지한 KT는 6/4일까지 10위 꼴지였다.)
3. 데이터의 세부 내용을 확인하자
- 상이값: 다른 데이터와 비교하여 극단적으로 크거나 작은 데이터
- 이상값: 상이값 중 입력 실수나 측정 실수 등 값이 극단적인 원인/이유를 아는 경우
데이터 경향을 분석할 때에는 이런 값들을 적절히 제외하거나 다른 값으로 대체하여 판단해야 한다. 1985년 노스캐롤라이나 대학교 지리학과 졸업생 중 마이클 조던을 제외하고 평균을 체크하는 방식이 그 예가 될 수 있다. (스포츠에서 다이빙 종목이나 체조 같은 경우 점수를 평가할 때 최고/최저점수를 제외하고 평균을 계산한다.)
- 결측값: 데이터가 존재하지 않는 것
이 경우는 상황에 따라 복잡할 수 있다. 결측이 발생한 원인을 알아야 어떻게 대응할 수 있을지 결정할 수 있다. 아래 경우를 참고하자.
- 데이터 수집을 못한 경우
- 데이터가 중단된 경우 (수집을 못한 경우와 유사하나 실제로 데이터가 없는 경우에 해당)
- 데이터가 실제로 0인 경우
위 상황에서 해당 값을 무조건 0으로 처리할 순 없다. 특히 1번 케이스의 경우 0으로 처리할수도 제외하고 처리할수도 없을 것이다. 최대한 결측값이 없어야 좋겠지만 현실적으로 어려움이 많을 수 있고, 분석하는 입장에서는 수집에 관여하지 못하는 경우도 많기에 (결측이 발생한) 적절한 배경을 이해하고 처리해야 한다.
경험상 보통 0으로 처리하거나 제외하고 경향 파악 등 분석을 하지만 평균값으로 처리하는 경우도 있고, 일정 범위를 두고 랜덤하게 부여하는 경우도 존재한다. 정답은 없다. 여유가 된다면 모든 케이스를 체크해 보자.
4.데이터의 관계성을 파악하자
상관관계 vs 인과관계
위 산포도를 보면 기온과 아이스크림 지출, 기온과 맥주 지출은 어느 정도 상관이 있는 것으로 보인다. 기온 증가와 함께 금액도 증가했기 때문이다. (아이스크림의 경우 기온이 상승해서 함께 올랐을 것 같으나) 맥주의 경우는 기온이 올라서 지출 금액이 올랐을까? 다소 애매하다. 개인적으로는 전혀 인과관계가 없다고 볼 순 없다고 생각한다. 다만 아이스크림만큼은 아닐 것이다.
여기서 나온 인과관계는 한쪽은 원인이고 다른 한쪽은 결과인 경우를 의미한다. 사자성어에 오비이락(烏飛梨落) 이라는 말이 있다. "까마귀 날자 배 떨어진다" 는 의미이다. 까마귀와 배는 인과관계가 있을까? 정확히는 알 수 없으나 보통의 경우는 까마귀와 배는 인과관계가 성립하지 않을 것이다. 이처럼 데이터를 보다보면 상관관계와 인과관계를 명확히 구분하기는 상당히 어렵다. 데이터의 배경을 충분히 들여다 보고 알아야 두 가지를 혼돈하는 경우를 줄일 수 있다. 데이터 분석가라면 제일 경계해야 하는 개념들 중 하나이다.
1번은 인과관계가 성립
2번은 인과관계 불성립
3번은 기온 또는 계절이라는 공통 요인이 있는 것으로 보이나 직접적인 인과관계는 없음
데이터를 보게 될 때 상관관계가 있다/없다 뿐만 아니라 얼마나 상관이 있는지를 살펴보게 될 때 상관계수를 확인하게 된다. 양수인 경우 양의 상관관계를 음수인 경우 음의 상관관계를 의미한다.
숙박객 수와 매출 산포도를 보았을 때에는 상관관계가 없거나 낮은 것으로 보이나 데이터의 배경(비즈니스 호텔과 료칸을 분리)을 감안하여 보면 상관관계가 있는 것을 확인할 수 있다. 제일 위에서도 언급했지만 데이터 배경, 특징 등을 적절히 판단하고 구분해서 보아야 하는 경우도 있으므로 데이터는 다양한 시각으로 바라봐야 한다.