[4차 산업, 빅데이터 - 통계 실무활용] 평균으로 생기는 오해 줄이기
안녕하세요. 언제나 휴일, 언휴예요.
대푯값은 데이터 전체를 파악하기 위한 값으로 가장 많이 사용하는 것이 평균이다. 하지만 평균은 많은 오해를 가져오고 있습니다. 예를 들어 ㄱ 회사의 평균 연봉이 6000만원이라고 하였을 때 보통 6000만원은 받는 것으로 생각할 수 있습니다. 하지만 2000만원을 받는 직원이 5명 2500만원을 받는 직원이 7명, 3000만원을 받는 직원이 19명, 3500만원을 받는 직원이 11명, 4500만원을 받는 직원이 6명, 1억 6000만원을 받는 임원이 9명, 2억 2000만원을 받는 임원이 3명이라고 한다면 6000만원보다 적게 받는 인원이 48명이고 6000만원보다 많게 받는 인원이 12명입니다.
연봉(만원) |
2000 |
2500 |
3000 |
3500 |
4500 |
16000 |
22000 |
합계 |
인원 |
5 |
7 |
19 |
11 |
6 |
9 |
3 |
60 |
합계 |
10000 |
17500 |
57000 |
38500 |
27000 |
144000 |
66000 |
360000 |
따라서 평균 연봉이 6000만원이라고 한다고 일반적으로 평균 연봉이 6000만원이라고 생각하는 것은 현상 파악을 잘못하는 것이라고 말할 수 있습니다.
이처럼 평균은 중요한 대푯값이긴 하지만 현상 파악하기에는 부족한 면이 많습니다. 이러한 이유로 중앙값(median, 중간값)이나 최빈값(mode)도 같이 표현하여 보다 정확하게 현상 파악할 수 있게 제공하라고 합니다.
세 가지 주요 대푯값 - 평균, 중앙값, 최빈값
위 예에서 중앙값은 60명의 연봉을 크기 순으로 나열하였을 때 가운데 오는 값입니다. 60개의 데이터에서 가운데는 30번째와 31번째의 중간이므로 두 개의 데이터를 합한 후에 평균을 낸 값이 중간값입니다. 위 예에서는 30번째와 31번째 모두 3000만원이므로 중앙값은 3000만원입니다.
그리고 최빈값은 빈도(돗수)가 가장 많은 3000만원입니다.
[그림] 대푯값
'프로그래밍 기술 > IT 이야기' 카테고리의 다른 글
[4차 산업, 빅데이터 - 통계 실무활용] 인과관계 분석하기 (0) | 2018.05.16 |
---|---|
[4차 산업, 빅데이터] 빈도론보다 효율성 높은 베이즈 확률 계산 (0) | 2018.05.14 |
[4차 산업, 빅데이터] 일반지능을 발견하는데 사용한 인자분석 (0) | 2018.05.10 |
[4차 산업, 빅데이터] 다중회귀분석과 로지스틱회귀분석 (0) | 2018.05.10 |
[4차 산업, 빅데이터] 회귀분석, 일반화 선형모델 도구 (0) | 2018.05.10 |
[4차 산업, 빅데이터] 임의화 비교실험을 못할 때 비교대조 분석(case control) (0) | 2018.05.09 |
[4차 산업, 빅데이터] 임의화 비교실험의 한계 (0) | 2018.05.09 |
[4차 산업, 빅데이터] 문제 해결 방법을 모르면 임의로 정해 놓고 실험하라. (0) | 2018.05.09 |
[4차 산업, 빅데이터] 어떠한 기준으로 데이터를 수집해야 하는가? (0) | 2018.05.09 |
[4차 산업, 빅데이터] A/B 테스트에 카이제곱검정과 p value를 더하다. (0) | 2018.05.08 |