프로그래밍 기술/IT 이야기

[4차 산업, 빅데이터 - 통계 실무활용] 평균으로 생기는 오해 줄이기

언제나휴일 2018. 5. 16. 16:50
반응형

[4차 산업, 빅데이터 - 통계 실무활용] 평균으로 생기는 오해 줄이기



 안녕하세요. 언제나 휴일, 언휴예요.

 

 대푯값은 데이터 전체를 파악하기 위한 값으로 가장 많이 사용하는 것이 평균이다. 하지만 평균은 많은 오해를 가져오고 있습니다. 예를 들어 ㄱ 회사의 평균 연봉이 6000만원이라고 하였을 때 보통 6000만원은 받는 것으로 생각할 수 있습니다. 하지만 2000만원을 받는 직원이 52500만원을 받는 직원이 7, 3000만원을 받는 직원이 19, 3500만원을 받는 직원이 11, 4500만원을 받는 직원이 6, 16000만원을 받는 임원이 9, 22000만원을 받는 임원이 3명이라고 한다면 6000만원보다 적게 받는 인원이 48명이고 6000만원보다 많게 받는 인원이 12명입니다.

연봉(만원)

2000

2500

3000

3500

4500

16000

22000

합계

인원

5

7

19

11

6

9

3

60

합계

10000

17500

57000

38500

27000

144000

66000

360000

 

 따라서 평균 연봉이 6000만원이라고 한다고 일반적으로 평균 연봉이 6000만원이라고 생각하는 것은 현상 파악을 잘못하는 것이라고 말할 수 있습니다.

 

 이처럼 평균은 중요한 대푯값이긴 하지만 현상 파악하기에는 부족한 면이 많습니다. 이러한 이유로 중앙값(median, 중간값)이나 최빈값(mode)도 같이 표현하여 보다 정확하게 현상 파악할 수 있게 제공하라고 합니다.

 

세 가지 주요 대푯값 - 평균, 중앙값, 최빈값

 

 위 예에서 중앙값은 60명의 연봉을 크기 순으로 나열하였을 때 가운데 오는 값입니다. 60개의 데이터에서 가운데는 30번째와 31번째의 중간이므로 두 개의 데이터를 합한 후에 평균을 낸 값이 중간값입니다. 위 예에서는 30번째와 31번째 모두 3000만원이므로 중앙값은 3000만원입니다.

 

 그리고 최빈값은 빈도(돗수)가 가장 많은 3000만원입니다.

대푯값 (평균, 중앙값, 최빈값)

[그림] 대푯값





반응형