[4차 산업, 빅데이터] 쓸모있는 통계, 쓸모없는 통계
안녕하세요. 언제나 휴일, 언휴예요. 이번에는 단순한 통계는 들어가는 비용보다 가치있는 정보를 얻을 수 없다는 주제를 가지로 얘기할게요.
"빅데이터를 지배하는 통계의 힘"에서는 단순한 집계만 하는 통계는 들어가는 비용에 따른 가치 있는 정보를 주지 못한다는 얘기를 합니다.
그리고 다음의 세 가지 질문에 "Yes"를 대답할 수 있을 때 실질적인 가치가 있는 통계이며 빅데이터라고 말하고 있습니다.
어떤 요인을 변화시켜야 이익이 향상될까?
그런 변화를 일으키는 행동이 실제로 가능한가?
그에 따르는 비용이 이익을 상회할까?
[그림] 단순 집계 정보만 보여주는 통계 그래프
위 통계 그래프는 단순히 데이터를 집계한 후에 이를 그래프로 나타낸 것일 뿐입니다. 이를 통해 해야 할 것이 무엇인지 판단하고 해당 판단이 어떠한 변화를 주고 이득을 줄 것인지 알아내는 것은 매우 힘들 것입니다.
이처럼 단순한 집계를 통해 얻어낸 값을 보여주는 것은 집계에 들어가는 비용에 비해 실제 얻어내는 정보의 가치가 떨어진다고 말할 수 있습니다.
[그림] 연령대와 성별에 따른 매출액을 보여주는 빅데이터 그래프
위 통계 그래프는 단순 집계와 함께 빅데이터 분석을 통해 성별과 연령에 따른 매출액의 상관 관계를 보여주고 있습니다. 하지만 이러한 상관 관계를 이용하여 어떠한 액션을 취해야 하며 해당 액션을 취하는 데 들어가는 비용이 예상 이익보다 작은 지 알 수가 없습니다.
이처럼 지금에 와서 통계의 중요성과 빅데이터의 중요성을 얘기하고 있습니다. 하지만 단순한 집계만 하는 통계나 실제 의미 있는 액션을 만들지 않는 빅데이터는 큰 가치가 없다는 것을 알아야 할 것입니다. 왜냐하면 통계를 위해서는 집계 단계에서부터 비용이 들어가니까요.
앞으로 어떠한 통계 기법을 사용해야 의미가 있는 통계 결과를 도출할 수 있는지 같이 얘기해 보기로 해요.
'프로그래밍 기술 > IT 이야기' 카테고리의 다른 글
[4차 산업, 빅데이터] 임의화 비교실험의 한계 (0) | 2018.05.09 |
---|---|
[4차 산업, 빅데이터] 문제 해결 방법을 모르면 임의로 정해 놓고 실험하라. (0) | 2018.05.09 |
[4차 산업, 빅데이터] 어떠한 기준으로 데이터를 수집해야 하는가? (0) | 2018.05.09 |
[4차 산업, 빅데이터] A/B 테스트에 카이제곱검정과 p value를 더하다. (0) | 2018.05.08 |
[4차 산업, 빅데이터] 쓸모 없는 통계, 쓸모 있는 통계 - 2 (0) | 2018.05.08 |
[4차 산업, 빅데이터] 표본 조사 결과와 표준오차 (0) | 2018.05.08 |
[4차 산업] 빅데이터 관련 전문용어 7가지 (0) | 2018.05.08 |
[4차 산업, 빅데이터] 질병의 역학조사, 통계가 답이다. (0) | 2018.05.08 |
통계와 IT 만남, 빅데이터를 빛내다. (0) | 2018.05.04 |
[가트너] 2018년에는 어떠한 기술이 주도할까? 10대 전략 기술 트렌드 (0) | 2018.03.19 |