프로그래밍 기술/IT 이야기

[4차 산업, 빅데이터] 쓸모있는 통계, 쓸모없는 통계

언제나휴일 2018. 5. 8. 11:39
반응형

[4차 산업, 빅데이터] 쓸모있는 통계, 쓸모없는 통계



안녕하세요. 언제나 휴일, 언휴예요. 이번에는 단순한 통계는 들어가는 비용보다 가치있는 정보를 얻을 수 없다는 주제를 가지로 얘기할게요.


"빅데이터를 지배하는 통계의 힘"에서는 단순한 집계만 하는 통계는 들어가는 비용에 따른 가치 있는 정보를 주지 못한다는 얘기를 합니다.

그리고 다음의 세 가지 질문에 "Yes"를 대답할 수 있을 때 실질적인 가치가 있는 통계이며 빅데이터라고 말하고 있습니다.

 

 어떤 요인을 변화시켜야 이익이 향상될까?

 그런 변화를 일으키는 행동이 실제로 가능한가?

 그에 따르는 비용이 이익을 상회할까?


단순 집계 정보만 보여주는 통계 그래프

[그림] 단순 집계 정보만 보여주는 통계 그래프


위 통계 그래프는 단순히 데이터를 집계한 후에 이를 그래프로 나타낸 것일 뿐입니다. 이를 통해 해야 할 것이 무엇인지 판단하고 해당 판단이 어떠한 변화를 주고 이득을 줄 것인지 알아내는 것은 매우 힘들 것입니다.

 

이처럼 단순한 집계를 통해 얻어낸 값을 보여주는 것은 집계에 들어가는 비용에 비해 실제 얻어내는 정보의 가치가 떨어진다고 말할 수 있습니다.

연령대와 성별에 따른 매출액을 보여주는 빅데이터 그래프

[그림] 연령대와 성별에 따른 매출액을 보여주는 빅데이터 그래프


위 통계 그래프는 단순 집계와 함께 빅데이터 분석을 통해 성별과 연령에 따른 매출액의 상관 관계를 보여주고 있습니다. 하지만 이러한 상관 관계를 이용하여 어떠한 액션을 취해야 하며 해당 액션을 취하는 데 들어가는 비용이 예상 이익보다 작은 지 알 수가 없습니다.

 

이처럼 지금에 와서 통계의 중요성과 빅데이터의 중요성을 얘기하고 있습니다. 하지만 단순한 집계만 하는 통계나 실제 의미 있는 액션을 만들지 않는 빅데이터는 큰 가치가 없다는 것을 알아야 할 것입니다. 왜냐하면 통계를 위해서는 집계 단계에서부터 비용이 들어가니까요.


앞으로 어떠한 통계 기법을 사용해야 의미가 있는 통계 결과를 도출할 수 있는지 같이 얘기해 보기로 해요.


반응형