프로그래밍 기술/IT 이야기

[4차 산업, 빅데이터] 어떠한 기준으로 데이터를 수집해야 하는가?

언제나휴일 2018. 5. 9. 10:12
반응형

[4차 산업, 빅데이터] 어떠한 기준으로 데이터를 수집해야 하는가?



안녕하세요. 언제나 휴일, 언휴예요. 이번에는 어떠한 기준으로 데이터를 수집해야 하는지에 관하여 알아볼게요.


통계 데이터를 바탕으로 실질적인 이득을 얻을 수 있는 해결방법을 구하고자 한다면 단순한 집계에 머물지 말고 오차를 고려하고 p-value을 확인해야 한다고 앞에서 다루었어요.

 

그런데 단순한 집계도 "어떤 데이터를 수집하고 해석해야 하는가?"라는 근원적인 문제가 더 중요할 수 있습니다.

 "어떤 데이터를 수집하고 해석해야 하는가?"

수집할 데이터를 선정하는 가장 기본적인 원칙은 지향하는 목적을 달성한 것과 그렇지 않은 것의 차이에서 출발하는 것입니다. 예를 들어 교육 서비스를 하는 곳이라면 성적이 좋은 학생들과 그렇지 않은 학생들, 성적이 오른 학생들과 떨어진 학생들, 행복한 학생들과 그렇지 않은 학생들의 데이터를 비교하는 것입니다.

 

이러한 데이터를 선정하는 것은 회사처럼 목적이 명확한 집단일 때는 크게 어렵지 않습니다. 오히려 사회적 기업처럼 목적이 추상적인 집단일 때가 더 어렵습니다. 왜냐하면 회사에서는 지향하는 목적을 달성하기 위해 소비자가 많은 구매를 하는 것이라 볼 수 있습니다. 그런데 사회적 기업에서 지향하는 목적을 달성하기 위해서는 사람들이 보다 행복할 수 있게 하는 것이라 볼 수 있습니다. "소비자가 많은 구매를 하게 하는 것" VS "사람들을 보다 행복하게 하는 것"을 비교한다면 상대적으로 후자를 위한 것이 무엇인지 판단하는 것이 더 어렵다고 볼 수 있습니다.

 

어떠한 것이든 여러분은 수 많은 데이터 중에 지향하는 목적과 어떠한 관계성을 갖는지 알아내고 실질적인 이득을 얻을 수 있는 해결방법을 도출해야 할 것입니다. 여기서 키워드는 '지향하는 목적과 관계성을 갖는 데이터를 집계'하는 것에서 출발한다는 것입니다.

 

지향하는 목적과 관계성을 갖는 데이터를 집계하라.

 

데이터를 해석할 때 인과관계의 방향을 밝혀내지 못한다면 통계의 함정에 빠지기 쉽습니다. 예를 들어 범죄를 저지른 아이들 중에 PC나 스마트 폰으로 전투 게임을 하는 이가 많다는 통계를 얻었다고 하여 전투 게임을 하지 못하게 하면 범죄를 줄일 수 있다고 주장하는 것은 문제가 있습니다.

 

범죄를 저지른 아이들은 폭력적인 성향을 갖고 있어서 전투 게임을 좋아할 확률이 높은 것일 수도 있습니다.

 

보다 가치 있는 통계 데이터로 발전하려면 범죄를 저지른 아이들과 그렇지 않은 아이들의 지역, 가정 환경 등의 관련 있을 것이라 유추할 수 있는 데이터들을 조사하여 같은 조건을 갖는 상황에서 특정 인자가 어떠한 영향을 주었는지에 관한 관계성을 조사하는 것입니다.

 

이처럼 통계에서는 공정한 조건에서 데이터를 비교하여 연관성을 찾아야 한다는 것입니다. 공정한 조건을 만들기 위해서는 지향하는 목적에 관련 있다고 유추하는 여러 데이터를 수집하여 하나의 인자를 제외한 나머지 인자가 같게 합니다.


이제까지 나온 것을 정리하면 다음과 같습니다.

지향하는 목적에 관련이 있다고 유추할 수 있는 데이터를 선정하라.

공정한 조건 을 갖는 상황에서 데이터를 비교하라.

오차를 고려하라.

p - value를 확인하라.

 


반응형