[4차 산업, 빅데이터 - 통계 실무활용] 인과관계 분석하기
안녕하세요. 언제나 휴일, 언휴예요.
이번 글부터는 4차 산업의 기반 기술인 빅데이터를 지배하기 위한 통계를 실무에서 활용하는 것에 관하여 하나 하나 살펴볼 거예요. 제일 먼저 데이터를 단순 집계하는 것을 넘어서기 위한 지혜에 관해서 다룰 것입니다.
데이터를 단순 집계하는 수준의 통계만 사용하던 수준에서 한 단계 끌어올려 인과관계를 분석할 수 있고자 한다면 다음 세 가지 지혜를 갖추어야 할 것입니다.
① 평균과 비율 등 통계 지표이 본질적인 의미를 이해하기
② 데이터를 점이 아닌 구간으로 이해하기
③ '무슨 값을 어떻게 정리해야 하는지' 알기
참고 문헌: 빅데이터를 지배하는 통계의 힘 - 실무활용편
① 평균과 비율 등 통계 지표이 본질적인 의미를 이해하기
평균은 변수의 양적인 통계이며 비율은 변수의 질적인 통계입니다. 나이, 몸무게, 키처럼 변수의 값이 연속적인 선 상에 있을 때 평균을 많이 사용하며 성별, 혈액형처럼 변수의 값이 분류를 위한 값일 때 비율을 많이 사용합니다.
이러한 이유로 평균과 비율을 서로 다른 통계 방식으로 생각하기 쉽습니다. 하지만 평균과 비율은 같은 방식입니다.
예를 들어, 100명의 설문에서 성별을 입력할 때 여성은 0, 남성은 1을 선택하라고 하였고 60명이 1을 선택했다고 가정합니다. 이 때 선택한 전체 값의 합은 60이며 평균은 0.6입니다. 이는 남성과 여성의 성비가 6:4이며 남성 비율이 60%라는 것과 완벽하게 일치합니다.
*참고로 데이터의 값의 종류가 0과 1만 가질 수 있을 때 '이항변수'라고 부릅니다.
② 데이터를 점이 아닌 구간으로 이해하기
그런데 "평균이 0.6", "남성 비율이 60%"와 같은 말은 데이터를 점으로 표현한 것입니다. 이처럼 점으로 표현하는 것은 중요하게 생각할 수 있는 기준 데이터를 제공하기는 하지만 중요한 많은 정보를 놓칠 수 있습니다.
예를 들어, 데이터의 값이 0, 1, 2, 3, 4, 290일 때의 평균은 50입니다. 그리고 1,2,3,...,96,97,98,99일 때의 평균도 50입니다. 이 두 가지 사례에서 단순히 평균이 50이라는 정보만 제공한다면 둘은 같습니다. 하지만 앞쪽은 0에서 4사이의 값을 갖는 데이터가 대부분입니다. 하지만 1부터 99까지 모든 구간에 데이터가 골고루 나누어져 있습니다. 이처럼 점으로 표현하는 것보다 구간으로 표현하면 보다 많은 정보를 제공할 수 있습니다.
③ '무슨 값을 어떻게 정리해야 하는지' 알기
그리고 제시한 통계를 통해 결론을 도출해야 합니다. 평균 값을 제시하고 구간 분포를 제시하는 것을 결론으로 만족하는 것은 보여주기 식 통계일 뿐입니다. 실제 효과적으로 통계를 사용하려면 어떠한 원인에 의해 어떠한 결과를 도출하는지 인과관계를 파악할 수 있어야 합니다.
인과관계를 파악하는 것도 무엇과 무엇의 인과관계를 파악할 것인지 잘 선정해야 합니다. 실질적인 이득을 얻기 원한다면 "궁극적으로 원하는 결과"가 무엇인지 파악하시기 바랍니다. 이를 성과 지표(outcome)이라고 부릅니다. 성과 지표가 무엇인지 파악하였다면 어떠한 데이터가 성과 지표와 인과관계가 있는지 분석합니다. 이 때 성과지표와 인과관계에 있는 변수를 설명변수(explanatory variable)이라고 부릅니다.
비지니스에서 성과 지표를 찾는 것은 그리 어려운 일이 아닙니다. 대부분 매출, 수익을 증대하는 것이 성과 지표일 것이기 때문입니다. 그리고 설명 변수는 매출이나 수익에 영향을 주는 것입니다. 따라서 설명 변수가 이미 뻔하게 알 수 있는 것이면 의미가 없습니다. 그리고 설명 변수의 값을 조절할 수 없다면 이 또한 의미가 없습니다. 실제 의미가 강하기 위해서는 현재까지 해당 설명 변수와의 인과 관계를 생각해 본 적이 없거나 분석한 적이 별로 없어야 할 것입니다.
'프로그래밍 기술 > IT 이야기' 카테고리의 다른 글
[4차 산업, 빅데이터 - 통계 실무활용] 평균으로 생기는 오해 줄이기 (0) | 2018.05.16 |
---|---|
[4차 산업, 빅데이터] 빈도론보다 효율성 높은 베이즈 확률 계산 (0) | 2018.05.14 |
[4차 산업, 빅데이터] 일반지능을 발견하는데 사용한 인자분석 (0) | 2018.05.10 |
[4차 산업, 빅데이터] 다중회귀분석과 로지스틱회귀분석 (0) | 2018.05.10 |
[4차 산업, 빅데이터] 회귀분석, 일반화 선형모델 도구 (0) | 2018.05.10 |
[4차 산업, 빅데이터] 임의화 비교실험을 못할 때 비교대조 분석(case control) (0) | 2018.05.09 |
[4차 산업, 빅데이터] 임의화 비교실험의 한계 (0) | 2018.05.09 |
[4차 산업, 빅데이터] 문제 해결 방법을 모르면 임의로 정해 놓고 실험하라. (0) | 2018.05.09 |
[4차 산업, 빅데이터] 어떠한 기준으로 데이터를 수집해야 하는가? (0) | 2018.05.09 |
[4차 산업, 빅데이터] A/B 테스트에 카이제곱검정과 p value를 더하다. (0) | 2018.05.08 |