반응형

프로그래밍 기술/IT 이야기 23

[4차 산업, 빅데이터 - 통계 실무활용] 평균으로 생기는 오해 줄이기

[4차 산업, 빅데이터 - 통계 실무활용] 평균으로 생기는 오해 줄이기 안녕하세요. 언제나 휴일, 언휴예요. 대푯값은 데이터 전체를 파악하기 위한 값으로 가장 많이 사용하는 것이 평균이다. 하지만 평균은 많은 오해를 가져오고 있습니다. 예를 들어 ㄱ 회사의 평균 연봉이 6000만원이라고 하였을 때 보통 6000만원은 받는 것으로 생각할 수 있습니다. 하지만 2000만원을 받는 직원이 5명 2500만원을 받는 직원이 7명, 3000만원을 받는 직원이 19명, 3500만원을 받는 직원이 11명, 4500만원을 받는 직원이 6명, 1억 6000만원을 받는 임원이 9명, 2억 2000만원을 받는 임원이 3명이라고 한다면 6000만원보다 적게 받는 인원이 48명이고 6000만원보다 많게 받는 인원이 12명입니다.

[4차 산업, 빅데이터 - 통계 실무활용] 인과관계 분석하기

[4차 산업, 빅데이터 - 통계 실무활용] 인과관계 분석하기 안녕하세요. 언제나 휴일, 언휴예요. 이번 글부터는 4차 산업의 기반 기술인 빅데이터를 지배하기 위한 통계를 실무에서 활용하는 것에 관하여 하나 하나 살펴볼 거예요. 제일 먼저 데이터를 단순 집계하는 것을 넘어서기 위한 지혜에 관해서 다룰 것입니다. 주요 참고 서적: "빅데이터를 지배하는 통계의 힘 - 실무활용 편" 데이터를 단순 집계하는 수준의 통계만 사용하던 수준에서 한 단계 끌어올려 인과관계를 분석할 수 있고자 한다면 다음 세 가지 지혜를 갖추어야 할 것입니다. ① 평균과 비율 등 통계 지표이 본질적인 의미를 이해하기② 데이터를 점이 아닌 구간으로 이해하기③ '무슨 값을 어떻게 정리해야 하는지' 알기 참고 문헌: 빅데이터를 지배하는 통계의..

[4차 산업, 빅데이터] 빈도론보다 효율성 높은 베이즈 확률 계산

[4차 산업, 빅데이터] 빈도론보다 효율성 높은 베이즈 확률 계산 안녕하세요. 언제나 휴일, 언휴예요. 확률을 가지고 예측할 때 빈도론과 베이지 확률 등이 있습니다. 먼저 빈도론은 발생할 빈도를 가지고 확률을 말합니다.빈도론의 확률은 발생할 빈도 예를 들어 진짜 동전(앞면과 뒷면이 나올 확률이 1:1)과 가짜 동전(앞면과 뒷면이 나올 확률 4:1)이 있다고 가정합시다. 그리고 어느 하나의 동전을 선택하여 10번을 던지는 실험을 하였고 모두 앞면이 나왔다. 그렇다면 실험에 사용한 동전은 어떤 동전일까요? 이와 같은 질문에서 빈도론파는 진짜 동전은 연속으로 10번 앞면이 나올 확률은 1/1024이므로 대략 0.1%정도이므로 진짜 동전일 확률은 없다고 보아도 타당할 정도로 낮습니다. 그런데 가짜 동전은 연속으..

[4차 산업, 빅데이터] 일반지능을 발견하는데 사용한 인자분석

[4차 산업, 빅데이터] 일반지능을 발견하는데 사용한 인자분석IQ 검사처럼 추상적인 지표를 측정하기 위해서도 통계기법을 사용합니다. 일반지능을 발견한 스피어먼은 여러 가지 지능 측정 방식 중 몇 가지를 선택하여 '지능을 나타내는 지표'간의 상관을 분석했어요. 상관이란 '한쪽 값이 클 때 다른 쪽 값도 큰가/한쪽 값이 작을 때 다른 쪽 값도 작은가'하는 관련성의 정도이다. 스피어먼은 다각적인 연구를 거친 후 서로 다른 지능의 측면은 일정 부분 상관되어 있다는 것을 발견했습니다. 그리고 여러 지표에 일정한 단위를 매겨 서로 합성하면 모든 지표와 잘 상관하는 합성 변수를 만들 수 있다는 사실도 발견했어요. 그리고 수많은 항목을 개별적으로 생각하는 것 보다 잠재적인 지능을 나타내는 (측정한 가능한 인자로부터 추..

[4차 산업, 빅데이터] 다중회귀분석과 로지스틱회귀분석

[4차 산업, 빅데이터] 다중회귀분석과 로지스틱회귀분석 안녕하세요. 언제나 휴일, 언휴예요. 다중회귀분석(Multiple linear regression analysis)은 예측하고 싶은 결과에 영향을 주는 인자가 여러 개 있는 상황으로 확장시킨 회귀 분석입니다. 즉, 종속변수를 설명하는 독립변수가 2개 이상일 때 이들의 관련성을 알고 이를 반영하는 방정식(Y = B0 + B1X1 + B2X2 + B3X3 ... + BnXn)을 구할 때 사용합니다. (참고: cbgSTAT 통계분석 생존지침서) 그리고 로지스틱회귀분석(logistic regression analysis)은 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측할 때 사용하는 통계 기법입니다. (참고: 위키백과 로지스틱 회귀) 이러한 ..

[4차 산업, 빅데이터] 회귀분석, 일반화 선형모델 도구

[4차 산업, 빅데이터] 회귀분석, 일반화 선형모델 도구 안녕하세요. 언제나 휴일, 언휴예요. 회귀분석(regression analysis)은 관찰된 연속적인 두 변수 사이의 모형을 구한 뒤 적합도를 측정하는 방법입니다.(참고: 위키백과 회귀분석) 회귀분석은 하나의 종속변수와 하나의 독립변수 사이의 관계를 분석하는 단순회귀분석과 하나의 종속변수와 여러 독립변수 사이의 관계를 규명하는 다중회귀분석이 있습니다. 다음은 회귀분석에서 자주 사용하는 기초 용어입니다. 회귀계수의 추정치 데이터에 근거하여 얻어낸 절편과 기울기는 '참값'을 추정한 결과 표준오차 추정치의 오차 크기를 판별하는 하나의 지표이다. 만약 추정치와 차이가 크면 신뢰성이 떨어진다고 볼 수 있다. 95% 신뢰구간 100번의 서로 다른 조사를 했을..

[4차 산업, 빅데이터] 임의화 비교실험을 못할 때 비교대조 분석(case control)

[4차 산업, 빅데이터] 임의화 비교실험을 못할 때 비교대조 분석(case control) 안녕하세요. 언제나 휴일, 언휴예요. 이전 글에서 얘기했듯이 임의화 비교실험은 현실, 윤리, 감정의 벽에 부딪혀 실험할 수 없거나 혹은 하지 말아야 할 때가 있습니다. 이처럼 임의화 비교실험을 할 수 없는 상황일 때 비슷한 방법으로 '비교대조 분석(case control)'이 있습니다. 비교대조 분석은 임의화 비교실험처럼 랜덤한 조사를 하는 것은 아니지만 특정 인자가 영향을 미치는 정도를 분석하기 위해 같은 부류에 속하는 어떤 사물들 사이의 유사점이나 차이점을 밝혀내는 방법을 말합니다. 이러한 비교대조 분석이 보다 실험적 가치를 지니기 위해서는 층별 해석을 가미하세요. 층별 해석은 조건을 같게 만든 후에 조사하는 ..

[4차 산업, 빅데이터] 임의화 비교실험의 한계

[4차 산업, 빅데이터] 임의화 비교실험의 한계 안녕하세요. 언제나 휴일, 언휴예요. 이번에는 임의화 비교실험의 한계를 알아볼게요. 이전 게시글에서 주어진 문제를 해결할 방법이 없을 때 임의화 비교실험은 적은 비용의 최소 위험부담을 통해 실수를 줄일 수 있다고 하였습니다. 하지만 임의화 비교실험은 언제나 가능한 것도 아니며 가능하더라도 해서는 알 될 때도 있습니다. 먼저 실험 자체를 하는 것이 현실적으로 가능하지 않을 때가 있습니다. 예를 들어 "누구와 결혼을 할 것인가?"와 같은 문제에서 임의화 비교실험을 위해 실험적으로 결혼을 하는 것은 현실적으로 가능하지 않습니다. 이처럼 실험 자체를 여러 번 하기 힘든 상황에서는 임의화 비교실험은 무기력합니다. 그리고 데이터가 몇 개 없을 때에도 임의화 비교실험은..

[4차 산업, 빅데이터] 문제 해결 방법을 모르면 임의로 정해 놓고 실험하라.

[4차 산업, 빅데이터] 문제 해결 방법을 모르면 임의로 정해 놓고 실험하라. 안녕하세요. 언제나 휴일, 언휴예요. 이번에는 임의화 비교 실험에 관한 얘기를 해 볼게요. 통계실험에 많이 사용하는 방법에는 임의화 비교실험이 있습니다. 이는 무작위의 여러 개의 실험을 하여 비교하는 것을 말합니다. 이러한 임의화 비교실험은 일부러 바보같은 실수를 실험하거나 쓸 데 없는 것처럼 보일 수도 있지만 실제로는 적은 비용과 의도적인 위험부담을 갖는 실험으로 실수를 줄일 수 있습니다. 여기에서는 이게 관한 두 개의 에피소드를 소개할게요. ("빅데이터를 지배하는 통계의 힘" 참고) 조앤패브릭 사는 "재봉틀 두 대를 사면 10%를 할인"하는 이벤트를 진행합니다. 재봉틀은 한 집에 여러 개가 있을 이유가 거의 없다고 볼 수 ..

[4차 산업, 빅데이터] 어떠한 기준으로 데이터를 수집해야 하는가?

[4차 산업, 빅데이터] 어떠한 기준으로 데이터를 수집해야 하는가? 안녕하세요. 언제나 휴일, 언휴예요. 이번에는 어떠한 기준으로 데이터를 수집해야 하는지에 관하여 알아볼게요. 통계 데이터를 바탕으로 실질적인 이득을 얻을 수 있는 해결방법을 구하고자 한다면 단순한 집계에 머물지 말고 오차를 고려하고 p-value을 확인해야 한다고 앞에서 다루었어요. 그런데 단순한 집계도 "어떤 데이터를 수집하고 해석해야 하는가?"라는 근원적인 문제가 더 중요할 수 있습니다. "어떤 데이터를 수집하고 해석해야 하는가?" 수집할 데이터를 선정하는 가장 기본적인 원칙은 지향하는 목적을 달성한 것과 그렇지 않은 것의 차이에서 출발하는 것입니다. 예를 들어 교육 서비스를 하는 곳이라면 성적이 좋은 학생들과 그렇지 않은 학생들, ..

반응형