[4차 산업, 빅데이터] 빈도론보다 효율성 높은 베이즈 확률 계산
안녕하세요. 언제나 휴일, 언휴예요.
확률을 가지고 예측할 때 빈도론과 베이지 확률 등이 있습니다.
먼저 빈도론은 발생할 빈도를 가지고 확률을 말합니다.
빈도론의 확률은 발생할 빈도
예를 들어 진짜 동전(앞면과 뒷면이 나올 확률이 1:1)과 가짜 동전(앞면과 뒷면이 나올 확률 4:1)이 있다고 가정합시다. 그리고 어느 하나의 동전을 선택하여 10번을 던지는 실험을 하였고 모두 앞면이 나왔다. 그렇다면 실험에 사용한 동전은 어떤 동전일까요?
이와 같은 질문에서 빈도론파는 진짜 동전은 연속으로 10번 앞면이 나올 확률은 1/1024이므로 대략 0.1%정도이므로 진짜 동전일 확률은 없다고 보아도 타당할 정도로 낮습니다. 그런데 가짜 동전은 연속으로 10번 앞면이 나올 확률은 (4X4X...X4)/(5X5X...5)이므로 대략 10.74%정도입니다. 이 정도라면 가짜 동전일 확률은 없다고 볼 정도로 낮지는 않습니다.
진짜 동전이 연속으로 10번 앞면이 나올 확률 = 1/1024 = 0.1%
가짜 동전이 연속으로 10번 앞면이 나올 확률 = (4X4X...X4)/(5X5X...5) = 10.74%
따라서 진짜 동전일 확률은 없다고 보는 것이 타당한 정도이고 가짜 동전일 확률은 없다고 보는 것이 타당한 정도가 아니므로 가짜 동전이라고 말할 수 있다는 것이 빈도론파의 결론일 것입니다.
베이즈파는 아무 정보도 없는 시점에서 기대할 수 있는 사전확률과 실제 실험에 의해 나오는 조건부확률을 이용하여 사후확률(사후확률=(사전확률X조건부확률)/[모든 경우의 (사전확률X조건부확률)]을 계산합니다. 그리고 사후확률을 가지고 판단합니다.
베이즈파의 확률은 사후확률
사후확률=(사전확률X조건부확률)/[모든 경우의 (사전확률X조건부확률)]
앞의 동전을 가지고 하는 실험을 예로 들어봅시다.
먼저 사전 확률은 두 개의 동전 중에 하나의 동전을 선택할 확률이므로 진짜 동전도 50%이고 가짜 동전도 50%입니다.
그리고 조건부확률인 연속으로 10번 앞면이 나올 확률은 진짜 동전은 0.10%, 가짜 동전은 10.74%입니다.
따라서 사후 확률을 계산하기 위해 먼저 진짜 동전과 가짜 동전의 사전 확률X조건부확률을 계산합니다.
50%X0.10% = 0.05%
50%X10.74%=5.37%
이제 진짜 동전과 가짜 동전일 사후 확률을 계산합시다.
진짜 동전의 사후 확률 = 0.05% X (0.05% + 5.37%) = 0.92%
가짜 동전의 사후 확률 = 5.37% X (0.05% + 5.37%) = 99.08%
따라서 베이즈파는 진짜 동전일 확률은 1% 미만이며 가짜 동전일 확률은 99%라고 말할 것입니다. 여전히 결론적으로 가짜 동전이라고 말하겠지만 보다 효율성을 높다고 얘기할 수 있겠죠.
'프로그래밍 기술 > IT 이야기' 카테고리의 다른 글
[4차 산업, 빅데이터 - 통계 실무활용] 평균으로 생기는 오해 줄이기 (0) | 2018.05.16 |
---|---|
[4차 산업, 빅데이터 - 통계 실무활용] 인과관계 분석하기 (0) | 2018.05.16 |
[4차 산업, 빅데이터] 일반지능을 발견하는데 사용한 인자분석 (0) | 2018.05.10 |
[4차 산업, 빅데이터] 다중회귀분석과 로지스틱회귀분석 (0) | 2018.05.10 |
[4차 산업, 빅데이터] 회귀분석, 일반화 선형모델 도구 (0) | 2018.05.10 |
[4차 산업, 빅데이터] 임의화 비교실험을 못할 때 비교대조 분석(case control) (0) | 2018.05.09 |
[4차 산업, 빅데이터] 임의화 비교실험의 한계 (0) | 2018.05.09 |
[4차 산업, 빅데이터] 문제 해결 방법을 모르면 임의로 정해 놓고 실험하라. (0) | 2018.05.09 |
[4차 산업, 빅데이터] 어떠한 기준으로 데이터를 수집해야 하는가? (0) | 2018.05.09 |
[4차 산업, 빅데이터] A/B 테스트에 카이제곱검정과 p value를 더하다. (0) | 2018.05.08 |