[4차 산업, 빅데이터] 임의화 비교실험을 못할 때 비교대조 분석(case control)
안녕하세요. 언제나 휴일, 언휴예요.
이전 글에서 얘기했듯이 임의화 비교실험은 현실, 윤리, 감정의 벽에 부딪혀 실험할 수 없거나 혹은 하지 말아야 할 때가 있습니다.
이처럼 임의화 비교실험을 할 수 없는 상황일 때 비슷한 방법으로 '비교대조 분석(case control)'이 있습니다.
비교대조 분석은 임의화 비교실험처럼 랜덤한 조사를 하는 것은 아니지만 특정 인자가 영향을 미치는 정도를 분석하기 위해 같은 부류에 속하는 어떤 사물들 사이의 유사점이나 차이점을 밝혀내는 방법을 말합니다.
이러한 비교대조 분석이 보다 실험적 가치를 지니기 위해서는 층별 해석을 가미하세요. 층별 해석은 조건을 같게 만든 후에 조사하는 것을 말합니다.
따라서 가치 있는 비교대조 분석을 원한다면 가능한 범위에서 다른 인자들을 같게 만들어 같은 조건에서 조사한 후에 비교하시길 바랍니다. 결국 층별 해석을 통해 공정한 비교를 하라는 것이죠.
대표적인 '비교 대조분석연구'에는 1948년~1952년에 1500여명의 폐암 환자들을 성별과 연령, 거주 지역 등으로 나누어 같은 조건을 갖는 폐암 이외의 질병으로 입원한 환자들에게 조사하였습니다. 조사한 내용은 흡연자와 비흡연자의 비율을 분석한 것인데 카이제곱검정을 하면 p-value가 남자는 0.1 미만, 여자는 1%미만이어서 유의미한 결과라고 할 수 있습니다.
|
흡연자 |
비흡연자 |
|||
인원 수 |
비율 |
인원 수 |
비율 |
||
남성 |
폐암환자 |
1350 |
99.50% |
7 |
0.50% |
비폐암환자 |
1296 |
95.50% |
61 |
4.50% |
|
여성 |
폐암환자 |
68 |
63.00% |
40 |
37.00% |
비폐암환자 |
49 |
45.40% |
59 |
54.60% |
*참고: 빅데이터를 지배하는 통계의 힘
'프로그래밍 기술 > IT 이야기' 카테고리의 다른 글
[4차 산업, 빅데이터 - 통계 실무활용] 인과관계 분석하기 (0) | 2018.05.16 |
---|---|
[4차 산업, 빅데이터] 빈도론보다 효율성 높은 베이즈 확률 계산 (0) | 2018.05.14 |
[4차 산업, 빅데이터] 일반지능을 발견하는데 사용한 인자분석 (0) | 2018.05.10 |
[4차 산업, 빅데이터] 다중회귀분석과 로지스틱회귀분석 (0) | 2018.05.10 |
[4차 산업, 빅데이터] 회귀분석, 일반화 선형모델 도구 (0) | 2018.05.10 |
[4차 산업, 빅데이터] 임의화 비교실험의 한계 (0) | 2018.05.09 |
[4차 산업, 빅데이터] 문제 해결 방법을 모르면 임의로 정해 놓고 실험하라. (0) | 2018.05.09 |
[4차 산업, 빅데이터] 어떠한 기준으로 데이터를 수집해야 하는가? (0) | 2018.05.09 |
[4차 산업, 빅데이터] A/B 테스트에 카이제곱검정과 p value를 더하다. (0) | 2018.05.08 |
[4차 산업, 빅데이터] 쓸모 없는 통계, 쓸모 있는 통계 - 2 (0) | 2018.05.08 |