프로그래밍 기술/IT 이야기

[4차 산업, 빅데이터] 다중회귀분석과 로지스틱회귀분석

언제나휴일 2018. 5. 10. 11:26
반응형

[4차 산업, 빅데이터] 다중회귀분석과 로지스틱회귀분석



안녕하세요. 언제나 휴일, 언휴예요.


다중회귀분석(Multiple linear regression analysis)은 예측하고 싶은 결과에 영향을 주는 인자가 여러 개 있는 상황으로 확장시킨 회귀 분석입니다. , 종속변수를 설명하는 독립변수가 2개 이상일 때 이들의 관련성을 알고 이를 반영하는 방정식(Y = B0 + B1X1 + B2X2 + B3X3 ... + BnXn)을 구할 때 사용합니다. (참고: cbgSTAT )

 

그리고 로지스틱회귀분석(logistic regression analysis)은 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측할 때 사용하는 통계 기법입니다. (참고: )

 

이러한 다중회귀분석과 로지스틱 회귀분석은 공정한 비교를 하기 위해서 사용하는 방법입니다.

 

공정한 비교를 하지 못하게 하여 잘못된 판단을 할 수 있게 하는 예로 심슨의 패러독스가 있습니다. 다음은 심슨의 패러독스에 나오는 세 가지 문항에 따른 질문입니다.

1. A고등학교와 B고등학교의 같은 학년 학생에게 같은 모의고사를 보게 하였다.

2. 남학생끼리 비교하니 A고등학교의 평균점수가 B고등학교보다 5점 높다.

3. 여학생끼리 비교하니 A고등학교의 평균점수가 B고등학교보다 5점 높다.

그렇다면 전체학생을 비교하면 어떠한 결과가 나올까요?

 

직관적으로 생각하면 A고등학교의 평균점수가 B고등학교보다 5점 높다고 생각할 수 있을 것입니다. 하지만 반드시 그렇다고 볼 수 없습니다.

 

 

A고등학교

B고등학교

남학생

인원수

100

80

평균점수

80

75

여학생

인원수

110

70

평균점수

78

73

총원

인원수

210

150

평균점수

78.95

74.06

 

이처럼 소속 집단 사이의 비교 결과와 전체 집단의 비교 결과는 서로 모순이 발생할 수 있다는 것이 심슨의 패러독스입니다.

 

이러한 모순을 줄이기 위한 방법의 하나로 다양한 인자를 같게 만들어 층별해석이 있습니다. 하지만 층별해석을 위해서는 수집해야 하는 표본 수가 많아야 합니다.

 

그런데 다중회귀분석은 이러한 층별해석을 하지 않아도 공정성을 잃지 않는다는 장점이 있습니다. 위 예에서 여학생의 평균이 전체 평균에 미치는 영향이 어느 정도인지 추정하면 층별해석 없이도 공정한 분석을 할 수 있다는 것입니다.

 

이러한 다중회귀분석은 반응변수가 연속 값일 때에 사용하는 방법입니다. 만약 이러한 연속 값이 아닐 때 의도적으로 연속 값으로 변환하여 다중회귀분석하는 것을 로지스틱회귀분석이라고 말합니다.

 

예를 들어 남학생을 0, 여학생을 1로 수치화하여 연속 값으로 표현하는 것이죠.


참고문헌: 빅데이터를 지배하는 통계의 힘

반응형