프로그래밍 기술/IT 이야기

[4차 산업, 빅데이터] 회귀분석, 일반화 선형모델 도구

언제나휴일 2018. 5. 10. 10:19
반응형

[4차 산업, 빅데이터] 회귀분석, 일반화 선형모델 도구



안녕하세요. 언제나 휴일, 언휴예요.

 

회귀분석(regression analysis)은 관찰된 연속적인 두 변수 사이의 모형을 구한 뒤 적합도를 측정하는 방법입니다.

(참고: 위키백과 회귀분석)

 

회귀분석은 하나의 종속변수와 하나의 독립변수 사이의 관계를 분석하는 단순회귀분석과 하나의 종속변수와 여러 독립변수 사이의 관계를 규명하는 다중회귀분석이 있습니다.

 

다음은 회귀분석에서 자주 사용하는 기초 용어입니다.

회귀계수의 추정치

데이터에 근거하여 얻어낸 절편과 기울기는 '참값'을 추정한 결과

표준오차

추정치의 오차 크기를 판별하는 하나의 지표이다. 만약 추정치와 차이가 크면 신뢰성이 떨어진다고 볼 수 있다.

95% 신뢰구간

100번의 서로 다른 조사를 했을 때 95번 정도 발생할 것으로 기대할 수 있는 구간이다. 일반적으로 거의 이 범위 내에 참값이 있다고 얘기하기 위해 사용한다.

p value

가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 관측될 확률이다. 0~1 사이의 값을 갖는다. 0에 가까울 수록 우연일 확률이 더 작아진다는 의미로 신뢰성이 높아진다.

절편

x축과 만나는 x좌표 및 y축과 만나는 y좌표

t검정

t분포를 사용한 검정 방식이다. 모집단에서 추출한 표본에서 계산한 표본 평균이 실제 모평균과 같은지를 검정하는 방법

[표] 회귀분석 기초 용어


 

통계해석을 하는 방법은 매우 다양합니다. 그런데 각 도구를 사용방법을 안다고 하더라도 각 도구를 어떨 때 사용하는지 판별하지 못하면 단순히 문제를 잘 푸는 것에 그치고 실제 활용하지 못할 수 있습니다.

 

이에 일반화 선형모델 도구를 어떨 때 무엇을 하나의 표로 정리한 것이 있네요. 이 표는 "빅데이터를 지배하는 통계의 힘" 저서에 있는 내용을 발췌한 것입니다.

 

 

분석 축(설명 변수)

두 그룹 비교

다 그룹 비교

연속 값

크기 비교

복수 요인

동시 비교

반응변수

연속 값

평균값 차이

t검정

평균값 차이를 분산분석

회귀분석

다중회귀분석

있음/없음

등의 두 값

분할표의 기술과

카이제곱검정

로지스틱 회귀

 

참고로 현재 저는 이제 통계에 관심을 두고 학습을 시작한 상태이며 이에 나온 내용이 충분히 활용할 수 있는 수준이 아닙니다.

 


반응형