[4차 산업, 빅데이터] 회귀분석, 일반화 선형모델 도구
안녕하세요. 언제나 휴일, 언휴예요.
회귀분석(regression analysis)은 관찰된 연속적인 두 변수 사이의 모형을 구한 뒤 적합도를 측정하는 방법입니다.
(참고: 위키백과 회귀분석)
회귀분석은 하나의 종속변수와 하나의 독립변수 사이의 관계를 분석하는 단순회귀분석과 하나의 종속변수와 여러 독립변수 사이의 관계를 규명하는 다중회귀분석이 있습니다.
다음은 회귀분석에서 자주 사용하는 기초 용어입니다.
회귀계수의 추정치 |
데이터에 근거하여 얻어낸 절편과 기울기는 '참값'을 추정한 결과 |
표준오차 |
추정치의 오차 크기를 판별하는 하나의 지표이다. 만약 추정치와 차이가 크면 신뢰성이 떨어진다고 볼 수 있다. |
95% 신뢰구간 |
100번의 서로 다른 조사를 했을 때 95번 정도 발생할 것으로 기대할 수 있는 구간이다. 일반적으로 거의 이 범위 내에 참값이 있다고 얘기하기 위해 사용한다. |
p value |
가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 관측될 확률이다. 0~1 사이의 값을 갖는다. 0에 가까울 수록 우연일 확률이 더 작아진다는 의미로 신뢰성이 높아진다. |
절편 |
x축과 만나는 x좌표 및 y축과 만나는 y좌표 |
t검정 |
t분포를 사용한 검정 방식이다. 모집단에서 추출한 표본에서 계산한 표본 평균이 실제 모평균과 같은지를 검정하는 방법 |
[표] 회귀분석 기초 용어
통계해석을 하는 방법은 매우 다양합니다. 그런데 각 도구를 사용방법을 안다고 하더라도 각 도구를 어떨 때 사용하는지 판별하지 못하면 단순히 문제를 잘 푸는 것에 그치고 실제 활용하지 못할 수 있습니다.
이에 일반화 선형모델 도구를 어떨 때 무엇을 하나의 표로 정리한 것이 있네요. 이 표는 "빅데이터를 지배하는 통계의 힘" 저서에 있는 내용을 발췌한 것입니다.
|
분석 축(설명 변수) |
||||
두 그룹 비교 |
다 그룹 비교 |
연속 값 크기 비교 |
복수 요인 동시 비교 |
||
반응변수 |
연속 값 |
평균값 차이 t검정 |
평균값 차이를 분산분석 |
회귀분석 |
다중회귀분석 |
있음/없음 등의 두 값 |
분할표의 기술과 카이제곱검정 |
로지스틱 회귀 |
참고로 현재 저는 이제 통계에 관심을 두고 학습을 시작한 상태이며 이에 나온 내용이 충분히 활용할 수 있는 수준이 아닙니다.
'프로그래밍 기술 > IT 이야기' 카테고리의 다른 글
[4차 산업, 빅데이터 - 통계 실무활용] 평균으로 생기는 오해 줄이기 (0) | 2018.05.16 |
---|---|
[4차 산업, 빅데이터 - 통계 실무활용] 인과관계 분석하기 (0) | 2018.05.16 |
[4차 산업, 빅데이터] 빈도론보다 효율성 높은 베이즈 확률 계산 (0) | 2018.05.14 |
[4차 산업, 빅데이터] 일반지능을 발견하는데 사용한 인자분석 (0) | 2018.05.10 |
[4차 산업, 빅데이터] 다중회귀분석과 로지스틱회귀분석 (0) | 2018.05.10 |
[4차 산업, 빅데이터] 임의화 비교실험을 못할 때 비교대조 분석(case control) (0) | 2018.05.09 |
[4차 산업, 빅데이터] 임의화 비교실험의 한계 (0) | 2018.05.09 |
[4차 산업, 빅데이터] 문제 해결 방법을 모르면 임의로 정해 놓고 실험하라. (0) | 2018.05.09 |
[4차 산업, 빅데이터] 어떠한 기준으로 데이터를 수집해야 하는가? (0) | 2018.05.09 |
[4차 산업, 빅데이터] A/B 테스트에 카이제곱검정과 p value를 더하다. (0) | 2018.05.08 |