> 통계조사 / 분석 > 회귀분석
 
단순
회귀분석
다중
회귀분석
로지스틱
회귀분석
최적회귀방정식
선택법
회귀모형의
진단 및 처방
< 목 차 >
1. 회귀분석의 기본개념
2. 단순회귀모형
3. 최소제곱법
4. 분산분석표의 작성 및 결과해석
1. 회귀분석(Regression)의 기본개념
1) 정의
주어진 자료를 통하여 변수(사회현상이나 자연현상)간의 함수관계를 밝히고 이 함수관계를 이용하여 독립변수값에 대응되는 종속변수의 값을 『예측』 또는 『설명』하는 분석 방법이다.
2) 기능과 용도
(1) 기술도구
- 회귀식 추정 및 추정된 회귀식의 정확도 평가
- 특정 독립변수의 종속변수에 대한 독립적 영향력 측정
- 변수들간의 복잡한 인과관계 메카니즘 파악
(2) 추리도구
- 모수추정 및 신뢰구간 추정
- 모집단에 관한 가설검증
3) 회귀분석의 변수 구분
① 독립변수(independent variable)
- 다른 변수에 영향을 주는 변수
- 원인변수, 설명변수, 예측변수라고도 함.
② 종속변수(dependent variable)
- 다른 변수의 영향을 받는 변수
- 반응변수, 결과변수라고도 함.
4) 회귀분석의 사용 사례
- 사람의 라이프 스타일과 수명과의 함수관계를 밝혀 이들 사이의 관계 연구
- 제조환경과 생산성과의 함수관계를 밝혀 이들 사이의 관계 연구
- 신제품 개발시의 시장규모 예측
- 관광지 개발시 수요예측
- 고객만족도에 영향을 미치는 각종 변수들의 영향력 검증 등
5) 회귀분석의 종류
① 단순회귀분석(simple regression)
- 독립변수가 하나일 때, 독립변수와 종속변수간의 선형관계에 관한 분석
② 다중회귀분석(multiple regression)
- 종속변수에 영향을 미치는 변수가 여러개 일 때, 이들 독립변수들과 종속변수간의 선형관계에 관한 분석
2. 단순회귀모형(simple regression model)
기울기 b는 x가 1단위 변할 때 y가 변하는 양을 나타내고 a는 y절편으로 함수식 y=a+bx가 y축을 끊는 값이다.

y = a + bx + εi
3. 최소제곱법(Method of Least Squares)
회귀직선식 y=a+bx를 구하기 위해서는 실제 관찰치 와 회귀식에 의한 추정치 의 차이인 오차의 제곱을 전부 더한 오차제곱합 S를 최소화해주는 방법인 최소제곱법이란 방법으로 기울기 β와 y절편 α를 구하게 된다.

최소제곱추정량(Least Squares Estimates)


● 추정회귀직선 :

< 예1 >
최근 공해, 음식물등의 유해성분, 흡연등으로 대부분의 임산부들은 아기가 태어나서 눈으로 확인할 때까지 혹시나 기형은 아닌가, 미숙아는 아닌가 걱정을 한다. 임신중에 매월 정기검진에서 안전하고 정확한 초음파를 이용하여 태아의 머리와 흉곽을 측정함으로써 태아의 성장을 가장 간단하고 확실하게 확인할 수 있다. 특히 분만예정일을 모르는 경우 태아의 두정골 간격과 태아 체중에 의해 분만예정일을 예측할 수 있는 것이다. 이때 쓰이는 공식이 지금까지 누적된 자료에 의한 모형으로부터의 예측인 것이다. 임신기간에 따른 초음파로 측정된 태아의 두개골 크기측정치 자료인데 눈으로 보아도 임신기간이 늘어날 수록 크기가 커지는 것을 알 수 있다.

① 산점도를 작성하여 두변수 즉 임신기간과 태아의 크기간 양의 높을 상관관계임을 확인할 수 있다.
② 이 자료를 가지고 를 계산하여 기울기 추정치 를 구했더니 0.29였다.
③ 절편 추정치는 -1.45여서 회귀직선식은 y=-1.45+0.29x로 구해진다. 여기서 중요한 기울기 0.29의 의미는 임신기간이 1주 늘어날 때 태아의 머리가 2.9mm씩 커진다고 해석할 수 있고 임신 마지막 주인 x=40일 때의 y값을 구해보면 10.15cm임을 예측할 수 있다.

< 예2 >
어떤 한 기종의 승용차값이 연도가 지남에 따라 그 값이 얼마나 떨어지는 가를 보기 위하여 이 승용차에 대한 중고차 판매가격을 조사했다. 막연히 주인이 깨끗이 쓰던 안쓰던 사용기간이 긴 차일수록 판매가격은 떨어질 것으로 생각할 수 있다.

① 산점도를 작성해보면 사용년도와 가격이 거의 직선에 가깝게 음의 상관관계를 갖는것을 알 수 있다.
② 실제 상관계수를 구해보면 -1에 가까운 -0.989임을 알 수 있다. 그러면 이 자료를 가지고 회귀식을 구해 보자.

으로 부터 기울기 이고
절편 a=4.04이다
즉 앞의 산점도 위에 구한 ⓑ 회귀직선 y=4.04-0.48x를 그을 수 있고, 이 식에 의해 1년을 더 쓰면 48만원씩값이 떨어진다고 해석할 수 있다. 그리고 3.8년 된 차는 x에 3.8을 대입하여, y=4.04-0.48×3.8=0.76으로76만원의 차값을 받을 수 있다고 예측할 수 있다.
4. 분산분석표의 작성 및 결과 해석
1) 회귀분석에서의 분산분석의 의미
추정회귀식의 적합도를 측정하는 방법으로 결정계수와 회귀식에 의한 추정값의 표준오차(SEE)를 사용할 수 있다. 그러나 이 지표들은 구해진 회귀식의 통계적 유의도 수준을 직접 판단하는 기준으로는 사용하기 어렵다는 제약을 지닌다. 가령 이들 지표가 얼마 이상의 값을 나타내면 추정된 회귀식에 통계적 의미를 부여할 수 있다는 식으로 활용하기는 어렵다.

추정된 회귀식에 대한 통계적 의미의 부여는 회귀모형에 포함된 독립변수와 종속변수 사이에 직선의 관계가 성립하지 않는다는 영가설을 부정하는 방식으로 이루어진다. 여기서 영가설은 모집단의 수준에서 결정계수가 0, 즉 이라는 의미이다. 물론 이 영가설은 독립변수가 하나(단순회귀분석)인 경우, 모회귀모형에서 기울기인 β가 0의 값을 지닌다는 뜻도 된다.

이 영가설 는 분산분석(ANOVA)표를 작성하여 F비의 값을 구하는 방법으로 검증할 수 있다. 이것이 바로 회귀분석에서 분산분석표가 가지는 의미이자 역할이다.
2) 분산분석표의 사용방법
● 귀무가설
● 검정통계량
● 기각역 이면 기각하고, 대립가설을 채택함.

→ 대립가설을 채택되는 경우의 의미 : 회귀직선의 기울기 이 0 이 아니므로 회귀직선이 유의하다는 것을 나타냄

Source(요인) SS(제곱합) df(자유도) MS(평균제곱)
Regression(회귀) SSR 1 MSR=SSR/1 MSP/MSE
Error(잔차) SSE n-2 MSE=SSE/n-2
Total SST n-1

< 분산분석표에서 얻은 결과 >
● 결정계수(Coefficient of Determination) : 총변동 중 회귀선에 의한 변동이 기여하는 비율로 회귀선의 자료에 대한 설명력을 측정하는 통계량으로 독립변수가 하나인 단순회귀에서는 상관계수와 일치한다.

< 결정계수의 성질 >
-
- 인 경우 : 모든 관측점들이 회귀선상에 위치하는 경우로서 SSE=0 일 때 성립함
- 이 클수록 유용한 회귀선
- 즉, 결정계수는 총변동을 설명하는데 있어서 회귀선에 의하여 설명되는 변동이 기여하는 비율을 의미하므로 회귀선의 기여율이라고도 함
- 상관계수와 결정계수와의 관계
→ 단순회귀모형인 경우 결정계수 은 두변수간의 상관계수 r 의 제곱과 같아짐

< 분석 사례 > 의류광고 비용과 판매량의 자료를 가지고
① 작성된 회귀직선식 분산분석표에 의한 결과가 다음과 같다.

=383.8 로

③ F(1.8.0.05)의 5.32보다 크므로 적합된 회귀직선식은 유의한 직선이라고 결론짓고 또한 유의확률(P-value)이 0.001로도 같은 결론을 내린다.

④ 결정계수 을 구해보니 0.95로 선전 비용의로 판매량의 95%를 설명할 수 있다는 것이다. 지금까지 관련된 두 변수의 관계를 나타내는 회귀식중 가장 기본이 되는 직선회귀식을 찾아보고 그 해석방법, 유의성 검정, 변수의 설명력을 나타내는 결정계수의 산출과 해석 등을 살펴보았다.
회귀분석에서도 회귀식의 적합으로 그칠것이 아니라 이 회귀식의 유의성 검정과 함께 조사되지 않은 시점의 예측에 이 회귀분석의 결과를 이용할 때 더욱 분석의 의의가 있을 것이다.