> 통계조사 / 분석 > 상관분석
 
상관분석
정준상관분석
   
< 목 차 >
1. 상관분석 이란?
2. 산점도
3. 상관계수
4. 상관계수의 성질
5. 상관계수의 유의성 검정
6. 상관분석의 사례
1. 상관분석(Correlation Analysis)이란?
→ 쌍으로 관찰된 두 변수 X, Y 간의 관련성을 분석하는 것
< 분석절차>
① 눈으로 변수관계를 확인하는 산점도의 작성
② 하나의 수치로 변수간의 직선관계를 나타내는 회귀계수를 구한다.
③ 회귀식의 적합을 통하여 두 변수간의 관계를 함수로 찾는 것
④ 회귀식의 유용성을 평가한다. 
상관분석은 우리가 현실에서 접하게 되는 자료의 유형에 여러모로 유용하게 쓰이는 분석방법으로 일반적으로는 회귀분석을 실시하기 전에 실시하는 중요한 분석과정이다.

상관분석의 대상이 될 수 있는 예로는 시험의 "중간고사 점수"와 "학기말고사 점수"로 기본적으로 중간고사 성적이 높으면 학기말고사 점수도 높으리라고 생각되지만 어떤 경우는 관계가 없거나 약한 경우도 있는것으로 성적분석의 연구결과로 나타났다.

야구선수의 홈런수에 따른 연봉액수, 라면의 선전비용과 판매량, 우리나라 GNP와 자동차 보유대수, 사탕에 첨가된 꿀의 함량에 따른 사탕맛의 점수 등이 그 대상이 될 수 있다.

이와 같이 관련이 있어 보이는 두 변수의 자료를 가지고 우선 산점도(scatter diagram)를 그려봄으로써 그 관련성을 눈으로 파악할 수 있다.
관련있는 두 변수를 다음과 같이 정의한다.
▶ 독립변수(Independent Variable), 설명변수 : 특성치 또는 반응변수를 설명해주고 영향을 주는 변수
▶ 종속변수(Dependent Variable), 반응변수 : 독립변수의 영향을 받는 예측의 대상이 되는 변수
2. 산점도(Scatter Diagram)
두 변수 X, Y의 관측치()를 좌표평면상에 점으로 나타낸 그림

<예> 사탕에 비싼 꿀을 얼마나 넣느냐에 따라 사탕의 맛을 점수로 측정한 자료를 산점도로 나타내면 꿀을 많이 넣으면 맛이 좋다고 평가되는 것을 읽을 수 있다.
산점도를 작성함으로 그치는 것이 아니라 작성된 산점도를 가지고 자료의 특징 구조등을 파악할 수 있어야 하는데 다음과 같은 유형기준으로 살펴보면 쉽게 그 특징을 파악할 수 있다.
① 아버지의 키와 아들의 키를 짝지워서 조사하여 산점도를 작성할 수 있다. 이 산점도에서 처럼 아버지의 키가 크면 아들의 키도 크고 작으면 같이 작아지는 경향 즉 데이터의 점들이 오른쪽으로 올라가는 양의 방향일 때 양(+)의 상관이라고 해석한다.


② 음(-)의 상관을 갖는 즉 왼쪽 위에서 오른쪽 아래로 경향을 나타내는 부시험점수의 산점도를 그릴 수 있다. 즉 10시간에 가까울수록 수면 시간이 늘어날수록, 성적이 반대로 나쁘더라고 수면시간과 성적간의 관련성을 설명 할 수 있다.



③ 다음은 두 변수가 관계가 없는 무상관의 예로 친정어머니의 키와 시어머니의 키를 조사하여 산점도를 작성해 보면 어떤 경향성을 찾기 어려운 펑퍼짐한 산점도가 작성이 됩니다.



④ 여러분 중 일란성 쌍동이가 주위에 있다면 서로 신체적면 행동이 측면까지 비슷한 것을 볼 수 있을 것입니다. 일란성 쌍동이의 키를 X, Y축에 각각 잡고 산점도를 작성하면 거의 직선에 가깝게 점들이 위치한 산점도를 작성할 수 있는데 만일 이점들이 완벽하게 직선상에 있다면 이 경우를 절대상관이라고 한다.



⑤ 곡선관계를 나타내는 산점도로 1평방미터 당 옥수수 포기수를 몇 포기 심느냐에 따라 수확량이 달라진다고 하여 여러 경우를 실험하여 얻은(X, Y) 자료로 산점도를 작성한 결과 다음과 같은 곡선관계의 산점도를 얻게 된다. 즉, 중심점까지는 포기수가 많을수록 수확량이 증가하는 양의 상관인데 그 점을 지나 더 많은 포기수를 심으면 옥수수 나무끼리 경쟁이 되서 인지 수확량이 점차 줄어드는 음의 상관을 나타내어 전체적으로는 곡선 관계를 보여준다.

3. 상관계수(Correlation Coefficient)
두 변수의 관계를 하나의 수치로 나타낸 척도로 주로 r로 나타내면 이 상관계수 r은 크기로써 상관의 강도로 상관의 방향을 나타내준다. 표현 기호는 모집단에 대한 상관계수는 ρ로 표본상관계수는 r로 나타내준다. 이 표본상관계수를 계산하는 식은 조금은 복잡해 보이는 다음 식에 의한다.
로 분산을 구할 때 관찰치




② 와 평균의 차의 제곱합을

③ y에 대한 것을 로 하여 분모에 들어가고

④ 분자는 x와y의 편차를 서고 곱하여 합한 가 들어 간다.


각각 계산시에는 식물 전개한 식으로 계산하는 것이 더 편하다.


<예> 우리가 매일 쓰는 로션을 가격과 판매량을 조사하여 정리한 자료가 다음과 같다. 막연히 비싸면 잘 안사겠다는 화장품 코너의 주인 생각을 이 자료가 뒤집어주고 있는 것이다.

① 산점도를 그려보면 수치에서 보는 것과 같이 급격한 양의 상관관계를 즉, 비쌀수록 매우 많이 팔리는 경향을 읽을 수 있다.


② 상관계수를 구하기 위한 기본계산으로 x, y 의 제곱합 ,, x, y로 서로 곱해서 더한 를 구하면 이 값들을 대입하여 r을 구하면 0.823이란 상관계수를 얻게 된다.
4. 상관계수의 성질
① -1 ≤ r ≤ 1
② r > 0 : 양의 상관관계(점들의 분포가 기울기가 양수이어서 오른쪽 위로 올라가는 직선의 경향을 갖게 되고 1에 가까울 수록 직선경향에 조밀하게 분포한다.)
<예> 아버지와 아들의 키 r < 0 : 음의 상관관계(점들이 왼쪽 위에서 오른쪽 아래로 내려오는 직선의 경향을 따른다.)
<예> 자동차 사용기간과 중고차 가격 r = 0 : 무상관관계(점들이 어떤 경향이 없이 펑퍼짐한 경우로 이때는 두변수의 관련성이 희박하다고 생각할 수 있다. 즉, 직선관계가 약한 것이다.)
③  x → ax+b, y → cy+d 로 변환되고 a,c의 부호가 같으면 r값은 변하지 않는다.
④ 변수들간의 직선관계를 나타내는 측도일 뿐, r = 0 이 둘간의 관계없음을 의미하진 않음
⑤ 단위에 무관한 측도이다.
⑥ 상관관계는 원인과 결과의 관계(인과관계)가 아니다.
⑦ 이 값은 이상치(out lier)에 크게 영향을 받는다.
⑧ 상관계수의 부호와 단순회귀직선에서의 기울기 부호는 같다.
5. 상관계수의 유의성 검정
● 가설

● 검정통계량

● 기각 역  ( 양측검정)  (단측검정)이면 를 기각한다.

<예> 최근 우리나라의 GNP는 $에 달하고 있는데 10년전 $일때에 비해 GNP의 성장이 급격히 늘어났음을 알 수 있다. 또한 10년 전에는 가구당 1대꼴이던 자동차가 최근에는 가구당 1대로 여기에도 큰 변화가 있었음을 알 수 있다. 즉, GNP가 점차 성장함에 따라 자동차수도 점차로 늘어났다고 생각할 수 있다. 이러한 생각으로 최근 16년 간의 GNP수치와 자동차대수를 자료로
① GNP와 자동차수가 관련성이 있는가 즉 ρ=0 아닌 어떤 값을 갖는가를 다음 가설과 함께 검정해 보고자 하는것이다.

② 다음의 기본 계산치들을 구했다. 즉, x를 GNP y를 자동차수로 놓고

의 값을 기본계산으로 구했다.

③ 이 값들을 r구하는 공식에 넣어 r=0.975임을 계산했다. 이 값은 1에 매우 가까운 값으로 산점도가 거의 직선 관계에 이르는 것을 생각할 수 있다.

④ 이 r값과 표본의 크기 n을 대입하여 검정통계량 이고 이 계산된 검정통계량 의 기각치를

⑤ 자유도 n-2=16 과 α=0.05 이므로 통계서적의 뒤에 나오는 부표에서 찾으면 라는 값을 얻을 수 있다.

⑥ 계산된 이 기각치 보다 크므로 귀무가설 를 기각하여 GNP와
자동차 대수간에는 0이 아닌 유의한 상관관계가 있다고 결론짓는다.
6. 상관분석의 사례
1) 먼저 둘 간의 시각적인 관계파악을 위해 산점도를 그린다.
    산점도란? x-y좌표평면위에 (x,y) 관측값들을 해당위치에 그려낸 그림.

2) 실제 상관계수값을 구해본다. 

사례1) 광고가 판매량에 미치는 관계를 알아보기 위해 비슷한 여건하에 있는 많은 상점들 중에서 랜덤하게 30개의 상점을 표본으로 추출하여 연간 광고료와 총판매량을 조사한 결과 다음과 같이 나타났다. 광고료와 총판매액간의 산점도를 그리고, 상관계수를 구하여 보자.

상점번호 광고료
(100만 원)
총판매액
(1000원)
상점번호 광고료
(100만 원)
총판매액
(1000원)
1 4 9 16 14 32
2 8 20 17 8 16
3 9 22 18 6 12
4 8 15 19 9 25
5 8 17 20 7 17
6 12 30 21 11 30
7 6 18 22 6 14
8 10 25 23 13 40
9 6 10 24 2 8
10 9 20 25 3 8
11 15 40 26 8 20
12 10 31 27 10 22
13 5 12 28 13 34
14 7 19 29 8 28
15 11 25 30 16 38
1) 산점도를 그린다.



2) 상관계수값을 구한다.
     r = 0.93617 : 양의 상관관계,
          1에 가까우므로 직선경향이 강함을 알 수 있다.