> 통계조사 / 분석 > 통계분석 이해
 
통계분석 이해
통계적 가설검정
가설검정 사례
 
< 목 차 >
1. 통계학이란?
2. 표와 그래프에 의한 자료의 정리
3. 자료의 수치에 의한 정리
1. 통계학이란?
관심대상에 대한 관련자료를 수집하고 그 자료를 요약 정리하여 이로부터 불확실한 사실에 대한 결론이나 일반적인 규칙성을 추구하는 학문
(1) 통계학의 역할과 목적
수집된 자료의 효과적 표현, 정보산출, 자료의 올바른 해석, 연구결과 얻어진 현상에 대한 유용한 결론유도 등이다.
1) 자료에 대한 설명
2) 자료의 수집
3) 자료로부터 결론유도
(2) 통계학의 연구분야
1) 기술통계
자료가 수집된 후, 자료를 요약하고 정리하여 자료의 특징을 파악하고 설명하는 통계분야
2) 추측통계
관심의 대상전체로부터 그 일부인 표본자료를 분석함으로서 관심의 대상전체에 관해 추측하고 일반화시키는 통계분야
(3) 모집단과 표본
1) 모집단(population) : 관심 있는 대상들 전체집단
무한모집단 - 모집단의 크기가 무한일 경우
유한모집단 - 모집단의 크기가 유한일 경우
2) 표본(sample) : 실제 조사되거나 측정되는 모집단의 일부
(4) 통계분석의 절차
문제제기 → 모집단 설정 → 표본추출 → 자료수집 → 정보산출 → 의사결정
2. 표와 그래프에 의한 자료의 정리
(1) 자료의 정리
1) 자료의 종류
① 질적자료(qualitative data) 또는 범주형자료(categorical data)
- 조사대상을 범주로 구분한 자료.
- 사칙연산의 의미가 없다.
② 양적자료(quantitative data)
- 길이, 무게 같은 수치로 측정되는 자료. - 사칙연산의 의미가 있다.
2) 자료척도에 의한 종류
① 명목척도
-> (예) 성별, 우편번호(경기도...)에 관한 항
② 순서척도
-> (예)학력에 관한 값
-> 위 명목, 순서척도의 자료는 주로 빈도분석, 교차분석, 크게 범주형 자료분석에 적용될 수 있다.
③ 구간척도
-> (예)주로 '화씨 또는 섭씨 온도'가 대표적
④ 비율척도
-> (예) 키, 몸무게, 나이, 월수입, 한달용돈 등의 자료들
-> 대부분의 연속형 자료들이 이 '구간, 비율' 척도의 자료들
-> 통계분석기법들 중 상관, 회귀, T-검정, Z-검정....
(2) 구간, 비율 척도자료(연속형자료)의 표와 그래프에 의한 정리
1) 도수분포표
범주형 변수일 경우; 각 범주별 관측도수를 세어서, 연속형 변수일 경우; 변수값의 범위를 몇 개 구간으로 나눠 각 구간에 속하는 자료수를 세어서 정리
< 작성순서 >
① 자료의 최대값과 최소값을 찾는다.
② 계급의 수를 정한다.
③ 계급의 폭을 정한다.
④ 각 계급별 자료의 도수를 센다.
2) 줄기-잎 그림(stem and leaf plot)
원자료 : 45, 89, 67, 36, 46, 32, 59, 63
줄기
45 = 4 X 10 + 5
89 = 8 X 10 + 9
67 = 6 X 10 + 7
46 = 4 X 10 + 6
작성순서
① 각 원자료를 줄기와 잎으로 나눈다.
② 줄기를 크기순으로 정렬한다.
③ 각 줄기별 잎에 해당하는 수치들을 다시 크기순으로 정렬한다.
줄기-잎 그림 히스토그램
2  
3  
4  
5  
6  
7  
8  
x
 26
 56
 4
 37
x
 9
2  
3  
4  
5  
6  
7  
8  
x
 ^^
 ^^
 ^
 ^^
x
 ^
● 줄기-잎 그림의 장점
- 자료의 수가 적을 때 자료의 분포를 빠른 시간 내에 쉽게 작성가능.
- 줄기-잎 그림은 히스토그램에 비해 정보손실 적음.
- 중위수 및 사분위수를 줄기-잎 그림을 통해서 직접 구할 수 있지만 히스토그램은 어느 구간 안에 있는지만을대략적으로 알 수 있다.
● 줄기-잎 그림의 단점
- 구간의 폭을 임의로 정할 수 없다는 점
3) 히스토그램
① 위에서 언급한 줄기-잎그림보다는 많은 양의 자료에 적합하다.
② 양적자료의 분포를 파악하기에 좋다.
③ 가로축 : 도수분포표의 계급의 폭, 세로축 : 대응하는 계급의 도수로 나타낸 그림
④ 여기서는 면적이 아주 중요한 의미가 있다.
작성순서
① 먼저 1)과 같은 도수분포표를 작성한다.
② 가로축을 계급폭(보통 등간격)으로,
③ 세로축을 계급의 도수로 직사각형을 만든다.
④ 이들 직사각형을 빈틈없이 붙여서 그린다.
4) 점도표(dotplot)
- 실수 직선 위에 자료의 값들을 점으로 나타낸 그래프
- 자료값을 그대로 점으로 나타내므로 빠른 시간 내에 그릴 수 있다.
작성순서
① 실선을 긋는다.
② 실선 위에 해당 자료값들을 점으로 나타낸다.
5) 꺾은선그래프
혹은 시계열 그래프(timeseries plot)라고도 한다.
- 시간이 변함에 따라 관측된(수집된) 자료로 수집된 순서대로의 정보를 제공한다.
작성법
① 가로축을 시간으로
② 세로축을 실제 자료의 특성치로
6) 전체 자료의 분포 개형을 파악하려면
① 자료의 중심위치는?
② 자료의 산포(퍼진 정도)는 큰가?
③ 자료는 대칭인가? 치우침이 있는가?
④ 분포의 봉우리는 몇 개인가?
⑤ 전체 자료에서 이상자료는 없는가?
- 이상치(outlier): 대부분의 자료들이 모여있는 군집으로부터 뚝 떨어져 있는 자료.
관측된 이상치는 원자료를 재검토하여 그 원인을 파악해야한다.
(3) 명목, 순서척도자료의 정리
1) 원그래프(pie chart)
- 하나의 원이 전체자료를, 각 부채꼴이 각 범주별 비율
2) 막대그래프(bar chart)
- 각 범주별 해당비율이 곧 막대의 길이가 된다.
- 이때 막대의 면적은 아무런 의미가 없다.
(4) 자료를 표나 그래프와 같이 시각적으로 요약할 때 유의사항
① (자료에 알맞게) 그래프에 적절한 제목을 붙인다.
② 자료출처, 표본크기, 수집방법에 대한 사항을 명시
③ 축제목을 명확히 달아야
④ 도수, 비율, 퍼센트 등이 0에서 시작하는지를 점검
⑤ 축이 연속적으로 이어지는지 혹은 끊기는지 점검
⑥ 변수의 측정단위가 요약되어있어야 한다.
3. 자료의 수치에 의한 정리
① 모집단 - 관심있는 전체 집단
② 표 본 - 모집단으로부터 추출한 일부분
③ 모 수 - 모집단의 특성치, 즉, 분포 특징을 나타내는 수치.
    예)모평균, 모분산, 모비율
④ 통계량 - 표본으로부터 구한 표본의 특성치를 구하는 공식
    예) 표본평균, 표본분산, 표본비율
(1) 중심위치의 측정  
1) 평균 (mean)
① 기하학적으론 무게중심에 해당된다.
② 특징
- 수치데이터에 대해선 모두 계산가능
- 하나의 자료에 대해선 유일하게 존재
- 모든 자료를 전부 반영하고 있다.
- 이상치에 대해서 민감하게 작용한다.
2) 중앙값 (median)
- 자료를 크기순서대로 늘어놓았을 때 중앙에 위치하는 값을 말한다.
- 자료의 개수가 짝수인 경우와 홀수인 경우에 구하는 방법이 다르다.
즉, (홀수개) 인 경우 :
     (짝수개) 인 경우 :
- 자료에 이상치가 있을 경우엔 중앙치가 중심위치를 나타내는 대표값으로 더 적절
3) 최빈값
- 빈도수가 가장 많이 나오는 값, 즉, 가장 빈번히 발생하는 자료의 값
- 한 자료에 여러 개 존재할 수 있다. 예) 쌍봉우리(bimodal)
- 질적자료에서 대표치를 찾을 때 쓰임
예) 미국내 대표적인 인종은?
① 최빈값의 특징
- 계산 불필요
- 여러개 존재할 수도, 하나도 존재하지 않을 수도 있다.
4) 그 외에도 가중평균(weighted mean), 최대값(maximum), 최소값(minimum) 및 절삭평균(trimmed mean)등 을 자료의 대표치로서 상황에 맞게 사용한다.
(2) 변동의 측정(산포의 측도)
- 자료의 산포를 나타내는 방법
- 자료가 어떻게 퍼져 분포되어 있는지를, 표본의 흩어진 정도를 재는 측도
1) 범위 (range) : = 최대값 - 최소값
2) 분산 (variance) :
3) 표준편차(standard deviation) :
4) 표준오차(standard error, se) :
5) 상자그림(box plot)

다섯수치 요약 = ( 최소값, 최대값, 중앙값(Q2), 제1사분위수(Q1), 제3사분위수(Q3) )
< 상자그림 작성절차 >
① 다섯수치요약을 구한다.
② 제1, 제3사분위수(Q1, Q3)를 상자의 양 끝에 오게 하고,
    중앙값(Q2)에 해당되는 위치에 가로지르는 막대표시를 한다.
③ 안울타리( IF : inner fence)와 바깥울타리( OF : outer fence)
    (안울타리) = 제1시분위수 - 1.5 : = 제3사분위수 + 1.5
    (바깥울타리) = 제1사분위수 - 3.0 : = 제3사분위수 + 3.0
    ● 1-step : 1.5 IQR
    ● 사분위수범위 ( IQR : interquartile range)
    = 제3사분위수(Q3) - 제1사분위수(Q1)
④ 안울타리(IF)안쪽의 가장 가까운 인접값을 찾아 상자의 양끝(Q1, Q3)을 연결
⑤ 특이점(outlier) - IF와 OF사이에 있는 자료점. 그 자리에 *표시를 함
특별한 특이점(special outlier) - OF 바깥에 있는 자료. 그 자료에 o표시를 함

< 그 밖에 분포의 특징을 파악할 수 있는 측도들 >
1) 왜도(skewness) : 분포의 기울어진 정도를 재는 측도
2) 첨도(kurtosis) : 정규분포와 비교하여 평균값에 얼마나 집중되어 있는가의 측도
(3) 백분위수 (percentile)
백분위수는 자료를 크기순으로 나열했을 때
- 1사분위수(25백분위수) : 아래에서 25%지점에 있는 수
- 중 앙 값 (50백분위수) : 아래에서 50% 지점에 있는 수
- 3사분위수(75백분위수) : 아래에서 75% 지점에 있는 수