> 통계조사 / 분석 > 표본추출
 
표본조사 개요
표본 크기결정
비표본오차
단순무작위추출
층화무작위추출법
계통추출법
집락추출법
 
< 목 차 >
1. 통계조사란 무엇인가?
2. 전수조사와 표본조사
3. 표본조사의 기본용어
4. 표본추출법
5. 통계적 추정의 기본개념
1. 통계조사란 무엇인가?
1) 일상생활 통계조사의 예들 :
① 통계청에서 매 5년마다 실시하는 인구 및 주택 센서스(대표적인 전수조사)
② 여론조사 (예 : 선거전에 실시되는 후보자간의 지지율조사, 국가정책에 대한 지지도 조사, TV시청률 조사 등)
③ 시장조사 (기업체에서 소비자의 상품에 대한 기호, 태도, 만족도 등을 조사)
④ 품질조사(생산현장에서 행해지는 불량률 조사)
⑤ 물가조사
⑥ 농산물의 생산량 조사 등등
==> 이 밖에도 다양한 분야에서 통계적 조사방법은 활발하게 응용되고 있다.
2) 올바른 통계자료가 생산되기 위한 조건
① 올바른 통계조사(표본조사)이론에 따른 데이터 수집
② 얻어진 데이터에 대한 적절한 통계기법의 적용
==> 믿을 수 있는 통계 생산
3) 통계조사 방법의 종류 : 전수조사, 표본조사
■ 전수조사
- 조사대상으로 하는 집단의 모든 개개의 단위를 조사하는 방법
- 대표적인 예 : 인구 및 주택 조사 센서스, 농업 총조사, 사업체 총조사 등
- 사용목적 :
    ● 어떤 정책 결정의 중요한 기초자료로 사용
        (인구 및 주택 센서스의 경우 주요 선거에 대한 선거구 분할에 사용)
    ● 다른 표본조사의 기초자료로 활용
        (전수조사 자료는 다른 표본조사의 추출틀로 사용된다.)
- 전수조사의 어려운 점 : 엄청난 조사 비용 및 시간 소요, 숙련된 많은 수의 조사원 필요
☞ 대부분의 통계조사는 표본조사로 이루어지고 있다.
2. 전수조사와 표본조사
1) 표본조사(sample survey)란?
☞ 전체 모집단 중 일부의 부분집단을 과학적인 추출방법에 따라 추출하여 그 추출된 일부분을
    대상으로 조사하여 얻어진 정보를 토대로 전체 모집단에 대한 특성을 추정하는 것.
2) 전수조사에 비하여 표본조사가 갖는 장점
① 경제성
- 실제조사에서 비용과 노력이 적게 소요
- 조사결과의 집계, 자료처리 등의 비용과 노력이 적게 소요
② 신속성
- 전수조사에 비해 자료수집과 처리 면에서 훨씬 빠르다.
" 선거예측이나 쌀 수확량의 예측 등에서 표본조사가 널리 사용된다."
③ 심도 있는 조사가 가능하다는 측면
- 경제적, 시간적 제약으로 전수조사에서 불가능한 복잡한 조사 가능
④ 조사의 정확성
- 실제 조사과정에서 조사원에 대한 철저한 관리하여 비표본오차를 줄일 수 있다.
- 전수조사에 비해 자료 규모가 작아 자료의 입력, 처리과정 등에서 오류를 줄일 수 있다.
⑤ 숙명적 필요성
- 제품의 파괴검사, 혈액검사 등과 같이 전수조사가 불가능한 경우에 적당.
3) 표본조사가 갖는 단점(한계점)
① 모집단을 제대로 대표하지 못하는 표본을 사용할 경우 잘못된 통계를 만들게 된다.
" 1936년 미국 대통령 선거에 대한 여론조사 결과를 참조 "
==> 랜돈 후보(상류층이 지지)와 루즈벨트 후보(서민층이 지지)의 대결
전화번호부와 자동차 등록대장을 사용하여 표본추출된 200만 명에 대하여 우편조사
==> 랜돈 후보의 압도적 승리 예상 (잘못된 예측)

실제 결과 : 루즈벨트 후보의 압도적 승리

※ 표본추출을 위하여 전화번호부와 자동차 등록대장을 사용하였기 때문에 표본이 모집단 내의 서민층을 반영하지 못하여 나타난 결과이다.
※ 표본이 모집단을 적절히 반영하지 못하면 현실을 왜곡한 통계결과를 얻게 된다.

② 희소한 부차모집단(소지역별 자료)의 특성까지 알기는 힘들다.
" 희소한 부차모집단인 경우에는 표본조사에 의해서 추출된 표본이 대단히 적기 때문에 적은 표본이 부차모집단을 대표하지는 못하기 때문이다. "
4) 전수조사의 표본조사에 대한 역할
① 여러 표본조사의 모집단 상황에 대한 기초자료와 표본추출틀(sampling frame)로 사용됨
② 전수조사 자료는 모수 추정과정에서 중요한 자료로 이용됨
③ 예 : 사람을 대상으로 하는 표본조사에서 인구센서스 자료를 분석하여 얻은 연령 및 성별 분포 등의 분석결과는 표본추출 및 추정 단계에서 사용된다.
3. 표본조사의 기본용어
1) 기본단위(elementary unit : 단위)
① 표본조사에서 필요한 정보를 얻기 위해 관찰, 면접을 할 때 조사의 대상이 되는 요소
② 명확하게 정의되어야 하고, 구체적으로 확인할 수 있어야 한다.
③ 예 : 여론조사(각 개인) , 가계조사(각 가구), 농가경제조사(농가), 쌀수확량조사(단위구) 등
    ※ 추출단위와 구분됨
2) 모집단(population)
① 조사목적에 의하여 규정되는 모든 기본단위의 집합
② 모집단은 내용, 기본단위, 범위 그리고 시간으로 정의됨
    예) 노동력 조사를 하고자 할 때 모집단의 정의
    ㉠ 노동력에 관한 특정한 사항(내용), ㉡ 대한민국 국민 (기본단위),
    ㉢ 남한의 모든 영토 내(범위), ㉣ 1999년 10월 1일 기준(시간)
③ 모집단에 대한 명확한 정의 필요
    예) 농가경제 조사
        농가 : '300평 이상의 경지를 가지고 농사를 짓는 가구'로 정의 ==> 조사원에 따른 농가의 자의적 판단 (정의)을 막는다.
④ 모집단의 구분 : 유한모집단, 무한모집단
    - 모집단을 구성하는 기본단위의 수가 유한인지 무한인지에 따라 결정
    - 표본조사에서는 대부분 유한모집단을 다룬다.
⑤ 모집단의 구분 : 목표모집단, 조사가능 모집단
    - 목표모집단(target population) : 조사목적에 의해 개념상 규정된 모집단
    조사가능 모집단(accessible population) : 표본을 추출하기 위해 규정된 모집단
==> 원칙적으로 이 두 모집단은 일치하여야 한다.
3) 추출단위(sampling unit)
① 표본추출 단계에서 구체적으로 뽑히는 단위
    예) 가계조사 : 기본단위(가구), 추출단위(가구)
    여론조사(표본으로 가구를 뽑고 그 안에서 특정 개인을 조사할 경우) : 기본단위(각 개인), 추출단위(가구)
    농가경제조사 : 기본단위(가구), 추출단위(농업조사구)
② 하나의 기본단위로 구성되거나 여러 개의 기본단위들이 모여서 구성된다.
4) 추출틀(sampling frame)
① 모집단 내의 모든 추출단위들의 리스트
② 모집단의 모든 추출단위를 누락 없이 그리고 중복 없이 포함해야 한다.
③ 추출틀은 조사가능 모집단의 구체적 표현이다.
④ 추출틀이 불완전하면 왜곡된 통계가 작성된다.
    예) 1936년 미국 대통령 선거의 경우
        " 표본조사에서 불완전한 추출틀을 사용하여 실패한 사례 "
⑤ 추출단위의 결정에서는 정해진 추출단위에 대한 추출틀의 작성이 가능한가에 대한 검토가 선행되어야 한다.
예) 우리 나라 가구당 평균소득을 조사하고자 하는 경우에 모집단은 우리 나라 전체 가구이고, 조사의 기본단 위는 가구가 된다. 만약 추출단위를 가구로 결정하였다면 우리 나라 전체 가구에 대한 방대한 양의 리스트 가 필요하지만 추출단위를 동(洞)으로 한다면 전국의 전체 동에 대한 목록을 만들면 되기 때문에 훨씬 수 월한 작업이다.
4. 표본추출법
1) 표본(sample)
① 모집단의 특성치를 알아보기 위하여 모집단의 기본단위 중에서 추출된 부분집합
② 표본 : 유의표본, 확률표본
2) 표본설계란?
① 모집단을 잘 대표할 수 있는 표본을 추출하고 추출된 표본에서 조사된 정보를 이용하여 모집단의
    특성치를 추정하는 전 과정을 말한다.
② 표본설계시 고려해야 할 내용들
- 가능한 한 적은 비용과 노력으로 모집단을 잘 반영할 수 있는 표본추출법은 무엇인가?
- 표본오차를 목표하는 수준이내로 유지하면서 비용을 최소화하기 위한 표본의 크기는?
- 표본에서 조사된 자료를 이용하여 모수를 추정하기 위한 적절한 추정방법은 무엇인가?
♣ 표본설계는 조사결과에 대한 정확도(목표오차) 결정, 기본단위와 추출단위의 결정, 표본추출방법의 결정, 표본크기 결정, 모수추정 방법 등으로 구성된다.
3) 유의추출법
① 각 추출단위들이 표본으로 추출될 확률을 객관적으로 나타낼 수 없는 표본추출법
==> 대부분 조사자의 주관적 판단에 의해 표본을 얻는다.
② 유의추출법의 대표적인 예
㉠ 전형법(typical sampling method)
☞ 조사자가 그의 지식과 경험에 의하여 모집단을 대표한다고 생각되는 추출단위를 주관적으로 선정하는 방법
예) 서울시의 생계비조사를 하기 위해 조사원이 가구원수나 소득이 서울시의 평균적이라고 판단되는 가구를 표본으로 선정하는 방법을 말한다. 가령, 서울의 가구당 평균가족수가 4인이고, 평균 소득이 100만원에서 120만원이라면 여기에 해당하는 가구를 표본으로 선정하게 된다.
㉡ 할당법(quota sampling method)
☞ 표본이 모집단의 구조와 같도록 미리 표본을 할당하고 조사대상자의 선정은 조사자의 주관적인 판단에 의하는 방법
예) K대학교 학생의 학습방법에 대한 조사를 하는데 전체 K대생의 학과별, 학년별, 성별 구성을 알아 본 후에 표본의 학과별, 학년별, 성별별 구성도 이와 같도록 표본을 각 범주에 할당하는 방법.
③ 유의추출법의 한계
표본추출시 조사자의 주관이 개입되어 표본자료로부터 구한 추정값에 대한 통계적 정확도에 대해 논의 할 수 없기 때문에 과학적인 조사방법이라고 할 수 없다.
4) 확률추출법
① 표본의 추출이 조사자의 주관에 의존하는 것이 아니라 추출단위에 대하여 사전에 정해진 추출확률에 따라 표본을 추출하는 방법
② 확률표본추출법의 예 : 단순임의추출법, 층화추출법, 계통추출법, 집락추출법 등
③ 확률표본의 특징
- 표본이 모집단의 특성이나 구조를 잘 반영한다.
- 표본추출방법이 객관적으로 이루어져, 주어진 추출방법에 따라 누구나 표본추출 가능
- 추정의 정확도를 계산할 수 있다.
♣ 보통 표본조사는 확률추출법에 의한 조사를 의미한다. 확률표본추출법을 이용하면 조사자는 처음부터 목표하는 허용오차한계를 만족할 수 있도록 표본설계를 하고 조사가 끝난 뒤에는 조사결과로부터 실제 성취한 통계적 정확도를 구하여 확인할 수 있다.
5. 통계적 추정의 기본개념
1) 대표적인 모집단의 특성치(모수)
① 모평균( ) : 모집단 전체 기본단위의 특성치에 대한 중심위치
② 모분산( ) : 모집단 전체 기본단위의 특성치에 대한 산포정도
③ 모수에 대한 추정
- 모평균( ) <--- 표본평균 ( )
- 모분산( ) <--- 표본분산 ( )
④ 표본조사의 목적은 표본의 정보들을 이용하여 모집단의 특성치를 추론하는 것이다.
2) 표본분포(sampling distribution)
동일한 모집단에서 같은 표본추출방법으로 같은 크기의 표본을 추출할지라도 각 표본에서 계산된 추정량의 값은 표본마다 달라진다. 이렇게 추정량의 값이 표본마다 달라지는 것을 표본추출변동이라고 한다. 그런데 같은 크기의 표본을 반복해서 추출할 때 추정량(표본평균)의 값들은 예측할 수 있는 어떤 패턴을 따른다. 확률표본으로부터 얻어지는 추정량은 표본추출변동으로 인하여, 그 값이 변하지만 표본추출을 반복하면 어떤 분포를 따르게 되는데 이 분포를 표본분포라고 한다.

표본평균의 표본분포 : 가능한 모든 표본으로부터 표본평균()을 계산하여 구한 표본평균()의 분포를 말한다.

(3) 표본조사에서 추정량에 요구되는 성질들
① 비편향성(치우침이 없다)
반복해서 표본을 추출할 때 표본으로부터 계산된 통계치가 모수를 과대추정 또는 과소추정하는 경향이 없음 을뜻한다. 참고로 편향(bias)이란 표본을 반복해서 추출할 때 통계치가 같은 방향으로 계속 벗어나는 것을 말한다.
② 효율성(추정량의 정확도 관련)
두 추정량 , 을 비교할 때 만약 의 분산이 의 분산보다 작다면 보다 효율적이라고 한다.
♣ 일반적으로 두 추정량이 모두 비편향추정량이거나 편향을 무시할 수 있는 경우에는 두 추정량 중에서 분산이 작은 추정량을 사용해야 한다. 효율성의 개념은 반복해서 표본을 뽑을 때 통계치가 어느 정도 재현성이 있는가의 문제이다. 어떤 추정량의 분산이 작다는 의미는 다시 표본을 반복해서 추출하여 통계치를 구한다면 구해진 통계치는 현재 구한 통계치와 유사한 값을 나타낼 것이라는 확률적 보증이다.
(4) 표본오차(sampling error)
① 표본에서 구한 결과와 센서스의 결과(모수)의 차이
표본오차 = 모집단의 참값(모수) - 모수에 대한 추정치
② 모집단의 일부를 표본추출하여 조사하여 추정함으로써 발생하는 우연적 오차
(5) 표본조사의 결과에 대한 정확도 평가방법
① 추정량의 표준오차(standard error)
- 추정량의 분산의 제곱근 :
② 추정량의 오차의 한계
-
③ 추정량의 변동계수(CV) : 추정량의 정도(精度)를 나타내는 상대적 기준
- 추정량의 상대표준오차라고 한다.
- : 추정량의 표준오차를 추정량의 값으로 나누어 구한다.
- 추정량의 표준오차가 작을수록 변동계수의 값도 작아진다. 변동계수의 값이 작을 때 추정량의 정도가 높다고하며 그러한 값들은 믿을 만한 값으로 받아들여진다.
♣ <참고> 자료의 변동계수
- 자료의 변동계수 =
- 주로 측정단위가 다르거나, 두 집단간에 평균의 차이가 큰 경우 두 집단간의 퍼진 정도를 비교할 때 사용된다.
♣ 일반적으로 표본조사에서는 표본크기를 크게 하면 얼마든지 표본오차를 줄이는 것이 가능하다. 극단적인 예로 모집단 전체를 표본으로 추출한다면 표본오차는 0이 된다. 그러나 주어진 예산과 비용 때문에 전수조사를 하는 경우는 거의 없고, 표본조사 전에 미리 주어진 예산의 범위 내에서 조사의 정도를 얼마로 할 것인가를 결정하여 표본조사를 하게 된다. 이렇게 미리 정해진 조사의 정확도를 목표정도라고 한다. 한편, 표본조사의 결과 얻어진 자료에서 분석하여 조사를 통해서 실제로 구현된 정도(精度)를 달성정도라고 한다. 표본조사의 가장 큰 특징은 조사 전에 비용과 시간을 고려하여 조사의 정도를 결정할 수 있다는 사실이다.