> 통계조사 / 분석 > 실험통계
< 목 차 >
1. 실험통계 개요
2. 실험통계의 기초적 통계적 추론
1. 실험통계 개요
1) 실험계획이란 무엇인가?
거의 모든 분야에서 어떤 특정한 과정, 또는 시스템을 이해하려면 연구자들은 실험을 할 수 밖에 없다. 계획된 실험이란 시스템에 대한 입력변수(input variable)를 연구자가 조절하였을 때 출력변수(output variable)가 어떻게 변화하는지를 관찰하고 조사하여 시스템을 보다 더 잘 이해하려는 시도이다.

예를 들어, 어느 화학 공정에서 조절 가능한 가장 중요한 두 요인(factor)이 반응 온도와 반응 시간이라 하자. 현재 이 공정에서는 온도를 100℃, 반응 시간을 1시간으로 고정시켜 놓고 있다. 그런데 현재 사용 중인 이 두 요인의 값이 생산량을 과연 최대로 하는지 의심이 나서 실험을 하기로 하였다. 만일 연구자가 반응 온도로 80℃, 100℃, 120℃의 세 수준(level)을 선택하고, 또 반응 시간으로 1시간, 2시간의 두 수준을 선택하고, 선택된 여섯 가지의 수준 조합 모두에 대해서 실험을 한다면, 이 경우에 입력변수는 조절된 반응 온도와 반응 시간이 되며, 각 수준 조합마다 관측되는 생산량이 출력변수가 된다. 또한 화학 공정 자체가 시스템이다. 때로 입력변수를 독립변수(independent variable), 출력변수를 반응변수(response variable)라 부르기도 한다.

일반적인 이야기지만 계획된 실험을 잘 수행해야 분석 결과의 해석도 적법하게 된다. 여기서 언급되는 실험이란 독립변수들의 수준을 조절한 다음 조절된 독립변수들의 각 수준, 또는 둘 이상의 독립변수들의 수준 조합에 따라 제각각 측정되는 하나 이상의 반응변수들에 대한 효과를 결정하는 형태의 연구를 의미한다. 부연하지만 독립변수란 우리가 연구하고 싶은 시스템에 입력되는 변수들이고, 반응변수는 시스템에서 출력되는 변수라 할 수 있다. 이 때, 실험자가 바라지는 않지만, 측정된 반응변수의 값에는 작든 크든 실험자가 임의로 조절할 수 없는 오차가 포함되기 마련이다. 그러므로, 실험계획의 일차적인 목표는 오차를 가능한한 줄이면서 판별하고 싶은 독립변수들의 효과들을 잘 걸러내는 실험을 수행하는데 있다고 할 수 있다.
2) 실험계획의 기본 원리
앞에서 언급된 독립변수는 요인(factor), 또는 인자라 부르는 것이 더 일반적이다. 요인 수준, 또는 요인 수준들의 조합을 처리(treatment)라 한다. 또, 계획된 실험을 흔히 비교실험(comparative experiment)이라 부르기도 한다. 비교실험에서는 연구하고 싶은 반응에 관여하는 요인들의 수준을 몇 가지 설정하여 각 수준마다 같은 조건하에서 실험을 한 후 요인 수준에 따라 결과된 반응값들 사이에 통계적으로 유의한 차이가 있는지를 조사한다.

그러나, 이와 같은 개념을 구현하는 것은 그리 간단한 문제가 아니다. 반응값에 영향을 줄 수 있는 요인은 무수히 많다. 이런 요인들 중 가장 중요하다고 경험적으로 판단되는 요인들을 몇 개 골라 실험을 함이 상례인 바, 동일 조건하에서 실험을 한다함은 선택된 요인들을 제외한 나머지 요인들의 효과가 전부 같은 상태에서 실험을 하는 것을 말한다. 그러나 실험 재료나 요인 수준 등의 완벽한 동질성을 확보하기란 거의 불가능하다. 이런 이유에서 확률화된 실험계획과 통계분석법이 필요하게 된다.

비교 실험의 통계적 해석을 가능케하는 근본 원리는 랜덤화, 반복, 블록화의 세 가지로 압축할 수 있다. 아무리 복잡한 실험이라도 계획된 실험이라면 이 세 가지 원리의 반복 적용에 지나지 않는다.

① 랜덤화(randomization)
랜덤화는 실험의 객관성을 보장하는 방법으로 실험 순서를 랜덤하게 결정하는 것이다. 랜덤화의 구현은 난수표 등을 이용하면 된다.

② 반복(replication)
반복은 글자 그대로 동일 요인 수준에서 두 번 이상의 실험을 함을 뜻한다. 동일 조건하에서 수행한 실험이라도 반응값이 반드시 동일하지는 않다. 조절 불가능한 오차가 항상 수반되기 때문이다. 반복 실험을 하면 오차의 수량화가 가능하며 실험의 정밀도를 향상시킬 수 있다. 그렇다고 지나친 횟수의 반복은 추천하지 않는다. 실험마다 적정 수준의 반복횟수가 있는 것은 아니지만 반복마다 비용이 상대적으로 증가하기 때문이다.

③ 블록화(blocking)
블록화는 실험의 정밀도를 증가시키는 기법이다. 모든 실험계획마다 반드시 블록화를 해야하는 것은 아니다.그러나, 실험의 성격상 필요하다고 판단되면 블록화는 하는 편이 유리하다. 블록화를 하면 언제나 블록 내에서는 동질성이 유지되며, 블록 간에는 이질적이 된다.블록 간 차이가 크면 클수록 블록화의 효율은 증대된다.블록화는 제한된 랜덤화 기법으로 광범위하게 사용되는 실험 원리이다.
3) 분석
실험계획의 마지막 단계는 얻은 자료에 대한 통계적 분석을 시도하여 어떤 의미있는 결과 해석을 얻는 것이다. 실험계획에서 주로 사용되는 통계분석 기법은 분산분석(ANOVA : analysis of variance)이다.
4) 실험계획의 순서와 주의 사항
실험을 계획하고 분석하기 위한 통계적인 접근법을 잘 사용하려면 무엇보다도 연구 대상이 무엇인지, 자료를 어떻게 얻을 것인지, 어떤 자료분석법을 써야하는지 등에 대해서 명확한 이해가 선행되어야 한다. 일반적으로 추천되는 절차는 다음과 같다.

① 문제에 대한 이해와 진술
② 요인과 수준의 선택
③ 반응변수의 선택
④ 실험계획의 선정
⑤ 실험 수행
⑥ 자료분석
⑦ 결론
2. 실험통계의 기초적인 통계적 추론
1) 정규분포
실험통계에서는 대부분 수집된 자료들이 정규분포(normal distribution)를 따른다는 가정을 한다. 정규분포는 두 개의 모수(parameter) 으로 모양이 결정되며, 모수 는 평균, 은 분산이다. 정규분포의 평균 는 분포의 중심을 결정하며 분포의 모양은 를 중심으로 좌우대칭이다. 또한 분산 은 분포의 퍼짐성을 결정하며, 의 값이 크면 좌우로 길게 늘어나고 중심 부분의 높이가 낮은 형태가 되며, 의 값이 작으면 좌우로 짧은 반면 중심 부분이 높고 뾰족한 형태가 된다. 정규분포를 N(, )으로 표기한다.

정규분포에서 추출된 n개의 데이터는 수리적으로 다음과 같이 표기한다.



일반적으로 는 데이터에서 계산된 표본평균 와 표본분산 으로 추정된다.
2) 평균 중심의 변동에 대한 기술과 신뢰구간
실험을 한 뒤 얻은 데이터에 대한 보고서를 작성할 때 데이터의 변동에 관련된 정보를 제공하는 것은 상식적인 절차이다. 수집된 데이터의 중심은 흔히 평균으로 나타낸다. 그리고, 모든 데이터 값들이 데이터의 중심으로 선택된 평균으로부터 얼마만큼 퍼져있는지를 주로 표준편차, 또는 표준오차로 정량화한다.

수집된 데이터를 이라 하자.
이 때 평균, 분산, 표준편차, 표준오차의 공식은 다음과 같다.






여기서, n 은 표본 크기(sample size)라 부르고, 표준편차는 때로 sd, 또는 SD로 표기하며, 표준오차는 SE로 표기하기도 한다. 표준편차는 데이터들의 퍼짐성을 대표하는 통계량이고, 표준오차는 평균에 대한 표준편차이다. 분산은 표준편차의 제곱인데, 통계 분석을 할 때 분산이 직접 사용되는 경우는 극히 드물다. 대부분 분산보다는 표준편차가 사용된다.

분산의 공식에서 분자에 해당하는 부분은 제곱항들의 합이기 때문에 간단히 제곱합(SS : sum of squares)이라 부르며, 또 분모로 사용된 (n-1)을 제곱합의 자유도(df : degree of freedom)라 부른다. 결국 분산은 제곱항들의 평균이라 할 수 있는 데 이와 같은 (제곱합÷자유도)의 형태를 평균제곱(MS : mean squares)이라 부른다. 이와 같은 개념들은 특히 분산분석을 설명할 때 자주 등장한다.

수집된 데이터에서 평균 중심의 변동을 보고하는 형식은 천차만별이지만 일반적으로 추천할만한 형태는 다음과 같다.



이 때 표본 크기와 측정 단위를 항상 명시해야 한다.

아래의 <표>는 국내 4개 회사에서 생산되는 무가당 오렌지 쥬스(A, B, C, D)의 신맛을 48명의 평가 요원이 쥬스마다 12명씩 랜덤 배치되어 9점 척도를 사용하여 평가한 결과이다. 점수가 높을수록 신맛이 강하다.

<표> 오렌지 쥬스의 신맛에 대한 평가


다음은 <표>에서 평균 중심의 변동에 대한 한 가지 보고 예이다. 여기서 괄호속의 값은 표본 크기이다.


이와 같이 보고된 통계량들을 보면, 오렌지 쥬스 A가 신맛이 가장 강하고 오렌지 쥬스 D의 평가 점수가 다른 오렌지 쥬스들에 비하여 변동이 심함을 쉽게 알 수 있다.

앞서 제시한 보고 방법에서 모수의 추정값으로서 단일 숫자를 사용하기보다는 모수가 포함될 만한 숫자들의 범위를 명시하는 추정 방법을 사용하고 있음을 주목하라. 이는 하나의 추정값이 추정하려는 모수와 일치하기를 기대할 수는 없으므로 추정값 자체를 표본오차까지 고려하여 구간으로 만들어 제시하는 것이 더 나음을 의미한다. 이와 같은 추정 방식을 『구간추정(interval estimation)』이라 한다.

구간추정에서 오로지 구간만 명시하면, 주어진 구간이 모수 추정에 얼마나 정확한지, 즉, 얼마나 신뢰성이 있는지 알 수 없다. 신뢰도를 고려한 구간추정을 『신뢰구간추정』이라 한다. 신뢰도의 값을 신뢰수준이라 하는데 흔히 0.95나 0.99를 사용한다. 신뢰수준에 대응되는 값이 유의수준(significance level)으로, 유의수준은 (1-신뢰수준)으로 결정되며 로 표기한다. 신뢰수준과 유의수준은 %로 표현하기도 하는 데, 한 가지 예를 들자면, 95% 신뢰도에는 5%의 유의도가 대응된다.

모평균이 , 모표준편차가 인 정규모집단에서 미지의 모평균 에 대한 신뢰구간추정을 위하여 자료 을 추출하는 상황을 가정하자. 이 때 값을 안다면 에 대한 100(1-)% 신뢰구간의 양 끝점의 공식은 다음과 같이 주어진다.



그러나, 현실적으로 값을 알고 있는 경우는 거의 없으므로 의 추정값인 를 대신 사용하며 이 경우의 에 대한 100(1-)% 신뢰구간의 양 끝점의 공식은 다음과 같이 주어진다.

대표본일 때, 즉 n>30 이면 를 몰라서 를 사용하더라도 t분포표 대신 정규분포표를 사용한다.

[예] 제과점 고구려당에서 매일 사용되는 밀가루의 평균량을 추정하려한다. 랜덤으로 14일을 추출하여 사용된 밀가루의 양을 알아보았더니, 표본평균 =173Kg, 표본표준편차 =45㎏이었다. 모평균 에 대한 99% 신뢰구간을 구해 보자. n=14이고 =0.01이므로, t분포표에서 오른쪽 꼬리의 확률이 0.005(=/2)인 자유도 13의 t값을 읽으면 3.012가 된다. 이상의 값들을 공식에 대입하면 신뢰 구간의 양끝점은 173±3.012(45/√14)=173±36.22가 되므로, 모평균에 대한 99% 신뢰 구간은 (136.78, 209.22)이다. 여기서 단위는 ㎏이다.
3) 통계적 가설검정의 원리
통계적 가설검정(statistical hypothesis testing)은 데이터를 기초로 실험자가 주장하고 싶은 가설의 옳고 그름을 판정하는 통계 절차이다. 통계적 가설검정에서는 언제나 귀무가설(null hypothesis)과 대립가설(alternative hypothesis)의 두 가설을 설정하여 데이터에 담긴 정보를 토대로 두 가설 중 어느 하나로 결론을 내리는 형식을 취한다. 앞으로는 귀무가설을 , 대립가설을 으로 표기한다. 이 때 실험자가 주장하려는 사실은 대부분의 경우 대립가설로 설정한다.

예를 들어, <표>의 데이터에서 오렌지 쥬스들 간에 신맛의 차이가 있다는 사실을 보이려면 대응되는 귀무가설과 대립가설은 다음과 같이 써야 한다.

: 오렌지 쥬스들 간에 신맛의 차이는 없다.
: 오렌지 쥬스들 간에 신맛의 차이는 있다.

실험 결과를 통계분석할 때 실험자는 귀무가설을 기각(reject)하고 대립가설을 채택(accept)하기를 바라게 된다. 통계적 가설검정은 보수적인 관점에서 개발되었기 때문에 데이터를 통한 확실한 증거가 없이는 함부로 요인들 간에 차이가 있다는 사실을 받아들이지 않는다. 따라서, 귀무가설을 쓸 때는 언제나 '요인들 간에 차이가 없다', '요인들 간에는 아무 관계도 없다'는 식의 진술을 하게 된다. 수리적으로 표현하면 귀무가설에는 반드시 = 부호가 있게됨을 명심하라.

통계적 결정은 데이터에 담긴 정보를 기초로 한다. 따라서 실험자가 바라지는 않지만 언제나 판단 착오를 할 위험이 있다. 즉 통계적 결정에는 귀무가설이 옳은데도 불구하고 귀무가설을 기각할 오류와 귀무가설이 거짓임에도 불구하고 귀무가설을 채택할 오류의 두 가지 오류가 수반된다. 전자를 제 1 종 오류(type I error), 후자를 제 2 종(type II error)라 부른다. 또한, 제 1 종 오류를 범할 확률을 , 제 2 종 오류를 범할 확률을 라 표기한다.

의 두 확률은 통계적 결정을 잘못 내릴 확률이므로 가능한한 작을수록 좋다. 그러나, 이론적으로 두 오류의 확률을 동시에 작게 만들 수는 없으므로 일단 의 값을 0.01, 0.05 등과 같은 작은 값으로 고정시킨 다음 를 최소화하는 방식을 취하여 통계적 가설검정법을 만든다. 이렇게 선택된 의 값을 유의수준(significance level)이라 한다. 일반적으로 유의수준은 0.05로 많이 잡는다. 이 말은 귀무가설이 옳은데도 불구하고 데이터가 잘못 나와서 대립가설을 채택할 오류의 확률이 5/100라는 의미이다.

의 값을 아주 작게 설정한다고 가설 검정이 정확해지는 것도 아니며, 그렇다고 아주 크게 한다고해서 정확도가 떨어지는 것도 아니다. 예를 들어, 를 0.5로 놓으면 0.05로 놓을 때에 비하여 귀무가설이 옳음에도 불구하고 귀무가설을 기각할 확률이 매우 커진다. 반대로 를 0.0001로 놓으면 0.05로 놓을 때에 비하여 귀무가설이 옳지 않음에도 불구하고 대립가설을 채택할 확률이 아주 작게 된다.
4) 평균에 대한 추론
(1) 단일 평균에 대한 추론
이 통계 절차는 데이터의 평균이 어떤 지정된 값과 같다고 해도 좋은지를 검정한다. 검정 방법은 다음과 같다.
가정 :
가설 :
검정 : ① 유의수준 의 값을 선택한다.
② 검정통계량 의 값을 계산한다.
③ 만일 이면 를 기각한다.

여기서 검정통계량 는 자유도(n-1)의 분포를 따른다.

[예] 다음은 어떤 약이 위액에서 분해되는 시간(단위 : 초)을 측정한 자료이다. 이 약의 분해 시간을 유의수준 α=0.05에서 45초라해도 좋은지 알고 싶다.

자료 : 42.7    43.4    44.6    45.1    45.6    45.9    46.8    47.6




t(7, 0.025)=2.365 (표로부터)

결론 : ┃t┃=0.36이 표값 2.365보다 작으므로 를 기각하지 못한다. 즉, 유의수준 0.05에서 약의 분해 시간이 45초가 아니라고 할만한 증거가 없다.
(2) 두 평균에 대한 추론
이 통계 절차는 두 그룹의 평균들이 서로 같다고 해도 좋은지를 검정한다. 한 그룹의 평균을 , 다른 그룹의 평균을 라 하자. 두 평균에 대한 검정을 위한 가설은 언제나 다음과 같이 쓴다.



두 평균에 대한 검정은 상황에 따라 다시 짝지어진 표본(paired samples)과 독립표본(independent samples)의 두 가지 경우로 나누어진다.

예를 들어, 남학생과 여학생의 어학 능력을 측정하고, 어학 능력에 성별 차이가 존재하는지를 알아본다면 이는 독립표본이 된다. 왜냐하면, 남자와 여자는 전혀 관련이 없는 모집단이기 때문이다.

짝지어진 표본의 예로는 다음과 같은 상황을 생각할 수 있다. 한 학급의 학생들을 선택하여 어학 능력을 측정한 후, 새로 개발된 교육 방법으로 일정 기간 가르친 후, 다시 어학 능력을 측정하여 전후 두 측정 간에 통계적으로 유의한 차이가 존재하는지 유무를 가리는 경우이다. 이 때에는 동일 학생에 대하여 두 번 측정을 하므로, 한 학생에 대한 두 번의 관측이 서로 독립이 되지 않는다. 그러나, 각 학생들은 서로 독립적이며, 따라서, 각 학생에 대한 한 쌍의 측정 자료들은 서로 독립이라 할 수 있다.

■ 짝지어진 표본
짝지어진 표본의 경우에는 개의 데이터 쌍 들이 서로 독립적으로 측정된다. 이 때에 두 모평균 간에 차이가 있는지를 통계적으로 검정하려면 소위 짝지어진 t검정(paired t-test)을 사용해야 한다. 이 검정법에서는 각 쌍마다 나타나는 두 개의 관찰값의 차이를 기초로 검정을 수행한다. 즉, 원래 얻은 데이터는 버리고 오로지 차이값들만을 갖고 검정하는 것이다. 데이터의 일반형 및 검정 방법은 다음과 같이 요약된다.


가정 :
가설 :

검정 : ① 유의수준 의 값을 선택한다.
. .......② 검정통계량 의 값을 계산한다.
.........③ 만일 ┃t┃ > t(n-1, α/2)이면, 를 기각한다.

위의 검정통계량 t의 공식에서 는 각각 차이값들의 평균과 표준편차이며 공식은 다음과 같다.


[예] 다음은 사슴의 뒷다리와 왼쪽 앞다리의 길이를 측정한 자료로, 두 다리의 길이(단위 : ㎝)가 같은지 다른지를 알고 싶다.



이 경우, 한 사슴에 대하여 두 다리 길이를 측정하였으므로, 사슴들은 독립이지만, 한 마리의 사슴의 일부인 두 다리는 독립이 아니다. 유의수준 는 0.05로 잡자. 이므로, 검정통계량의 값은 t = 3.3/(3.057/√10) = 3.4138이 된다. 표값이 t(9:0.025) = 2.262로 검정통계량의 값보다 작으므로 유의수준 0.05에서 귀무가설을 기각하며 사슴의 앞다리와 뒷다리는 같지 않다고 결론내린다.

■ 독립 표본
이표본 t검정에서는 짝지어진 t검정과는 달리 두 그룹의 표본 크기가 반드시 같지 않아도 된다. 표본 1의 데이터 수가 , 표본 2의 데이터 수가 일 때 얻어지는 데이터는 다음 형식으로 정리할 수 있다.


독립표본에 대한 수리적 모형은 다음과 같이 쓴다. 이 때 두 표본은 서로 독립이다.



여기서, 서로 독립인 두 모집단의 분산값이 각각 으로, 두 모분산을 공통적으로 같다고 가정했음을 유의하라. 이것을 공통분산(common variance) 가정이라 하는데, 이 가정은 분산분석에서도 그대로 유효하다. 독립표본에서 귀무가설 에 대한 검정은 이표본 t검정(two-sample t test)으로 수행한다.

가설 :

검정 : ① 검정통계량 의 값을 계산한다.
................여기서
.........② 만일 이면 를 기각한다.

이표본 검정에서 검정통계량 t는 자유도 ( + - 2)의 t분포를 따른다. 위의 검정통계량 t의 공식에서 은 각각 표본 1의 데이터에서 계산된 평균과 표준편차이고, 는 각각 표본 2의 데이터에서 계산된 평균과 표준편차이다. 는 합동표준편차(pooled standard deviation)라 부르는 통계량이다.

[예] 다음은 두 종류의 지혈제의 효과를 측정한 자료이다. 참여자의 살갗에 작은 상처를 내어 피가 흐르게 한 다음 지혈제를 투여하여 완전히 지혈이 될 때까지의 시간(단위 : 분)을 측정하였다. 유의수준 를 0.05라 하자.








t(11, 0.025)=2.201 (표에서)

결론 ┃t┃=2.479가 표값 2.201보다 크기 때문에 를 기각한다. 즉, 유의수준 0.05에서 두 지혈제의 지혈 효과에는 통계적으로 유의한 차이가 있다.