널리 사용되는 영가설 통계 검정null hypothesis statistical testing (이하 NHST)은 학부 1학년 통계학 수업에서 배울 정도로 널리 사용되는 가설 검정법입니다. NHST는 피셔의 유의성 검정test of significance과 네이만-피어슨의 통계적 가설검정statistical hypothesis testing 양자의 특징을 갖도록 만들어진 방법입니다. NHST를 알아보기 앞서 피셔의 유의성 검정과 네이만-피어슨의 가설검정이 무엇인지 정리해보겠습니다.
— Update 2025-03-02 —
처음 용어를 제시할 때는 영어와 한국어를 병기하였고, 이후로는 한국어 용어를 사용하는 것으로 수정함.
NHST는 영가설null hypothesis ($H_0$)과 대립가설alternative hypothesis ($H_1$)을 세우는 것에서 시작합니다. 실험 데이터를 바탕으로 관측 검정통계량observed test statistics을 얻은 후 $p$값p-value을 계산합니다. 계산된 $p$값을 1종 오류율type I error rate인 유의 수준significance level과 비교하여 영가설을 기각하거나 수용합니다.
하지만 NHST를 공부하다 보면 궁금한 지점들이 생깁니다.
- $p$값은 1종 오류를 저지를 확률, 즉 1종 오류율인가요? $p$값이 1종 오류율이 아니라면 오류를 저지를 확률이 아니라면 어째서 최대 1종 오류율maximum type I error rate인 $\alpha$값과 비교하나요?
- $p$값은 영가설이 참일 확률인가요?
- 최대 1종 오류율 $\alpha$을 $5\%$, 통계력power $1-\beta$을 $80\%$로 하는 이유가 있나요?
- 등등…
이에 답하기 위해서는 NHST가 하늘에서 뚝 떨어진 통계방법론이 아니라는 점에 주목할 필요가 있습니다. NHST는 통계학자 로날드 피셔Ronald Fisher가 제시한 유의성 검정, 그리고 통계학자 예지 네이만Jersy Neyman과 이건 피어슨Egon Pearson이 제시한 통계적 가설검정statistical hypthesis testing을 바탕으로 합니다. 따라서 각각의 검정이 무엇이고 어떻게 다른지 알아보는 것이 중요할 것 같습니다. 바로 이번 장에서 다룰 것입니다.
한편 NHST에 대한 비판도 상당히 많습니다. 하지만 관습적으로 많은 저널과 기관에서 사용하고 있으니 NHST를 대놓고 거부하기는 어려울 것 같습니다. 이왕 사용한다면 NHST가 우리에게 무엇을 말해줄 수 있는지 또는 없는지를 정확하게 아는 게 낫겠죠? 1장부터 4장까지 저의 서술은 주로 Daniël Lakens의 「Improving Your Statistical Inferences」를 바탕으로 정리한 것입니다. 특히 1장은 두 test의 개념과 차이 등을 살펴보고자 Aris Spanos의 「Probability Theory and Statistical Inference」를 중심으로 정리하였습니다. 참고한 문헌들도 여럿 있고요.
저는 통계학 전공자가 아닙니다. 잘못 서술한 내용이 있을 수 있으니 비판적으로 읽어주길 바라요.
오류를 발견하면 언제든 어디서든 꼭! 알려주세요.
글을 인용하실 때에는 이 글의 출처와 함께 원문의 서지 정보를 필히 밝혀주세요. 특히 1-1, 1-2, 1-3절의 내용을 인용할 때는 Spanos (2003)의 서지정보를 명시하도록 하고, 기타 in-text citation이 명시된 항목의 경우에도 해당 서지정보를 함께 밝혀주길 바랍니다. 연구, 아이디어, 주장 등은 한 사람이 뚝딱 생각하여 만드는 것이 아니라 선행 문헌들 위에서 발전되어 온 것들입니다 (a.k.a. 거인의 어깨). 원 문헌을 저술한 저자를 명시하여 그들이 받아 마땅한 공을 밝히도록 합시다.
Null Statistical Hypothesis Testing 정리하기 (1/4)
1장. 통계적 가설검정의 개념 ←
2장. p-value의 특징
3장. p-value를 제대로 보고하기
4장. p-value와 error rate에 대한 오해와 물음
1-1. Fisher’s Test of Significance
피셔의 유의성 검정은 네이만-피어슨의 통계적 가설검정 이전에 제시된 방법입니다. 이후 네이만과 피어슨은 피셔의 유의성 검정의 한계를 지적하면서 통계적 가설검정을 내놓습니다. 먼저 피셔의 유의성 검정을 알아봅시다.
개념과 과정
피셔의 유의성 검정은 다음과 같이 진행됩니다1.
- 영가설null hypothesis $H_0$를 정합니다. 이때 $H_0: \theta = \theta_0$의 형태로 나타낼 수 있습니다.
- 영가설은 효과가 없다고(null) 가정했을 때의 가설을 말합니다. 그래서 영가설, null hypothesis이죠.
- 영가설이 반드시 효과가 없다는 내용일 필요는 없습니다. $H_0: \mu_1 - \mu_2 = 0$과 같이 효과가 없는 경우일 수도 있지만, $H_0: \mu_1 - \mu_2 = 6$이나 $r = 0.4$와 같이 특정한 값을 갖는 경우도 영가설의 내용이 될 수 있습니다. 영가설 (null hypothesis)이 효과없음을 의미하는 가설만 칭한다고 오해되기 쉬워서, target hypothesis와 같이 포괄적인 용어를 사용해야 한다는 의견도 있습니다 (Greenland, 2023).
- 보다 중요한 것은 영가설이 표본분포sampling distribution에 관한 정보를 담고 있어야 한다는 점입니다. 즉, 영가설은 검정통계량 $\tau(\mathbf{X})$의 표본분포를 특정할 수 있는 조건을 포함합니다. 왜 그래야 할까요? 영가설이 참이라는 전제 하에 정해진 표본분포에서 우리가 관측하여 얻은 검정통계량이 어디쯤 위치하는지 알아야 하기 때문입니다. 이를 통해, 영가설이 참이라는 전제 하에서 관측통계량이 얼마나 드문지 알 수 있는 것이지요. 이것이 유의성 검정의 핵심 원리라고 할 수 있습니다.
- 목적에 맞는 검정통계량을 정합니다.
- 이때 검정통계량 $\tau(\mathbf{X})$는 영가설 $H_0:\theta = \theta_0$이 맞다는 가정 하에 그 분포가 알려져 있어야 합니다. 앞서 강조하였듯, 우리가 관측하여 얻은 검정통계량이 해당 표본분포에서 얼마나 드문지 알기 위함입니다.
- $p$ 값을 계산합니다. 이때 $p$값은 통계량 $\tau(\mathbf{X})$의 관측값인 $\tau(\mathbf{x})$의 꼬리면적 확률tail-area probability로 계산됩니다.
- 즉 $p\text{-value} = P(\tau(\mathbf{X}) \ge \tau(\mathbf{x})\mid H_0)$ 로서, 표본분포에서 검정통계량의 관측값과 그 이상의 극단적인 값이 관측될 확률을 의미합니다.
- $p$값을 해석합니다.
- 영가설이 참이라고 가정된 분포 (null model)에서 $p$ 값이 작다면 (1) 검정통계량이 관측된 상황이 매우 드문 사건이거나 (2) 영가설이 타당하지 않은 가설이거나의2 두 경우로 해석될 수 있습니다3.
- 현실적으로 연구자는 (1)보다는 (2)의 해석을 택하여 $p$ 값을 영가설이 믿을만한지에 관한 척도로 사용할 수 있습니다. $p$ 값은 작으면 작을수록 $\tau(\mathbf{x})$가 영가설 하에서 관측될 법하지 않습니다. 그래서 영가설을 믿지 않을 이유가 더 커지는 것으로 이해하는 것입니다.
- 피셔의 유의성 검정에서는 영가설 하에서 연구 결과가 관측될 확률만을 알 수 있습니다. 따라서 피셔의 $p$ 값은 영가설을 잘못된 것으로 기각하거나 영가설에 반대되는 가설을 지지하는 의사결정에 관한 방법이 아닙니다.
- 어떤 $p$ 값이 작은지에 관해서 피셔는 초기 저작과 후기 저작에서 의견을 달리합니다.
- 초기에 피셔는 유의수준을 관습적으로 5%로 정하고 유의하지 않은 결과는 무시되어야 한다고 봅니다 (Fisher, 1935, p.13).
- 피셔는 이후 $p$ 값이 얼마나 작아야하는가에 관해서는 연구마다, 연구자마다 다를 수 있다고 하며 $p$ 값을 그대로 보고하여 동료 연구자와 공유해야 한다고 주장합니다 (Fisher, 1956, p. 42).
목적
피셔의 유의성 검정을 통해 얻은 $p$ 값은 관측통계량과 그 이상의 극단값이 영가설 (null model) 하에서 나올 확률입니다. 이는 검정하고자 하는 영가설이 얼마나 믿을만한지에 대한 정립된 척도를 제공합니다 (Fisher, 1956, p. 44). $p$ 값은 작으면 작을수록 $\tau(\mathbf{x})$가 영가설 하에서 관측될 법하지 않으므로 영가설을 받아들이지 않을 이유가 더 커지는 것으로 이해되는 것이지요.
1-2. Neyman-Pearson’s Statistical Hypothesis Testing
네이만과 피어슨4은 $p$ 값에 대한 고셋William Gosset과 피셔의 연구를 바탕으로 통계적 가설검정statistical hypothesis testing을 개발합니다. 피셔의 유의성 검정과 달리 네이만-피어슨의 통계적 가설검정에서는 대립가설alternative hypothesis ($H_a$; $H_1$)이 설정되고, 연구자는 잠정적으로 영가설과 대립가설 둘 중 하나가 참인 것처럼 받아들이게 됩니다.
개념과 과정
네이만-피어슨의 통계적 가설검정은 다음과 같이 진행됩니다 (Spanos, 2003, 14.3절).
- 영가설 $H_0$와 대립가설 $H_1$를 정합니다.
- 각각 $H_0: \theta = \theta_0$ 와 $H_1: \theta \ne \theta_0$로 표현됩니다.
-
이때 모수공간parameter space $\Theta$는 상호배타적인 두 부분집합으로 분할됩니다:
\[\Theta_0 := \{\theta_0\}\text{ and }\Theta_1 := \Theta -\{\theta_0\},\quad \text{where } \Theta_0\cap\Theta_1 = \varnothing, \Theta_0\cup \Theta_1 = \Theta\] -
더 일반적인 네이만-피어슨 가설의 형태는 다음과 같습니다:
\[H_0: \theta \in \Theta_0 \text{ against }H_1: \theta \in \Theta_1:=\Theta -\Theta_0\] -
이는 사실상 postulated probability model $\Phi = {f(x;\theta), \theta\in\Theta, x\in \mathbb{R}_X}$을 양분하는 것입니다:
\[\Phi_0 = \{f(x;\theta), \theta\in\Theta_0, x\in \mathbb{R}_X\}, \Phi_1 = \{f(x;\theta), \theta\in\Theta_1, x\in \mathbb{R}_X\}\]$H_0$와 $H_1$이 궁극적으로는 모수parameter에 관한 가설인만큼이나 분포distribution에 관한 가설이라는 점을 알 수 있습니다.
\[H_0:f(x)\in \Phi_0\text{ against }H_1:f(x)\in\Phi_1\]
- 기각역rejection region을 정합니다.
- 네이만-피어슨 통계적 가설검정의 목적은 영가설을 수용하거나 기각하기 위한 결정 규칙을 만드는 것입니다. 이 결정은 검정통계량 $\tau(\mathbf{X})$를 기준으로 하므로, $\tau(\mathbf{X})$는 표본공간 $\mathcal{C}$를 두 집합 $C_0$와 $C_1$로 분할합니다.
- $C_0:=\lbrace\mathbf{x}:\tau(\mathbf{x}) \le c_\alpha\rbrace$로 표현되어 수용역acceptance region (受容域; 수용영역)이라 하고, $C_1:=\lbrace\mathbf{x}:\tau(\mathbf{x}) > c_\alpha\rbrace$로 표현되어 기각역rejection region (棄却域; 기각영역)이라 합니다.
- 각각 $C_0 \cup C_1 = \mathcal{C}$ and $C_0 \cap C_1 = \varnothing$ 을 만족하는 것을 알 수 있겠습니다.
-
영가설을 수용할지 기각할지에 관한 결정은 검정통계량이 기각역에 속하는지 수용역에 속하는지에 따라 결정됩니다:
\[\text{(i) if } \mathbf{x}\in C_0:\text{accept }H_0,\quad \text{(ii) if } \mathbf{x}\in C_1:\text{reject } H_0\]
- 1종오류type I error와 2종오류type Ⅱ error
- 두 종류의 오류가 있습니다.
- 1종오류type I error: 영가설이 타당한데valid 이를 기각하는 오류
- 2종오류type Ⅱ error: 영가설이 타당하지 않은데not valid 이를 수용하는 오류
-
1종오류율
\[P(\mathbf{x} \in C_1; \theta = \theta_0) = \alpha\]
$\theta_0 = \theta$ 일 때 1종오류를 저지를 확률은 다음과 같이 표현될 수 있습니다:- $\alpha$는 장기 1종오류율long-run type I error로서, 연구자가 최대로 허용할 수 있는 1종오류율을 의미합니다5.
- 기각역이 넓을 수록 $\alpha$는 줄어들지만, 이는 2종오류율을 증가시키게 됩니다.
-
2종오류율
\[P(\mathbf{x}\in C_0; \theta = \theta_1) = \beta(\theta_1)\]
$\theta = \theta_1$일 때 2종오류를 저지를 확률은 다음과 같이 표현될 수 있습니다:- 검정통계량의 분포를 알아야 확률을 계산할 수 있는데, $\Theta_1:=\Theta -\Theta_0$ 의 값을 특정해야 분포를 알 수 있겠죠? 그래서 위의 식에서 $\beta(\theta_1)$은 $\beta$가 $\theta_1$에 따라 정해진다는 의미입니다.
- $\alpha$와는 달리 $\beta$는 기각역이 넓을 수록 증가합니다.
- $\alpha$가 커지면 $\beta$가 줄어들고, $\beta$가 커지면 $\alpha$가 줄어듭니다. 제가 그린 다음 그림에서도 보이죠?
- 두 종류의 오류가 있습니다.
- 최적의 검정을 정합니다
- 네이만-피어슨은 영가설을 대립가설보다 중요하게 다룹니다. 즉, 낮은 $\alpha$를 먼저 정한 다음에 $\beta$를 최소화하는 검정을 선택하는 것입니다. 가령, 연구자는 $\alpha = 0.01$로 정해두고 이후 $\beta$를 최소화하는 검정을 선택하게 됩니다.
- 일반화하면 다음과 같습니다.
$|\tau(\mathbf{X})| > c_\alpha$일 때 $H_0$를 기각한다면, $\tau(\mathbf{X})$는 다음을 만족하도록 선택한다: \(\begin{align}&\text{(a)}\quad P(|\tau(\mathbf{X})| > c_\alpha; H_0\text{ valid}) = \alpha\\ &\text{(b)}\quad P(|\tau(\mathbf{X})| \le c_\alpha; H_1(\theta)\text{ valid}) = \beta (\theta)\text{ for }\theta \in \Theta_1 \text{ is minimized.} \end{align}\) - 이는 검정의 검정력power를 고려하는 측면에서 이해될 수 있습니다.
-
검정력power of a test: 타당하지 않은 영가설을 기각할 확률. 임의의 $\theta_1 \in \Theta_1$에 대해 다음과 같이 표현할 수 있습니다:
\[P(\theta_1) = P(\mathbf{x}\in C_1;H_1\text{ valid})\]($H_1: \theta \ne \theta_0$에 대해 $\theta$가 가질 수 있는 값이 여럿이므로 $\theta_1$의 함수로 표현한 것입니다.)
- 즉 검정력은 대립가설이 타당할 때 영가설을 기각할 확률, 또는 family $\Phi_1 = {f(x;\theta), \theta \in \Theta_1, x\in \mathbb{R}_X}$에 실제 분포가 속할 확률을 의미합니다.
-
전체 모수공간 $\Theta$에서 정의한 power function은 다음과 같습니다:
\[P_{n}(\theta) = P(\mathbf{x}\in C_1)\text{ for }\theta \in \Theta\] -
영가설 $H_0: \theta = \theta_0$에 대해 유의수준은 power function을 통해 정의될 수 있습니다: \(P_n(\theta_0) = \alpha\)
-
만약 $\theta_0 \in \Theta_0$이고 $\Theta_0$가 한 개 이상의 원소를 가진다면, 검정의 size를 다음과 같이 정의합니다:
\[\text{size of the test} =\alpha = \max_{\theta\in\Theta_0}P_n(\theta)\]그러므로 검정의 size $\alpha$는 $\Theta_0$의 임의의 원소 $\theta_0$에 대해 영가설을 잘못 기각할 최대 확률을 의미합니다.
- 최적의 검정은 $\alpha$가 정해진 이후, 모든 $\theta \in \Theta_1$에 대해 검정력을 최대로 하는 검정입니다.
-
-
검정통계량 $\tau(\mathbf{X})$를 선택한 이후, 영가설이 참일 때의 분포를 통해 $\lvert\tau(\mathbf{X})\rvert$가 “0으로부터 유의하게 차이나”도록6 하는 $c_\alpha$를 얻을 수 있습니다. 다음 식을 만족하는 $c_\alpha$를 구하는 것입니다:
\[P(|\tau(\mathbf{X})| > c_\alpha;H_0\text{ valid}) = \alpha\]이런 이유로 $\alpha$는 유의수준significance level이라고도 불립니다.
- 예컨대 $\sigma^2$를 모르는 상황에서 $H_0: \mu = \mu_0$와 $H_1: \mu \ne \mu_0$를 가설로 두고 검정하는 상황을 가정해봅시다 (Two-sided test).
- 검정통계량은 $\tau(\mathbf{X}):=\frac{\hat{\mu_n} - \mu_0}{s/\sqrt{n}} \sim St(n-1)$
- 기각역은 $C_1 = \lbrace\mathbf{x}: \lvert\tau(\mathbf{x})\rvert > c_\alpha \rbrace$
- 유의수준 $c_\alpha$는 $\int_{c_\alpha}^\infty \phi(z)dz = \frac{1}{2}\alpha$ where $\phi(z)$ is Student’s $t$ density (pdf).
- 영가설과 대립가설 중 하나를 택합니다.
- 수용역 $C_0:=\lbrace\mathbf{x}:\tau(\mathbf{x}) \le c_\alpha\rbrace$ 에 대해 $\mathbf{x} \in C_0$일 때 영가설을 수용하고7, 기각역 $C_1:=\lbrace\mathbf{x}:\tau(\mathbf{x}) > c_\alpha\rbrace$에 대해 $\mathbf{x}\in C_1$일 때 영가설을 기각합니다.
- 네이만-피어슨의 통계적 가설검정에서 $p$ 값을 사용하지는 않습니다. 하지만 검정통계량 $\tau(\mathbf{x})$이 수용역 혹은 기각역에 속하는지는 사실$p$ 값과 $\alpha$를 비교하여도 알 수 있습니다. 그러므로 $p < \alpha$일 때 영가설을 기각하고 $p \ge \alpha$일 때 영가설을 수용합니다. 단, $p$ 값을 소위 ‘관측된 1종오류율’ (observed type I error rate) 등으로 이해하는 것은 옳지 않습니다. 이에 관한 내용은 4장을 보세요.
목적
네이만과 피어슨은 피셔의 유의성 검정을 다음 두 가지 이유에서 비판합니다 (Spanos, 2003).
- 피셔는 검정통계량을 선택하는 기준을 제공하지 않는다. 각각의 영가설에 대해 여러 검정통계량을 사용할 수 있음에도, 피셔는 어떤 것이 최적의 검정통계량인지에 관하여 다루지 않는다.
- $p$ 값을 영가설에 대한 믿음의 척도 (measure of credence)로 사용하는 것은 논리적 근거가 없다.
이에 대한 해결책으로 네이만과 피어슨은 가설검정을 경쟁하는 가설 중 하나를 선택하는 것으로 봅니다8.
1-3. Neyman–Pearson과 Fisher의 차이
- 검정의 목적이 다릅니다. 그래서 $\alpha$와 $p$ 값은 그 성격이 다르지요. (Spanos, 2003, 14.5.1절)
- 네이만-피어슨의 $\alpha$는 의사결정(decision-making)이라는 행동의 규칙이 되는 기준값입니다. 이때 $\alpha$는 유의수준으로서 검정통계량과 비교되어 영가설을 수용하거나 기각하는 의사결정을 내리는 것입니다9.
- 반면 피셔의 $p$ 값은 의사결정의 기준이 아닙니다. 그저 표본 데이터가 영가설을 얼마나 믿을만한 것으로 만드는지 추정하기(inferential) 위한 척도일뿐입니다. 그러므로 피셔는 $p$ 값을 통해 그 이상의 주장을 할 수 없다고 봅니다.
- 검정의 범위가 다릅니다 (Spanos, 2003, 14.5.2절).
-
네이만-피어슨의 가설은 $H_0: \theta \in \Theta_0 \text{ against }H_1: \theta \in \Theta_1:=\Theta -\Theta_0$ 의 형태를 가지지요? 그래서 모수공간 $\Theta$가 $\Theta_0$와 $\Theta_1$으로 분할되며 확률모델 $\Phi = {f(x;\theta), \theta \in \Theta, x \in \mathbb{R}_X}$는 $\Phi_0 = {f(x;\theta), \theta\in\Theta_0, x\in \mathbb{R}_X}$와 $\Phi_1 = {f(x;\theta), \theta\in\Theta_1, x\in \mathbb{R}_X}$로 분할되는 것입니다. 이제 네이만-피어슨의 가설은 다음과 같이 이해될 수 있습니다:
\[H_0:f(x)\in \Phi_0\text{ against }H_1:f(x)\in\Phi_1\] -
반면 피셔의 가설은 다음과 같이 이해됩니다:
\[H_0: f(x)\in \Phi_0\text{ against } H_1: f(x)\in [\mathcal{P}-\Phi_0]\]이때 $\mathcal{P}$는 모든 가능한 통계 모델의 집합입니다. 피셔는 대립가설 개념을 거부하지만, 유의성 검정에서도 대립가설이 암묵적으로 존재하긴 할 것입니다10.
-
피셔의 ‘암묵적인 대립가설’은 네이만-피어슨의 대립가설보다 범위가 넓습니다.
-
이는 강점이 될 수 있습니다. 연구자는 ‘참인’ 통계 모델이 영가설과 암묵적인 대립가설의 합집합에 속한다고 확신할 수 있기 때문입니다:
\[f(x) \in \mathcal{P} = \Phi_0 \cup [\mathcal{P}-\Phi_0]\]반면 네이만-피어슨의 검정에서는 ‘참인’ 통계 모델이 영가설과 대립가설 중 어디에도 존재하지 않을 수 있으니 피셔의 검정에서와 같은 확신을 할 수 없습니다.
-
이는 약점이 될 수도 있겠습니다. 집합 $[\mathcal{P-\Phi_0}]$는 달리 규정된 바가 없는 모든 가능한 모델의 집합이기 때문에 그만큼 다루기operationalize 어려울 수 있습니다. 반면 네이만-피어슨의 $\Phi_1$은 power function의 측면에서 비교적 다루기operationalize 쉬울 수 있습니다11.
-
-
- 유의 수준을 바라보는 관점이 다릅니다.
- 네이만과 피어슨은 임의의 특정한 시행에서 오류가 발생했는지 알 수 없으므로 장기 확률 (long-run probability)에 초점을 두어야 한다고 봅니다 (Perezgonzalez. 2015). 여기서 장기 확률이란 특정한 통계실험을 셀 수 없이 많이 반복하여 계산된 확률, 즉 상대빈도 (relative frequency) 로서의 확률을 의미합니다 (Spanos, 2003, p. 698).
- 그러므로 1종오류율 ($\alpha$)이 $0.05$라는 말은, 통계 실험을 매우 많이 반복 시행하여 수행한 검정 결과의 $5\%$가 1종오류라는 의미입니다. 가령 $10,000$번의 동일한 시행으로 sample을 얻었다고 합시다. $\alpha = 0.05$는 각각의 시행에 대한 $10,000$개의 검정 결과 중 $500$번의 검정 결과에서 1종오류가 발생할 수 있다는 의미입니다.
- $\alpha$는 사전에 (a priori) 설정되어야 합니다.
- 이와 달리 피셔의 유의성 검정은 특정한 가설의 특정 연구 결과를 검정하고자 하는 것이므로 장기 확률을 중요하게 보지 않습니다.
- 피셔는 관습적으로 사용하던 유의수준을 쓰지 말자고 제안합니다. 나아가 유의수준을 장기 확률 $\alpha$ 로 해석하는 것 또한 비과학적인 (unscientific) 것으로 여겨 반대합니다 (Fisher, 1956, p. 42). 산업계의 품질관리 현장과는 다르게, 연구자는 동일한 실험을 셀 수 없이 여러번 반복하지 않기 때문입니다.
- 이러한 측면에서 피셔는 네이만-피어슨이 주장하듯 유의수준을 장기 1종오류율로 해석하지 말아야 한다고 설명합니다. 대신 연구를 출판할 때 $p$ 값을 명시하여 동료 연구자와 공유해야 한다고 주장합니다 (e.g. $p < 0.05$ (x) $p = 0.02$ (o)).
- 피셔의 $p$ 값은 사후에 조정될 수 있습니다. 개별 연구에서 $p$ 값을 사후에 (a posteriori) 조정할 때 (e.g. Bonferroni correction) 오류의 영향이 효과적으로 통제될 수 있기 때문입니다12 (Perezgonzalez, 2015).
- 네이만과 피어슨은 임의의 특정한 시행에서 오류가 발생했는지 알 수 없으므로 장기 확률 (long-run probability)에 초점을 두어야 한다고 봅니다 (Perezgonzalez. 2015). 여기서 장기 확률이란 특정한 통계실험을 셀 수 없이 많이 반복하여 계산된 확률, 즉 상대빈도 (relative frequency) 로서의 확률을 의미합니다 (Spanos, 2003, p. 698).
- 영가설 통계검정 (NHST; Null hypothesis statistical testing)에 이르러서는 피셔의 유의성 검정과 네이만-피어슨의 통게적 가설검정의 여러 요소가 함께 등장합니다. NHST 개별 사례마다 해석되는 방식은 약간의 차이가 있지만, 최소한 피셔의 검정에서와 같이 통계적 유의성statistical significance이라는 개념이 사용되고, 네이만-피어슨의 검정에서와 같이 영가설과 대립가설 중 하나를 선택한다는 점은 공통적인 것 같습니다.
피셔의 유의성 검정과 네이만-피어슨의 통계적 가설검정에 관해서는 Perezgonzalez (2015)의 리뷰, Berger (2003)의 글, Morimoto (2021)의 글을 보세요.
Reference
- Berger, J. O., & Delampady, M. (1987). Testing Precise Hypotheses. Statistical Science, 2(3), 317-335. https://doi.org/10.1214/ss/1177013238
- Berger, J. O., & Sellke, T. (1987). Testing a Point Null Hypothesis: The Irreconcilability of P Values and Evidence. Journal of the American Statistical Association, 82(397), 112-122. https://doi.org/10.2307/2289131
- Berger, J. O. (2003). Could Fisher, Jeffreys, and Neyman Have Agreed on Testing? Statistical Science, 18. https://doi.org/10.1214/ss/1056397485
- Cox, D., & Mayo, D. G. (2010). Objectivity and conditionality in frequentist inference. In D. G. Mayo & A. Spanos (Eds.), Error and Inference: Recent Exchanges on Experimental Reasoning, Reliability, and the Objectivity and Rationality of Science. Cambridge University Press.
- Fisher, Ronald A. (1935). The design of experiments. Oliver & Boyd
- Fisher, R. A. (1935b). Statistical Tests. Nature, 136(3438), 474. https://doi.org/10.1038/136474b0
- Fisher, Ronald A. (1956). Statistical methods and scientific inference: Vol. viii. Hafner Publishing Co.
- Gigerenzer, G., Krauss, S., & Vitouch, O. (2004). The Null Ritual: What You Always Wanted to Know About Significance Testing but Were Afraid to Ask. InThe Sage handbook of quantitative methodology for the social sciences (pp. 392-409). SAGE Publications, Inc. https://doi.org/10.4135/9781412986311.n21
- Greenland, S. (2023). Divergence versus decision P-values: A distinction worth making in theory and keeping in practice: Or, how divergence P-values measure evidence even when decision P-values do not. Scandinavian Journal of Statistics, 50(1), 54-88. https://doi.org/10.1111/sjos.12625
- Hubbard, R., & Bayarri, M. J. (2003). P Values are not Error Probabilities (Duke University Working Papers Series, Issue 2003-26).
- Lakens, D. (2024). Improving Your Statistical Inference (1.4.5 ed.). URL:https://lakens.github.io/statistical_inferences
- Morimoto, R. (2021). Stop and Think About p-Value Statistics: Fisher, Neyman, and E. Pearson Revisited. Annals of the Japan Association for Philosophy of Science, 30, 43-65. https://doi.org/10.4288/jafpos.30.0_43
- Perezgonzalez, J. D. (2015). Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing [Review]. Frontiers in Psychology, 6. https://www.frontiersin.org/articles/10.3389/fpsyg.2015.00223
- Spanos, A. (2003). Probability Theory and Statistical Inference (Econometric Modeling with Observational Data): CAMBRIDGE UNIVERSITY PRESS.
-
피셔의 유의성 검정은 Francis Edgeworth의 연구와 Karl Pearson의 연구를 바탕으로 한다고 알려져 있습니다 (Spanos, 2003, 14.2.4절). 피셔 이전의 가설검정에 관한 내용은 추후 공부하여 정리해보고 싶네요. ↩
-
“Either an exceptionally rare chance has occurred, or the theory of random distribution is not true” ↩
-
이 논리가 옳지 않다는 주장에 대해서는 Hubbard & Bayarri (2003); Berger & Delampady(1987), 4.6절; Berger & Selke (1987)을 보세요. ↩
-
참고로, Egon Pearson은 Karl Pearson의 아들이에요. ↩
-
네이만과 피어슨은 임의의 특정한 시행에서는 오류가 발생했는지 알 수 없으므로 장기 확률 (long-run probability), 즉 장기 1종오류율(long-run type I error)을 중요하게 다루어야 한다고 주장합니다. 여기서 장기 확률이란 특정한 통계 실험을 셀 수 없이 많이 반복하여 계산된 확률을 의미합니다. 즉 “1종오류율 ($\alpha$)이 $0.05$이다”라는 말은 통계 실험을 반복적으로 여러 번 시행하여 수행한 검정 결과의 $5\%$는 1종오류라는 뜻입니다. 가령 $10,000$번의 동일한 시행으로 얻은 표본 그룹 $10,000$개로 $10,000$번의 검정을 수행하였다고 합시다. $\alpha = 0.05$는 각각의 시행에 대한 검정 결과 $10,000$번 중 $500$번의 검정 결과에서 1종오류가 발생할 수 있다는 말입니다. ↩
-
“significantly different from zero” ↩
-
피셔는 ‘영가설을 수용accept‘한다는 개념이 논리적 오류라고 봅니다 (Fisher, 1935, p. 16; Fisher, 1935b; Morimoto, 2021; Cox & Mayo, 2010). 이는 포퍼 (Popper)의 반증주의falsificationism와 비슷한데요, 반증falsification은 논리적으로 타당한 후건 부정 (modus tollens; $P \rightarrow Q, \neg Q \therefore \neg P$)이지만, 검증verification은 타당하지 않은 추론이라는 것입니다. (Morimoto, 2021). 피셔라면 ‘2종오류는 영가설이 실제로 거짓일 때 영가설을 기각하지 못하는 (failure to reject) 오류로 정의된다‘라는 말에 동의했을 지언정, ‘2종오류는 영가설이 실제로 거짓일 때 영가설을 수용하는 (accept) 오류로 정의된다‘는 말에는 동의하지 않았을 것입니다. 후자는 네이만과 피어슨이 받아들일만한 정의였겠지요 (Morimoto, 2021). 가령 ‘모든 백조는 희다’라는 보편 진술universal statement은 ‘어떤 백조는 검다’라는 관찰 진술에 의해 반증falsify됩니다. 하지만 ‘모든 백조는 희다’라는 보편 진술 자체가 검증verify되기는 매우 어려울 것입니다. 모든 백조를 전수조사하는 것은 불가능에 가깝기 때문입니다. 제가 이해하기로는, 마찬가지로 어떤 통계 가설이 반증(falsification)된 이후에서야 우리는 그 가설이 거짓인 것처럼 행동할 수 있습니다. 영가설이 기각된 이후 우리는 대립가설이 잠정적으로 참인 것처럼 행동할 수 있습니다. 하지만 대립가설은 분포와 비교하여 기각될 수 없는 종류의 가설이기 때문에 영가설을 ‘수용 (accept)’한다는 개념은 타당하지 않은 것입니다. ↩
-
저는 다음과 같이 이해했습니다: 피셔의 관점에서 $p$ 값을 믿음의 ‘척도’로 본다면 이 척도가 적절한지 아닌지를 판단할 방법이 있어야 합니다. 또한 $p$ 값은 검정통계량을 통해 계산되는 변수이므로 검정통계량이 적절한지 판단할 방법도 있어야 합니다. 하지만 피셔는 이에 관한 주제를 다루지 않습니다. 피셔의 검정이 $p$ 값을 통해 영가설이 얼마나 믿을만한지에 대한 척도를 제공하려는 한, 이 문제가 해결되어야 합니다. 네이만과 피어슨은 검정을 애초부터 영가설이 믿을만한지에 관한 척도를 알기 위해 사용하지 않습니다. 나아가 검정통계량이 적절한지 $\alpha$와 $\beta$를 기준으로 결정하여 문제를 해결합니다. ↩
-
제가 이해하기로는, 네이만-피어슨의 검정에서 $\tau(\mathbf{x})$와 $c_\alpha$를 비교하는 것, 혹은 간접적으로 $p$와 $\alpha$를 비교하는 것은 표본 데이터가 영가설 통계 모델에서 나올 가능성이 얼마나 높은지 보려는 것이 아닙니다. 해당 시행에서 얻은 데이터를 바탕으로 영가설이 믿을만한지에 대한 척도를 세우려는 것도 아닙니다. 그저 해당 의사결정 규칙을 수없이 많이 사용했을 때 발생할 장기 1종오류율 $\alpha$로 제한하려는 것이 목적인 것입니다. ↩
-
피셔의 검정에서 $p$ 값이 너무 낮으면 영가설을 신뢰하기 어려워집니다. 이는 암묵적으로 다른 가설이 더 신뢰할만 하다는 것을 의미한다는 점에서 그런 것 같습니다. ↩
-
사실 Spanos의 ‘다룬다’ (operationalize)라는 서술이 무엇을 의미하는지는 잘 모르겠어요. ↩
-
피셔가 이런 주장을 직접 하였는지에 관한 자료나 문헌은 찾지 못했습니다… 아마도 피셔의 유의성 검정에서의 $p$ 값에 대한 일반적인 설명인 듯합니다. ↩
Leave a comment