[NHST] 4장. NHST에 대한 오해와 물음들

지금까지 빈도주의 검정에서 사용되는 개념, 방법, $p$ 값의 특징과 의미를 살펴보았습니다. 이번 장에서는 NHST에 관해 우리가 흔히 갖는 오해를 정리해보겠습니다. 특히 $p$ 값에 초점을 두어 살펴보겠습니다.

이 절은 Greenland et al. (2016)의 글 ‘Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations’와 Daniël Lakens의 「Improving Your Statistical Inferences」를 참고하여 정리한 내용입니다.

저는 통계학 전공자가 아닙니다. 잘못 서술한 내용이 있을 수 있으니 비판적으로 읽어주길 바라요.
오류를 발견하면 언제든 어디서든 꼭! 알려주세요.
글을 인용하실 때에는 이 글의 출처와 함께 원문의 서지 정보를 필히 밝혀주세요. 연구, 아이디어, 주장 등은 한 사람이 뚝딱 생각하여 만드는 것이 아니라 선행 문헌들 위에서 발전되어 온 것들입니다 (a.k.a. 거인의 어깨). 원 문헌을 저술한 저자를 명시하여 그들이 받아 마땅한 공을 밝히도록 합시다.

Null Statistical Hypothesis Testing 정리하기 (2/4)
1장. 통계적 가설검정의 개념
2장. p-value의 특징
3장. p-value를 제대로 보고하기
4장. p-value와 error rate에 대한 오해와 물음

NHST에 관해 갖는 흔한 오해에는 무엇이 있고, 왜 그것이 오해인지 알아봅시다.

4-1. $p$ 값을 가설에 관한 확률로 해석할 수 없습니다

$p$값은 $H_0$에 대한 확률이 아닙니다 (Greenland et al., 2016). $p$ 값은 $P(Data\mid H_0)$이지, $P(H_0\mid Data)$가 아니기 때문입니다. $p$값은 이미 $H_0$가 참이라는 가정 하에 계산되었으므로, $H_0$가 참이거나 거짓일 확률과 관련이 없습니다.

  1. 오해: “$p$ 값이 통계적으로 유의하지 않다면 영가설($H_0$)이 참이다” (X)
    1. “$p$-value가 유의하지 않다면 $H_0$가 참이다”라는 진술은 $H_0$가 참일 확률이 $100\%$라는 의미를 내포합니다. 이는 $p$ 값이 $H_0$에 대한 확률에 대해 말해주는 것이 있다는 의미이므로 잘못된 진술입니다.
    2. $p$ 값이 통계적으로 유의하지 않더라도, 관측 통계량이 영모델null model보다 대립모델alternative model에서 나올 가능성이 더 높을 수 있습니다.
  2. 오해: “$p$ 값이 통계적으로 유의하다면 영가설($H_0$)이 거짓이다” (X)
    1. “$p$ 값이 통계적으로 유의하다면 $H_0$가 거짓이다”라는 진술은 $H_0$가 거짓일 확률이 $100\%$라는 의미를 내포합니다. 이는 $p$ 값이 $H_0$에 대한 확률에 대해 말해주는 것이 있다는 의미이므로 잘못된 진술입니다.
    2. $p$ 값이 통계적으로 유의하더라도 $H_0$가 사실은 참이었을 가능성을 배제할 수 없습니다. 즉, 검정 결과로 $H_0$를 기각하는 행위가 1종오류일 가능성을 배제할 수 없다는 말입니다. 네이만과 피어슨은 이 상황을 두고 “영가설이 거짓인 것처럼 행동하자 (act as if the null hypothesis is false)”고, “장기적으로 우리가 틀릴 확률은 $5\%$가 안 될 것이다 (not be wrong more than 5% of the time in the long run).”라고 결론 내리겠죠? $H_0$가 참 또는 거짓인 것처럼 행동 (act) 하는 것은 $H_0$가 참이나 거짓이라고 믿어 단정짓는 것과는 다릅니다 (Lakens, 2024, 1.7절).
    3. 작은 $p$ 값은 $H_0$ 를 포함한 모든 가정이 만족된 모델, 즉 영모델에서 데이터가 드물게 관측된 것이라는 것을 보여줍니다. 따라서 $p$가 작다고 하여 데이터가 드물게 관측된 경우라고 곧바로 단정지을 수 없습니다1. 무작위 오류random error가 매우 큰 경우일 수도 있고, 만족되었다고 생각했던 가정이 사실은 위배된 경우일 수 있기 때문입니다. 특히 가설검정에서 전제되는 가정을 확인하는 것은 매우 중요합니다. 정규성, 등분산성 가정과 같이 검정통계량에 관한 가정뿐만 아니라, 표본 추출과 실험군 배정이 무작위로 이루어졌는지, 나아가 $p$ 값이 연구결과 보고를 위해 임의의 기준에 따라 선택되지 않았다는 가정 또한 만족되어야 합니다 (Greenland, 2016).
  3. 오해: “$p = 0.03 < \alpha$로 통계적으로 유의한 경우, 이 결과가 1종오류일 확률은 3%이다” (X)
    1. “$p$ 값이 1종오류율이다”라는 진술은 $p$ 값이 $H_0$가 참일 때 잘못 기각하는 확률이라는 의미로서, 이는 $p$ 값이 $H_0$에 대한 확률에 대해 말해주는 것이 있다는 의미이므로 잘못된 진술입니다.
    2. $H_0$가 참인데 우리가 얻은 검정 결과가 $p = 0.03 < \alpha$라면, 이것은 $100\%$ 1종오류인 것이죠.
    3. $p$ 값과 $\alpha$ 모두 $H_0$가 참인 영모델에서의 꼬리면적 확률로 계산될 수 있습니다. 게다가 $p$와 $\alpha$를 비교하여 의사결정을 하기도 하죠. 그렇다고 하여 $p$와 $\alpha$가 모두 1종오류율인 것은 결코 아닙니다. 두 값의 공통점 때문에 $p$ 값이 표본 데이터로부터 계산된 1종오류율인 것으로 오해하기 쉽지만, 이는 $p$ 값의 정의 자체를 잘못 이해한 것입니다. (Goodman, 1999).
    4. “$p<0.05$를 얻었을 때 $H_0$가 참 (또는 거짓)일 확률은 무엇인가?”라는 질문은 “$H_0$가 참일 때 우리가 얻은 데이터 (또는 그보다 더 극단적인 데이터)를 얻을 확률은 무엇인가?”라는 질문과 다릅니다. $p$ 값은 두 번째 질문에 대한 답만을 줄 수 있습니다 (Lakens, 2024, 1.7.4절).

4-2. $p$ 값이 통계적으로 유의한지는 ‘실제로’ 중요한지와는 무관합니다

$p$ 값이 통계적으로 유의한지, 즉 $p<\alpha$인지 아닌지는 효과 크기effect size와는 무관합니다. $p < 0.05$나 $p = 0.002$와 같은 $p$ 값만으로는 평균의 차이가 얼마나 나는지 알 수 없죠. 따라서 통계적으로 유의한 차이라고 하여 실제로 혹은 임상에서 의미있는 수준의 차이는 아닐 수 있고, 그 반대의 경우도 마찬가지입니다.

  • 즉, 통계적으로 유의한 결과는 영모델 하에서 ‘놀라운 (surprising)’결과인 것이지, 반드시 ‘중요한’ 결과는 아닐 수 있다는 것입니다.
  • 설령 효과 크기effect size가 중요하다고 하더라도, 표본 크기 ($n$)가 큰 경우 효과 크기가 매우 작거나 가정이 약간이라도 위배되었을 때에도 통계적으로 유의하다는 결과가 나올 수 있습니다 (Greenland, 2016).

4-3. $p$ 값은 효과가 재현될 확률이 아닙니다

하나의 연구에서 얻은 $p$를 바탕으로 효과가 재현될 확률을 계산하는 것은 불가능합니다. 효과가 재현될 확률은 미래의 표본을 대상으로 하는 검정 결과에 관한 확률이므로, 전체 모집단에 대해 구체적으로 아는 것이 없다면 계산할 수 없습니다 (Miller, 2009). $p$ 값은 현재 표본만으로 얻어진 값이므로, 이를 통해 소위 ‘재현 확률 (replication probability)’를 도출하는 것은 말도 안되는 것입니다.

  • 실제 효과가 있을 때, 어떤 검정이 통계적으로 유의한 효과를 보일 확률은 검정력power입니다 (Lakens, 2024, 1.7.5절).
  • 실제 효과가 없을 때, 어떤 검정이 통계적으로 유의한 효과를 보일 확률은 $\le \alpha$입니다 (Lakens, 2024, 1.7.5절).

4-4. $p$ 값은 우리의 데이터가 나올 확률이 아닙니다

  1. $p$ 값은 모든 가정이 만족되고 $H_0$가 참일 때 우리가 관측한 데이터 (혹은 통계량)이 나올 확률이 아닙니다. 이는 $p$ 값의 정의를 보면 이해할 수 있습니다. $p$ 값은 $P(\tau(\mathbf{X}) \ge \tau(\mathbf{x})\mid H_0)$ 로서, $H_0$하의 영모델에서 test statistic의 관측값이 나오는 것 뿐만 아니라 그 이상의 극단적인 값이 관측될 (“observations more extreme than what we observed”) 이론적 확률을 의미하기 때문입니다.
  2. 이에 관해서는 1-1절의 “$p$ 값이 작다면 (1) 검정통계량이 관측된 상황이 매우 드문 사건이거나, (2) 영가설이 타당하지 않은 가설이거나의 두 경우로 해석될 수 있다”라는 진술의 (1)이 통계학적으로 아주 엄밀한 문장은 아니라는 점을 짚어볼 필요가 있습니다.
    • “Either $H_0$ is true and a rare event has occured, or $H_0$ is false”라는 논리에서 ‘rare event’는 실제 관측통계량 $\tau(\mathbf{x})$를 관측하는 event가 아니라, 실제 관측통계량과 그보다 더 극단적인 (“more extreme”) 통계량을 얻는 event \(E = \{\text{possible data }x: \lvert\tau(\mathbf{X})\rvert \ge \lvert\tau(\mathbf{x})\rvert\}\)입니다. 그래서 ‘rare event’가 검정통계량이 관측된 상황, 즉 $\tau(\mathbf{x})$를 관측하는 event라고 말하는 것은 $E$와 $\mathbf{x}$를 구별하지 않는 것입니다 (Berger & Delampady, 1987).
    • 이때 $\mathbf{X} = \mathbf{x}$라고 하는 것과 $\mathbf{X} \in E$라고 말하는 것에는 차이가 있습니다. $\mathbf{X} \in E$는 $H_0$를 기각할 훨씬 더 강한 증거라는 점에서 그렇습니다
      • 가령 ‘동전의 앞뒷면이 나올 확률이 $0.5\%$로 같다’라는 명제가 $H_0$라 합시다. 동전을 $100$번 던져서 앞면이 $60$번 나왔습니다. $\mathbf{X} = \mathbf{x} = 60$은 $H_0$를 적당히 신뢰하지 않을 정도라는 생각을 들게 하지만, $\mathbf{X} \in E$는 100번 중 60번 이상의 극단 값에서 앞면이 나왔다는 의미로서 $H_0$를 신뢰하지 않을 이유가 더 강해지는 것입니다.
      • Berger와 Selke는 $P(H_0\mid E)$가 흔히 $P$-value와 매우 가까워서 $P(H_0\mid \mathbf{x})$보다 작다는 것을 보인 바 있다 (Berger & Selke, 1987). (레퍼 직접 읽고 이해하고 확인해야함.)

4-5. $\alpha$는 발표된 연구 중 1종오류가 있을 확률이 아닙니다

이 항목은 Lakens의 글 2.2절을 주로 참고하였습니다.

$\alpha = 0.05$일 때 발표된 연구의 최대 $5\%$가 1종오류일 것이다’ 라는 진술은 옳지 않습니다.

  1. 1종오류율은 ‘실제로는 효과가 없을 때 효과가 있다고 잘못 결론짓는 오류 확률’입니다. ‘연구가 통계적으로 유의한 결과를 보였을 때 그것이 실제 효과가 있을 확률’과는 구별되는 값이지요.
    • $\alpha = P(\text{statistically significant result }\mid \text{ no actual effect})$ 인 반면,
    • 해당 물음은 $P(\text{no actual effect } \mid \text{ statistically significant result})$를 의미하는 것이죠.
  2. 후자의 확률은 false positive report probability (false positive risk; false discovery rate) 라 불립니다. 참고로 FDR과 반대되는 확률은 positive predictive value (PPV) 로 불립니다. \(\begin{align}PPV &= \frac{\text{True Positives}}{\text{True Positives + False Positives}}\\\\FDR = FPRP &= \frac{\text{False Positives}}{\text{True Positives + False Positives}}\end{align}\)
  3. 연구 결과는 통계적으로 유의한 결과와 그렇지 않은 결과 모두를 얻게 되지만, 연구를 발표할 때는 통계적으로 유의한 결과 위주로 보고하는 편향이 발생하곤 합니다. 그래서 $\alpha = 0.05$로 하는 검정을 수행하여도, 실제 보고되는 결과는 통계적으로 유의한 결과가 위주가 되므로 $FDR$는 $5\%$보다 클 수 있습니다.

4-6. $p$ 값은 증거의 척도 (measures of evidence)인가?

  1. Lakens는 $p$ 값을 증거의 척도 (measures of evidence)로 해석하는 것이 통계학적으로 옳지 않다고 설명합니다.
    1. $H_0$가 실제로 참일 때 $p$ 값이 균등 분포uniform distribution를 따른다는 특징과 Lindley’s paradox를 고려하면, $p$-value 단독을 증거의 척도로 이해하는 것은 옳지 않습니다.
    2. 그가 보기에, $p$-value가 증거의 척도라고 주장하는 이들은 ‘증거’ (evidence)의 개념을 정의하지 않습니다.
      • Lakens는 ‘증거 (evidence)’에 관한 Shafer의 이론을 따라서, 증거 (evidence)가 support function을 통해 정량될 수 있고, 통계적 증거를 평가할 때에 support는 likelihood function을 통해 정량될 수 있다고 설명합니다 (Shafer, 1976, p. 144. 재인용: Lakens, 2024, 1.6절)2.
  2. 반면 Greenland는 $p$ 값이 증거의 척도로 쓰이는 경우의사결정을 위한 확률변수random variable로 쓰이는 경우로 구별되어 이해될 수 있다고 봅니다 (Greenland, 2023). $p$ 값이 증거의 척도가 아니라고 주장하는 이들은 네이만-피어슨 관점에서의 $p$ 값에만 초점을 두고 있다는 것이지요.
    1. Greenland에 따르면 빈도주의 통계학에서 사용하는 $p$ 값에는 두 가지 정의가 있습니다.
      • divergence $p$-value: 통계 모델과 관측통계량 사이의 차이를 나타내는 $p$ 값. 즉, 데이터와 모델의 차이 (divergence)를 나타냅니다.
      • decision $p$-value: 전체 표본공간에 걸쳐 이분법적 결정 규칙을 표현하기 위한 확률변수로서의 $p$ 값 혹은 그러한 확률변수의 관측값. Decision $p$-value는 $H_0$와 $H_a$ 중 하나를 고르기 위해 사용됩니다.
    2. 증거 (evidence)의 정의에 관한 단일한 합의점은 없지만, 피셔의 관점에서 $p$ 값은 관측 데이터와 영모델 사이의 compatibility 내지 divergence에 대한 일관된 척도(coherent measures) 로서, 어떠한 모델이나 가설에 대항하는(against) 증거의 척도 (measure of evidence)로 사용될 수 있다고 보여집니다.

저는 잠정적으로 Greenland의 설명이 더 설득력있다고 생각합니다. Lavine (2024)의 연구와 같이 $p$-value가 증거의 척도가 아니라고 주장하는 문헌이 여럿 있고 살펴볼 필요가 있어 보이는데, 적어도 Lakens의 지적은 충분하지 않은 것 같습니다. $H_0$가 참일 때 $p$ 값이 균등분포를 따르고 Lindley’s paradox가 존재한다는 점이 보여졌어도, 이는 네이만-피어슨 관점에서의 지적이기 때문입니다. 피셔 관점에서는 $p$ 값이 개별 실험의 관측값과 모델 간의 양립가능성(compatibility)을 나타내는 척도로 이해되지 못할 이유가 없는 것 같네요.

물론 두 관점을 적절하지 않게 혼동하는 일은 없어야 하겠습니다. 가령 $p$가 $0.05$보다 작아질 수록 $H_0$를 기각하거나 $H_1$를 수용할 이유가 커진다고 말하는 것은 적절하지 않겠죠? 기본적으로 $p$ 값은 피셔의 유의성 검정에서 사용되는 개념이고, 피셔의 검정은 기각-수용이라는 의사결정을 위한 것이 아닙니다. $p$는 그저 $H_0$가 표본데이터와 일치하지 않는 정도를 보여주는 것입니다. 이는 1-1절에서도 확인한 바 있습니다.

4-7. 영가설은 언제나 거짓이 아닌가?

  1. NHST에 가해지는 비판 중 대표적인 것 중 하나가 영가설 ($H_0$)이 사실인 경우는 현실세계에 없다는 주장입니다.
    1. Tukey는 “A와 B의 효과가 다른가”라는 질문에 “They are always different for some decimal place” (“소숫점 몇째 자리까지 보면 항상 다르겠지”)라고 답하며 NHST를 비판하였습니다 (Tukey, 1991).
    2. Meehl은 적어도 soft psychology 분야에서 “… as I believe is generally recognized by statisticians today and by thoughtful social scientists, the null hypothesis, taken literally, is always false” 라며 $H_0$가 언제나 거짓이라고 설명합니다 (Meehl, 1978).
    3. Cohen도 다음과 같이 null hypothesis가 언제나 거짓이라고, 그러니까 이를 기각하는 행위가 무슨 의미가 있냐고 지적합니다 (Cohen, 1990):

      The null hypothesis, taken literally (and that’s the only way you can take it in formal hypothesis testing), is always false in the real world. It can only be true in the bowels of a computer processor running a Monte Carlo study (and even then a stray electron may make it false). If it is false, even to a tiny degree, it must be the case that a large enough sample will produce a significant result and lead to its rejection. So if the null hypothesis is always false, what’s the big deal about rejecting it?

  2. 하지만 Tukey를 비롯한 학자들의 이러한 견해가 가설 검정에 관한 잘못된 이해에서 비롯하며, 이러한 비판이 유효하지 않다는 반박도 있습니다:
    1. 점 영가설point null hypothesis(e.g. $\theta = \theta_0$)을 사용하는 것은 현실의 문제에 적절한 근사를 제공하므로 유용합니다 (Berger & Selke, 1987). Berger와 Selke는 이론적으로 $H_0 : \vert \theta − \theta_0 \vert \le b$라는 가설을 사용하는 것이 타당하지만, 대개 $b$는 충분히 작으며 충분히 작은 $b$에 대해서는 $H_0 : \theta = \theta_0$ 로 근사될 수 있다는 결론을 내립니다 3.
    2. 모집단 간 평균 차이가 아주 미미할 때 $H_0$ 를 기각하기 위해서는 표본 크기가 상당히 커야합니다. 가령 two-sided $t$-test ($\alpha = 0.05, \beta = 0.8$)에서 Cohen’s $d = 0.001$인 정도로 미미한 차이를 기각하기 위해서는 $n_1 + n_2 \approx 31,000,000$의 표본이 필요합니다. 표본 크기가 저렇게 크지 않은 대부분의 상황에서는 미미한 차이가 있어도 영가설이 기각되지 않으므로 영가설이 가설로서 적절하다는 주장입니다.

      주제에서 벗어나긴 하지만… 표본크기가 어떻게 계산되는지 잠깐 알아볼까요? $\sigma$가 알려져 있고 $\mu_1 - \mu_2 = \Delta$라 합시다. $\alpha = 0.05$이도록 하는 critical region $C$는 $1.96$입니다. $Z = \frac{(\bar{X_1}-\bar{X_2}-\Delta)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0, 1)$인 $Z$와 test statistic $T$에 대해, power는 다음과 같이 계산됩니다:\(\begin{align}power = \Pr(T > C \mid \mu_1 \ne \mu_2) &= \Pr\Biggr(\frac{\bar{X_1}-\bar{X_2}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} > 1.96\Biggl) \\&= \Pr\Biggr(\frac{\bar{X_1}-\bar{X_2} - \Delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} > 1.96 - \frac{\Delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}\Biggl) \\&= \Pr\Biggr(Z > 1.96 - \frac{\Delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}\Biggl) \end{align}\)

      $\sigma_1=\sigma_2 = 1$, $\Delta = 0.001$이고 $n_1 = n_2 = n$인 경우, power는 $\Pr(Z>1.96 - \frac{0.001\sqrt{n}}{\sqrt{2}})$이고, 바로 이 power가 $80\%$이도록 하는 $n$을 찾으면 됩니다.

       C <- qnorm(0.025, lower.tail = FALSE)
       sd <- sqrt(2)
       power <- 
           quote({ pnorm(C - 0.001 * sqrt(n) / sd, lower.tail = FALSE) }) # not evaluated
      
       # solve the equation
       n <- uniroot(function(n) eval(power) - 0.8, c(2 + 1e-10, 1e+09))$root 
      
       n
       #> [1] 15697759
      

      $n_1 + n_2 = 2n = 31,395,519$임을 확인할 수 있습니다.

    3. NHST는 표본을 통해 현실 세계 속 모집단에 관한 정보를 얻고자 사용하는 도구입니다. Lakens는 위의 반박들이 NHST를 통해 알고자 하는 ‘현실 세계 (real world)’가 무엇인지 놓치고 있다고 주장합니다 (Lakens, 2014).
      • 현실 세계에서는 지금 이 순간에도 사람들이 죽고 태어나고 있습니다. 오늘 측정한 모집단의 모수parameter는 내일 측정한 모집단의 보수와 분명 다를 것입니다.
      • 하지만 NHST에서는 특정한 시점의 모수가 정확히 어떤 값인지가 중요한 것이 아닙니다. NHST를 통해 우리는 현실 세계에 대한 일반화되고 평균적인 진술의 참거짓 판단에 참고할만한 자료를 얻고자 하기 때문이죠. 그러므로 $H_0: \theta = \theta_0$가 언제나 잘못되었다고 하여 점 영가설point null hypothesis이 NHST에서 쓰이지 못할 이유가 되지 않습니다.

Reference

  1. Edgington의 연구를 사례로 들어 $p = 0.01 < 0.05 = \alpha$인 상황을 고려해 봅시다. (1) 만약 아무런 가정없이 $p = 0.01$이 나왔는데 $H_0: \mu_1 = \mu_2$를 기각하였다면, independent identically distributed(i.i.d) normal population에서 표본이 무작위 추출되지 않았을 수 있다고 지적할 수 있습니다. (2) 만약 i.i.d. normal population에서 표본이 무작위 추출되었다는 가정이 전제되었을 때 $H_0$를 기각하였다면, $\mu$에서 차이가 발생한 것이었을 수 있지만 $\sigma^2$에서 차이가 발생한 경우일 수도 있을 것입니다. (3) i.i.d. normal, homoscedastic population에서 표본이 무작위 추출되었다는 가정이 전제된다면 그때서야 $H_0: \mu_1 = \mu_2$에 관한 기각 여부를 다룰 수 있는 것입니다. (Edgington, 1965

  2. 증거가 likelihood에 의해 정량될 수 있다는 주장에 대해, Greenland는 likelihood function이 증거를 포착하는데 실패하며 likelihood가 증거의 모든 측면을 아우르지도 않는다는 여러 연구를 제시하면서 통계적 증거statistical evidence에 대해 합의된 단일 정의는 없다고 봅니다 (Greenland, 2023). 

  3. 아직 직접 읽고 이해하지 못함. Berger&Selke와 Berger&Delampady 문헌 둘 다 읽어봐야 겠다. 

Leave a comment