[NHST] 3장. p-value를 제대로 보고하기

검정에서 얻은 $p$ 값을 그대로 보고할 것이 권장되고 있습니다. 왜일까요? 네이만과 피어슨에 따르면, $\alpha$와 검정력을 사전에 정한 검정은 의사결정만을 위한 것이 아니었던가요? $p<\alpha$인지, 그래서 영가설이 기각되는지만 보고하면 되는 것이 아니었나요? 이번 장에서는 그렇지 않다는 것을 설명하겠습니다. $p$ 값을 그대로 보고해야 하는 이유를 검정의 쓰임새와 검정의 의미를 중심으로 알아볼 것입니다.

아래의 내용은 Daniël Lakens의 「Improving Your Statistical Inferences」를 바탕으로 여러 문헌을 공부하며 정리한 내용입니다.

저는 통계학 전공자가 아닙니다. 잘못 서술한 내용이 있을 수 있으니 비판적으로 읽어주길 바라요.
오류를 발견하면 언제든 어디서든 꼭! 알려주세요.
글을 인용하실 때에는 이 글의 출처와 함께 원문의 서지 정보를 필히 밝혀주세요. 연구, 아이디어, 주장 등은 한 사람이 뚝딱 생각하여 만드는 것이 아니라 선행 문헌들 위에서 발전되어 온 것들입니다 (a.k.a. 거인의 어깨). 원 문헌을 저술한 저자를 명시하여 그들이 받아 마땅한 공을 밝히도록 합시다.

Null Statistical Hypothesis Testing 정리하기 (2/4)
1장. 통계적 가설검정의 개념
2장. p-value의 특징
3장. p-value를 제대로 보고하기
4장. p-value와 error rate에 대한 오해와 물음

$p$ 값을 ‘그대로’ 보고하기: $p$의 쓰임새를 중심으로

네이만-피어슨의 통계적 가설검정의 목적은 $H_0$와 $H_1$중 하나를 선택하려는 것이었기 때문에 ‘$p<\alpha$’ 또는 ‘$p>\alpha$’만 보고해도 충분했습니다. 하지만 현대에 널리 사용되는 NHST에서는 언제나 정확한 $p$ 값을 그대로 보고하는 것이 적절합니다. 몇 가지 이유가 있는데요:

  1. $p$ 값을 그대로 보고하는 것은 다른 연구자들의 2차 분석에 도움이 됩니다 (Appelbaum et al., 2018).
  2. 다른 연구자들로 하여금 $p$ 값을 그들이 기준으로 삼은 $\alpha$값과 비교할 수 있도록 하기 위해 $p$ 값을 그대로 보고하는 것이 권장됩니다 (Lehmann & Romano, 2005, p. 64).
  3. 네이만-피어슨의 검정에서 $\alpha$를 사전에 지정하여 기준으로 사용하는 것이 자의적이라는 비판도 있습니다 (Murtaugh, 2014).
    • 가령 $\alpha = 0.05$를 사전에 정해두고 검정 결과로 $p = 0.049$ 또는 $p = 0.051$이 나온 상황을 생각해봅시다. $p$ 값이 $0.05$ 미만 혹은 초과라는 이유로 $H_0$를 기각 혹은 수용하는 것은 타당하지 않은 것처럼 보입니다. 실제 $p$ 값을 보고하도록 하는 것은 이같은 비판에 대한 보완책이 될 수 있습니다.
    • 여러 저널들의 통계 데이터 보고 가이드라인은 통계 검정의 결과를 다룰 때 실제 $p$ 값을 보고하고, 신뢰구간confidence interval, 표본 크기sample size, 효과 크기effect size 등을 명시하도록 합니다 (Aguinis, 2021; Hardwicke et al., 2023).

$p$ 값을 ‘그대로’ 보고하기: $p$의 의미를 중심으로

네이만-피어슨의 검정에서는 $p$ 값을 최대 1종오류율인 $\alpha$와 비교하여 영가설을 기각 혹은 수용할지 결정을 내리게 됩니다. 하지만 $\alpha$는 장기 확률 (long-term probability)이기 때문에, 일회성의 연구에서 내린 의사결정이 오류일 가능성은 언제든 있습니다.

그래서 재현 연구 (replication study)가 중요합니다. 연구 한 번에서 얻은 결과는 오류일 수 있지만, 이러한 결론이 다른 연구에서도 재현된다면 이것이 오류일 가능성이 줄어들기 때문입니다 (Lakens, 2024, 1.6절).

  1. Laken이 보기에 통계적으로 유의한 결과에 대한 정확한 서술은 다음과 같습니다:

    “우리는 [연구 결과에] non-zero effect이 있다고 주장한다. 동시에 우리는 이러한 방법론적 과정을 따라 과학자들이 [어떤] 주장을 한다면, 그중 장기적으로는 많아야 $\alpha$%의 경우 — 우리가 허용할만한 범위인 — 잘못된 결론을 내릴 수 있다는 점을 인정한다. 우리의 결과가 잘못되었다는 새 데이터나 정보가 나오기 전까지, 당분간은 우리의 주장이 옳은 것으로 상정하자.”1

  2. 그가 보기에 통계적으로 유의하지 않은 결과에 대한 정확한 서술은 다음과 같습니다:

    “우리는 [연구 결과에] non-zero effect이 있다고 주장할 수 없다. 동시에 우리는 과학자들이 이러한 방법론적 과정을 따라 [어떤] 주장을 하지 않는다면, 장기적으로 $\beta$%의 경우 — 우리가 허용할만한 범위인 — 잘못된 결론을 내릴 수 있다는 점을 인정한다.”2

  3. 그러므로 네이만-피어슨의 통계적 가설검정에서 가설을 선택하는 것은 그 가설이 참이라고 믿는 것이 아닙니다 (Neyman, 1950, pp.259-260. 재인용: Morimoto, 2021).

    • 다시 말해, 네이만-피어슨 검정에서 연구자들이 가설을 ‘수용’하거나 ‘기각’할 때 이는 가설에 대한 결론이나 믿음을 표명하려는 것이 아닙니다.
    • Lakens는 Hacking의 글을 인용하며, 영가설을 기각하는 것은 영가설이 거짓이라고 믿을 필요 없이 우리가 오류를 저질렀을 수 있다는 것을 인지하면서 잠정적으로 기각하는 것이라고 설명합니다 (Lakens, 2024, 1.6절).
    • 가령 네이만-피어슨 검정에서 연구자들이 영가설을 ‘기각’하는 행위는 사실 영가설이 거짓인 것처럼 행동(“act as if the null hypothesis is false”)하는 것, 그리고 영가설을 기각한 행위가 장기적으로 $5\%$이내에서 틀릴 수 있다는 것을 전하는 것입니다 (Lakens, 2024, 1.6절).

Reference

  • Aguinis, H., Vassar, M., & Wayant, C. (2021). On reporting and interpreting statistical significance and p values in medical research. BMJ Evidence-Based Medicine, 26(2), 39-42. https://doi.org/10.1136/bmjebm-2019-111264
  • Appelbaum, M., Cooper, H., Kline, R. B., Mayo-Wilson, E., Nezu, A. M., & Rao, S. M. (2018). Journal article reporting standards for quantitative research in psychology: The APA Publications and Communications Board task force report. American Psychologist, 73(1), 3-25. https://doi.org/10.1037/amp0000191
  • Hardwicke, T. E., Salholz-Hillel, M., Malički, M., Szűcs, D., Bendixen, T., & Ioannidis, J. P. A. (2023). Statistical Guidance to Authors at Top-Ranked Journals across Scientific Disciplines. The American Statistician, 77(3), 239-247. https://doi.org/10.1080/00031305.2022.2143897
  • Lakens, D. (2024). Improving Your Statistical Inference (1.4.5 ed.). https://lakens.github.io/statistical_inferences
  • Lehmann, E. L., & Romano, J. P. (2005). Testing Statistical Hypotheses (3 ed.). Springer. https://doi.org/doi.org/10.1007/0-387-27605-X
  • Morimoto, R. (2021). Stop and Think About p-Value Statistics: Fisher, Neyman, and E. Pearson Revisited. Annals of the Japan Association for Philosophy of Science, 30, 43-65. https://doi.org/10.4288/jafpos.30.0_43
  • Murtaugh, P. A. (2014). In defense of P values. Ecology, 95(3), 611-617. https://doi.org/10.1890/13-0590.1
  • Neyman, J. (1950). First Course in Probability and Statistics. Henry Holt and Company.
  1. “We claim there is a non-zero effect, while acknowledging that if scientists make claims using this methodological procedure, they will be misled, in the long run, at most alpha % of the time, which we deem acceptable. We will, for the foreseeable future, and until new data or information emerges that proves us wrong, assume this claim is correct.” (Lakens, 2024, 1.6절

  2. “We can not claim there is a non-zero effect, while acknowledging that if scientists refrain from making claims using this methodological procedure, they will be misled, in the long run, at most beta % of the time, which we deem acceptable.” (Lakens, 2024, 1.6절

Leave a comment