‘가설검정’ P값, 더 이상 전가의 보도 아니다
[7] 영가설 유의성검증 절차의 문제점에 대한 해법들

이번 글에서는 과학자들이 연구가설을 검증할 때 사용하는 자료분석 방식인 ‘영가설 유의성검정’, 또는 ‘P값’의 단점들에 대한 극복 방안에 대해 이야기하려 한다. 구체적으로 어떤 문제점들이 있는지는 지난 글인 “’통계적으로 유의미한 결과’는 얼마나 유의미할까”에서 소개했기에, 여기서 다시 다루지는 않으려 한다. 최근 들어 P값을 오남용하는 문제에 대한 과학자들의 경각심이 한층 높아진 데에는 재현성 위기의 원인으로 ‘잘못된 통계분석 관행’이 반복적으로 지적된 것이 큰 역할을 했다.
과학자들은 유의성검증 절차의 문제를 해결하기 위해 어떤 시도들을 하고 있을까? 크게 나누자면 기존의 통계분석 절차를 크게 바꾸지 않는 선에서 보완하려는 시도와, 완전히 새로운 절차를 제시하려는 시도로 나눌 수 있다. 전자에 대해 먼저 알아보자.
영가설 유의성검정의 보완책들
지금까지 제시된 대부분의 대책들은 완전히 새로운 방법론을 제시하기보다는 기존의 통계분석 방식을 보완하는 데 그 초점이 맞추어져 있다. 즉 영가설 유의성검정 방식과 P값의 사용을 완전히 포기하기보다는 그것을 그대로 사용하면서도 수반되는 문제점을 해결할 수 있는 방안이 주로 제시되고 있다. 다음과 같은 보완책들이 제안되고 실행에 옮겨지고 있다.
원 자료에 대한 보고 강화
영가설 유의성검증의 유행 이전에는 과학자들이 실험 및 관측 데이터를 전부 논문에 보고하는 일이 적지 않았다. 자료 자체가 많지 않았던 시절이라 가능했던 것이기도 하지만, 지금의 관행에 비해 긍정적인 측면도 있었다. 그 덕분에 다른 연구자들이 원 자료에 접근할 수 있었던 것이다.
하지만 유의성검증 절차의 유행 이후에는 연구자들이 P값과 가설검정 결과만 보고하고, 원 자료는 보고하지 않는 사례가 대폭 늘었다. 이런 관행에서는 연구자들이 논문을 읽었을 때 실험 및 관찰 자료의 특성에 대해 알기 힘들다. P값은 원 자료를 가공한 결과로 산출된, 일종의 요약값에 불과하기 때문이다.
이 과정에서 원 데이터를 통해서만 알 수 있는 중요한 정보들, 이를테면 자료의 분포는 어떠한지, 다른 값들에 비해 이상하게 작거나 큰 값(이상점)이 있는지, 실험 집단들 간에 어떤 질적인 차이가 있는지 등을 알 수 없게 된다. 또한 다른 연구자들이 원 자료를 이용해 현상에 대한 새로운 통찰을 얻을 기회가 사라진다.
이를 해결하기 위해, 학술지들은 될 수 있으면 원 자료를 공개할 것을 연구자들에게 권장하고, 통계검정 결과 외에도 원 자료의 특성을 파악할 수 있게 도와주는 항목들을 논문에 수록하도록 권하고 있는 추세다. 이전 연재 글인 “’연구 사전등록제’, 재현성 위기의 제도적 해법”에서 소개한 ‘연구 사전등록제’ 또한 데이터 및 분석방법 공유를 통해 연구의 투명성을 높이려는 시도들과 함께 추진되고 있다.
» ‘바이올린 도표’. 좋은 데이터 시각화 자료는 원 자료의 특성을 알아보기 쉽게 해 준다.
신뢰구간의 사용
많은 연구들이 특정 변수를 조작했을 때 결과값(종속변수)이 달라지는지 알아보는 것을 목적으로 한다. 이를테면 어떤 연구자가 개발한 새로운 교수학습법을 학생들에게 적용했을 때 기존 학습법에 비해 학습 효과가 나아지는지 알아보려 한다. 이를 검증하는 데 영가설 유의성검증 방식을 사용할 수 있다. 구체적으로 ‘영가설’은 두 학습법을 각각 적용했을 때 학습 효과의 차이(이를 테면 평균 시험점수의 차이)가 0이라고 말할 것이고, 연구자의 가설(대안가설)은 차이가 0이 아니라고 말할 것이다. (아마도 새로 개발한 학습법의 효과가 더 크다고 말할 것이다.) 자료로부터 계산된 P값이 충분히 작으면 연구자는 영가설이 틀렸다고 결론내리고 연구가설을 채택할 것이다.
그런데 이런 식의 연구에서 연구자가 획득할 수 있는 정보는 생각보다 많지 않다. 연구자가 P값을 통해 알 수 있는 것은 영가설의 기각 여부뿐이며, 실험적 처치의 효과(서로 다른 교수학습법을 적용한 집단 간 점수 차이)가 구체적으로 얼마나 크고, 그 효과의 추정치가 얼마나 믿을만한지의 여부는 P값을 통해서 전혀 알 수 없다. 이와 관련하여 P값이 작을수록 실험 집단들 간의 차이가 더 유의미하다고 보는 경우가 있는데, 이는 잘못된 해석이다. P값은 효과의 크기뿐 아니라 실험에 사용된 표본의 크기(데이터의 수)를 포함한 다른 요인들에도 영향을 받기 때문이다. 처치의 효과가 작더라도 표본의 크기가 매우 크면 P값은 작게 나올 수 있다. 연구자들은 작은 P값을 ‘큰 효과’로 해석하는 것은 오류라고 지적한다.
이를 보완하기 위해 연구자들은 신뢰구간을 사용할 것을 권장한다. 신뢰구간은 실험적 처치 효과의 크기, 이를테면 평균 시험점수의 차이 같은 것을 포함한다고 추정되는 범위이다.
가령 앞의 사례에서 연구자가 두 집단의 평균 시험점수의 차이에 대해 [0.1, 0.5] 라는 신뢰구간을 얻었다고 하자. 이 신뢰구간은 P값보다 더 많은 정보를 연구자에게 제공한다. 가장 먼저 눈에 들어오는 것은 0이 신뢰구간 안에 포함되어 있지 않다는 것이다. 이는 두 집단의 평균 시험점수의 차이가 0이 아닐 가능성이 높다, 다시 말해 영가설이 지지받지 못한다는 증거로 해석할 수 있다.
두 번째로 눈에 띄는 것은 신뢰구간이 0.3이라는 값을 중심으로 양쪽으로 퍼져 있다는 것이다. 두 집단의 평균을 비교하는 경우, 평균의 차이에 대한 신뢰구간은 자료에서 실제로 관측된 평균 차이를 중심으로 대칭적으로 펼쳐져 있다. 따라서 위 사례의 경우, 평균의 차이에 대한 신뢰구간은 [0.3-0.2, 0.3+0.2] 임을 알 수 있다. 여기서 0.3은 처치효과의 참값에 대한 가장 그럴듯한 추정치, 0.2는 그 추정치의 오차라 해석할 수 있다. 이는 P값에서는 얻을 수 없는 정보들이다. 신뢰구간은 이러한 장점들이 있기 때문에, 많은 학술지들에서 연구자들에게 P값뿐 아니라 신뢰구간을 함께 보고하도록 권장하고 있다.
» 신뢰구간은 특정 확률, 이를테면 95%, 99% 등의 확률로 참값을 포함한다.
효과 크기
이전의 글에서도 언급했듯, 영가설 유의성검증 방식에서 말하는 영가설은 대개 ‘두 집단의 평균이 정확히 같다’ 또는 ‘특정 처치 효과의 값이 0이다’ 등과 같이 특정한 값을 지칭하기 때문에, 현실에서 영가설이 한 점의 오차 없이 옳을 것이라 기대하는 것은 불가능에 가깝다. 실제로 영가설을 기각하는 것은 충분한 데이터가 있으면 어렵지 않다. 두 집단의 평균차가 매우 작은, 이를테면0.001인 경우라도 충분한 크기의 자료가 있으면 ‘통계적으로 유의한’ P값을 얻을 수 있다. 따라서 영가설을 기각했다는 것이 실제로 과학적 의미가 있을 정도로 큰 실험적 효과를 발견한 것인지는 알 수 없다.
이런 이유로 학술지들은 연구자들에게 가설검정의 결과를 보고할 때 그 ‘효과 크기’(effect size)를 함께 보고하도록 권장하는 추세다. 효과 크기를 계산하는 방식은 연구의 종류, 그리고 사용된 통계 절차의 종류에 따라 다양한데, 실험 집단 간 차이를 표준화해 쉽게 이해할 수 있는 형태로 만들거나, 독립변수가 종속변수를 ‘설명’하는 정도를 계량화한 것들이 대부분이다.
예를 들어 심리학 분야에서 많이 사용되는 척도이자 두 집단 간의 평균을 비교할 때 사용되는 효과 크기인 ‘코헨의 d’(Cohen’s d)는 집단 간 평균 차이를 자료의 표준편차(자료가 퍼져 있는 정도)로 나누어 얻은 값이다. 이렇게 하는 이유는 다음과 같다. 자료 자체의 변화가 심한데 실험적 효과(평균 차이)가 적다면 우리는 크게 관심을 갖지 않을 것이다. 이를 테면 먹으면 키가 0.1mm 자란다는 약이 상업적 성공을 거둘 수 있을까? 아마 힘들 것이다. 사람들 간의 키 차이가 대개 센티미터 단위 수준이기 때문이다. 하지만 1센티미터 가량 자란다면 훨씬 더 많은 사람들이 그 약을 찾을 것이다. 이와 같이 실험적 처치의 효과를 평가할 때는 애초에 자료 자체가 얼마나 퍼져 있는지를 고려해야 한다는 것이다. 코헨의 d에는 이런 생각이 반영되어 있다. 이러한 효과 크기들을 통해 연구자들은 특정 변인이 종속변인에 미치는 영향력의 크기 및 그 현실적 함의에 대한 정보를 얻을 수 있다.
새로운 통계분석 절차의 수립
지금까지는 기존 통계분석 관행에 대한 보완적 해결책들을 주로 살펴봤다면, 이제부터는 더 근본적인 변화를 요구하는 해결책들을 살펴본다. 이런 주장들은 주류 과학계에서는 아직 본격적으로 반영되지 않고 있는 것이 현실이다. 하지만 급진적인 주장에 동조하는 과학자들의 수가 적지 않고, 조금씩 확산되고 있기 때문에 현재보다는 그 미래가 주목된다 하겠다.
영가설 유의성검증 절차의 완전한 폐기
이는 일부 급진적 과학자들이 주장해 왔지만 시행된 예는 없다가, 지난 2015년 초 <기초 및 응용사회심리학 (Basic and applied social psychology, BASP)>이라는 이름의 심리학 학술지에서 실현되었다. 해당 학술지의 편집인들은 사설을 통해 해당 학술지에 투고되는 논문에서 P값의 사용을 완전히 금지했다.
이는 동료평가(peer-review) 방식을 채택한 과학 학술지 중에서는 처음 취해진 조치로, 발표 당시 심리학을 포함한 과학계에 큰 파장을 일으켰으며, 급기야 미국 통계학회가 P값에 관한 공식 입장을 내놓기에 이르렀다. 동료평가를 하는 학술지가 이와 같은 급진적인 정책을 실행에 옮긴 것은 이례적인 일이었다. 아직 이 학술지의 행보를 따르는 다른 학술지는 나타나지 않았지만 앞으로 그 추이가 주목된다.
» 영가설 유의성검증 절차를 금지한다고 발표한 ‘기초 및 응용사회심리학’지 사설.
대안적 통계분석 방식의 도입: 베이지안 추론
P값 및 영가설 유의성검정 방식의 폐해를 지적하는 연구자들 중 상당수가 그 대안으로 베이지안 추론(Bayesian inference)을 사용할 것을 주장해 왔다. 베이지안 추론은 영가설 유의성검정과 근본적으로 다른 방식으로 가설검정 문제에 접근한다. 베이지안 추론의 핵심은 어떤 믿음이 있을 때 (‘사전 믿음’), 자료를 관측한 후 ‘베이즈 정리’(Bayes’ theorem)로 알려진 공식을 이용하여 사전 믿음을 새로운 믿음(‘사후 믿음’)으로 업데이트하는 것인데, 여기서 말하는 ‘믿음’은 과학에서 말하는 ‘가설’이라고 볼 수 있다. 베이지안 통계분석은 가설들을 직접 비교 및 평가하는 도구를 제공해 준다. 이를테면 다음과 같다.
앞에서 예로 든 것과 같이, 어떤 연구자가 두 집단의 시험점수 평균이 같은지, 다른지 알아보려 한다고 가정하자. 유의성검증 절차에서는 일단 영가설, 즉 ‘두 집단의 시험점수 평균은 차이가 없다’라는 가설을 세운 뒤, 자료를 관측하고 거기에서 P값을 계산한다. 이 P값이 특정 값보다 큰지 작은지에 따라 영가설을 기각할 수 있는지가 결정된다.
베이지안 추론방식에서는 데이터를 관측하기 전에 영가설과 연구가설에 대해 ‘사전확률’을 부여한다. 사전확률은 각각의 가설에 대한 믿음의 정도를 반영하는데, 이를테면 영가설과 대안가설이 똑같이 그럴듯하다고 생각한다면 각각 0.5씩의 사전확률을 부여한다. (여기서 두 사전확률의 합은 1이어야 한다.) 앞서 말했듯 이 사전 믿음(확률)들은 자료를 관측한 후 베이즈 정리를 통해 ‘사후확률’로 업데이트된다. 연구자는 이 사후확률들을 고려하여 결론을 내린다.
만약 영가설과 대안가설의 사후확률이 각각 0.4와0.6라면 연구자는 대안가설이 영가설에 비해 더 그럴듯하기 때문에 대안가설이 옳다고 결론 내릴 수 있다. 하지만 어떤 연구자는 이 정도의 증거로는 대안가설이 충분히 확실하게 입증되지 않았다고 생각하여, 영가설을 기각하는 데 실패했다고 결론내릴 수도 있다. 이에 대한 객관적 기준은 존재하지 않기 때문에 연구자의 판단이 중요하게 작용한다.
영가설 유의성검정 방식과 베이지안 추론 방식의 중요한 차이는 전자는 영가설만을 검증하지만, 후자는 영가설과 연구자의 가설을 비교하고 검증한다는 것이다. 따라서 연구가설에 대한 더 직접적인 검증이 가능해진다. 이는 영가설이라는 일종의 ‘허수아비 가설’을 검증함으로써 연구가설을 입증하려 하는, 영가설 유의성검증 방식의 태도와 근본적으로 다른 것이다. 베이지안 추론 방식에는 이외에도 여러 가지 장점이 있지만, 이 글에서 모두 소개하기는 어렵기 때문에 생략하려 한다. 관심있는 독자들에게는 아래 [참고 문헌] 중 Wagenmakers (2007)을 읽어볼 것을 권한다.
마치며
오래 된 관행을 바꾼다는 것은 결코 쉬운 일이 아니다. 과학계와 같이 신중하고 변화에 대해 보수적인 분야에서는 더욱 그러하다. 하지만 곳곳에서 지적되고 있는, 영가설 유의성검증 방식에 대한 폐해들은 변화를 더 이상 늦출 수 없게 만들었다. 그러한 변화의 움직임은 이미 시작되었으며 각 분야로 점점 확산되고 있다. 앞으로 변화가 기대되는 이유다. 과학은 언제나 완전하지는 않지만, 자신의 오류를 끊임없이 수정하며 발전해 왔다. 앞으로도 계속 그러할 것이다.◑
[참고 문헌]
▒ Cumming, G. (2014). The New Statistics: Why and How. Psychological Science, 25(1), 7?29.
▒ Trafimow, D., & Marks, M. (2015). Editorial. Basic and Applied Social Psychology, 37, 1-2.
▒ Wagenmakers, E-J. (2007), A practical solution to the pervasive problems of p values, Psychonomic Bulletin & Review, 14 (5), 779-804.
▒ Wasserstein, R. L. & Lazar, N. A. (2016). The ASA‘s Statement on p-Values: Context, Process, and Purpose. The American Statistician, 70(2), 129-133.
박준석 미국 오하이오주립대학 심리학 박사과정
@한겨레 과학웹진 사이언스온
[사이언스온의 길목]