박준석의 "‘실험 재현성의 위기’ 바로보기"

발표된 실험 결과가 재현되지 않는 ‘재현성의 문제’가 요즘 실험 과학계에서 화두입니다. ‘재현성의 위기’가 무엇이며, 과학자들은 그 위기를 극복하고자 어떠한 노력을 기울이고 있는지를 심리학 박사과정 박준석 님이 정리합니다.

‘연구 사전등록제’, 재현성 위기의 제도적 해법

[6]위기 해결을 위한 새로운 시도들 ①


00openscience2.jpg » 그림 출처 / https://www.opensciencecommons.org, cc


현성 위기는 과학 내적 요인들뿐 아니라 경제적 유인, 사회적 동기 등 다양한 측면들이 복잡하게 얽혀 있으며, 따라서 해결하기 쉽지 않아 보이는 것이 사실이다. 그러나 과학자들은 이에 굴하지 않고 이를 극복하기 위한 노력을 기울이고 있다. 그 결과, 몇 가지 대처 방안들이 제시되고 실행에 옮겨지고 있다. 이들이 재현성 위기를 근본적으로 해결할 대안이 될지는 아직 미지수다. 하지만 많은 과학자들은 상당한 기대를 걸고 있다.



‘연구 사전등록제’란?

00dot.jpg

글에서는 ‘연구 사전등록제’(pre-registration)에 대해 다루려 한다. 연구 사전등록제는 연구자가 (1) 연구 가설 및 그 구체적 검정 방식을, (2) 검정 절차 수행 이전에 확정하고, (3) 그것들을 문서화하여 공개된 장소에 등록해 두는 것을 말한다. 최근에는 (4) 연구 계획에 대한 동료 연구자들의 1차 심사를 거쳐 적합하다는 판정이 나오면, (5) 연구를 실제로 수행하고 데이터 분석을 수행한 뒤, (6) 그 결과를 바탕으로 논문을 작성해 제출하며, (7) 학술지에서 최종 논문에 대한 2차 심사를 거쳐 게재 여부를 결정하는 것까지 포함하는 추세다 (Wagenmakers 등, 2012).


먼저 연구 사전등록제가 왜 제안되었는지에 대해 먼저 밝혀 둘 필요가 있을 듯하다. 지난 연재 글 두 편에서 재현성을 위협하는 두 가지 원인인 ‘출간 편향’과 ‘p-해킹[1]에 대해 논의했다. 기억을 되살리는 의미에서 다시 설명하자면, ‘출간 편향’은 학술지 측에서 통계적으로 ‘유의한’ 연구만을 선택적으로 출간하다 보니 ‘음성 결과’는 음지에 묻히게 되는 현상을 말하며, ‘p-해킹’은 연구자가 여러 가지 통계검정 절차를 수행한 뒤에 그 중 유의한 결과만 보고하는 잘못된 관행을 일컫는 말이었다.


한 가지 덧붙이자면, 데이터를 먼저 수집하고 가설을 그 데이터에 맞게 꾸며내는 경우도 흔히 지적된다. 이런 관행은 ‘사후 스토리텔링’(post-hoc storytelling) 또는 ‘갈림길들이 있는 정원’(garden of forking paths) (Gelman & Loken, 2014)이라는 비유적 표현으로 알려져 있는데, 출간 편향 및 p-해킹과 함께 재현성을 해치는 중요한 요인으로 지적받고 있다. 연구 사전등록제는 이런 문제점들을 해결하기 위한 대안으로 제시되었다.



연구 사전등록제의 효과들

00dot.jpg

연구 사전등록제는 위의 문제들을 어떻게 해결한다는 것일까? 먼저 출간 편향을 생각해 보자. 출간 편향은 (1) 학술지 측에서는 통계적으로 ‘유의한’ 연구 결과만을 선호하며, (2) 그 결과 연구자들은 ‘유의한’ 연구 결과만을 발표하고 그렇지 않은 것들은 서랍 속에 묻어두기 때문에 발생한다. 다시 말해 출간 편향은 연구 결과를 이미 아는 상태에서 그것의 학술지 게재 여부를 판단하기 때문에 발생한다. 그렇다면, 이를 해결하기 위해서는 결과를 모르는 상태에서 연구의 게재 여부를 판단할 수 있어야 하지 않을까? 그런데 한 가지 문제가 생긴다. 어떤 연구가 학술지에 게재되어야 할지 아닐지는 그러면 어떻게 판단할까?


구 사전등록제에서는 연구들의 결과가 얼마나 ‘유의’한지가 아니라, 사전에 얼마나 타당하게 설계되었는지에 따라 적합성 여부를 먼저 판단한다. 연구 가설과 설계에 대한 1차 평가를 통과한 연구들만이 ‘진행 가능’ 판정을 받게 되며, 실제 데이터 수집 및 분석 절차로 이어질 수 있다. 반대로 어떤 연구가 1차 심사에서 ‘부적합’ 판정을 받았다면, 그 연구는 새로운 분석 방식 및 연구 설계를 제안하여 통과해야 계속 진행할 수 있다. 1차 심사 과정에서 연구 설계 및 통계분석 전문가들이 개입하게 되는데, 이들의 역할은 심사만이 아니라 더 나은 설계와 분석 방식의 제안까지 포함한다. 이는 과학이 개인적인 지적 탐구 활동이 아닌, 분업과 협력을 통한 탐구 과정이라는 상식과도 잘 부합한다.


1차 심사 통과 뒤에는 자료 수집/분석 절차를 통해 데이터가 연구자의 가설을 지지하는지 검증한다. 그런데 사전등록제에서는 그 기준 또한 사전에 등록해야 한다. 이를 통해 연구자에 의한 자의적 판단을 방지할 수 있다. 그리고 여기서부터가 중요하다. 데이터 분석의 결과에서 통계적으로 유의한 결과가 나왔든, 그렇지 않든 상관없이 그 결과를 학술지에 게재할 수 있다. 1차 심사에서 연구가 잘 설계되었다고 판단했기 때문이다. 결과가 어떻든 간에 방법론적으로 타당한 절차를 거쳐 나온 것이라면, 공적으로 알려져야 한다는 취지다. 통계적 유의성 여부가 학술지 게재 여부에 영향을 끼치지 않기 때문에, 음성 결과도 학술지에 게재될 수 있고 따라서 ‘서랍 문제’가 방지된다. 이는 사전등록제가 출간 편향을 해결할 수 있는 간단하면서도 중요한 해법임을 보여준다.


이번에는 연구 사전등록제가 p-해킹 및 사후 스토리텔링의 문제를 어떻게 방지하는지 알아보자. 연구자가 p-해킹을 하기 위해서는 실험적으로 여러 가지 통계적 검정들을 시도해 본 다음에, 그것들 중 통계적으로 ‘유의한’ 것만 보고할 수 있어야 한다. 다시 말해 어떤 연구를 수행하고 보고할지 연구자가 마음대로 결정할 수 있어야 p-해킹이 가능하다. 그러나 연구 사전등록제에서는 연구자에게 그런 자유가 주어지지 않는다. 사전 등록 과정에서 어떤 통계적 검정절차를 어떤 데이터에 적용할 것인지 미리 결정하게 되어 있기 때문이다. 여기에는 샘플 크기도 포함되기 때문에, 연구자가 마음대로 데이터를 늘려 가면서 통계적으로 유의한 결과가 나올 때까지 가설 검정을 하는 것도 불가능하다. 따라서 사전등록제에서는 p-해킹이 어렵다. 사후 스토리텔링도 비슷한 이유로 불가능하다. 연구가설 및 예측 또한 사전에 등록해야 하기 때문이다. 따라서 데이터를 미리 본 뒤에 가설을 그 결과에 ‘끼워맞추는’ 것이 불가능하다.



연구 사전등록제의 확산

00dot.jpg

00preregister_1.jpg » 배지 그림. 출처: http://www.psychologicalscience.org/index.php/publications/journals/psychological_science/badges 전등록제는 이와 같은 긍정적 효과들을 갖고 있기 때문에, 학술지들은 점점 사전등록제를 수용 또는 장려하는 분위기다. 미국의 양대 심리학회 중 하나인 심리과학협회(APS; Association for Psychological Science)에서 발행하는 학술지인 <심리과학(Psychological Science)> 저널은 편집장 명의로 사전등록을 장려하는 사설을 실었다 (Lindsay, 2015). 또한 사전등록을 한 연구가 출간되면 그 영예로서 옆의 맨위 그림과 같이 생긴 배지를 달아준다 (데이터나 연구 자료를 공유한 경우에도 다른 종류의 배지들이 수여된다).


00preregister_2.jpg » 7월 6일 현재, <심리과학>의 온라인 우선발행 (online first) 논문들의 목록. Sadeh 등의 연구가 사전등록 된 것임을 알 수 있다. 해당 연구는 데이터도 공개했음을 알 수 있다. 신경과학 학술지인 <코텍스(Cortex)>도 또한 사전에 등록된 연구의 출간을 장려하는 사설을 게재했다(Chambers, 2013). 이 학술지는 특히 ‘사전등록된 연구’(registered study)라는 범주를 신설하여, 그 기준에 부합하는 연구들을 게재하고 있다.


최근의 심리학 재현 연구들은 사전등록 방식을 기본으로 채택하는 추세다. 매츠키와 그 동료들(Matzke 등, 2015)은 순간적으로 눈을 옆으로 움직이는 것(horizontal saccadic eye movement)이 기억을 떠올리는 데 도움이 된다는 그동안의 연구를 재현하려 시도했으나 실패했다고 보고했다. 이 연구에서 시행된 실험들은 사전에 등록되었다(https://osf.io/layzm/). 같은 해 ‘열린 과학 협력체’(Open Science Collaboration; OSC)에 의해 수행되고, <사이언스>에 게재된 한 연구에서는 유명 심리학 학술지들에 게재된 연구 100개 가량을 재현하려 시도했으나 그 중 절반도 성공하지 못했다고 보고했다(OSC, 2015). 이 연구 또한 사전등록을 의무화했다. 재현 시도 연구들은 온라인 저장소에 모두 사전 등록되었으며, 연구 수행 뒤에 데이터 및 분석 절차도 모두 일반에 공개되었다. OSC의 논문에 사전등록 내용 및 데이터에 대한 접근 경로가 포함되어 있다.



연구 사전등록제에 대한 반발

00dot.jpg

연구 사전등록제에 대한 긍정적 반응들만 있는 것은 아니다. 사전등록제는 앞서 살펴본 것과 같이 그 이점이 분명하기에, 드러내놓고 반대하는 연구자들은 많지 않다. 하지만 심사도 두 번 거쳐야 하고 방법론적으로도 까다로운 심사를 거쳐야 하는 등, 일반적 절차보다 더 까다롭다. 그 결과 아직 사전등록제를 거쳐 출간되는 논문의 비율은 <심리과학> 저널의 경우 1% 가량으로 아직은 극소수에 불과하다 (Moore, 2016).


부 연구자들은 공개적으로 사전등록제를 비판하기도 한다. 가장 논란이 되는 것은 연구 사전등록제가 ‘탐색적 연구’(exploratory research)를 제한한다는 것이다. 연구자가 갖고 있는 가설이 맞는지를 알아보는 ‘확인적 연구’(confirmatory research)와는 달리, 탐색적 연구에서는 데이터를 이리저리 살펴보면서, 가설을 세워보고 탐색해보는 것을 목표로 한다. 그런데 모든 연구에 사전등록제를 요구하면, 탐색적 연구 자체가 불가능하다는 것이 비판자들의 주장이다. 이밖에도 연구에 드는 비용과 노력의 증가, 신진 연구자들에게 따르는 어려움 등을 들어 연구 사전등록제를 반대하는 목소리 또한 만만치 않다 (Moore, 2016).


이런 비판들에 대해 사전등록제 옹호자들은 다음과 같이 반박한다. 첫째, 그들은 연구 사전등록제가 모든 연구에 적용되어야 한다고 주장하지 않는다. 다만 연구자들은 연구의 목적이 탐색적인지 확인적인지 논문에서 확실히 밝혀야 한다는 것이다 (Wagenmakers 등, 2012). 둘째, 사전등록제가 예전보다 논문 출간에 더 많은 노력과 비용을 요구할 것은 사실이지만 그것은 과학이 더욱 더 재현 가능하고 신뢰할 수 있는 결과를 낳기 위해 지불해야 하는 비용이라는 것이다 (Matzke 등, 2015). 재현 불가능한 연구에 낭비되는 막대한 비용을 고려할 때, 이 주장은 상당한 설득력을 갖고 있다.



재현성 위기에 대한 제도적 해결책의 필요성

00dot.jpg

지금까지 연구 사전등록제를 통해 재현성 위기를 해결하려는 노력에 대해 살펴보았다. 그 결과 연구 사전등록제는 출간 편향,  p-해킹, 사후 스토리텔링 등에 대한 간단하고도 효과적인 해결책임을 알 수 있었다. 물론 사전등록제가 이 모든 것들을 완벽하게 막을 수 있는 수단은 아니며, 그 반발 또한 만만치 않다는 것 또한 사실이다.


지만 점점 많은 학술지들이 사전등록제를 가능한 선택사항으로 받아들이거나 또는 의무화 하는 추세임을 감안해볼 때, 사전등록제는 과학 연구들의 재현성 제고에 점점 더 많은 역할을 할 것으로 기대된다. 또한 사전등록제는 탐색적/확인적 연구의 역할 분담을 분명히 하는 데에도 기여할 것으로 보인다. 마지막으로 사전등록제는 재현성 위기를 해결하고자 할 때에 제도적 보완이 필요함을 보여주는 좋은 사례다. 이는 다음 글에서 논의할 주제인 ‘데이터 분석 절차의 개선’에도 적용된다고 할 수 있다.



[주]

[1] 이전의 해당 글에서는 ‘p값 잘라내기’로 번역했으나, 원래의 의미를 잘 살리지 못한다는 판단 하에 이 글에서는 ‘p-해킹’으로 표기하기로 하였다.


[참고문헌]

Chambers, C. D. (2013). Registered Reports: A new publishing initiative at Cortex. Cortex, 49, 609-610.

Gelman, A., & Loken, E. (2014). The Statistical Crisis in Science. American Scientist, 102, 460-465.

Lindsay, D. S. (2015). Replication in Psychological Science. Psychological Science, 26, 1827-1832.

Matzke, D., Nieuwenhuis, S., van Rijn, H., Slagter, H. A., van der Molen, M. W., & Wagenmakers, E-J. (2015). The Effect of Horizontal Eye Movements on Free Recall: A Preregistered Adversarial Collaboration. Journal of Experimental Psychology: General, 144, e1-e15.

Moore (2016), Preregister If You Want To, American Psychologist, 71, 238-239.

Open Science Collaboration (2015), Estimating the reproducibility of psychological science, Science, 349.doi: 10.1126/science.aac4716

Open Science Framework (2016), Preregistration: Why, What, Where? https://osf.io/crg29/

Wagenmakers, E-J., Wettzels, R., Borsboom, D., van der Maas, H. L. J., & Kievit, R. A. (2012). An agenda for Purely Confirmatory Research. Perspectives on Psychological Science, 7, 632-638.


[관련 뉴스]

https://www.theguardian.com/science/blog/2013/jun/05/trust-in-science-study-pre-registration

https://www.theguardian.com/science/head-quarters/2014/may/20/psychology-registration-revolution


박준석 미국 오하이오주립대학 심리학 박사과정  

@한겨레 과학웹진 사이언스온  



  [사이언스온의 길목]

페이스북 페이지   https://www.facebook.com/scienceon

트위터   https://twitter.com/SciON_hani

한겨레 스페셜   http://special.hani.co.kr

  • 구글
  • 카카오
  • 싸이월드 공감
  • 인쇄
  • 메일
박준석 미국 오하이오주립대학 심리학 박사과정
학부와 석사과정에서 심리학을 공부했고 현재 인지심리학 박사과정에 재학중이다. 인간의 마음을 수학적으로 모형화하는 분야인 '인지모델링'을 공부하고 있다. 심리학, 뇌과학, 통계학, 기계학습 등 분야에 관심이 있으며, 과학 재현성(reproducibility) 관련 논의에도 관심이 많다.
이메일 : park.1952@osu.edu      

최신글




최근기사 목록

  • ‘가설검정’ P값, 더 이상 전가의 보도 아니다‘가설검정’ P값, 더 이상 전가의 보도 아니다

    ‘실험 재현성의 위기’ 바로보기박준석 | 2016. 09. 08

    [7] 영가설 유의성검증 절차의 문제점에 대한 해법들 이번 글에서는 과학자들이 연구가설을 검증할 때 사용하는 자료분석 방식인 ‘영가설 유의성검정’, 또는 ‘P값’의 단점들에 대한 극복 방안에 대해 이야기하려 한다. 구체적으로 어떤 문제점들이...

  • 연구부정은 개인의 도덕적 문제 그뿐일까?연구부정은 개인의 도덕적 문제 그뿐일까?

    ‘실험 재현성의 위기’ 바로보기박준석 | 2016. 06. 24

    [5] 연구부정과 재현성 문제가 무관하지 않은 이유사실 이 글에서 다루고자 하는 문제인 ‘연구 부정’이 재현성 위기 문제와 직접적인 관련이 있는지에 대해서는 다소 논란의 소지가 있다. 어쨌든 연구 부정은 과학적 문제가 아닌 도덕적 문제라...

  • ‘통계적으로 유의미한 결과’는 얼마나 유의미할까‘통계적으로 유의미한 결과’는 얼마나 유의미할까

    ‘실험 재현성의 위기’ 바로보기박준석 | 2016. 05. 20

    [4] 과학 발전 저해하는 ‘영가설 유의성검정’ 방식 2014년 말 화제가 되었던 이른바 ‘땅콩 회항’ 사건을 아직 기억하는 이들이 많으리라 생각한다. 당시 대한항공 부사장이었던 조현아씨는 자사 비행기의 기내 서비스에 만족하지 못해 비행기를 ...

  • ‘양성결과’ 발표에만 주목, 서랍속에 묻히는 ‘음성결과’‘양성결과’ 발표에만 주목, 서랍속에 묻히는 ‘음성결과’

    ‘실험 재현성의 위기’ 바로보기박준석 | 2016. 05. 04

    [3] ‘출간 편향’ 이란? 이번 글에서는 재현성 위기의 중요한 원인으로 지목되는 ‘출간 편향’(publication bias)에 대해 이야기하려 한다. 이는 아직 대중에는 생소한 개념이지만, 재현성 위기의 다른 원인들과도 관련이 있는 중요한 문제다.출간 ...

  • 재현성 위기는 과학불신과 연구낭비를 초래한다재현성 위기는 과학불신과 연구낭비를 초래한다

    ‘실험 재현성의 위기’ 바로보기박준석 | 2016. 04. 27

    [2] 재현성 위기의 실태와 그 결과 ‘재현성 위기’(reproducibility crisis)라는 용어가 본격적으로 사용되기 시작한 것은 2010년대 초였다. 이런 데에는 심리학 분야에서 있었던 몇몇 사건이 결정적 역할을 했다.이를 테면 지난 2011년, 해당 분야...