박준석의 "‘실험 재현성의 위기’ 바로보기"

발표된 실험 결과가 재현되지 않는 ‘재현성의 문제’가 요즘 실험 과학계에서 화두입니다. ‘재현성의 위기’가 무엇이며, 과학자들은 그 위기를 극복하고자 어떠한 노력을 기울이고 있는지를 심리학 박사과정 박준석 님이 정리합니다.

재현성 위기는 과학불신과 연구낭비를 초래한다

[2] 재현성 위기의 실태와 그 결과


00crisisofrepro_3.jpg » 지난 4월 19일, 미국 언론매체인 <슬레이트(Slate)>는 ‘암 연구가 잘 작동하고 있지 않다’(Cancer research is broken)라는 제목의 글에서, 의학 및 관련 생명과학 분야의 연구 일반의 재현성에 대한 문제를 제기했다. 출처/ http://www.slate.com


‘재현성 위기’(reproducibility crisis)라는 용어가 본격적으로 사용되기 시작한 것은 2010년대 초였다. 이런 데에는 심리학 분야에서 있었던 몇몇 사건이 결정적 역할을 했다.


이를 테면 지난 2011년, 해당 분야 최고의 권위를 자랑하는 <성격 및 사회심리학회지(Journal of personality and social psychology)>에 인간에게 예지력이 있다는 주장을 담은 논문이 출간되었다. 이 연구에서 연구자들은 컴퓨터 화면에 외설적이거나 그렇지 않은 그림을 띄워놓고 커튼으로 완전히 가린 다음에 참가자들에게 그 위치를 맞히게 했는데, 실험 결과 사람들은 외설적인 그림의 위치를 ‘우연’ 수준 이상으로 잘 맞혔다는 것이 연구자들의 주장이었다. 이를 근거로 연구자들은 인간에게 예지력이 있다고 주장했다.


그런데 이 논문이 발표된 뒤에, 세계 각지의 연구진들이 이 놀라운 결과를 재현하려 했으나 거의 모두가 실패했다. 이 사건은 사람들로 하여금 심리학 연구의 신뢰성에 의문을 갖게 만들었는데, 재현이 되지 않았다는 것뿐 아니라 애초에 비과학적인 주장을 담은 논문이 최고의 학술지에 게재될 수 있었다는 점에서 더욱 그러했다.



▒ 심리학과 의학, 생물학 등 여러 분야에서 제기

00dot.jpg  

00crisisofrepro_2.jpg » 데이터 조작 논문으로 충격을 준 네덜란드 사회심리학자 슈타펠. 출처/ 뉴욕타임스 보도 화면.슷한 시기에 네덜란드의 사회심리학자인 슈타펠(Diederik Stapel) 교수가 그동안 발표한 100여 개의 연구들 중 수십 개에서 데이터를 조작하거나 꾸며냈다는 사실이 언론에 보도되어 사람들에게 충격을 주었다. 그는 교수직에서 해임되었고, 결국 박사학위마저 잃게 되었다. 이 사건은 언론에 대서특필 되었으며, 심리학 연구에 대한 신뢰를 더욱 떨어뜨리는 결과를 낳았다.


기야 미국 양대 심리학회 중 하나인 ‘미국심리학회(APS)’에서는 2012년에 <심리과학에 대한 관점들(Perspectives on psychological science)>이라는 학회 산하 학술지에서 재현성에 관한 특집호를 발행하기에 이르렀다. 이 특집호에서는 ‘신뢰성 위기’(crisis of confidence)라는 표현을 명시적으로 사용했다. 심리학 연구에 대한 신뢰가 실추되고 있다는 위기 의식이 반영된 것이었다.


00crisisofrepro_1.jpg » 심리학저널의 '신뢰성의 위기' 특집. http://pps.sagepub.com/content/7/6 이러한 계기로 비추어보면, 재현성 문제는 심리학 분야에 한정되는 것으로 생각하기 쉽다. 흔히 ‘경성 과학(hard science)’으로 알려진 분야들은 사회과학에 비해 수학적으로 엄밀하거나 정밀한 측정 방식을 사용하기 때문에, 재현성이 더 높을 것이라 생각할 수 있다. 하지만 이러한 고정관념이 언제나 참인 것은 아닌 듯하다. 예를 들어 미국 스탠포드대학 의학 교수인 존 이오아니디스(John Ioannidis)는 지난 2005년에 ‘왜 대부분의 출간된 연구 결과들은 거짓인가’라는 논문을 <플로스 의학(PLoS Medicine)>에 게재했는데, 이 논문에서는 간단한 수식들과 시뮬레이션을 통해 의학 분야에서 출간된 연구들 중 상당수가 거짓일 수 있다는 의혹을 제기했다.


특히 이 연구는 의도적인 연구 조작이 전혀 없는 상황에서도 거짓 연구 결과의 비율이 높을 수 있음을 보여주었다는 점에서 더욱 충격적이었는데, 저자는 시나리오에 따라 출간된 연구들 중 1% 미만이 참일 수 있다는 가능성까지 제기했다. 이 논문은 현재 구글 학술검색 기준 3,000회 이상 인용되었다.


편 지난 4월 19일, 미국 언론매체인 <슬레이트(Slate)>는 ‘암 연구가 잘 작동하고 있지 않다’(Cancer research is broken)라는 제목의 글에서, 의학 및 관련 생명과학 분야의 연구 일반의 재현성에 대한 문제를 제기했다. 이 기사에 인용된, 2012년에 글렌 베글리(Glenn Begley)와 동료들이 보고한 재현 시도 연구에 따르면, 암 생물학 분야에서 10년간 보고된 53개의 중요했던 연구들 중 단 6개(11%)만이 재현에 성공했다. 같은 기사에서 인용한, 바이엘사에서 수행한 다른 연구 또한 다수의 암 연구 재현 시도에서 20~25%만이 성공했다고 밝혔다.


흔히 자연과학의 모범으로 간주되는 물리학에서도 재현성에 대한 문제제기가 없었던 것은 아니다. 2015년에 <네이처(Nature)>에 출간된 한 코멘트 글에 의하면, 천문물리학 분야에서도 그동안 발표되었던 연구들 중 상당수가 재현되지 않았다. 저자인 잰 콘래드(Jan Conrad) 에 따르면 ‘빛보다 빠른 중성미자의 발견’, ‘감마선을 발산하는 암흑물질 입자’ 등을 비롯하여 발표 당시 물리학자들을 놀라게 했던 연구결과들 중 상당수가 재현 불가능한 것으로 드러났으며, 이제는 천체물리학자들이 ‘또다른 암흑물질 후보’를 농담거리로 삼는다는 웃지 못할 상황에 이르렀다.



▒ 재현성 위기로 과학 신뢰 추락, 두고볼 일 아니다

00dot.jpg

이와 같이 재현성 문제는 자연과학과 사회과학을 가리지 않고 광범위하게 퍼져 있는 것으로 보인다. 이러한 재현성 위기 현상이 가져오는 문제들은 여러 가지가 있겠지만, 중요한 두 가지만 꼽아보자면 다음과 같다.


째, 과학에 대한 신뢰가 실추된다. 물론 이것은 재현 불가능성에서 오는 직접적인 부정적 결과다. 이는 당장 과학 연구에 대한 재정 지원의 감축이나 중단 요구로 이어질 수 있다는 점에서 단순한 명예의 문제가 아니다. 이를 테면 앞서 언급한 <슬레이트>지의 기사에 따르면 미국 정부가 한 해에 암 연구에 사용하는 예산은 무려 50억 달러, 그러니까 5조 원 이상의 돈이다. 이 엄청난 돈을 재현이 되지 않는 연구에 언제까지나 투자해줄 것이라고 믿는 것은 지나치게 긍정적인 전망일 것이다. 재현성에 대한 문제제기는 이제 시작 단계에 불과하며, 앞으로 점점 강해질 것이라는 점에서 이 문제는 과학자들에게 현실적인 문제로 다가온다.


째, 과학 연구에 투자되는 역량과 자원이 낭비된다. 재현되지 않을 연구에 기반을 두어 역시 재현되지 않을 후속 연구를 진행하게 될 다른 연구자들의 시간과 노력이 허사가 된다. 낭비된 연구 역량이 더 유용하게 쓰일 수 있었다는 점은 결코 간과할 수 없다. 물질적 낭비 또한 막대하다. 앞서 언급한 <슬레이트>지의 기사에서는 재현 불가능한 암 연구로 인해 그 동안 미국 정부가 입은 재정적 손실을 약 280억 달러(30조 원 가량)로 추산하고 있다. 암 연구는 과학의 한 분야에 불과하며, 다른 분야에서 재현 불가능한 연구로 인해 입은 손실 또한 고려한다면, 과학 전 분야에서 재현 불가능한 연구가 낭비했을 자원의 총량은 그보다 훨씬 클 것이다. 낭비된 연구비는 결국 국민 세금에서 나왔다는 점에서, 재현성 문제는 과학계만의 문제가 아닌, 사회 전체가 관심을 갖고 해결해야 할 문제임을 잘 보여준다.


이와 같이 과학 연구의 재현 불가능성이 끼치는 악영향은 생각보다 심각하다. 이에 과학자들은 재현성 위기의 원인을 파악하기 위해 노력해 왔다. 다음 글부터는 그런 원인으로 지적되는 것들에 대해 다룰 것이다.


그 첫째로 살펴볼 것은 ‘출간 편향’(publication bias)의 문제다. 간단히 요약하자면, 과학 학술지들은 어떤 현상이 존재한다는 주장을 담은 연구를 그렇지 않은 연구보다 더 많이 출간하며, 그 결과 과학자들은 특정 현상이나 효과의 부재를 주장하는 연구를 발표하기를 꺼리게 된다는 것이다. 이는 생각지 못했던 부정적 결과들을 초래한다. 다음 글에서 이와 관련된 더 자세한 이야기들을 해보려 한다.


[참고문헌]


▒ Begley, C. G., & Ellis, L. M. (2012). Drug Development: Raise standards for preclinical cancer research. Nature, 483, 531-533.

▒ Bem, D. J. (2011). Feeling the Future: Experimental Evidence for Anomalous Retroactive Influences on Cognition and Affect. Journal of personality and social psychology, 100(3), 407-425.

▒ Ioannidis, J. P. A. (2005). Why Most Published Research Findings Are False. PLoS Medicine, 2(8), 696-701.

▒ Conrad, J. (2015). Reproducibility: Don’t cry wolf. Nature, 523, 27-28.

▒ Engber, D. (2016, Apr. 19). Cancer research is broken. Slate. http://www.slate.com/articles/health_and_science/future_tense/2016/04/biomedicine_facing_a_worse_replication_crisis_than_the_one_plaguing_psychology.html

▒ Pashler, H., & Wagenmakers, E-J. (2012). Editors’ Introduction to the Special Section on Replicability in Psychological Science: A Crisis of Confidence? Perspectives on Psychological Science, 7(6), 528?530.

▒ Ritchie, S. J., Wiseman, R., & French, C. C. (2012). Failing the Future: Three Unsuccessful Attempts to Replicate Bem’s ‘Retroactive Facilitation of Recall’ Effect. PLoS One, 7(3), e33423.


박준석 미국 오하이오주립대학 심리학 박사과정  

@한겨레 과학웹진 사이언스온  



  [사이언스온의 길목]

페이스북 페이지   https://www.facebook.com/scienceon

트위터   https://twitter.com/SciON_hani

한겨레 스페셜   http://special.hani.co.kr


  • 구글
  • 카카오
  • 싸이월드 공감
  • 인쇄
  • 메일
박준석 미국 오하이오주립대학 심리학 박사과정
학부와 석사과정에서 심리학을 공부했고 현재 인지심리학 박사과정에 재학중이다. 인간의 마음을 수학적으로 모형화하는 분야인 '인지모델링'을 공부하고 있다. 심리학, 뇌과학, 통계학, 기계학습 등 분야에 관심이 있으며, 과학 재현성(reproducibility) 관련 논의에도 관심이 많다.
이메일 : park.1952@osu.edu      

최신글




최근기사 목록

  • “p값 개선하자”…과학자들, 연구가설 검정 ‘문턱값’ 강화 제안“p값 개선하자”…과학자들, 연구가설 검정 ‘문턱값’ 강화 제안

    ‘실험 재현성의 위기’ 바로보기박준석 | 2017. 08. 16

     뉴스 & 해설  통계·심리·경제학 등 72명, 개선제안 논문 펴내 주목과학 재현성 위기 반영 "현행 0.05에서 0.005로 내리자"채택 땐 연구현장에 상당한 변화…한동안 논쟁 이어질듯 최근 정식 출간에 앞서 공개된 한 논문 한 편[1]이...

  • ‘가설검정’ P값, 더 이상 전가의 보도 아니다‘가설검정’ P값, 더 이상 전가의 보도 아니다

    ‘실험 재현성의 위기’ 바로보기박준석 | 2016. 09. 08

    [7] 영가설 유의성검증 절차의 문제점에 대한 해법들 이번 글에서는 과학자들이 연구가설을 검증할 때 사용하는 자료분석 방식인 ‘영가설 유의성검정’, 또는 ‘P값’의 단점들에 대한 극복 방안에 대해 이야기하려 한다. 구체적으로 어떤 문제점들이...

  • ‘연구 사전등록제’, 재현성 위기의 제도적 해법‘연구 사전등록제’, 재현성 위기의 제도적 해법

    ‘실험 재현성의 위기’ 바로보기박준석 | 2016. 07. 11

    [6]위기 해결을 위한 새로운 시도들 ① 재현성 위기는 과학 내적 요인들뿐 아니라 경제적 유인, 사회적 동기 등 다양한 측면들이 복잡하게 얽혀 있으며, 따라서 해결하기 쉽지 않아 보이는 것이 사실이다. 그러나 과학자들은 이에 굴하지 않고 이...

  • 연구부정은 개인의 도덕적 문제 그뿐일까?연구부정은 개인의 도덕적 문제 그뿐일까?

    ‘실험 재현성의 위기’ 바로보기박준석 | 2016. 06. 24

    [5] 연구부정과 재현성 문제가 무관하지 않은 이유사실 이 글에서 다루고자 하는 문제인 ‘연구 부정’이 재현성 위기 문제와 직접적인 관련이 있는지에 대해서는 다소 논란의 소지가 있다. 어쨌든 연구 부정은 과학적 문제가 아닌 도덕적 문제라...

  • ‘통계적으로 유의미한 결과’는 얼마나 유의미할까‘통계적으로 유의미한 결과’는 얼마나 유의미할까

    ‘실험 재현성의 위기’ 바로보기박준석 | 2016. 05. 20

    [4] 과학 발전 저해하는 ‘영가설 유의성검정’ 방식 2014년 말 화제가 되었던 이른바 ‘땅콩 회항’ 사건을 아직 기억하는 이들이 많으리라 생각한다. 당시 대한항공 부사장이었던 조현아씨는 자사 비행기의 기내 서비스에 만족하지 못해 비행기를 ...