재현성 위기는 과학불신과 연구낭비를 초래한다
[2] 재현성 위기의 실태와 그 결과
» 지난 4월 19일, 미국 언론매체인 <슬레이트(Slate)>는 ‘암 연구가 잘 작동하고 있지 않다’(Cancer research is broken)라는 제목의 글에서, 의학 및 관련 생명과학 분야의 연구 일반의 재현성에 대한 문제를 제기했다. 출처/ http://www.slate.com
‘재현성 위기’(reproducibility crisis)라는 용어가 본격적으로 사용되기 시작한 것은 2010년대 초였다. 이런 데에는 심리학 분야에서 있었던 몇몇 사건이 결정적 역할을 했다.
이를 테면 지난 2011년, 해당 분야 최고의 권위를 자랑하는 <성격 및 사회심리학회지(Journal of personality and social psychology)>에 인간에게 예지력이 있다는 주장을 담은 논문이 출간되었다. 이 연구에서 연구자들은 컴퓨터 화면에 외설적이거나 그렇지 않은 그림을 띄워놓고 커튼으로 완전히 가린 다음에 참가자들에게 그 위치를 맞히게 했는데, 실험 결과 사람들은 외설적인 그림의 위치를 ‘우연’ 수준 이상으로 잘 맞혔다는 것이 연구자들의 주장이었다. 이를 근거로 연구자들은 인간에게 예지력이 있다고 주장했다.
그런데 이 논문이 발표된 뒤에, 세계 각지의 연구진들이 이 놀라운 결과를 재현하려 했으나 거의 모두가 실패했다. 이 사건은 사람들로 하여금 심리학 연구의 신뢰성에 의문을 갖게 만들었는데, 재현이 되지 않았다는 것뿐 아니라 애초에 비과학적인 주장을 담은 논문이 최고의 학술지에 게재될 수 있었다는 점에서 더욱 그러했다.
▒ 심리학과 의학, 생물학 등 여러 분야에서 제기
비 » 데이터 조작 논문으로 충격을 준 네덜란드 사회심리학자 슈타펠. 출처/ 뉴욕타임스 보도 화면.슷한 시기에 네덜란드의 사회심리학자인 슈타펠(Diederik Stapel) 교수가 그동안 발표한 100여 개의 연구들 중 수십 개에서 데이터를 조작하거나 꾸며냈다는 사실이 언론에 보도되어 사람들에게 충격을 주었다. 그는 교수직에서 해임되었고, 결국 박사학위마저 잃게 되었다. 이 사건은 언론에 대서특필 되었으며, 심리학 연구에 대한 신뢰를 더욱 떨어뜨리는 결과를 낳았다.
급기야 미국 양대 심리학회 중 하나인 ‘미국심리학회(APS)’에서는 2012년에 <심리과학에 대한 관점들(Perspectives on psychological science)>이라는 학회 산하 학술지에서 재현성에 관한 특집호를 발행하기에 이르렀다. 이 특집호에서는 ‘신뢰성 위기’(crisis of confidence)라는 표현을 명시적으로 사용했다. 심리학 연구에 대한 신뢰가 실추되고 있다는 위기 의식이 반영된 것이었다.
» 심리학저널의 '신뢰성의 위기' 특집. http://pps.sagepub.com/content/7/6 이러한 계기로 비추어보면, 재현성 문제는 심리학 분야에 한정되는 것으로 생각하기 쉽다. 흔히 ‘경성 과학(hard science)’으로 알려진 분야들은 사회과학에 비해 수학적으로 엄밀하거나 정밀한 측정 방식을 사용하기 때문에, 재현성이 더 높을 것이라 생각할 수 있다. 하지만 이러한 고정관념이 언제나 참인 것은 아닌 듯하다. 예를 들어 미국 스탠포드대학 의학 교수인 존 이오아니디스(John Ioannidis)는 지난 2005년에 ‘왜 대부분의 출간된 연구 결과들은 거짓인가’라는 논문을 <플로스 의학(PLoS Medicine)>에 게재했는데, 이 논문에서는 간단한 수식들과 시뮬레이션을 통해 의학 분야에서 출간된 연구들 중 상당수가 거짓일 수 있다는 의혹을 제기했다.
특히 이 연구는 의도적인 연구 조작이 전혀 없는 상황에서도 거짓 연구 결과의 비율이 높을 수 있음을 보여주었다는 점에서 더욱 충격적이었는데, 저자는 시나리오에 따라 출간된 연구들 중 1% 미만이 참일 수 있다는 가능성까지 제기했다. 이 논문은 현재 구글 학술검색 기준 3,000회 이상 인용되었다.
한편 지난 4월 19일, 미국 언론매체인 <슬레이트(Slate)>는 ‘암 연구가 잘 작동하고 있지 않다’(Cancer research is broken)라는 제목의 글에서, 의학 및 관련 생명과학 분야의 연구 일반의 재현성에 대한 문제를 제기했다. 이 기사에 인용된, 2012년에 글렌 베글리(Glenn Begley)와 동료들이 보고한 재현 시도 연구에 따르면, 암 생물학 분야에서 10년간 보고된 53개의 중요했던 연구들 중 단 6개(11%)만이 재현에 성공했다. 같은 기사에서 인용한, 바이엘사에서 수행한 다른 연구 또한 다수의 암 연구 재현 시도에서 20~25%만이 성공했다고 밝혔다.
흔히 자연과학의 모범으로 간주되는 물리학에서도 재현성에 대한 문제제기가 없었던 것은 아니다. 2015년에 <네이처(Nature)>에 출간된 한 코멘트 글에 의하면, 천문물리학 분야에서도 그동안 발표되었던 연구들 중 상당수가 재현되지 않았다. 저자인 잰 콘래드(Jan Conrad) 에 따르면 ‘빛보다 빠른 중성미자의 발견’, ‘감마선을 발산하는 암흑물질 입자’ 등을 비롯하여 발표 당시 물리학자들을 놀라게 했던 연구결과들 중 상당수가 재현 불가능한 것으로 드러났으며, 이제는 천체물리학자들이 ‘또다른 암흑물질 후보’를 농담거리로 삼는다는 웃지 못할 상황에 이르렀다.
▒ 재현성 위기로 과학 신뢰 추락, 두고볼 일 아니다
이와 같이 재현성 문제는 자연과학과 사회과학을 가리지 않고 광범위하게 퍼져 있는 것으로 보인다. 이러한 재현성 위기 현상이 가져오는 문제들은 여러 가지가 있겠지만, 중요한 두 가지만 꼽아보자면 다음과 같다.
첫째, 과학에 대한 신뢰가 실추된다. 물론 이것은 재현 불가능성에서 오는 직접적인 부정적 결과다. 이는 당장 과학 연구에 대한 재정 지원의 감축이나 중단 요구로 이어질 수 있다는 점에서 단순한 명예의 문제가 아니다. 이를 테면 앞서 언급한 <슬레이트>지의 기사에 따르면 미국 정부가 한 해에 암 연구에 사용하는 예산은 무려 50억 달러, 그러니까 5조 원 이상의 돈이다. 이 엄청난 돈을 재현이 되지 않는 연구에 언제까지나 투자해줄 것이라고 믿는 것은 지나치게 긍정적인 전망일 것이다. 재현성에 대한 문제제기는 이제 시작 단계에 불과하며, 앞으로 점점 강해질 것이라는 점에서 이 문제는 과학자들에게 현실적인 문제로 다가온다.
둘째, 과학 연구에 투자되는 역량과 자원이 낭비된다. 재현되지 않을 연구에 기반을 두어 역시 재현되지 않을 후속 연구를 진행하게 될 다른 연구자들의 시간과 노력이 허사가 된다. 낭비된 연구 역량이 더 유용하게 쓰일 수 있었다는 점은 결코 간과할 수 없다. 물질적 낭비 또한 막대하다. 앞서 언급한 <슬레이트>지의 기사에서는 재현 불가능한 암 연구로 인해 그 동안 미국 정부가 입은 재정적 손실을 약 280억 달러(30조 원 가량)로 추산하고 있다. 암 연구는 과학의 한 분야에 불과하며, 다른 분야에서 재현 불가능한 연구로 인해 입은 손실 또한 고려한다면, 과학 전 분야에서 재현 불가능한 연구가 낭비했을 자원의 총량은 그보다 훨씬 클 것이다. 낭비된 연구비는 결국 국민 세금에서 나왔다는 점에서, 재현성 문제는 과학계만의 문제가 아닌, 사회 전체가 관심을 갖고 해결해야 할 문제임을 잘 보여준다.
이와 같이 과학 연구의 재현 불가능성이 끼치는 악영향은 생각보다 심각하다. 이에 과학자들은 재현성 위기의 원인을 파악하기 위해 노력해 왔다. 다음 글부터는 그런 원인으로 지적되는 것들에 대해 다룰 것이다.
그 첫째로 살펴볼 것은 ‘출간 편향’(publication bias)의 문제다. 간단히 요약하자면, 과학 학술지들은 어떤 현상이 존재한다는 주장을 담은 연구를 그렇지 않은 연구보다 더 많이 출간하며, 그 결과 과학자들은 특정 현상이나 효과의 부재를 주장하는 연구를 발표하기를 꺼리게 된다는 것이다. 이는 생각지 못했던 부정적 결과들을 초래한다. 다음 글에서 이와 관련된 더 자세한 이야기들을 해보려 한다.◑
[참고문헌]
▒ Begley, C. G., & Ellis, L. M. (2012). Drug Development: Raise standards for preclinical cancer research. Nature, 483, 531-533.
▒ Bem, D. J. (2011). Feeling the Future: Experimental Evidence for Anomalous Retroactive Influences on Cognition and Affect. Journal of personality and social psychology, 100(3), 407-425.
▒ Ioannidis, J. P. A. (2005). Why Most Published Research Findings Are False. PLoS Medicine, 2(8), 696-701.
▒ Conrad, J. (2015). Reproducibility: Don’t cry wolf. Nature, 523, 27-28.
▒ Engber, D. (2016, Apr. 19). Cancer research is broken. Slate. http://www.slate.com/articles/health_and_science/future_tense/2016/04/biomedicine_facing_a_worse_replication_crisis_than_the_one_plaguing_psychology.html
▒ Pashler, H., & Wagenmakers, E-J. (2012). Editors’ Introduction to the Special Section on Replicability in Psychological Science: A Crisis of Confidence? Perspectives on Psychological Science, 7(6), 528?530.
▒ Ritchie, S. J., Wiseman, R., & French, C. C. (2012). Failing the Future: Three Unsuccessful Attempts to Replicate Bem’s ‘Retroactive Facilitation of Recall’ Effect. PLoS One, 7(3), e33423.
박준석 미국 오하이오주립대학 심리학 박사과정
@한겨레 과학웹진 사이언스온
[사이언스온의 길목]
페이스북 페이지 https://www.facebook.com/scienceon
트위터 https://twitter.com/SciON_hani
한겨레 스페셜 http://special.hani.co.kr
관련글