박준석의 "‘실험 재현성의 위기’ 바로보기"

발표된 실험 결과가 재현되지 않는 ‘재현성의 문제’가 요즘 실험 과학계에서 화두입니다. ‘재현성의 위기’가 무엇이며, 과학자들은 그 위기를 극복하고자 어떠한 노력을 기울이고 있는지를 심리학 박사과정 박준석 님이 정리합니다.

‘양성결과’ 발표에만 주목, 서랍속에 묻히는 ‘음성결과’

[3] ‘출간 편향’ 이란?


00pubbias4.jpg » 연구자는 출간하기 힘든 '음성 결과'의 출간을 위해서 많은 노력과 시간을 투자하지 않을 것이다. 결국에 이런 실험 결과들은 ‘서류함 안에’ 처박힌 채 세상의 빛을 보지 못하고 사장된다. 이러한 이유로 출간 편향을 ‘서랍 문제’(file-drawer problem)라 부르기도 한다. 출처/ Wikimedia Commons


번 글에서는 재현성 위기의 중요한 원인으로 지목되는 ‘출간 편향’(publication bias)에 대해 이야기하려 한다. 이는 아직 대중에는 생소한 개념이지만, 재현성 위기의 다른 원인들과도 관련이 있는 중요한 문제다.


출간 편향은 한 마디로 “학술지들이 ‘양성 결과’(positive result)만을 출간하고 ‘음성 결과’(negative result)는 출간하지 않는 현상”을 일컫는 말이다. 여기서 ‘양성 결과’란 무엇을 ‘발견했다’, 어떤 인과관계를 ‘입증했다’라는 종류의 연구를 말하며, 반대로 ‘음성 결과’는 무엇을 ‘발견하지 못했다’, 어떤 현상들 간에 관계가 ‘없다’라는 종류의 연구를 말한다. 대개 학술지 측에서는 새롭고 흥미로운 연구만을 출간하려 하기 때문에, 음성 결과보다는 양성 결과를 주로 출간하려 한다.


그런데 이는 생각지 못했던 문제를 가져온다. 실제로는 음성 결과가 참이라면, 이런 상황에서 출간 편향은 어떤 결과를 낳게 될까? 학술지에는 어떤 현상들 사이에 관련이 실제로는 없는데도 “있다”고 주장하는 ‘거짓 양성’(false positive) 결과만이 출간되고, 참인 음성 결과를 보고하는 논문은 학술지 측의 관심을 얻지 못해 출간되지 않을 것이다.


결국 학술지에는 거짓인 결론들만 보고되게 된다. 그런데 문제는 여기서 끝나지 않는다. 다른 연구자들도 또한 학술지에 보고된 잘못된 결론에서 출발하여, 새로운 연구를 시작할 것이다. 그들 중 참인 음성을 발견한 연구는 또다시 출간 편향의 영향으로 무시되고, 거짓 양성을 보고한 것들만 다시 학술지에 게재될 것이다. 이와 같이 출간 편향은 거짓 연구의 연쇄로 이어지는, 실로 무서운 결과를 낳을 수 있다.



“발견하지 못했다” 결론의 연구는 왜 출판되기 어려운가?

00dot.jpg

간단한 예를 통해 출간 편향이 어떻게 작동하는지 생각해 보자. 이를테면 A라는 물질이 암 치료에 효과가 있을지 모른다고 보고되어, 세계 각지의 연구진들이 실험에 착수했다고 해 보자.


약 이 물질이 실제로 암 치료에 효과가 있다면, 출간 편향이 크게 문제가 되지는 않을 것이다. 하지만 만약 그렇지 않다면, 다시 말해 약효가 없다면 어떤 상황이 벌어질까? 출간 편향이 있다면, 의약학 학술지들은 A가 암 치료에 효과가 ‘있었다’라고 보고한 연구들만을 선택적으로 출판하고, ‘그렇지 않았다’라고 보고한 연구들은 게재하지 않을 것이다. 학술지에 A라는 물질이 ‘효과가 있었다’라는 보고만 올라오기 때문에, 제약회사들은 이 물질이 약효가 있다는 확신을 갖고서 신약을 개발하여 판매하려 할 것이다. 그런데 임상실험 단계에서 갑자기 약이 효과가 없다는 보고가 올라오게 된다. 오랫동안 학술지 뒤켠에 묻혀 있던 진실이 뒤늦게 발견되는 것이다. 그동안 신약 개발에 투자된 인력과 비용이 모두 허사가 되는 순간이 아닐 수 없다.


또한 출간 편향은 연구자들로 하여금 음성 결과를 보고하지 않게 만드는 무서운 부작용이 있다. 그렇지 않아도 학술지에 논문을 게재하는 것이 어려운 마당에, 애초에 관심을 받을 가능성이 극도로 낮은 연구를 위해 수 개월 내지 수 년 간의 노력을 선뜻 투자할 연구자는 많지 않을 것이다.


설령 의도치 않게 음성 결과를 얻었다 하더라도, 연구자들은 그것을 출간하기 위해 노력과 시간을 투자하지 않을 것이다. 결국 실험 결과는 ‘서류함 안에’ 처박힌 채, 세상의 빛을 보지 못하고 사장된다. 이러한 이유로 출간 편향을 ‘서랍 문제’(file-drawer problem)라 부르기도 한다. 지금도 세계 각지의 연구실의 서랍 및 하드 디스크에는 보고되지 않은 음성적 결과들이 쌓여 있을 것이다.



출간 편향을 진단하는 도구, ‘깔때기 도표’

00dot.jpg

실제 연구 현장에서 긍정적 결과와 부정적 결과 중 어느 것이 참인지는 확실히 알 수 없기 때문에, 출간된 연구들이 출간 편향의 결과인지 아닌지 단정하기는 어렵다. 다만 이를 간접적으로 진단하는 도구는 존재한다. 바로 과학자들이 ‘깔때기 도표’(funnel plot)라 부르는 것이다. 깔때기 도표는 출간 편향이 있을 때와 없을 때 발표된 연구 결과들의 경향이 어떻게 다른지 연구자들에게 알려주는 도구다. 자세한 이해를 위해서는 요구되는 통계학적 지식의 수준이 높기 때문에, 더 이상의 논의는 줄이려 한다 (아래 상자글 참조).


근에 보고된, 출간 편향이 의심되는 사례로 진화심리학 분야의 한 주제가 있다. 진화심리학의 핵심적 주장들 중 하나는 인간의 마음에 짝짓기를 위해 진화된, 선천적 기제들이 많이 있다는 것이다. 진화심리학에서는 이런 마음의 현상을 ‘성 선택’(sexual selection)으로 설명한다. 자손을 많이 낳을 수 있다는 이점 덕에, 번식에 유리한 마음 특성들이 진화되었다는 것이다. 특히 성 선택의 결과로, 남성들에게는 여성들에게 자신을 과시하기 위한 행동 성향들이 진화되었는데, 그 중에는 과시적 소비 행위와 위험을 추구하는 성향이 있다는 것이 진화심리학자들의 주장이다. 이를 뒷받침하는 것으로 알려진 연구들이 다수 출간되어 왔다.


그러나 데이빗 샹크스(David Shanks)와 동료들이 지난 해에 내놓은 연구에 따르면, 그러한 결론은 출간 편향에 의한 것일지도 모른다. 연구진에 따르면 재현 시도 연구들에서 나온 결론들은 선행연구들과 큰 차이를 보였다. 특히 깔때기 도표는 그동안 출간된 연구들이 출간편향의 결과일 가능성을 제기한다. 깔때기 도표에 보고된 선행연구들과 재현시도 연구들의 결과는 비전문가의 눈에도 확연히 달라 보인다.


00pubbias1.jpg » 샹크스 등이 보고한 깔때기 도표. 검은 점들 (선행연구들) 과 흰 점들 (재현시도 연구들) 의 경향이 다름을 한 눈에 파악할 수 있다.


실 출간 편향의 원인은 통계분석 관행에도 있다. 이 이야기는 다음 글의 주제인 ‘영가설 유의성검증(Null hypothesis significance testing )’과 관련이 있기 때문에, 이번 글에서는 ‘P값 잘라내기’(p-hacking) 라는 문제와 관련이 있다는 것 정도만 언급하고 넘어가려 한다.


정리하자면, 출간 편향은 학술지들이 ‘새롭고 흥미로운’ 양성 연구결과만을 출간하려는 성향, 그리고 과학 연구에 내재된 오차들이 결합되었을 때 일어나는 일종의 구조적 문제이다. 그 결과, 출간 편향은 학술지에 보고된 연구 결과들의 체계적 왜곡을 불러일으킨다. 이 문제는 과학자들에 의해 꼭 해결되어야 할 문제로 손꼽히고 있다. 그 해결 방안들에 대해서는 추후에 다루려 한다.


▨ 조금 더 자세히 ▨

‘깔때기 도표’는…




에서도 설명했듯이, ‘깔때기 도표’는 출간 편향이 있는 상황에서 학술지에 게재된 연구 결과들이 어떤 경향을 띨지에 대해 예측할 수 있게 해 준다. 이것을 이해하는 데는 다소의 배경지식이 필요하기 때문에, 지면을 들여 좀 자세히 설명하려 한다.


똑같은 연구가 반복적으로 수행된다 하더라도 그 결과가 언제나 같은 것은 아니다. 이는 연구에 사용된 표본의 대표성이 부족하거나(표집 오차), 대상을 측정하는 도구가 충분히 정밀하지 않기 때문이다(측정 오차). 이 중 측정 오차는 더 많은 대상을 관찰하면 할수록 줄어드는 특성을 갖고 있다. 이를테면 큰 표본을 사용할수록, 표본에서 계산된 평균과 모집단 전체의 평균 사이의 차이는 감소하는 경향이 있다.


이는 우리에게 다음과 같은 것을 말해준다. 연구에서 어떤 변수의 효과나 영향력을 측정하고자 할 때, 표본이 크면 클수록 연구 대상이 되는 효과를 정밀하게 측정할 수 있을 것이다. 따라서 큰 표본을 사용한 연구들 간의 결론 차이는 작은 표본을 사용한 연구들 간의 결론 차이보다 작을 것이라고 예상할 수 있다. 이것을 도표로 나타내면 다음과 같다.


00pubbias2.jpg


위 그림이 바로 깔때기 도표다.

가운데의 검은 수직선은 연구에서 측정하고자 하는 효과나 영향력의 참값을 나타내며, 붉은 점들은 개별 연구를 나타낸다. 도표에서 위 쪽으로 갈수록 표본 크기가 커지고 효과 크기의 측정 오차가 작아지기 때문에, 점들이 참값을 중심으로 모이게 된다. 반대로 도표에서 아래 쪽에 있는 점(연구)들은 작은 표본을 사용했기 때문에 효과 크기의 측정 오차가 커지며, 그 결과 참값으로부터 멀리 퍼진다.


그런데 위 도표는 모든 연구들이 편향 없이 출간된다는 가정 하에서 그려진 것이다.

출간 편향이 있는 상황이라면, 깔때기 도표는 어떤 모습을 띨까? 이 경우 학술지 측에서는 긍정적 결과, 즉 효과 크기가 0보다 ‘컸다’라고 주장하는 연구를 주로 게재할 것이기 때문에, 효과 크기가 0이거나 음의 값을 갖는 연구들이 도표에서 삭제될 것이다. 그런 연구들은 수직선의 왼쪽에 있다. 이것들이 사라지고 난 다음의 깔때기 도표는 다음과 같이 보일 것이다.


00pubbias3.jpg


위에서 볼 수 있는 것처럼, 출간 편향 상황에서 깔때기 도표는 다음과 같은 두 가지 특징을 보인다.

첫째, 점들이 완전한 삼각형 모양이 아닌 오른쪽 반쪽짜리 삼각형, 또는 아래로 기울어진 막대 모양의 분포를 보인다. 둘째, 점들이 대부분 양의 효과 크기를 보고한다. 이는 참인 음성적 결과들의 선별적 삭제로 인한 결과다.

[참고문헌]


▒ Neuroskeptic (2015), Reproducibility Crisis: The Plot Thickens.

http://blogs.discovermagazine.com/neuroskeptic/2015/11/10/reproducibility-crisis-the-plot-thickens/#.VyJhczArLIU


▒ Shanks, D. R., Vadillo, M. A., Riedel, B., Clymo, A., Govind, S., Hickin, N., Tamman, A. J. F., & Puhlman, L. M. C. (2015). Romance, Risk, and Replication: Can Consumer Choices and Risk-Taking Be Primed by Mating Motives? Journal of Experimental Psychology: General, 144(6), e142-e158.


박준석 미국 오하이오주립대학 심리학 박사과정  

@한겨레 과학웹진 사이언스온  



  [사이언스온의 길목]

페이스북 페이지   https://www.facebook.com/scienceon

트위터   https://twitter.com/SciON_hani

한겨레 스페셜   http://special.hani.co.kr

  • 구글
  • 카카오
  • 싸이월드 공감
  • 인쇄
  • 메일
박준석 미국 오하이오주립대학 심리학 박사과정
학부와 석사과정에서 심리학을 공부했고 현재 인지심리학 박사과정에 재학중이다. 인간의 마음을 수학적으로 모형화하는 분야인 '인지모델링'을 공부하고 있다. 심리학, 뇌과학, 통계학, 기계학습 등 분야에 관심이 있으며, 과학 재현성(reproducibility) 관련 논의에도 관심이 많다.
이메일 : park.1952@osu.edu      

최신글




최근기사 목록

  • “p값 개선하자”…과학자들, 연구가설 검정 ‘문턱값’ 강화 제안“p값 개선하자”…과학자들, 연구가설 검정 ‘문턱값’ 강화 제안

    ‘실험 재현성의 위기’ 바로보기박준석 | 2017. 08. 16

     뉴스 & 해설  통계·심리·경제학 등 72명, 개선제안 논문 펴내 주목과학 재현성 위기 반영 "현행 0.05에서 0.005로 내리자"채택 땐 연구현장에 상당한 변화…한동안 논쟁 이어질듯 최근 정식 출간에 앞서 공개된 한 논문 한 편[1]이...

  • ‘가설검정’ P값, 더 이상 전가의 보도 아니다‘가설검정’ P값, 더 이상 전가의 보도 아니다

    ‘실험 재현성의 위기’ 바로보기박준석 | 2016. 09. 08

    [7] 영가설 유의성검증 절차의 문제점에 대한 해법들 이번 글에서는 과학자들이 연구가설을 검증할 때 사용하는 자료분석 방식인 ‘영가설 유의성검정’, 또는 ‘P값’의 단점들에 대한 극복 방안에 대해 이야기하려 한다. 구체적으로 어떤 문제점들이...

  • ‘연구 사전등록제’, 재현성 위기의 제도적 해법‘연구 사전등록제’, 재현성 위기의 제도적 해법

    ‘실험 재현성의 위기’ 바로보기박준석 | 2016. 07. 11

    [6]위기 해결을 위한 새로운 시도들 ① 재현성 위기는 과학 내적 요인들뿐 아니라 경제적 유인, 사회적 동기 등 다양한 측면들이 복잡하게 얽혀 있으며, 따라서 해결하기 쉽지 않아 보이는 것이 사실이다. 그러나 과학자들은 이에 굴하지 않고 이...

  • 연구부정은 개인의 도덕적 문제 그뿐일까?연구부정은 개인의 도덕적 문제 그뿐일까?

    ‘실험 재현성의 위기’ 바로보기박준석 | 2016. 06. 24

    [5] 연구부정과 재현성 문제가 무관하지 않은 이유사실 이 글에서 다루고자 하는 문제인 ‘연구 부정’이 재현성 위기 문제와 직접적인 관련이 있는지에 대해서는 다소 논란의 소지가 있다. 어쨌든 연구 부정은 과학적 문제가 아닌 도덕적 문제라...

  • ‘통계적으로 유의미한 결과’는 얼마나 유의미할까‘통계적으로 유의미한 결과’는 얼마나 유의미할까

    ‘실험 재현성의 위기’ 바로보기박준석 | 2016. 05. 20

    [4] 과학 발전 저해하는 ‘영가설 유의성검정’ 방식 2014년 말 화제가 되었던 이른바 ‘땅콩 회항’ 사건을 아직 기억하는 이들이 많으리라 생각한다. 당시 대한항공 부사장이었던 조현아씨는 자사 비행기의 기내 서비스에 만족하지 못해 비행기를 ...