“뇌영상 분석 기법에 심각한 오류 가능성” 논문 파장

 뉴스 & 해설 


“자주 쓰는 fMRI 분석 소프트웨어에 근본 오류 가능성”

“기존 연구 오류 심각” vs “그리 많지 않다” 판단 일러

관행처럼 쓰는 분석·통계기법에 대해 비판적 접근 필요

00fMRI1.jpg » 기능적 자기공명영상인 fMRI의 영상 데이터를 살펴보고 있는 연구자. 출처/ Wikimedia Commons


근 <미국 국립과학원 회보(PNAS)>에 게재 승인을 받아 온라인에 먼저 발표된 뇌과학 논문 한 편이 화제다. 뇌과학자들은 두뇌 활동을 측정할 때 ‘기능적 자기공명영상술’(fMRI)이라는 기법을 널리 사용하는데, 이 논문은 fMRI에서 얻은 데이터를 분석하는 ‘방식’에 심각한 문제가 있다는 주장을 제기했다. 논문 저자들에 따르면, 이 문제는 fMRI 연구자들이 가장 널리 쓰는 데이터 분석 소프트웨어인 SPM(Statistical Parametric Mapping), AFNI(Analysis of Functional NeuroImages), FSL(FMRIB Software Library) 등이 공통으로 지니고 있다고 한다. 저자들은 이를 토대로 지금까지 수행된 fMRI 연구 중 상당수가 잘못되었을 가능성까지 제기하고 나섰다. 대체 뭐가 잘못된 걸까?



기능적 자기공명영상술과 측정단위 ‘복셀’

00dot.jpg

기능적 자기공명영상술(fMRI)은 살아있는 뇌의 활동을 간접적으로 측정하는 기법이다. 뇌를 구성하는 기본 단위인 뇌세포 또는 신경세포(뉴런)의 활동을 직접 측정하려면 두개골에 탐침을 꽂고 신경세포를 살펴야 하는데, 한 번에 측정하는 신경세포 수가 적고 인간에게는 적용하기 힘들기 때문에, 탐침 없이 살아 있는 인간 두뇌의 활동을 측정할 수 있는 다른 방법이 필요하게 되었다. fMRI가 바로 그런 기법이었기에 처음 발명된 1990년대 이후 각광 받는 뇌과학의 연구 도구가 되었다. 현재 신경과학, 특히 뇌와 인지과정의 관계를 탐구하는 분야인 인지신경과학(cognitive neuroscience) 분야의 많은 연구는 fMRI를 써서 뇌 활동을 측정한다.


번에 문제가 된 fMRI 촬영기법의 원리는 알고 보면 간단하다. 뇌에서 일어나는 정보 처리 과정을 직접 관찰하는 것은 불가능하다. 하지만 신경세포도 일종의 세포이기 때문에 활동하려면 쉬고 있을 때보다 더 많은 산소를 소모한다. 다시 말해 활발하게 신호를 처리하고 있는 신경세포는 그렇지 않은 신경세포보다 산소를 더 많이 소모할 것이다. 따라서 서로 다른 뇌 부위에서 혈액을 통해 운반되는 산소의 양(포화도)을 측정함으로써, 어떤 부위가 활발히 신호를 처리하는지 간접적으로 확인할 수 있다. 이것을 ‘볼드 대비’(BOLD contrast, Blood-Oxygen-Level Dependent contrast, 혈중 산소치에 의한 대비)라 부른다. fMRI는 이 BOLD 신호를 탐지함으로써, 어떤 상황(실험 조건)에서 어떤 뇌 부위가 더 활성화하는지 알아볼 수 있게 해 준다. (이 설명은 상당히 단순화 한 것이며 fMRI는 볼드 신호 탐지뿐 아니라 다른 기능도 행한다.)


혈중 산소치에 의한 대비, 즉 BOLD 대비 기법을 활용하면 어떤 뇌 부위들이 어떤 인지과정에 관여하는지 알아볼 수 있다. 이런 종류의 연구를 ‘맵핑’(mapping) 연구라고 한다. 이를 위해 실험 참가자에게 fMRI 기기 안에 누워서, 실험에서 주어진 인지적 작업을 하도록 요구한다. 이를테면 실험참가자가 볼 수 있게 fMRI 안에 설치된 컴퓨터 화면을 보며 실험참가자는 순서대로 제시되는 숫자를 기억했다가 그대로 암송한다. 연구자는 참가자가 이런 행동을 하는 동안에 fMRI 기기를 통해 뇌를 촬영하는데, 이런 과정에서 얻은 BOLD 자료를 분석하면 뇌의 어느 부위가 주어진 작업을 하는 동안에 산소를 많이 소모했는지, 다시 말해 인지과정에 활발히 관여했는지를 알 수 있다.


타깝게도 신경세포를 하나하나씩 촬영하는 것은 불가능하다. 신경세포는 너무 작고, 그 숫자도 약 1000억 개 정도로 매우 많다. 또한 신경세포가 활성화할 때 생성되는 신호도 미약하기에 이를 하나하나 분석하는 것은 매우 어렵다. 대신 뇌과학자들은 ‘복셀’(voxel, 뇌영상 데이터의 3차원 정보 단위, 2차원 정보 단위는 픽셀[pixel])이라는 단위로, 신경세포 덩어리의 활동 수준을 측정한다.


당연히 뇌 자체에 복셀 단위의 구분이 내재돼 있는 것이 아니니까, 연구자들이 그 크기를 얼마로 할지 결정하는데 대개는 몇 세제곱 밀리미터 정도의 정육면체로 정의한다. 뇌를 복셀 단위로 ‘잘게 잘라서’, 그 복셀 단위의 활성화 정도를 측정한다고 생각하면 이해가 쉬울 것이다. 물론 실제로 자르는 것은 아니며, 뇌를 가상의 단위로 나누어 분석하는 것이다. 또한 연구자들은 복셀 ‘무리’(cluster) 단위의 활동을 측정하기도 하는데, 이는 복셀 단위의 분석이 너무 세밀해 별 의미가 없다고 판단할 때 이런 단위를 사용한다.


00fMRI2.jpg » fMRI 데이터 분석의 예. 출처/ Wikimedia Commons

 


fMRI 데이터 분석기법에 던진 PNAS 논문의 도전적 문제제기

00dot.jpg

복셀이나 복셀무리의 활성화 여부를 알아보기 위해서는 데이터 분석 과정을 거쳐야 한다. 뇌영상 데이터는 다양한 전(前)처리 과정을 거친 뒤에, 이런 데이터는 각 복셀 또는 복셀무리가 주어진 인지 과제를 시켰을 떄(실험군)에 그렇지 않은 경우(대조군)보다 더 활성화되었는지 검증하는 데 활용된다.


계적으로 말하자면, 인지적 작업을 할 때와 그렇지 않을 때의 활성화 정도 차이가 ‘0’이 아닌 뇌 부위를 찾는 것이다. 여기에 사용되는 통계적 절차를 크게 두 종류로 나누면 ‘모수적 방법’(parametric method)과 ‘비모수적 방법’(nonparametric method)이 있다. 둘의 차이는 데이터에 대해 얼마나 많은 가정(assumption)을 하는지에 달려 있는데, 모수적 방법이 비모수적 방법에 비해 더 많은 가정을 쓴다. 그 가정이 옳으면 모수적 방법이 비모수적 방법보다 더 효율적이며 정확하지만, 그렇지 않으면 비모수적 방법이 더 나은 결과를 산출한다. 따라서 모수적 검정을 하는 경우에는 그 가정이 참인지에 대한 면밀한 검토가 필요하다. 일반적으로 가정이 성립된다고 판단되면 모수적 검정을, 그렇지 않으면 비모수적 검정을 하는 것이 바람직하다.


이번 PNAS 논문은 fMRI 데이터 분석에서 흔히 쓰는 모수적 통계검정 절차들의 가정이 잘못되었을 가능성을 제기했다. 특히 앞에서 언급한 SPM, FSL, AFNI 등의 소프트웨어들이 모두 데이터의 특정 측면에 대한 ‘정규분포’ 가정을 갖고 있는데 이것이 틀렸을 수 있다는 것이다. 이는 그 모수적 방식 자체가 타당하지 않다는 뜻인데, 그 결과 활성화되지 않은 뇌 부위가 활성화되었다는 잘못된 결론으로 이어질 수 있다. 이를 ‘위양성’ 결과라 부른다.


논문 저자들은 이 주장을 입증하기 위해, 사람들이 자연스럽게 휴식하고 있는 상태에서 뇌를 촬영하는 기법인 ‘휴식상태(resting-state) fMRI’라는 방법을 사용했다. 저자들의 논리는 다음과 같았다.


“정의상, 이 참가자들은 아무런 인지적 작업도 하고 있지 않기 때문에, 평소에 비해 특별히 더 활성화되는 뇌 부위가 없어야 한다. 그런데도 통계 소프트웨어가 활성화된 부분을 찾았다고 보고한다면, 그것은 오류에 의한 것이다. 이 오류의 비율이 사전에 허용된 것보다 더 높다면, 소프트웨어의 기능에 문제가 있는 것이다.”


떤 통계검정 절차도 완벽할 수 없기 때문에, 연구자들은 대개 5% 가량의 오류 확률을 허용하고 오류율이 그 이상 넘어가지 않게 통제한다. 만약 소프트웨어들이 그 이상의 거짓 활성화를 보고한다면, 사용된 모수적 기법에 결함이 있는 게 된다.


놀랍게도, 연구자들이 세 소프트웨어에서 지원하는 모수적 검정 절차들을 사용해 데이터를 분석한 결과, 복셀 단위에서는 별 문제가 없었지만 복셀무리(cluster) 단위에서는 허용치인 5%보다 훨씬 많은, 최대 70%에서 거짓 활성화(위양성) 보고가 있었다. 그러나 비모수적 절차에서는 그런 문제가 발견되지 않았다고 저자들은 밝혔다. 이는 모수적 절차의 가정에 문제가 있거나, 애초에 뇌 활성화 여부를 판단하는 문턱값(threshold)이 너무 낮았다는 의미로 해석된다. 저자들은 모수적 절차의 가정이 틀렸을 가능성에 상당한 무게를 싣고 있으며, 지금까지 발표된 상당수의 뇌 맵핑 fMRI 연구의 신뢰성에 의문을 제기하는 것이라고 해석한다.



다중검정의 문제…fMRI 기법에 내재된 딜레마

00dot.jpg

사실 fMRI 데이터 분석 기법에 문제가 있다는 주장이 나온 지는 꽤 되었다. 이번 PNAS 논문의 저자들은 지난해에도 이미 비슷한 논문을 발표했다. 이 사실은 관련 연구자들 사이에서는 이미 꽤 알려져 있었다고 한다.


더 이전의 사례로는, 유명한 ‘죽은 연어 스캔 사건’이 있다. 크레이그 벤넷(Craig Bennett)과 동료들은 2009년에 fMRI가 얼마나 거짓 활성화 보고에 취약한지 보여주기 위해, 죽은 연어를 fMRI 기기에 넣고 촬영했다. 죽은 연어에서 신경의 활성화가 일어날 리는 없으므로, 통계분석 결과 활성화된 신경 조직이 있다고 나온다면 그것은 명백한 오류였다. 결과는 놀라웠다. 분석 결과 죽은 연어에서 활성화된 신경 조직이 있다고 보고된 것이다. 이 연구(?) 는 fMRI 데이터 분석 절차에 문제가 있음을 보여 주었다.


00fMRI_salmon.png » 죽은 연어에 대한 fMRI 측정. 출처/ Craig Bennett et al.(2009)  


이 문제는 통계학에서 ‘다중 검정’(multiple comparison)의 문제로 알려진 것과 관련이 있다. 앞에서도 얘기했듯이, 어떤 통계절차도 100% 완벽할 수는 없기 때문에, 오류가 발생하는 것은 어쩔 수 없지만 그것을 일정 확률 아래로 통제하는 것은 가능하다. 그런데 이런 통제는 단일 통계분석 절차에 적용되는 것이며, 통계적 검정을 독립적으로 계속 하면 그 중 적어도 하나에서 오류가 일어날 확률은 점점 증가하게 된다.


예를 들어 한 번 시행에서 10%의 확률로 오류가 나는 통계 절차가 있다고 하자. 그러면 그 절차는 90%의 확률로 맞을 것이다. 그런데 이 절차를 독립적으로 두 번 시행한다고 하자. 그러면 둘 다 맞을 확률은 90%를 제곱한 81%가 된다. 뒤집어 말하자면, 그 ‘여(餘)사건’인 ‘두 번 다 맞지 않았을 확률’, 다시 말해 ‘적어도 한 번은 오류를 저질렀을 확률’은 19%다. 이는 애초에 용인하기로 했던 오류율인 10%에 비해 훨씬 크다. 문제는 통계적 검정 횟수가 늘어날수록 이와 같이 ‘적어도 한 번 오류가 일어났을 확률’은 점점 커진다는 것이다. 이를테면 앞의 절차를 열 번 반복하면, 적어도 한 번 오류가 일어났을 확률은 1에서 0.9의 10제곱을 뺸 65% 가량이 된다. 그런데 이것이 fMRI와 무슨 상관이 있을까?


fMRI 데이터 분석에서는 통계적 검정을 매우 많이 한다. 그것도 수십, 수백 번 정도 하는 것이 아니라, 훨씬 더 많이 한다. 복셀 또는 복셀무리 하나하나에 통계적 검정을 시행해서 활성화가 됐는지, 안 됐는지 파악해야 하기 때문이다. 이를테면 3차원상의 두뇌를 50 × 50 × 50 개의 복셀로 나누었다고 가정해 보자. 그러면 총 10만 개가 훨씬 넘는 복셀이 생긴다. 이들 하나하나에 통계절차를 적용한다면, 이 중 ‘적어도 하나의 오류가 생겼을 확률’은 매우 높아진다. 이것이 죽은 연어에서 신경세포 활성화가 발견된 이유를 설명해 준다. 연어를 촘촘히 쪼개는 과정에서 많은 ‘조각’들이 생겨났고, 이들이 활성화됐는지 각각 검정하는 과정에서 활성화되지 않은 부위가 활성화되었다고 보고된 사례들이 나타난 것이다.


이런 현상을 방지하기 위해서는 개별 통계검정 절차에서 허용되는 오류율을 많이 낮춰야 한다. 이를테면 10번의 독립적인 활성화 여부 검정에서 하나의 오류라도 발생할 확률을 5% 대로 통제하기 위해서는, 개별 검정에서 허용되는 오류율을 0.5% 가량으로 낮춰야 한다. 하지만 이 또한 문제가 있다. 오류 확률을 낮추려면 ‘활성화되었음’으로 분류하는 기준을 보수적으로 설정해야 한다. 이를 위해서는 ‘활성화’ 로 판단하는 기준을 높여야 하는데, 이는 실제로 활성화된 대부분의 복셀이나 복셀무리들을 ‘활성화되지 않았음’으로 잘못 분류하는 결과를 초래할 수 있다. 이런 검정 절차를 사용하면, 원래대로라면 발견되어야 할 ‘활성화 뇌 부위’를 발견하지 못하는 불행한 결과로 이어지며, 이는 과학적 발견을 저해한다.


따라서 ‘활성화’의 기준을 어떻게 정해야 하는지는 중요한 문제다. 하지만 저자들의 보고에 따르면 아직도 많은 fMRI 연구에서 이 문제 자체를 고려하지 않고 있다. 저자들은 최근 발표된 fMRI 논문 241편 중 40% 가량이 다중검정 문제를 제대로 고려하지 않았다고 보고했다. 이는 해당 논문들에서 활성화되었다고 보고된 뇌 부위들이 실제로는 활성화되지 않았을 수 있으며, 따라서 연구 결론이 틀렸을지도 모른다는 것을 의미한다.



분석 소프트웨어와 통계분석 관행에 비판적 접근 필요

00dot.jpg

PNAS 논문 저자들은 지금까지 발표된 연구들 중 상당수가 심각한 문제를 안고 있을 가능성을 제기했지만, 모든 fMRI 연구자들이 이에 동의하는 것은 아니다. 이를테면 유명 신경과학 블로거이자 연구자인 뉴로스켑틱(Neuroskeptic)은 PNAS 논문 발표 이후 자신의 블로그를 통해, fMRI를 이용하지 않는 뇌과학 연구가 훨씬 더 많으며 이번 연구는 뇌 맵핑 연구에만 적용되는 이야기이고 맵핑 분야에는 다른 연구방법도 또한 존재한다는 등의 이유를 들어, 이번 PNAS 논문이 ‘지난 15년 간의 뇌 연구가 틀렸다’는 것을 의미하지는 않는다고 해명했다.


과학과 기술 전문 매체인 <와이어드(Wired)>에도 비슷한 논조의 기사가 실렸다. () ‘15년 간의 모든 뇌과학 연구’는 말할 것도 없거니와 ‘15년 간의 모든 fMRI 맵핑 연구’가 대부분 틀렸는지는 아직은 판단하기 이른 듯하다. ‘활성화’로 잘못 나온 뇌 부위들이 그동안의 연구에 구체적으로 어떤 영향을 끼쳤는지는 아직 잘 모르기 때문이다. 이 문제는 시간을 두고 지켜봐야 할 듯하다.


번 사건은 데이터 분석을 할 때 소프트웨어가 제공하는 기본 옵션에 대해 비판적으로 생각해야 한다는 것을 시사한다. 뇌과학 연구자들이 일상적으로 사용하는 소프트웨어에 심각한 결함이 있다는 주장은 그 자체로도 큰 충격적이었다. 하지만 이는 뇌과학 분야만의 문제가 아니다. 이를테면 사회과학 분야에서 널리 활용되고 있는 통계분석 프로그램인 SPSS(Statistical Package for the Social Sciences)는 ‘요인분석’(Factor analysis)이라는 통계기법의 메뉴에 엉뚱한 분석 기법인 ‘주성분 분석’(Principal Component Analysis, PCA)이라는 것을 기본값으로 넣어 두었다. 이는 오랜 동안 요인 분석과 주성분 분석 간의 혼동을 불러일으켰다. 이런 문제에 대한 비판적 시각이 필요하다.


연구자들이 별다른 이유 없이 받아들여 사용하는 통계분석 관행도 또한 문제로 지적된다. 흔히 P값이라 부르는 지표가 0.05보다 큰지 작은지를 놓고 통계적 유의성을 판단하지만, 이것은 사실 임의로 정해진 값에 불과하며, 굳이 그 문턱값이 0.05이어야 할 이유는 없다(참조: 사이언스온의 이전 글). 하지만 많은 연구자들이 이 기준을 별다른 이유 없이, 그동안 사용해 왔다는 이유로 채택하고 있다. 뇌과학을 비롯한 다양한 영역에서 이 관행에 대한 비판적인 지적이 끊이지 않았지만 잘 고쳐지지 않고 있다. 많은 연구자들은 ‘유의성’을 판단하는 기준을 현실적으로 수정할 것을 제안하고 있다. 이번 연구가 그 필요성을 다시 한 번 상기시켜 줄 것으로 기대된다.


지막으로 이 연구가 언론매체에 회자되는 동안에 조명받지 못했던, 하지만 중요한 측면에 대해 이야기하며 글을 마치려 한다.


논문 저자들은 공개된 데이터를 이용해 연구를 수행했는데, 논문에서 데이터 획득에 어려움이 많았다고 토로했다. 이는 연구 데이터와 통계분석 절차를 잘 공유하지 않는 학계 관행 때문이며, 이는 개선되어야 할 문제라고 연구자들은 주장한다. 실제로 연구 투명성에 대한 요구는 세계적으로 점점 높아져 가는 추세이며, 데이터 공유는 그 핵심 요소로 자리잡아 가고 있다. 이번 PNAS 논문 저자들의 호소가 그런 움직임에 힘을 보탤 수 있을지 지켜볼 일이다.


[참고문헌]


Eklund et al, Cluster failure: Why fMRI inferences for spatial extent have inflated false-positive rates, PNAS, online first publication.

Bennett et al (2009), Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: An argument for multiple comparisons correction. http://prefrontal.org/files/posters/Bennett-Salmon-2009.pdf.

Neuroskeptic (2016), False-Positive fMRI Hits the Mainstream, retrieved from: http://blogs.discovermagazine.com/neuroskeptic/2016/07/07/false-positive-fmri-mainstream/#.V4NvW7grLIU on Jul 11, 2016.


[관련해 읽을거리]


http://www.forbes.com/sites/kevinmurnane/2016/07/07/new-research-suggests-that-tens-of-thousands-of-fmri-brain-studies-may-be-flawed/#769485c47de4

http://blogs.warwick.ac.uk/nichols/entry/bibliometrics_of_cluster/

http://www.wired.com/2016/07/dont-quick-flush-15-years-brain-scan-studies/

Vul et al (2009), Puzzlingly High Correlations in fMRI Studies of Emotion, Personality, and Social Cognition, Perspectives on Psychological Science, 4, 274-290.

http://www.wired.com/2016/07/dont-quick-flush-15-years-brain-scan-studies/


박준석 미국 오하이오주립대학 심리학 박사과정  

@한겨레 과학웹진 사이언스온  



  [사이언스온의 길목]

페이스북 페이지   https://www.facebook.com/scienceon

트위터   https://twitter.com/SciON_hani

한겨레 스페셜   http://special.hani.co.kr

  • 구글
  • 카카오
  • 싸이월드 공감
  • 인쇄
  • 메일
박준석 미국 오하이오주립대학 심리학 박사과정
학부와 석사과정에서 심리학을 공부했고 현재 인지심리학 박사과정에 재학중이다. 인간의 마음을 수학적으로 모형화하는 분야인 '인지모델링'을 공부하고 있다. 심리학, 뇌과학, 통계학, 기계학습 등 분야에 관심이 있으며, 과학 재현성(reproducibility) 관련 논의에도 관심이 많다.
이메일 : park.1952@osu.edu      

최신글




최근기사 목록

  • 몸이 발전소...입고다니면 전화 충전되는 '스마트 옷' 연구몸이 발전소...입고다니면 전화 충전되는 '스마트 옷' 연구

    심층이근영 | 2013. 02. 05

    미래과학의 산실, 융합연구 현장을 가다 (4) 2011년부터 고등학생들은 ‘융합과학’ 교과서로 과학을 공부한다. 물리·화학·생물·지구과학으로 엄격하게 구분된 개념 위주로 공부해온 학생들은 낯설고 어렵게 느끼기도 하지만 우주·자연·생명에 대한 현대...

  • ‘탈화석연료 시대’의 에너지, 수소를 잡아라‘탈화석연료 시대’의 에너지, 수소를 잡아라

    심층이근영 | 2013. 01. 22

    미래과학의 산실, 융합연구 현장을 가다 (3) 2011년부터 고등학생들은 ‘융합과학’ 교과서로 과학을 공부한다. 물리·화학·생물·지구과학으로 엄격하게 구분된 개념 위주로 공부해온 학생들은 낯설고 어렵게 느끼기도 하지만 우주·자연·생명에 대한 현대...

  • '과학기술 연구체제 모범' 독일 연구회에 가다 -르포'과학기술 연구체제 모범' 독일 연구회에 가다 -르포

    심층사이언스온 | 2013. 01. 21

      …교과부 과학기자 공동취재단 제공 기사…  ……막스플랑크: 자율 운영, 20~30년 내다본 기초연구 ……프라운호퍼: 응용, 특허와 기업 서비스에 비중……라이프니치: 기초와 응용의 균형과 조정이 미션 20세기 중반 이후 세계 과학의 중심...

  • 생물·의학 넘나드는 물리박사, 알츠하이머 조기진단법 탐색생물·의학 넘나드는 물리박사, 알츠하이머 조기진단법 탐색

    심층이근영 | 2013. 01. 08

    미래과학의 산실, 융합연구 현장을 가다 (2) 2011년부터 고등학생들은 ‘융합과학’ 교과서로 과학을 공부한다. 물리·화학·생물·지구과학으로 엄격하게 구분된 개념 위주로 공부해온 학생들은 낯설고 어렵게 느끼기도 하지만 우주·자연·생명에 대한 현대...

  • 새해 시행 ‘카페인 함량 표시제’ 사용설명서새해 시행 ‘카페인 함량 표시제’ 사용설명서

    심층이은지 | 2013. 01. 03

    1월1일부터 카페인 0.15mg 이상 음료에 함량 표시 의무화사람마다 다른 카페인 함량의 건강영향을 알아두는 게 중요 2013년 1월 1일부터 카페인이 포함된 식음료에 카페인 함량이 표시된다. 이날부터 카페인이 1 밀리리터(ml)당 0.15 밀리그램(mg) 이상 ...