‘빅데이터 딥러닝’ 이용해, 단백질 3D구조 찾기

신약개발에 중요한 단백질 3차원 접힘구조 규명

빅데이터서 구조 예측 정보 찾는 알고리즘 개발


  +   일문일답/ 제1저자 조태호 박사가 해설하는 딥러닝과 연구논문

00proteinfolding2.jpg » 단백질의 3차원 접힘구조를 보여주는 다양한 예. 출처/ Wikimedia Commons


청난 양의 자료 더미에서 최적의 유용한 정보를 ‘똑똑하게’ 찾아내는 기계학습 알고리즘인 ‘딥러닝(deep learning)’이 요즘, 빅데이터를 다루는 정보통신기술 분야뿐 아니라 이제 생물학 연구실에서도 관심사로 등장하는 모양이다.


단백질의 3차원 구조에 맞추는 신약의 개발 등 분야에서 매우 중요하지만 또한 매우 어려운 과제인 ‘단백질의 3차원 접힘구조’ 연구 분야에서도 딥러닝을 이용한 연구개발 기법(알고리즘)이 개발됐다. 단백질의 3차원 접힘구조는 다른 단백질이나 약물과 상호작용을 하는 데에 중요한 요소가 되기 때문에 접힘의 3차원 구조는 곧 그 단백질의 기능과도 관련되며, 이 때문에 신약개발에서 접힘구조는 중요한 정보로 다뤄진다.


미국 미시건대학과 미주리대학 연구진은 최근 단백질의 3차원 접힘구조를 찾아가는 과정에서 비교분석의 틀로 이용할 수 있는 최적의 단백질 구조 정보를 빅데이터에서 효과적으로 찾아내는 알고리즘을 딥러닝 기법으로 개발해, 네이처출판그룹의 공개접근 학술지 <사이언티픽 리포츠(Scientific Reports)>에 발표했다.


제1저자인 조태호 미시건대학 박사후연구원은 “딥러닝을 단백질 접힘구조 예측 분야에 도입한 것은 우리 연구진이 알기로는 이번이 처음”이라며 “기존의 다른 알고리즘과 비교해도 상당히 좋은 결과물을 얻을 수 있었다”고 말했다. 연구진은 이런 알고리즘을 이용할 수 있는 웹사이트(http://iris.rnet.missouri.edu/dnfold/)를 만들어 공개했다. 다음은 제1저자인 조태호 박사후연구원이 들려주는 딥러닝과 이번 논문에 관한 일문일답 형식의 해설이다.

00proteinfolding1.jpg » 단백질 접힘구조를 이루기 이전의 아미노산 사슬(왼쪽)과 접힘 이후의 단백질 3차원 구조. 출처/ Wikimedia Commons


제1저자가 해설하는 딥러닝과 연구논문/ 조태호 박사

000Q.jpg


사이언스온

단백질 접힘구조를 예측하는 기존 알고리즘이 있을 텐데요. 이번 논문은 그 기존 알고리즘의 개선을 위해 딥러닝 기법의 도입을 시도했다는 데 의미가 있는 것 같은데, 그런가요?

000A.jpg

조태호 박사

“네, 맞습니다. 단백질이 모든 생명 활동의 기본 단위인 만큼, 이 단백질이 어떤 구조와 방식으로 움직이는지를 이해하는 것은 생명 현상을 연구하는 데 필수적이라 할 수 있습니다. 특별히 신약 개발 및 난치병 치료를 위해서는 단백질 구조를 알아야 하는 경우가 많은데, 단백질이 어떤 3차원 구조를 지니는지는 디엔에이(DNA) 염기서열만으론 알 수 없습니다. 그래서 단백질이 3차원적으로 어떤 구조를 가지는지를 연구하게 되는데, 이를 단백질 접힘(Protein Folding) 연구, 또는 단백질 구조 예측 연구라 하지요.


00taehoJo.jpg » 조태호 박사후연구원. 단백질 구조 예측의 성과는 2년마다 세계 각 연구팀이 모여 자신의 예측방법을 콘테스트 방식으로 경연하는 세계 단백질 구조 예측대회(CASP)를 통해 확인할 수 있는데, 현재 크게 두 가지의 접근 방식으로 나누어집니다.


첫째는 단백질을 구성하는 원자 간의 상호 에너지를 컴퓨터로만 계산하여 가장 안정한 구조를 예측하는 앱 이니시오 방법(Ab Initio modeling)인데, 아직까지는 물리적, 이론적 한계로 인하여 이 방법만으로 완전한 구조를 예측하기는 어렵습니다. 둘째는 기존에 엑스(X)선 결정학 또는 핵자기공명 분광학 연구를 통해 구조가 확정된 데이터를 이용하는 방식입니다. 기존에 밝혀진 구조를 템플릿(주형)으로 삼아 아직 구조가 밝혀지지 않은 단백질을 예측하는 템플릿 기반 방법(Template-based modeling)인데, 앱 이니시오 방법과 그 결과보다 월등히 뛰어난 구조 예측이 가능합니다. 


이번에 나온 논문은 이 템플릿 기반 방법에 관한 것입니다. 템플릿 기반 방법의 첫 번째 단계은 기존의 수많은 템플릿 데이터 중에서 가장 필요한 템플릿을 정확하게 골라내는 것입니다. 여기에서 ‘빅데이터 기반 기계학습’과의 연결점이 생기지요.


갑작스럽지만 잠시 구글 이야기를 해야 할 것 같습니다. 구글은 아시다시피 엄청난 정보 데이터 중에서 사용자가 원하는 정보를 정확히 골라 내놓기 위해, 그동안 상당한 투자를 해왔지요. 이 노력이 지금의 구글을 만들었다고 해도 과언이 아닐 테고요. 이러한 구글이 현재 자사의 검색엔진, 키워드 광고, 맵, 포토, 유투브에 적극적으로 도입한 알고리즘이 바로 “딥러닝”입니다.


구글은 이 딥러닝 알고리즘의 도입을 위해 2011년부터 구글 브레인(Google Brain)을 설립해 운영해 왔습니다. 구글뿐이 아닙니다. 페이스북, 트위터, 마이크로소프트, 국내의 네이버와 다음카카오 등도 딥러닝에 대한 투자와 연구가 한창입니다. 그만큼 성과가 뛰어난 알고리즘이지요. 지난해 CASP 3위(종합)를 차지한 미주리대학교 지알린 챙 교수 연구실에 박사후연구원으로 들어가 제가 한 일은 구글이 도입한 딥러닝을 그대로 템플릿 기반 단백질 구조 예측 방법에 도입해 이 방식으로 최적의 템플릿을 찾을 수 있는지를 연구하는 것이었습니다. 기존에는 챙 교수가 쓴 서포트벡터머신(SVM) 기반 방법이나 제가 쓴 랜덤 포레스트(Random Forest) 기반 방법의 연구 논문은 있었지만, 딥러닝을 이 분야에 도입한 것은 챙 교수와 제가 아는 한 처음입니다.”



000Q.jpg

한글 위키백과에서 사전적 정의를 찾아보니 딥러닝에 대한 설명이 이렇군요. “딥 러닝(deep learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstractions, 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 기계학습(machine learning) 알고리즘의 집합”(위키백과 참조). 단백질 접힘 구조 예측에, 딥러닝 개념을 적용/도입하자는 그 기본 아이디어는 무엇인지요?

000A.jpg

“딥러닝을 쉽게 말하면, 컴퓨터로 하여금 사람처럼 생각하고 판단하게 만드는 최신 기술의 하나라고 할 수 있습니다. 사람의 인지 과정과 비슷하게 딥러닝을 이용한 컴퓨터는 뉴럴 네트워크(신경망)을 이용해 판단하고 응답하지요. 차이가 있다면 사람의 기억에는 한계가 있지만 컴퓨터는 이와 비교도 안 될 만큼 커다란 데이터를 기반으로 판단을 내릴 수 있다는 것입니다.


딥러닝의 기원을 거슬러 올라가려면 1955년, 그러니까 60여 년 전에 뉴럴 모델링의 개념이 처음 등장했을 때로 가야 할 듯합니다. 이때 등장한 단층 퍼셉트론(single layer perceptron)이 뉴럴 모델링의 기원이라고 할 수 있지요. 원리는 간단합니다. 입력값을 내재 함수에 넣어 보고 참/거짓을 내놓는 알고리즘입니다. 그런데 이 방식은 너무 단순했습니다. 쉽게 말해 2차원 평면상에서 직선 밖에 그리지 못하는 수준의 결과였지요. 만일 주어진 과제가 직선을 가지고선 해결될 수 없는 경우에는(예컨대, 비선형 분리 문제, XOR 문제) 사용할 수 없었습니다. 따라서 이 모델링은 1976년 다중 퍼셉트론 (multi layer perceptron) 방식이 등장하고 나서야, 비로소 다시 주목을 받게 되지요.


다중 퍼셉트론은 단층 퍼셉트론을 여러 층으로 쌓아 올린 것입니다. 여러 번 반복하면서 결과를 보완해 나가는 방식이, 직선을 여러 개 긋는 효과를 가져와 기존에 풀지 못한 문제를 해결할 수 있게 된 것이지요. 이때부터 이 방식에는 뉴럴 네트워크(Neural network) 또는 인공 신경망이라는 이름이 따라다닙니다. 사람의 인지 과정처럼 작은 신경망 단위(단층 퍼셉트론)이 복잡하게 쌓여(다중 퍼셉트론) 결정을 내기 때문에 이를 인공지능의 시발점으로 여겨 수많은 과학적 상상력의 기반이 되기도 했지요.


그런데 인공 신경망 방식은 또 다른 한계를 만납니다. 이 방식은 기존에 미리 학습된 데이타(labeled training data)를 필요로 하고, 층이 늘어날수록 매우 느려진다는 것, 그리고 가장 중요한 것으로 진짜 값을 찾기 전에 미리 결론을 수렴하여 학습이 도중에 중단되는 지역 최적해(local minimum) 문제를 해결할 수 없었다는 것입니다. 이러한 단점으로 인해 1980년대 후반부터 2000년대 중반까지 사실상 큰 발전이 없는 상태로 차츰 관심을 잃어갑니다. 그 사이에 SVM, 랜덤 포레스트 같은 새로운 접근법이 등장하면서 인공신경망 방식은 사실상 큰 주목을 받지 못하는 “어둠의 시대”를 지나게 되지요. 그런데 이 어둠의 시대를 단번에 종식시킨 것이 바로 “딥러닝”입니다.


딥러닝은 2006년 캐나다 토론토대학의 제프리 힌튼 교수가 그 개념을 발표하면서 처음 알려지기 시작했습니다. 원리를 간단히 말하면, 기존의 다층 퍼셉트론 방식이 여러 층을 다 지난 후에 역-전파(Back propagation) 방법으로 결과를 내는 방식인 데 비해, 한 층 한 층을 ‘제한된 볼츠만 기계(Restricted Boltzman Machine, RBM)’ 방식으로 따로 따로 학습하여 각 층마다 비지도 학습(Unsupervised learning)을 일으킨 후, 최종적으로 각 층의 결과를 역-전파 방법으로 도출해 내는 방식입니다.


이 방법이 처음 나왔을 때의 문제점은 알고리즘 자체가 컴퓨터 자원을 많이 잡아먹어 현실적인 활용이 어렵다는 것이었지요. 그런데 시간이 지나면서 3차원(3D) 시뮬레이션이나 게임 등 분야에서 엄청나게 빠른 연산속도의 필요성이 대두되자 이를 해결하기 그래픽처리장치(GPU) 등 최신 하드웨어가 속속 등장합니다. 이러한 장비의 개발이 바로 딥러닝의 문제도 해결해 준 것입니다. 복잡한 알고리즘이 충분히 돌아갈 만한 하드웨어의 보급으로 딥러닝은 바야흐로 전성기를 맞이하게 되지요.


앞서 말씀 드렸듯이, 딥러닝은 여러 입력 데이터를 통해 원하는 결과를 도출해 내는 데에 현재로선 가장 뛰어난 성과를 보이고 있습니다. 페이스북이 운영하는 딥러닝연구팀이 영상인식학회(CVPR)에서 발표한 자료를 보면, 딥러닝의 사진 얼굴 인식 성공률을 97.25%로 인간의 평균 인식 성공률 97.53%과 거의 차이가 없습니다. 딥러닝의 판단이 사람의 판단과 거의 유사할 만큼 뛰어나다는 뜻이지요. 단백질 구조 연구의 템플릿 기반 연구에도 이러한 최고의 기계학습 알고리즘이 필요합니다. 기존의 데이터베이스를 기반으로, 구조를 알고 싶은 새로운 입력 데이터에 가장 적합한 결과를 뽑아내는 부분이 바로 그것지요. 이것이 단백질 접힘 구조 예측에 딥러닝 개념을 적용/도입하게 된 기본 출발이 되었습니다.”



000Q.jpg  


그런 아이디어에서 시작된 연구개발의 결과물은 결국 어떤 알고리즘인가요?


000A.jpg

“단백질 구조를 예측하기 위해 사용되는 템플릿들, 즉 기존에 X-선 결정학 또는 핵자기공명 분광학 연구를 통해 그 3차원 구조가 밝혀진 데이터들은 단백질 데이터 뱅크(Protein Data Bank, PDB.org)에 가면 축적되어 있습니다. 지금 답변을 쓰는 현재 총 11만 4000여 개의 단백질 구조들이 저장되어 있네요.


그런데 최근 CASP(세계 단백질 구조 예측대회)의 결과만 보아도 단백질 구조 예측에 사용되는 핵심적인 템플릿은 겨우 1~2개, 많아야 4~5개를 넘지 않는 것이 대부분입니다. 11만 4000여 개의 단백질 템플릿 중에서 최고의 템플릿 1~5개를 뽑아 내야 하는 문제가 생기는 것이지요. 이를 위해 사용되는 방법은 크게 두 가지입니다.


첫째는 아미노산 배열의 유사성을 진화적 해석을 포함한 계산법을 통해 공통 조상의 템플릿을 선정하는 방법으로, 상동성 모델링 또는 호몰로지 모델링이라고 불리는 방법이지요. 또 다른 방법은 공통 조상을 따지지 않고 아미노산 배열의 단순 중복 비율을 계산해 그 구조를 가져와 적용하는 방법입니다. 이번에 발표된 논문은 아미노산 배열의 형태에서 패턴을 찾고 기존 구조가 밝혀진 단백질의 아미노산 배열을 비교하여 최적의 후보 단백질을 산출하는 방식으로서 두 번째 방식이 적용되었다고 할 수 있습니다. 패턴을 찾고 비교하는 부분에서 바로 딥러닝이 사용된 것이지요.”




그런 알고리즘의 효과, 효율은 어떤 방식으로 입증되었는지요?


“연구를 위해 먼저 딥러닝 알고리즘을 구축하고, SCOP 데이터를 통해 학습하였습니다. SCOP 데이터란, 단백질의 구조적 유사성을 기반으로 3차원 구조가 알려진 모든 단백질을 체계적으로 분류해 놓은 데이터입니다. SCOP를 이용해 학습하고, 테스트 하는 방식은 2000년 스톡홀롬대학 엘로프손(Elofsson) 교수팀이 사용한 이래, 많은 팀들이 같은 방법으로 자신의 기술을 검증하여 발표하고 있습니다. 같은 데이터를 놓고 테스트 하여 서로 다른 방법 간의 비교를 용이하게 만드는 것입니다. 우리 팀도 이 검증 방법으로 그 효과를 수치화하여, 기존의 타 연구팀의 결과 18개와 비교해 논문에 실었습니다. 각 방법마다 특색이 있어서 어떤 방법이 가장 뛰어나다고 비교하여 말하기는 어렵지만,딥러닝을 사용한 결과가 다른 연구결과와 비교할 때 상당히 좋은 성과를 보여주고 있습니다.”




설명을 종합하면, 이번에 개발된 알고리즘은 염기서열 정보만으로 단백질 접힘구조를 예측하는 용도의 알고리즘은 아니며, 그런 예측 알고리즘에서 중요하게 사용되는 ‘최적의 템플릿’ 정보를 찾아내고자 딥러닝 기법을 이용해 새롭게 개발한 알고리즘이라고 보아도 될런지요? 또한 이 알고리즘을 이용해 이미 알려진 단백질 접힘구조 정보 데이터베이스에서 최적의 템플릿을 찾는 실행을 해본 결과, 상당히 좋은 결과물을 내어놓아, 딥러닝을 이용한 단백질 구조 예측용 알고리즘 개발에 청신호를 보여준 것으로 풀이해도 될런지요? 제가 제대로 이해했는지 모르겠습니다.


“네 맞습니다. 단백질 구조 예측은 먼저 템플릿을 골라내어 이를 기반으로 모델링 하고 앱 이시니오 방법을 더해 최적의 결과를 내는 방향으로 흘러 왔습니다. 단백질 구조 예측의 일반적 수순 중 가장 처음 단계가 바로 기존 데이터를 검색해 템플릿을 고르는 단계인데, 이 단계는 이하의 모든 단계를 합한 것보다도 결과에 끼치는 영향력이 큽니다. 따라서 가장 정확한 템플릿을 골라내기 위한 노력이 다양한 방법으로 오랜 기간 진행되어 왔고, 챙 교수팀은 이 분야에 기계학습 방법을 도입하여 좋은 성과를 내고 있었습니다.


이번에 처음으로 딥러닝을 도입하여 또다시 좋은 성과를 낸 것은, 생명과학 분야도 정보기술(IT)업계처럼 빅데이터를 해결하기 위한 최적의 알고리즘을 개발하고 이를 적용하는 것이 중요하다는 것을 말해주고 있습니다. 딥러닝은 학습 데이터의 패턴 인식 향상에 따라 그 결과가 민감하게 영향을 받는데, 이 학습의 핵심이 되는 PDB(단백질 데이터 뱅크)의 데이터가 지금도 꾸준히 쌓이고 있는 중입니다. 결국 시간이 지날수록 빅데이터를 사이에 둔, 최신 분류 알고리즘간의 승부가 될 것이라고 예상됩니다. 현존하는 알고리즘들 중 가장 낫다는 평가를 받는 딥러닝이 앞으로도 단백질 접힘구조 연구는 물론, 데이터를 다루는 각종 생명과학 연구에서 계속 주목받을 것으로 여겨지는 이유가 바로 이것입니다.”




공개하신 아래 사이트는 어떤 성격의 사이트인지요?

http://iris.rnet.missouri.edu/dnfold/


“구조가 알려진 PDB 파일들을 딥러닝을 이용해 학습해 놓은 모델(model) 파일을 누구나 자유롭게 사용할 수 있도록 해 놓은 사이트입니다. 기계학습, 특히 딥러닝의 복잡한 과정을 직접 구현하지 않고도, 자신이 원하는 단백질의 아미노산 배열 입력만을 통해 최적의 템플릿들을 찾아낼 수 있습니다.”




연구진(공동저자 4명)을 아주 간략히 소개해주시면...

“네, 저(조태호)는 도쿄 의과치과대학에서 호몰로지 모델링 연구로 박사학위를 받고 이화학연구소 특별연구원(2년)을 거쳐 현재 미시건대학교 생화학과 박사후연구원으로 있습니다. 이 연구는 제가 미주리대학교 컴퓨터공학과 지알린 챙(Jianlin Cheng) 교수팀에 박사후 과정 연구원으로 있을 때 실험한 것으로, 공동 저자인 Jesse Eickholt와 Jie Hou는 당시 함께 있었던 챙 교수의 박사과정생들입니다.”



000Q.jpg

이번 결과와 관련한 후속 연구계획을 듣고 싶군요. 미국에 계신 분께 이런 질문 드리는 게 적절한지 모르겠으나, 이 분야의 일반적인 학계 동향을 잘 아실테니까 여쭙습니다만, 한국 내에서도 딥러닝을 생물학 분야에 응용하는 연구가 많이 이뤄지고 있는지요?

000A.jpg
“현재 저는 딥러닝을 이용한 연구를 계속해서 다른 분야로 확대하는 중입니다. 지금 미시건대학교에서는 게놈 염기서열에서 전사를 조절하는 특정 단백질의 위치를 예측하는 프로젝트를 진행 중입니다. 데이터만 있으면 딥러닝은 어디에나 도입할 수 있습니다. 한국에서도 딥러닝을 이용한 생물학 분야의 연구가 활발히 진행되는 것으로 알고 있습니다. 지난해 말 한국에서 3개월 가량 방문연구원으로 일하며 딥러닝에 대한 지대한 관심을 체험한 바 있습니다. 한국에서 딥러닝에 관하여 협업할 수 있는 기회가 계속해서 있으면 좋겠습니다. 이렇게 인터뷰해 주셔서 감사합니다.


이렇게 친절한 설명을 해주시니 제가 더 고맙습니다. 앞으로도 좋은 연구성과 있길 기대합니다.


오철우 기자 cheolwoo@hani.co.kr    

@한겨레 과학웹진 사이언스온    




   [사이언스온의 길목]

페이스북 페이지   https://www.facebook.com/scienceon

트위터   https://twitter.com/SciON_hani

한겨레 스페셜   http://special.hani.co.kr

  • 구글
  • 카카오
  • 싸이월드 공감
  • 인쇄
  • 메일
오철우 한겨레신문사 과학담당 기자, 사이언스온 운영
1990년 한겨레신문사에 입사해 편집부, 사회부, 문화부, 생활과학부 등을 거쳤으며 주로 과학담당 기자로 일했다. <과학의 수사학>, <과학의 언어>, <온도계의 철학> 등을 번역했으며, <갈릴레오의 두 우주체제에 관한 대화>를 썼다.
이메일 : cheolwoo@hani.co.kr      

최신글




최근기사 목록

  • [알림] 사이언스온이 미래&과학으로 바뀝니다[알림] 사이언스온이 미래&과학으로 바뀝니다

    뉴스사이언스온 | 2017. 12. 11

    미래/과학/기술/환경 뉴스와 비평, 연재물 서비스사이언스온 옛 글들은 지금처럼 접근 가능합니다 독자님들께안녕하세요. 그동안 작은 도전이었던 한겨레 과학웹진 사이언스온의 필자들을 격려해주시고 또 웹진을 사랑해주신 모든 독자분들께 감사의 말씀을 ...

  • “언어사용 패턴은, 몸의 스트레스 보여주는 지표”“언어사용 패턴은, 몸의 스트레스 보여주는 지표”

    뉴스오철우 | 2017. 11. 07

    특정 언어사용패턴과 스트레스 관련 유전자발현 사이에 ‘상관성’“무의식적 언어패턴이 의식적 자가보고보다 측정정확도 더 높아” 일상언어 사용의 패턴이 말하는 이 자신도 잘 모르는 몸의 스트레스 반응을 알려주는 지표로 사용될 수 있다는 연구결...

  • 정교해진 유전자가위…‘염기’ 하나만 바꾼다정교해진 유전자가위…‘염기’ 하나만 바꾼다

    뉴스오철우 | 2017. 11. 07

    ※ 이 글은 한겨레 11월6치 '미래&과학' 섹션 지면에 실렸습니다. 지면 편집 과정에서 분량을 줄이기 이전 원고를 사이언스온에 올립니다. 편집 과정에서 달라진 부분이 있습니다.정교해진 유전자가위염기 하나만 바꿔치기[미래&과학] 주목받는...

  • ‘노화는 불가피하다 -논리적으로, 수학적으로’‘노화는 불가피하다 -논리적으로, 수학적으로’

    뉴스오철우 | 2017. 11. 03

    수학적 모형 분석 논문 ‘눈길’세포간 경쟁과 선택, 노화와 암의 ‘딜레마’ 같은 상호관계 다뤄‘노화는 불가피하다. 논리적으로도, 이론적으로도, 수학적으로도 노화를 멈추는 것은 불가능하다.’노화를 일정 정도 늦출 순 있어도 멈출 순 없다는 ...

  • 염기 하나만 바꾸는 단일염기 수정기법의 '확장'염기 하나만 바꾸는 단일염기 수정기법의 '확장'

    뉴스오철우 | 2017. 10. 26

    시토신-구아닌 쌍을 티민-아데닌 쌍으로 ‘점 수정’ 이어아데닌-티민 쌍을 구아닌-시토닌 쌍으로 수정기법 개발하버드대학 리우 교수와 MIT 펑 장 교수 각각 성과 발표 크리스퍼 유전자 가위 기법의 기본 원리를 이용하되 디엔에이(DNA) 두 가닥을 ...

자유게시판 너른마당

인기글

최근댓글

트위터 팔로우

sub2 untitled