“잎의 진화계통 분류하는 학습형 알고리즘 개발”

현존 식물 잎 DB로 학습해, 처음 보는 잎사귀 얼마나 정확히 분류할까?


기계학습 통해 강화된 알고리즘, 일부 계통에서 최대 70% 정확도 보여

“진화 연구에 쓰기 어려웠던 잎 화석의 고식물학적 가치 높여줄것” 기대

00leaf2.jpg » 컴퓨터 시각 알고리즘이 잎사귀 이미지의 여러 요소들을 분석해 잎사귀를 분류한다. 이미지에서 붉은 점은 분류에 활용된 특징적 요소의 지점들. 출처/ PNAS


음 보는 잎사귀의 모양과 잎맥 구조 등을 살펴 이 잎이 식물 진화계통에서 어느 자리에 놓일 만한지를 판단하는 일은 특히 잎사귀 화석을 다루는 고식물학에서 힘겨운 작업이다. 고식물학자의 이런 힘겨운 분류 작업을 도와줄 컴퓨터 시각 알고리즘이 등장한 걸까? 잎사귀 형상을 인식해 그것을 과(科, family) 또는 목(目, order)과 같은 상위의 진화계통 그룹으로 분류하는 기능을 갖춘 컴퓨터 알고리즘을 개발했다고 미국 등 연구진이 최근 밝혔다.


인공지능 바둑 프로그램인 알파고 덕분에 세간의 주목을 받은 이른바 ‘기계학습(machine learning)’ 기법으로 개발된 이 컴퓨터 시각 알고리즘은 이미 분류된 잎의 데이터베이스를 통해 잎의 특징을 학습하고서, 그런 학습된 특징에 기반을 두어 전에 없던 잎사귀의 형상 특징을 분석해 과 또는 목으로 분류하는 기능을 갖췄다. 자동 분류를 해주는 이런 알고리즘이 실용화한다면, 식물 진화 연구에 중요한 자료이면서도 제대로 분석되지 못한 채 세계 각지에 흩어져 있는 수많은 잎사귀 화석 데이터베이스가 중요한 연구 자원이 될 것으로 연구진은 기대했다.


00leaf1.jpg » 컴퓨터 시각 알고리즘이 잎사귀 분류 학습에 이용한 갖가지 잎사귀의 영상 데이터들. 붉은점들은 알고리즘에서 잎사귀를 인식할 때 중요하게 다뤄지는 시각적 요소들. 출처/ PNAS 미국 펜실베이니아대학과 브라운대학 등 소속 연구진은 최근 잎사귀를 식별하고 분류하는 데 쓸 수 있는 컴퓨터 시각 알고리즘을 개발해, 그 성과를 과학저널 <미국 과학아카데미 회보(PNAS)>에 “컴퓨터 시각이 잎의 암호를 깨다(Computer Vision Cracks the Leaf Code)”라는 제목의 논문으로 발표했다.


연구진은 검사 대상인 잎이 어떤 식물 종의 것인지를 기존 데이터베이스를 검색해 찾아주는 기존 방식이 아니라 잎사귀 데이터베이스를 학습해 잎 형상과 잎맥 구조 등의 특징을 스스로 학습한 다음에 새로운 잎을 분류할 수 있는 컴퓨터 시각 알고리즘을 개발했다고 밝혔다. 이 알고리즘은 이미 분류 정보가 밝혀진 식물 종 7600여 가지의 잎을 ‘분류 훈련’을 받으면서, 잎의 진화계통 분류 능력을 강화했다.


펜실베이니아대학 보도자료를 보면, 정해진 프로그램을 갖추지 않은 채 훈련 또는 학습 과정을 통해서 스스로 학습해가는 이 알고리즘은 잎사귀의 모양, 잎맥 구조 등의 시각적 요소를 중시하고, 예컨대 벌레 먹거나 찢겨진 부분이나 흐린 해상도 같은 시각 요소들은 무시하면서 점차 검사 대상인 잎사귀 이미지를 진화계통 안에서 분류하는 방법을 배울 수 있다고 한다.


그동안 잎사귀의 시각적 특징과 일치하는 식물 종을 찾아주는 검색 프로그램은 선뵌 적 있으나, 그것을 식물 종의 일치 여부를 넘어서서 진화계통 그룹 안에 분류해주는 프로그램은 이번이 처음이라 한다. 어떤 잎사귀가 다양한 식물 종들을 담고 있는 과나 목 어디에 속하는지를 찾아주는 것은 잎사귀만으로 그 식물의 진화계통을 추적할 수 있음을 시사하는 것이어서, 이런 점에서 이번 알고리즘은 눈길을 끌고 있다.


개발된 시각 알고리즘은 상당한 정도의 분류 정확도를 갖추었다고 연구진은 소개했다. 논문을 보면, 19가지의 과(family)에 걸쳐 있는 잎사귀들을 분류하는 시험에서 이 시각 알고리즘은 70퍼센트 안팎의 성공율을 보여주었다고 한다. 이런 수치는 무작위 분류 작업과 비교할 때 컴퓨터 시각 알고리즘의 분류 성공률이 13배 가량 더 높은 것임을 보여준다. 또한 이 알고리즘에선 잎의 계통 분류에서 중요하게 고려하는 시각적 요소를 잎 이미지에다 서로 다른 농도의 붉은 점으로 표시하는 이른바 ‘열 지도(heat map)’를 보여줌으로써, 잎의 분류를 연구하는 데 중요한 정보를 제공해준다.


잎 분류 알고리즘이 자동 분류의 잠재성을 보여주기는 했지만, 아직 실용적인 안정성을 갖춘 것은 아니다. 여전히 실패율은 상당한 수준이며 또한 제한된 시험 대상에 비해 엄청나게 넓은 자연 세계를 시험 대상으로 삼았을 때 그 성공률이 어떠한지는 이번 연구 논문만으로 알기 어렵기 때문이다.


그러나 기계학습형 알고리즘의 계통 분류 정확도가 아직 아주 만족스러운 수준은 아니더라도 대량의 데이터베이스를 기반으로 구축된 잎사귀 형상 정보를 자동으로 계통분류 해줌으로써 고식물학자가 엄청난 양의 데이터인 잎사귀 화석들을 연구하는 데에 연구의 일손을 크게 덜어줄 만한 것으로 기대되고 있다. 물론 후속 연구에서 기계학습의 효율이 높아지고 자동 분류의 정확도가 더 넢아진다면, 학습형 알고리즘이 고식물학 연구에 기여할 몫도 훨씬 더 커질 것이다.


인공지능으로도 불리는 기계학습 알고리즘은 단백질 3차원 구조 예측이나 이번처럼 식물 분류에도 활용되기 시작하듯이, 앞으로도 빅데이터를 다루거나 활용하는 여러 연구 분야에서 더 자주 등장할 것으로 보인다.


논문 개요 (Significance)

속씨식물 잎 모양과 잎맥(잎 구조/leaf architecture)이 지닌 식물학적 가치는 잘 알려져 있지만, 잎의 놀라운 복잡성과 다양성 때문에 많은 연구가 성공적이지 못했으며 그래서 그 자원들은 그 가치에 비해 덜 사용되었다. 이런 도전과제는 고식물학에서 중심적인 문제이다. 속씨식물 화석들의 대부분이 동떨어져 있으며 동정되지 않은 잎사귀들이기 때문이다. 이 연구에서 우리는 수천 장에 달하는 여러 가지 깨끗한 잎사귀 이미지를 바탕으로 학습을 행한 컴퓨터 시각 알고리즘이 잎 구조의 특징을 배우고나서 새로운 견본들(specimens)을 종의 상위 수준에 있는 자연의 식물학적 그룹으로 분류할 수 있음을 보여준다. 또한 이 시스템은 시각적으로 직관적인 방식으로(in a visually intuitive way) 새롭고 정보가치 있는 수많은 잎의 특징들이 놓인 위치를 보여주는 히트 지도(heat map)를 제공한다. 컴퓨터 시각의 도움을 받는다면, 잎사귀가 지닌 체계적이고 고식물학적인 가치는 그 중요성이 더 커질 것이다.

논문 초록 (Abstract)

속씨식물 잎의 지극히 다양하고도 복잡한 모양과 잎맥의 특징을 이해한다는 것은 식물학에서 가장 도전적인 문제 중 하나이다. 기계학습(machine learning)은 수많은 견본을 분석해 표현형의 의미(phylogenetic significance)를 지닐 만한 속씨식물 잎의 새로운 특징을 발견하고 또한 그런 특징들을 밝혀지지 않은 잎의 분류에 이용할 기회를 제공한다. 기존의 컴퓨터 시각 방법은 주로 종(species) 차원에서 잎 식별(leaf identification, 잎 동정)에 초점을 맞추어왔다. 각각 수만 가지 종을 담고 있으며 개별 종의 잎사귀가 다양한, 과(familiy)와 목(order) 같은 큰 진화적 그룹들에서도 (컴퓨터 시각 알고리즘의) 학습(learning)과 분류(classification)가 가능한지는 열린 물음으로 남아 있다. 이번 연구에서 우리는 컴퓨터 시각 알고리즘이 2001개 속(屬, genus) 식물의 잎사귀 이미지 7597개 데이터베이스를 이용해 과와 목의 잎사귀 특징을 학습하고서 새로운 잎사귀 이미지를 분류해낼 수 있는지 그 여부를 시험했다. 화학적으로 표백하고 잎맥을 드러내는 염색 처리를 한 깨끗한 잎사귀들(cleared leaves)이 견본 영상으로 사용됐다. 기계학습은 잎 모양과 잎맥 패턴을 대표하는 시각적 요소들의 코드북(codebook)을 학습하는 데 사용되었다. 그 결과로 나타난 자동화 시스템은 우연한 결과일 때와 비교할 때 몇 배나 높은 성공률을 보이면서 이미지들을 과와 목으로 분류했다. 식물학의 직접적인 관심사로는, 분류에 쓰인 특징 반응들이 잎사귀 이미지 위에 시각화해서 ‘히트 지도(heat map)’로서 나타난다는 점을 들 수 있다. 이 지도는 많은 새로운 형태학적 특징을 인식하는 데, 그리고 진화적 해석을 하는 데 도움을 줄 것이다. 컴퓨터 시각의 도움을 받는다면, 잎사귀들은 체계적인 고식물학적 연구에 새롭게 많은 기여를 할 수 있을 것이다.

오철우 기자 cheolwoo@hani.co.kr      

@한겨레 과학웹진 사이언스온      



   [사이언스온의 길목]

페이스북 페이지   https://www.facebook.com/scienceon

트위터   https://twitter.com/SciON_hani

한겨레 스페셜   http://special.hani.co.kr

  • 구글
  • 카카오
  • 싸이월드 공감
  • 인쇄
  • 메일
오철우 한겨레신문사 과학담당 기자, 사이언스온 운영
1990년 한겨레신문사에 입사해 편집부, 사회부, 문화부, 생활과학부 등을 거쳤으며 주로 과학담당 기자로 일했다. <과학의 수사학>, <과학의 언어>, <온도계의 철학> 등을 번역했으며, <갈릴레오의 두 우주체제에 관한 대화>를 썼다.
이메일 : cheolwoo@hani.co.kr      

최신글




최근기사 목록

  • [알림] 사이언스온이 미래&과학으로 바뀝니다[알림] 사이언스온이 미래&과학으로 바뀝니다

    뉴스사이언스온 | 2017. 12. 11

    미래/과학/기술/환경 뉴스와 비평, 연재물 서비스사이언스온 옛 글들은 지금처럼 접근 가능합니다 독자님들께안녕하세요. 그동안 작은 도전이었던 한겨레 과학웹진 사이언스온의 필자들을 격려해주시고 또 웹진을 사랑해주신 모든 독자분들께 감사의 말씀을 ...

  • “언어사용 패턴은, 몸의 스트레스 보여주는 지표”“언어사용 패턴은, 몸의 스트레스 보여주는 지표”

    뉴스오철우 | 2017. 11. 07

    특정 언어사용패턴과 스트레스 관련 유전자발현 사이에 ‘상관성’“무의식적 언어패턴이 의식적 자가보고보다 측정정확도 더 높아” 일상언어 사용의 패턴이 말하는 이 자신도 잘 모르는 몸의 스트레스 반응을 알려주는 지표로 사용될 수 있다는 연구결...

  • 정교해진 유전자가위…‘염기’ 하나만 바꾼다정교해진 유전자가위…‘염기’ 하나만 바꾼다

    뉴스오철우 | 2017. 11. 07

    ※ 이 글은 한겨레 11월6치 '미래&과학' 섹션 지면에 실렸습니다. 지면 편집 과정에서 분량을 줄이기 이전 원고를 사이언스온에 올립니다. 편집 과정에서 달라진 부분이 있습니다.정교해진 유전자가위염기 하나만 바꿔치기[미래&과학] 주목받는...

  • ‘노화는 불가피하다 -논리적으로, 수학적으로’‘노화는 불가피하다 -논리적으로, 수학적으로’

    뉴스오철우 | 2017. 11. 03

    수학적 모형 분석 논문 ‘눈길’세포간 경쟁과 선택, 노화와 암의 ‘딜레마’ 같은 상호관계 다뤄‘노화는 불가피하다. 논리적으로도, 이론적으로도, 수학적으로도 노화를 멈추는 것은 불가능하다.’노화를 일정 정도 늦출 순 있어도 멈출 순 없다는 ...

  • 염기 하나만 바꾸는 단일염기 수정기법의 '확장'염기 하나만 바꾸는 단일염기 수정기법의 '확장'

    뉴스오철우 | 2017. 10. 26

    시토신-구아닌 쌍을 티민-아데닌 쌍으로 ‘점 수정’ 이어아데닌-티민 쌍을 구아닌-시토닌 쌍으로 수정기법 개발하버드대학 리우 교수와 MIT 펑 장 교수 각각 성과 발표 크리스퍼 유전자 가위 기법의 기본 원리를 이용하되 디엔에이(DNA) 두 가닥을 ...