이런 상상: 우리가 인공지능 기자, 판사 만든다면…

  취 · · · 첩  


사람세상 경험의 데이터로 학습하는 인공지능

어뷰징, 선정기사로 학습한 인공지능 기자는?

불합리 논란 판결로 학습한 인공지능 판사는?

00AI_pixabaycom.jpg » 출처 / pixabay.com


파고의 학습형 인공지능이 그 어렵다는 바둑 게임에서 최고수를 5전3선승제에서 꺾음으로써, 인공지능의 활동 영역이 어디까지 확장할지에 놀라움과 두려움의 관심이 쏠리고 있습니다. 많은 일자리가 인공지능 컴퓨터로 대체되지 않을까 하는 두려움이 있습니다. 고질적인 부조리가 있는 분야에서는 인공지능 컴퓨터가 냉철한 계산으로 합리적인 결과를 내어 고질 문제를 해결해주지 않을까 하는 기대도 합니다. 예컨대, 제대로 쓰는 기자가 아쉬운 한국 사회에서 어뷰징 기사나 선정적, 편향적 기사를 쓰는 인간 기자 대신에 사실을 바탕으로 올곧게 쓰는 알파고형 인공지능 기자가 더 나을 것이라는 다소 냉소 섞인 상상도 나옵니다. 전관예우 부조리나 독립성 훼손 의혹을 불러일으키곤 했던 사법 분야에서는 알파고형 인공지능 판사가 복잡한 인간사와 이해관계에 얽매이지 않고서 분쟁과 사건에 대한 올바른 판결을 내려줄 수 있지 않겠느냐는, 역시 기대 섞인 상상도 얘기됩니다.


이번 이세돌 대 알파고의 대국에서는 알파고 인공지능의 능력에 놀라면서도 이와 더불어 그 빈틈도 엿볼 수 있었습니다. 인공지능이 폭발적 관심을 받은 덕분에 알파고의 인공지능이 정돈된 빅데이터와 빠른 하드웨어, 그리고 데이터를 통해 학습하는 알고리즘이라는 구성물로 이뤄진다는 것도 많이 알려졌습니다. 사람이 분류해 제공하는 빅데이터를 학습함으로써 점차 사람과 비슷하게 판단할 정도로 성장하는 알고리즘은 이전에 없던 능력을 보여주면서(인공신경망에 탑재된 기계학습 알고리즘입니다), 때로는 학습한 데이터 영역에서 벗어난 새로운 상황에 맞닥뜨릴 때엔 간혹 상식으로 생각하기 어려운 오차의 결정을 내릴 수도 있음도 알려졌습니다(인공지능의 과적합[오버피팅]의 문제입니다).


지금 구현된 테크놀로지를 바탕으로 여러 분야에서 활약할 인공지능을 상상해봅니다. 과연 알파고형 기계학습 인공지능 기자는 정말 이상적일까? 인공지능 판사는 정말 우리의 기대에 부합할까? 인공지능 기자, 판사, 의사가 과연 얼마나 가능할까 하는 의문은 더욱 근본적이지만, 이 글에서는 일단 그게 어느 정도 가능하다고 받아들이더라도 여전히 제기되는 또 다른 문제에 대해 생각해봅니다.


알파고를 통해 알려진 인공지능의 구성물을 사용해서, 우리가 이제 인공지능 기자와 판사를 개발한다고 한번 상상해봅니다. 매우 빠른 연산속도를 갖춘 하드웨어야 많은 자본을 들여 확보하고 또 연산이 효율적으로 작동하도록 전체 설계를 잘 한다면 그 기대했던 성능을 충분히 쓸 수 있을 것입니다. 그러니 데이터베이스나 알고리즘과 비교하면, 상대적으로 좀더 쉬운 구성물이 아닌가 합니다.


다음으로, 기계학습 알고리즘을 더욱 효율적으로 개발하는 문제입니다. 이 구성물도 현재 속도로 소프트웨어 기술이 발전하고 뇌과학 연구에서 얻어진 새로운 발견의 통찰이 소프트웨어에 적절히 구현된다면, 그리고 향상된 하드웨어의 성능에 의존한다면, 새로운 알고리즘의 작동도 더 향상되겠지요. 그러니 이 문제에서도 낙관적인 미래를 믿어보지요.


또 다른 구성물인 데이터가 더 큰 문제가 아닐까 합니다.

빠른 하드웨어를 바탕으로, 효율적인 학습형 알고리즘의 능력치를 높이기 위해서는 좋은 데이터를 대량으로 컴퓨터에 제공해야 합니다. 먼저 인공지능 알고리즘이 자신의 기계 학습에 활용하려면 모든 자료는 당연히 디지털화 해야 하겠지요. 0과 1로 묘사할 수 있는 자료이어야만 컴퓨터 인공지능이 자료를 받아서 소화할 수 있을 것입니다. 인터넷이나 통신에 기입된 자료들이야 모두 디지털이지만, 오프라인의 모든 자료는 대량의 데이터베이스로 디지털화 해야 사용할 수 있겠지요.


더 큰 문제는 인공지능 학습에 유익한 자료만이 제공되어야 한다는 점입니다. 학습 자료가 엉망인데 자율학습을 하는 학생이 올바른 지식을 얻을 수 있을까요? 이게 필요한 학습 자료인지, 오히려 해로운 학습 자료인지 판단할 수 없는 컴퓨터한테 모든 자료를 분류되거나 평가되지 않은 채 마구잡이로 입력할 수는 없겠지요. 그러니 인공지능의 학습에 유익한 자료만을 분류하고 선별하고 평가가치를 일정하게 부여해 제공해야 할 겁니다. 이건 집중해서 살펴볼 것, 이건 대충 살펴볼 것… 등등의 분류와 선별, 그리고 일종의 자료 평가가 선행되어야 할 것입니다.


기에서 더 나아가면, 더욱 현실적인 문제가 생길 수 있지 않을가요?

예컨대 한국의 인공지능 기자 프로그램을 만든다고 해보죠. 그러면 학습을 시키는 데 쓰는 한글 기사 데이터를 이 인공지능에게 제공해야 할 것입니다. 이미 우리사회에 축적된 기사 데이터가 학습 자료가 될 것입니다. 거기에는 물론 훌륭하고 본받아야 할 기사가 많을 테지만, 어뷰징 기사도, 선정적인 기사도, 편향적인 기사도… 모두 학습 자료에 포함되는 빅데이터의 일부가 될 수 있습니다. 이런 데이터를 바탕으로 인공지능은 학습을 하면서 기자의 직능을 흉내내고자 합니다.


이제 인공지능 기자는 클릭 수를 늘리기 위한 어뷰징 기사를 쓰고자 할지도 모릅니다. 쟁점을 적당히 피하면서 사람들의 관심을 다른 곳에 돌리는 기사를 쓸지도 모릅니다. 의제설정, 프레임짜기는 제대로 할까요? 인공지능 기자는 현재 우리 사회에서 우리가 경험하는 기사들을 통해 학습해 그런 기자의 직능을 모방하고자 하지 않을까요.


물론 좋은 기사를 잘 쓰는 인공지능 기자가 출현할 수 있습니다. ‘좋은 기사’의 빅데이터만으로 학습한 인공지능 기자를 만드는 겁니다. 그런데 이때에도 조금 곤란한 문제가 생기지 않을까요? 인공지능이 학습하는 데 쓸만한 ‘좋은 기사’는 대체 누가 고를까요? 아마도 데이터를 입력하는 과정에서 일하는 사람들일 것입니다. 이 사람들이 이건 좋은 기사, 저건 좋지 않은 기사라고 판단할 테지요. 과연 절대적으로 좋은 기사의 기준은 있을까요? 어떤 사람/집단은 이런 류가 좋은 기사라고 할테고, 저런 사람/집단은 저런 류가 좋은 기사라고 주장할 겁니다.


그렇다면, 가장 좋은 단 하나의 인공지능 기자가 아니라, 여러 성향의 인공지능 기자가 등장할 수 있을 겁니다. 어뷰징 잘 하는 인공지능 기자, 선정적인 기사를 요령 있게 잘 쓰는 인공지능 기자…. 그런 상상에 이런 상상의 꼬리를 물며 생각하다보면, 이건 결국에 사람 문제로 돌아오는 게 아닐까 하는 생각에 이릅니다. 결국에 어떤 인공지능을 원하는지, 그것을 학습시키려면 무엇을 어떻게 선별해서 학습시킬지, 이런저런 문제들은 결국에 사람들이 결정해야 하니까요.


물론 아주 아주 먼 미래에, 컴퓨터 인공지능이 이제 스스로 적합한 데이터가 무엇인지 판단할 줄 알고, 자기 학습에 필요한 데이터와 필요하지 않은 데이터가 무엇인지도 알고, 각각의 데이터를 어느 정도 중요하게 받아들일지도 판단하고…, 그래서 스스로 자기 알고리즘을 자기가 조절하면서 이런 문제를 스스로 판단하는 그런 시대가 온다면, 그때에는 정말 사람 없이 스스로 나아가는 인공지능이 가능할 수도 있겠지요.


그렇지만, 지금 우리가 경험하는 알파고의 인공지능을 키우는 데에는 사람들의 손이 참 많이 가는 것 같습니다. 그런 지난한 튜닝의 과정을 거쳐서 사람을 흉내내거나 심지어 더 나아가 학습을 기반으로 새로운 창발을 간혹 일으키기도 합니다. 그런 과정이 매우 난해하고, 또한 그 결과물인 인공지능이 우리가 지금까지 경험해보지 못한 정도로 매우 정교하기에 놀라운 것이고 찬탄을 자아냅니다. 하지만 그 인공지능이 보여주는 세상도 역시 인공지능이 새롭게 만든 세상이 아니라 우리가 살고 있는 현실 세상의 데이터베이스에서 태어난 현실의 거울이지 않을까요? 미래는 알 수 없지만 적어도 현재 인공지능 기술의 구성물로 판단할 때 말입니다.


러니 지금 우리가 이상적인 판결을 하는 인공지능 판사를 기대하는 것은 조금 현실적이지 않은 상상이라는 생각이 듭니다.

이미 우리가 살아온 세상의 판결 데이터베이스를 인공지능이 학습한 뒤에 인공지능 판사로 나설 테니까요. 한국 사회의 법률과 문화, 규범과 풍속에 맞추어야 하니까 한국의 재판 데이터베이스를 학습해야만 한국형 인공지능 판사가 될 테니, 결국에 우리가 지금까지 경험한 재판의 판결과 비슷한 결과물을 산출하지 않을까요? (물론 인공지능 알고리즘이 이런 판사 학습을 할 수 있을지는 더 근본적은 의문입니다. 국가, 사회, 문화, 법률, 풍속, 규범… 이런 모든 요소를 모두 수학적인 요소로 환원하고, 수학 방정식으로 변환해 디지털로 다룰 수 있을까? 컴퓨터는 디지털 연산으로 이런 요소들을 다룰 수 있을까?)


이런저런 점들을 현실적인 관점에서, 그리고 인공지능 구성물의 관점에서 생각해보면, 현재 우리 눈앞에 펼쳐진 인공지능 기술이 구현할 수 있는 영역은 모든 분야가 아니라 디지털로 쉽게 변환하고 수학적으로 쉽게 다룰 수 있는 그런 분야에 제한되지 않을까 하는 생각이 듭니다. 물론 현재의 기술도 새로운 도약 단계에 들어가 이전에 없던 학습 기법을 선보이거나 다른 가능성을 창출한다면 또 다른 가능성의 길이 열리겠지만, 현재 우리가 알파고라는 인공지능 상징물을 통해서 접한 인공지능 기법은, 부조리한 인간 사회를 뛰어넘어 전에 없던 새 세상을 열어주는 그런 건 아닐 듯합니다. 인공지능은 현재 우리 인간, 그리고 우리 세상의 거울일 테니까요.


그러니 이런 생각을 해봅니다. 우리가 잘 살아야 인공지능도 그것을 잘 따라할 겁니다. 또한 좋은 인공지능을 만들려면 인공지능이 학습할 좋은 데이터가 무엇인지에 대한 인간들의 더 많은 토론과 논의가 필요하지 않을까요. 좋은 데이터의 기준을 정의하는 것도 많은 논란거리가 될 듯합니다. 결국 현재 수준에서 우리가 경험하는 인공지능의 문제에서 많은 부분은, 또는 중요한 부분은 다시 인간 사회의 문제가 아닌가 하는, 인공지능을 다루는 사람들의 책임감이 더 중요하게 부각되어야 하지 않을까 하는 생각을 해봅니다.


여러분의 생각은 어떠한지요?


이 글은 인공지능의 기술적인 문제를 꼼꼼하게 다루지는 못했습니다. 다만 현재의 인공지능 기술이 잘 정돈된 대량의 디지털 데이터를 바탕으로 학습하면서 자기 성능을 높인다는 점, 이런 인공지능 학습에 쓰일 데이터는 바둑처럼 문제풀이가 잘 정의된 경우엔 비교적 쉽게 얻을 수 있지만 드러난 맥락과 숨겨진 맥락이 얽힌 복잡한 인간사를 다루는 데엔 또다른 중대 문제에 부딪힐 것이라는 점을 강조하여 작성되었습니다. [* 학습형 인공지능을 이미 선봰 기사 작성 인공지능형 프로그램과 구분하고자 일부 표기를 알파고형 인공지능 기자로 바꾸었습니다. 한 독자의 댓글을 보고서 수정했습니다.]


이 글을 싣기 한두 시간 전에 글의 초고를 두 분께 보내드리고서 혹시 엉뚱하거나 기술적으로 말도 안 되는 얘기는 아닌지 읽어보아주십사 부탁드렸습니다. 두 분이 휴대전화 문자와 이메일로 간락한 답장을 다음과 같이 보내주셨습니다.


[1] 일반 독자 대상으로 사이온스온에 충분히 쓸 만한 감상문인 것 같습니다. :) [참조할 만한 기존 개념이 있는데] 전문용어(!)로 garbage in, gabage out이라고 합니다.

https://en.wikipedia.org/wiki/Garbage_in,_garbage_out


[2] 흥미로운 글이네요. 인공지능의 학습이 결국은 지금까지 쌓인 데이터에 맥락적으로 의존할 수밖에 없고, 따라서 가치중립적이기 힘들다는 요지로 이해했습니다. 좋은 논의인 것 같습니다.

 저라면 한 가지 논점을 추가하겠습니다. 그것은 ‘지도학습’의 문제에 관한 것입니다.AI(인공지능) 저널리즘, AI 판사 등이 지도/비지도학습 중 어떤 방식으로 훈련될지는 모르겠습니다만, 만약 지도학습이나 강화학습 등으로 훈련된다면 결국 AI가 내놓을 출력물이 좋은지/나쁜지, 그리고 얼마나 그러한지를 평가하는 기준은 결국 인간이 제공해주어야 합니다. 그런데 그 ‘기준’이 누구에 의해서 결정될 것인지의 문제는... 아마 쉽지 않을 듯합니다.


이 글을 실을지 망설이다가 이런 말씀에 조금 힘을 얻어 이곳에 올립니다.^^;;


오철우 기자 cheolwoo@hani.co.kr  

@한겨레 과학웹진 사이언스온  



  [사이언스온의 길목]

페이스북 페이지   https://www.facebook.com/scienceon

트위터   https://twitter.com/SciON_hani

한겨레 스페셜   http://special.hani.co.kr

  • 구글
  • 카카오
  • 싸이월드 공감
  • 인쇄
  • 메일
오철우 한겨레신문사 과학담당 기자, 사이언스온 운영
1990년 한겨레신문사에 입사해 편집부, 사회부, 문화부, 생활과학부 등을 거쳤으며 주로 과학담당 기자로 일했다. <과학의 수사학>, <과학의 언어>, <온도계의 철학> 등을 번역했으며, <갈릴레오의 두 우주체제에 관한 대화>를 썼다.
이메일 : cheolwoo@hani.co.kr      

최신글




최근기사 목록

  • ‘창조과학’ 장관후보에, 과학기술계 ‘깊은 실망과 반대’‘창조과학’ 장관후보에, 과학기술계 ‘깊은 실망과 반대’

    취재수첩오철우 | 2017. 09. 05

     취재수첩 | 창조과학자 박성진 장관 후보 지명 논란  문 정부 지지층에서 비판 더 강해, ‘창조과학 비판’ 과학자들 자발적 연재뉴라이트 역사관, “창조공학 필요”, “대기업집중 불가피” 인식도 논란불씨 한 중견 과학자는 “여러 정...

  • 실험실의 지엠오, 시장에 나온 지엠오실험실의 지엠오, 시장에 나온 지엠오

    취재수첩오철우 | 2016. 07. 05

     …취 재 수 첩…  노벨상 수상 110명 “인도주의적 GMO, 반대운동 중단하라”미국과학아카데미 “지엠오와 전통작물 차이 증거 발견 못해”그린피스 “식량과 생태농업 현실적 대안 이미 있는데” 반박“표시제논란과 겹쳐 가열…과학논쟁,...

  • ‘전문연 제도’, 연구인력 정책 틀에서도 논의해야‘전문연 제도’, 연구인력 정책 틀에서도 논의해야

    취재수첩오철우 | 2016. 05. 25

    제도 시행 40여 년 거치며, 병역 정책은 이제 기초 과학기술 연구에도 영향국방 정책 울타리 넘어 연구인력 육성수급이라는 더 큰 관점에서 논의 필요 1973년 이래 시행된 ‘전문연구요원(‘전문연’)의 대체복무 제도’를 폐지할 계획이라고 밝힌 국...

  • 궁금한 인공지능과 ‘딥러닝’궁금한 인공지능과 ‘딥러닝’

    취재수첩오철우 | 2016. 03. 11

      취 · 재 · 수 · 첩  컴퓨터 바둑 프로그램이 바둑의 정상에 있는 프로기사를 5번기 제1, 2국에서 잇따라 이겼습니다.바둑을 둘 줄 모르다가 이번 ‘이세돌 대 알파고’ 대국을 계기로 이것저것 살펴보니, 컴퓨터 바둑 프로그램은 ...

  • “정부 과학자들의 연구독립성 보호해야” -미국 조사“정부 과학자들의 연구독립성 보호해야” -미국 조사

    취재수첩오철우 | 2015. 10. 05

    미국 FDA, CDC, NOAA 등 7000명 과학자 조사공공연구기관 과학진실성 보장하는 절차기준 필요정부 산하 연구기관 또는 정부 기구에서 일하는 과학과 기술 전문가들의 연구결과나 의견은 때때로 공중 보건이나 사회 안전 정책을 통해 우리 삶에...