김시현의 "데이터의 쓸모"

과학과 데이터 시각화에 관심이 많은 필자가 현대 사회에서 그 중요성이 날로 높아지는 데이터의 의미와 적절한 사용법을 둘러싸고 정보 시스템, 미래 예측, 프라이버시 등과 관련한 여러 주제의 이야기를 펼친다.

데이터: 미신, 운명론에서 과학까지

[1] 연재를 시작하며


bigdata_openclipart_org_byGDJ.jpg » 출처 / openclipart.org, by GDJ


약 당신이 아침에 집을 나설 때 우산을 챙겨 나왔다면 그건 간밤에 무릎이 쑤셨기 때문이 아니라 일기예보에 비 소식이 있었기 때문일 것이다. 당신은 버스정거장에서 5분 뒤에 다음 버스가 온다는 전광판의 알림을 의심하지 않고, 또한 자동차를 운전할 때에는 내비게이션의 예상 경로를 대체로 믿고서 따라간다. 우리는 데이터 기반의 사고에 익숙하므로 더 많은 정보를 수집하기를 원한다. 우리는 언제부터, 왜, 데이터를 분석했을까?



데이터 분석의 시작 : 미신

00dot.jpg

근거를 설명할 수 없는 우연한 패턴을 믿는 것을 ‘미신’이라 한다. 행동심리학자 스키너(Burrhus F. Skinner: 1904-1990)는 미신을 발견하고자 실험을 고안했다.[1] 굶주린 비둘기를 새장에 넣은 뒤 비둘기의 행동과는 무관하게 일정한 시간 간격으로 먹이를 공급하는 장치를 설치했다. 비둘기는 특정 행동을 반복하는 모습을 보였는데, 스키너는 비둘기가 특정 행동을 하면 먹이가 공급될 것이라는 추측을 했다고 판단했다. 인과가 없는데도 특정 행동을 반복하는 비둘기를 통해 스키너는 ‘이 실험은 일종의 미신을 입증한다’고 말했다. 인간 역시 명확한 인과와 무관하게 믿음을 갖는 경우가 있기 때문이다.


pigeon.jpg » 스키너 실험실 비둘기. 출처/ http://rationalwiki.org/wiki/Skinner_box


대표적인 예로 비가 내릴 때까지 기우제를 지낸 인디언이 있다.


① 기우제를 지낸다.

② 비가 내린다.


단순한 알고리즘은 인디언이 절망에 빠지는 것을 효과적으로 막았을 것이다. 하지만 인디언이 비와 기우제 사이에서 인과가 없다는 것을 알지 못한 점은 새장의 비둘기와 다르지 않다.


다른 예도 있다. 연일 하한가인 주가를 보며 그동안 계속 떨어졌기 때문에 ‘오를 때가 됐다’고 믿기도 한다. 일부 농구 선수는 연습 때 슛이 안 들어가면 연습을 중단한다. 슛 성공률이 50%라면 경기에서 쏘는 공은 모두 들어갈 거라는 믿음 때문이다. 일종의 미신이지만 마음가짐이 이후의 경기에 좋은 영향을 끼치는 경우도 있다.


로또 1등 당첨자 수가 많은 가게에서 복권을 사는 것도 마찬가지다. 당첨 확률은 전국 어디에서나 같으니 구매자가 많은 가게에서 1등이 많이 나오는 것은 당연하다. 하지만 30명이 1등에 당첨된 그 가게에서 사야 마음이 놓이는 것도 위와 비슷한 미신이라 볼 수 있다.


한 사건에 이어 다른 사건이 일어나는 일이 자주 반복되더라도 이전에 벌어진 일이 이후 사건의 원인이라고 단정할 수는 없다. 통계학자들은 이를 ‘상관성은 인과관계를 함축하지 않는다’라고 일축한다.[2] 기저귀와 맥주 판매가 동시에 일어난다고 해서 곧바로 둘 사이에 인과관계에 있다고 말할 수 없듯이 말이다.


과학은 착실하게 미신의 껍질을 하나씩 벗겨왔다. 여전히 남은 미신은 일종의 강박과 심리적 요인으로 치부된다. 나은 선택을 위한 행위라는 점에서 미신은 고대 데이터 분석의 시작이라 볼 수 있다.



전문가의 예측

00dot.jpg

예측의 권한은 신으로부터 과학으로 천천히 이동했다. 이유는 정확도가 떨어졌기 때문이다. 고대 그리스인들은 어려운 문제가 발생하면 델포이의 아폴론 신전을 찾아 신탁을 들었다. 신탁이란 신의 뜻을 전달한다는 의미로, 신탁을 받는 신녀와 이를 해석하는 신관으로 구성되어 있다. 질문을 들은 신녀는 접신 상태에서 울부짖는 예언을 하고, 신관이 이를 운문 형태로 해석했기에 뜻이 명확하지 않았다고 한다. 일례로 소크라테스에게 “당신보다 더 현명한 사람은 없다”고 말해 소크라테스를 당황하게 만들었던 일도 있었다.


Delphi,_Tholos_(6220581621).jpg » 델포이 신탁이 행해진 신전. 출처/ https://en.wikipedia.org/wiki/Delphi


몇 큰 예언이 빗나가고 신관이 매수당하는 일이 드러나면서 신뢰를 잃었는데, 대표적인 예로 크로이소스가 받은 신탁이 있다. 기원전 560년 리디아의 왕인 크로이소스는 페르시아 제국을 멸망시키고자 전쟁 여부를 물어보기 위해 델포이 신탁을 받았다. 신탁은 “그대가 페르시아와 전쟁을 한다면, 큰 제국이 무너지리라.” 였는데 예측은 맞아떨어졌다. 다만 무너진 쪽이 리디아였다는 게 어긋난 부분이다. 하나 마나 한 말들, 근거 없는 추측에도 델포이는 가장 영험한 곳으로 꼽혔다. 아폴론 신이 직접 신전을 만들고 신탁소를 설치하였다는 전설 때문이라는데, 당시의 ‘예측’이 얼마나 신앙에 의존했는지 짐작하기 어렵지 않다.[3] 모호한 신탁은 힘을 잃었고, 현대에 들어서는 ‘전문성’을 바탕으로 뭉친 전문가 집단이 그 자리를 차지했다.


하지만 전문가의 말 역시 항상 들어맞는 건 아니었다. 테틀록의 연구에 의하면 전문가들이 절대로 일어나지 않을 것이라고 주장한 사건 가운데 약 15%가 실제 현실에서 일어났고, 반드시 일어날 것이라고 한 사건의 약 25%는 일어나지 않았으니 말이다.[4] 의사들이 담배를 권장했던 시기도 있었다.


이는 부족한 데이터와 인간이라면 누구나 갖는 주관적 편향 때문일 것이다. 누구는 ‘틀린다면 전문가라고 부르지 말아야지!’ 하며 그들을 원망할지도 모른다. 그러나 예측에 실패한 전문가의 사례를 늘어놓는 것으로 정확도가 높아질 리는 없으니, 나쁜(혹은 무능한) 전문가에게 속지 않으려면, 데이터를 보는 눈을 기르는 수밖에 없다. ‘사실’이라는 것은 오용에 취약 하므로 언제나 경계해야 한다.


현실에서 ‘충분한’ 데이터를 가질 일은 별로 없기 때문에 개인의 직관과 데이터 기반 의사결정을 병행해야 한다. 문제는 이 둘이 상충할 경우에 발생하는데, EIU(Economist Intelligence Unit)에서 2014년 2월, 전 세계의 다양한 산업에 몸담은 중역 및 고위 경영진 174명을 설문 조사한 결과, 조사 대상의 57%는 이런 상황에 직면했을 경우 가장 먼저 데이터를 재분석하고, 30%는 데이터를 더 수집하고, 10%는 데이터가 제시하는 행동을 한다고 대답했다.[5] 뭐가 됐든 데이터가 빠지는 일은 없다. 어쩌면 전문가란 더 많은 데이터를 보유하거나 검색할 수 있는 사람을 이르는 말일지도 모른다.



정보 폭발과 운명론

00dot.jpg

데이터와 실제 세계는 좀처럼 만나지 못하는 것처럼 보였는데, 다방면의 기술 발전으로 측정 가능한 정보의 양이 폭발적으로 증가하면서 현상 대다수가 데이터를 통해 설명 가능해졌다. 2015년 기준, 하루에 생산되는 데이터는 2.5엑사바이트[6]라는데 이는 고화질(HD) 비디오 90년 치 분량이라고 한다.


‘4차 산업혁명’이라 불리는 정보 혁명은 매우 특별한 사건처럼 보이지만, 1440년대 구텐베르크 활자 탄생이나 1990년대 월드와이드웹 초창기의 상황도 이와 비슷했다. 정보가 폭발적으로 증가했고 정보의 질은 편차가 매우 컸다. 도서관이 설립되면서 서지학과 문헌학이 발달했고, 대다수 학문이 폭발적으로 성장했으며 지식인의 확산에 기여했다. 따라서 정보 혁명 이후 데이터 수집과 분석에 관한 수요가 늘어나며 데이터 인력이 늘어난다는 예측은 자연스럽다.


미국의 응용수학자 클로드 섀넌은 “암호 분석가 입장에서 암호 시스템은 잡음이 많은 통신시스템과 거의 같다”고 말했다. 데이터 흐름은 확률론적 혹은 무작위적으로 보이지만 당연히 그렇지 않고, 수집 가능한 데이터는 시간이 지날수록 정밀해질 것이다. 그러니 패턴을 파악한다면 숨은 뜻을 해석할 수 있다.[7]


이론적으로 모든 데이터를 수집할 수 있다면 미래 예측이 가능하다. 4차 산업혁명에 힘입어 지금과 같은 속도로 과학 기술이 발전한다면 언젠가 그 경지에 도달하지 않을까 하는 전망도 있다. 하지만 그런 일은 벌어지지 않을 것이다. 양자역학에 따르면 전자처럼 작은 입자의 위치와 운동량은 동시에 정해질 수 없기 때문이다. 즉, 초기 조건을 완벽하게 측정할 수 없기 때문에 미래 예측은 불가능하다는 결론에 이른다.


개인적인 생각이지만, 100%는 아니라도 영화 <마이너리티 리포트> 정도는 (영화에서도 오류 가능성을 내포하고 있으니) 가능하지 않을까. 30억 쌍의 디엔에이(DNA) 염기서열 지도는 완성되었고, 유전체 정보가 밝혀지면 유전과 환경, 질병과의 관계를 상당한 정도로 해석할 수 있을 것이다. 거기에다 수 만 가지 웨어러블 기기를 통해 수집되는 개인 정보를 처리할 수 있다면 운명론을 과학적으로 증명하는 날이 올지도 모른다. 물론 현재로서는 요원한 일이다.



데이터 시대에서, 우리는

00dot.jpg

데이터가 주도하는, 데이터에 입각한 사회라는 말은 자칫 암울해 보일지도 모른다. 하지만 산업혁명이 있기 훨씬 이전부터 데이터는 존재해왔으며 이를 다루기 위해 고군분투 해왔다. 우리가 수집해왔던 데이터의 종류는 바뀌었지만 우리는 일관적으로 데이터 기반의 선택을 해왔다. 이런 현상은 자신과 주변의 데이터를 수집하는 개인들이 끊임없이 흘러가는 데이터에 내재한 정보를 더 잘 이해하고 싶어함을 의미한다. 우리는 데이터가 주도하는 사회에 살고 있다. 이런 경향은 강화될 것이다. 모든 사물에서 발생하는 데이터에 우리의 선택을 맡기게 될 것이다. 왜냐하면, 그러지 않을 이유가 없기 때문이다.[8]


빅데이터 시대는 자유의지, 도덕적 선택, 인간의 선택을 보호하는 게 쟁점이 된다. 모든 것을 추천하는 큐레이션 서비스로 인해 모두가 평준화되는 사회가 올지도 모른다. 이런 이유에서였을까 <타자의 추방>(한병철 저)에서는 동일성을 배제하는 사회 분위기를 격하게 경계한다.


[ 유투브 https://youtu.be/AyEr3gLHZFs ]


런 시대에서 우리가 해야 할 일은 자명하다. 데이터를 면밀하게 들여다보는 것. 마치 구텐베르크 이후 높은 문해력을 가진 지식인들이 다른 세상을 바라볼 수 있는 것처럼 말이다. 풍부한 데이터는 선택의 영역을 확장하는 역할을 한다. 데이터를 읽을 수 있다면 나쁜 결정을 막을 수도, 위험에 효과적으로 대처할 수 있다.


[주]


[1] Skinner, Burrhus Frederic. "'Superstition' in the pigeon." Journal of Experimental Psychology: General 121.3 (1992): 273.

[2] 데이비드 핸드, 신은 주사위 놀이를 하지 않는다(2016), 더퀘스트

[3] https://ko.wikipedia.org/wiki/%EB%8D%B8%ED%8F%AC%EC%9D%B4_%EC%8B%A0%ED%83%81

[4] Tetlock, Philip. Expert political judgment: How good is it? How can we know?. Princeton University Press, 2005.

[5] http://www.ciokorea.com/news/21218

[6] http://www.northeastern.edu/levelblog/2016/05/13/how-much-data-produced-every-day/

[7] 제임스 글릭, 인포메이션(2017), 동아시아

[8] 네이트 실버, 신호와 소음(2014), 더퀘스트


김시현 중앙대 대학원 석사과정(예술공학)   

@한겨레 과학웹진 사이언스온   



   [사이언스온의 길목]

페이스북 페이지   https://www.facebook.com/scienceon

트위터   https://twitter.com/SciON_hani

한겨레 스페셜   http://special.hani.co.kr

  • 구글
  • 카카오
  • 싸이월드 공감
  • 인쇄
  • 메일
김시현 중앙대 대학원 석사과정 (예술공학)
‘이해한다’는 말보다 ‘이해하려 노력한다’는 말을 좋아합니다. 데이터를 들여다보는 일은 이해하려 노력하는 쪽에 속한다고 생각합니다. 데이터 기반의 예술적 표현에 대해 연구 중입니다.
이메일 : jvvannn@gmail.com      

최신글




최근기사 목록