‘위키백과 15년’ 문서 편집의 빅데이터 분석해보니…

카이스트 연구진 ‘500만건 문서, 5억8700만 건 편집’ 15년 역사 분석

“소수 필자의 적극적 활동, 영향력 커져”…‘편집 독점화’ 경향성 우려


00wiki.jpg » wikipedia.org


‘집단 지성’의 성과물인 위키피디어(위키백과) 15년 동안에 나타난 편집의 역사 자료 전체를 분석해보니, 500만 건의 문서는 대략 4개 부류로 분류할 수 있으며 이런 분석으로 보면 편집의 독점화 경향이 나타난다는 물리학 연구진의 연구결과가 나왔다.


네트워크 연구자인 카이스트 물리학과 정하웅 교수와 윤진혁 박사과정생(제1저자), 이상훈 고등과학원 연구원이 참여한 연구진은 최근 물리학 저널 <피지컬 리뷰(Physical Review ) E>에 낸 논문(“대규모의 온라인 공개편집 백과사전 위키피디어의 역사에 나타난 지적 상호교환”)에서 위키피디어 역사 15년 동안의 데이터인 500만 건의 문서를 비롯해 3500만 건의 자료, 그리고 5억8700만 차례 편집 건수에 관한 빅데이터를 분석해 이런 결론을 제시했다. [참조 논문 해설]


연구진은 엄청난 양의 빅데이터를 적절하게 분석하는 기법을 고안해냈다. 문서가 처음 생성되고서 수정 편집되면서 문서마다 서로 다른 ‘나이’를 고려해야 했다. 나이가 많은 문서와 적은 문서를 균형 있게 평가하여 분석하려면 문서 나이를 고려해 데이터를 처리하는 기법(문서 나이에 따른 재척도화[re-scale], 아래 연구진의 도움말 참조)을 고안해야 했다.


이런 기법을 써서 빅데이터를 처리하자, 위키백과 문서에는 일정하게 분류되는 네 개의 범주가 나타났다. 네 개의 범주는 문서마다 다른 필자의 수정 횟수와 개인 필자가 만들어내는 문서의 분량이라는 기준에서 나뉘었다. 즉 △필자의 수정 횟수가 많고 만들어낸 문서 양이 많은 경우, △필자의 수정 횟수가 많고 만들어낸 문서 양이 적은 경우, △필자의 수정 횟수가 적고 만들어낸 문서 양이 많은 경우, △필자의 수정 횟수가 적고 만들어낸 문서 양이 적은 경우가 그것이었다.


00wiki_editing.jpg » 500만 건의 영어 위키피디어 문서들을 4개 범주로 나눌 수 있음을 보여주는 데이터. 그림에서 각 점 하나가 위키피디어의 문서 하나를 의미한다. 그런데, 이런 분석에서는 소수 필자가 지식 문서를 생산하는 데에 끼치는 영향력이 점점 커지는 것으로 나타났다. 이 논문을 소개한 미국물리학회(APS)의 매체 <피직스>에 실린 글을 보면, 편집(수정) 횟수와 필자의 작성 문서 분량이라는 기준으로 볼 때에 자주 수정된 문서 그룹은 그렇지 않은 문서 그룹에 비해 2배나 자주 편집됐다. 또한 개인 필자가 작성하는 문서 분량으로 보면, 두 분류군 사이에는 대략 30배나 차이가 나는 것으로 나타났다. 즉, 더 자주 수정하는 필자가 있으며, 더 많은 문서 작성에 영향을 끼치는 필자가 존재한다는 것이다. 이런 특징은 ‘소수 필자의 영향력’을 보여주는 것이다.(오른쪽 그림 참조)


연구진은 이런 범주가 잘 구현되는 ‘지식의 상호교환’ 또는 ‘집단지성’의 모형을 개발했다. 이런 모형을 통해서 위키피디어와 같은 공개참여형 지식 콘텐츠의 미래도 예측할 수 있었다. 제1저자인 윤진혁 연구원은 “이 모형이 실제 위키백과의 성장을 잘 설명한다고 볼 수 있다면, 이 모형이 제시하고 예측하는 바가 현재와 미래의 위키백과에 대한 설명을 할 수 있을 것이라 보았다”고 말했다.


모형에 나타난 미래에서는 소수 필자의 독점화 현상이 점점 더 뚜렷하게 나타났다.


“이 모형에서는 시간이 지날수록 소수의 필자가 독점하는 현상이 점점 강해지는 것을 볼 수 있었고, 데이터에서도 이와 비슷한 현상을 관측할 수 있었습니다.” “위키백과의 성장이 정체되어 있다는 것은 몇 번 보고된 적이 있고, 우리 연구진은 이 현상의 원인이 부분적으로는 위키백과의 이러한 독점 현상에 있지 않을까, 즉 시간이 지날수록 새로운 필자의 유입이 어려워지는 구조는 아닐까 하는 염려되는 부분을 지적하고 있는 것입니다.”(윤진혁)


그는 위키피디어가 풍성하고 협동적인 환경을 유지하고 소수의 문서 콘텐츠 독점화를 줄이려면 새로운 참여자들을 충원할 필요가 있다고 제언했다.


   연구진의 도움말

□ 윤진혁 연구원(박사과정, 제1저자)

 


00YJH.jpg “저희 연구팀에서는 위키백과(혹은 일반적으로 ‘집단지성’)가 형성되는 과정이 어떤 규칙성이 존재하는가에 대한 의문을 해결하기 위해 연구를 시작하였습니다.

 예를 들자면 사람은 개인, 인종, 집단에 따라 다르지만, 1살에는 몇 cm, 2살에는 몇 cm 이런 식으로 공유하는 “성장 곡선”이라는 것이 있습니다. 이런 것이 여러 사람들이 공유하는 저런 데이터베이스의 형성에도 존재하는지, 그렇다면 어떤 형식인지를 규명하는 작업이 저희 연구라고 보시면 됩니다.

 저희가 발견한 점은 사람의 성장 곡선과 같이, 위키백과 안에 수천만 개의 다른 페이지가 존재하지만 이것을 크게 보면 4개 정도의 분류로 나눌 수 있다는 점입니다. 게다가 각각의 분류를 구분짓는 것이 매우 명확해서, 두 가지의 구분 기준(한 필자의 수정 횟수, 한 필자가 평균적으로 만들어낸 글의 양)에 따라서 확실하게 구분이 됩니다.

 보통 물리학자들은 이런 발견을 했을 때, 이런 것의 원인 규명을 위해 수학적 모형을 만드는데, 저희 모형은 필자들이 한 위키백과 페이지에 대해서 반응하는 두 가지 척도(얼마나 위키백과를 신뢰할지, 얼마나 위키백과를 쉽게 수정하는지)에 따라서 저 구분이 나타날 수 있다는 사실을 보여줍니다. 그와 동시에 저희 모형의 결과를 통해 추정한 바를 실제 위키백과 데이터에서 확인한 결과 그와 맞아 떨어진다는 결론을 내릴 수 있었습니다.”


“저희 모형의 결과를 비추어보자면, 현재에도 많이 독점화 경향이 나타나지만 앞으로 더 독점화 될 것이라고 봅니다.

[이련 현상을 피할 수 있는 방안으로는] 신규 유입자에 대한 보상프로그램(reward program)을 들 수 있을 것 같습니다. 가령 게임에서는 업적과 퀘스트라는 것이 있어서, 초기에 진입하는 유저들에게 무엇을 해야 하는지를 자연스럽게 가르칩니다. 위키백과는 그러한 과정이 전혀 없이, 개개인 필자가 방법을 습득해야 하는 상태입니다. 물론 이런 과정에서 내용의 정확성을 위해서 올바른 참조문헌을 제시하는 사람들에게 조금 더 유리하게 하는 시스템도 필요할 것입니다. 해외 매체의 글들([1], [2])을 보면 이러한 점을 고찰한 부분들이 있었고, 지난 15일에 있었던 위키백과 15주년 기념 한국 행사에서도 비슷한 이야기가 오갔다는 기사를 본 적 있습니다.”


□ 이상훈 박사(고등과학원 연구원)

“저는 문서 나이와 재척도화라는, 다소 어려워 보일 수 있는 개념에 대해서 간략하게 설명을 드리려고 합니다. 문서의 나이라는 것은 다른 게 아니라, 위키백과의 어떤 특정 페이지가 언제 생겼는지에 대한 것입니다. 예를 들어서 어떤 위키백과 페이지가 2011년에 생겼다면 올해로 만 5살 정도가 되었다고 할 수 있겠죠.

 그런데 그 페이지가 얼마나 자주 수정되었고 한 사람이 얼마나 기여했는지를, 2001년에 생긴 15살짜리 페이지와 동일 선상에 놓고 비교할 수는 없겠죠. “나이에 따른 재척도화”라는 것은, 간단하게 말해서 2011년에 생긴 페이지는 5로 나누고 2001년에 생긴 페이지는 15로 나눠서 1년에 얼마 정도가 수정되었는지와 같은, 단위 시간당 얼마나 활동량이 있는지를 보겠다는 것입니다. 그것이 좀 더 공평한 비교겠죠.

 이것이 중요한 이유는, 그렇게 단위 시간당의 양으로 관찰하지 않으면 5살, 6살, 11살, …… 등등의 온갖 나이를 가진 문서들에서 나타나는 각종 양들이 모두 뭉뚱그려져서는 저희가 관찰한 4가지 패턴을 볼 수가 없기 때문입니다. 그렇게 문서의 나이 효과를 고려해서 시간당의 통계를 보니까 비로소 위키백과 문서의 종류를 4개의 카테고리로 구분할 수 있게 되었다는 뜻입니다.”


오철우 기자 cheolwoo@hani.co.kr     

@한겨레 과학웹진 사이언스온    



   [사이언스온의 길목]

페이스북 페이지   https://www.facebook.com/scienceon

트위터   https://twitter.com/SciON_hani

한겨레 스페셜   http://special.hani.co.kr

  • 구글
  • 카카오
  • 싸이월드 공감
  • 인쇄
  • 메일
오철우 한겨레신문사 과학담당 기자, 사이언스온 운영
1990년 한겨레신문사에 입사해 편집부, 사회부, 문화부, 생활과학부 등을 거쳤으며 주로 과학담당 기자로 일했다. <과학의 수사학>, <과학의 언어>, <온도계의 철학> 등을 번역했으며, <갈릴레오의 두 우주체제에 관한 대화>를 썼다.
이메일 : cheolwoo@hani.co.kr      

최신글




최근기사 목록

  • [알림] 사이언스온이 미래&과학으로 바뀝니다[알림] 사이언스온이 미래&과학으로 바뀝니다

    뉴스사이언스온 | 2017. 12. 11

    미래/과학/기술/환경 뉴스와 비평, 연재물 서비스사이언스온 옛 글들은 지금처럼 접근 가능합니다 독자님들께안녕하세요. 그동안 작은 도전이었던 한겨레 과학웹진 사이언스온의 필자들을 격려해주시고 또 웹진을 사랑해주신 모든 독자분들께 감사의 말씀을 ...

  • “언어사용 패턴은, 몸의 스트레스 보여주는 지표”“언어사용 패턴은, 몸의 스트레스 보여주는 지표”

    뉴스오철우 | 2017. 11. 07

    특정 언어사용패턴과 스트레스 관련 유전자발현 사이에 ‘상관성’“무의식적 언어패턴이 의식적 자가보고보다 측정정확도 더 높아” 일상언어 사용의 패턴이 말하는 이 자신도 잘 모르는 몸의 스트레스 반응을 알려주는 지표로 사용될 수 있다는 연구결...

  • 정교해진 유전자가위…‘염기’ 하나만 바꾼다정교해진 유전자가위…‘염기’ 하나만 바꾼다

    뉴스오철우 | 2017. 11. 07

    ※ 이 글은 한겨레 11월6치 '미래&과학' 섹션 지면에 실렸습니다. 지면 편집 과정에서 분량을 줄이기 이전 원고를 사이언스온에 올립니다. 편집 과정에서 달라진 부분이 있습니다.정교해진 유전자가위염기 하나만 바꿔치기[미래&과학] 주목받는...

  • ‘노화는 불가피하다 -논리적으로, 수학적으로’‘노화는 불가피하다 -논리적으로, 수학적으로’

    뉴스오철우 | 2017. 11. 03

    수학적 모형 분석 논문 ‘눈길’세포간 경쟁과 선택, 노화와 암의 ‘딜레마’ 같은 상호관계 다뤄‘노화는 불가피하다. 논리적으로도, 이론적으로도, 수학적으로도 노화를 멈추는 것은 불가능하다.’노화를 일정 정도 늦출 순 있어도 멈출 순 없다는 ...

  • 염기 하나만 바꾸는 단일염기 수정기법의 '확장'염기 하나만 바꾸는 단일염기 수정기법의 '확장'

    뉴스오철우 | 2017. 10. 26

    시토신-구아닌 쌍을 티민-아데닌 쌍으로 ‘점 수정’ 이어아데닌-티민 쌍을 구아닌-시토닌 쌍으로 수정기법 개발하버드대학 리우 교수와 MIT 펑 장 교수 각각 성과 발표 크리스퍼 유전자 가위 기법의 기본 원리를 이용하되 디엔에이(DNA) 두 가닥을 ...