‘빅데이터를 분석해보니 (19대 대선 당선 가능성이) 안철수가 1위로 나왔다.’


최근 찌라시를 통해 이 같은 ‘검증되지 않은’ 정보가 돈 적이 있었다. 구글 검색결과를 빅데이터 통계기법으로 계산해본 결과 나온 자료라고 한다. 이에 따르면 지난 2월 17일 기준 구글 검색결과 1위는 6320만건이 나온 안철수, 2위는 4100만건의 문재인, 3위는 3500만건의 유승민, 4위는 2120만건의 이재명, 5위는 1930만건의 황교안, 6위가 1720만건의 안희정이 차지했다고 한다. ‘이 방법의 과학적 타당성이 검증된 건 아니다’라는 전제가 붙긴 했지만, 현재 문재인 전 대표가 압도적인 1위를 달리고 있는 것과 비교하면 차이가 많이 나는 결과다. 





필자는 이 데이터 결과가 맞는지 구글에 다시 검색을 해보았다. 2월 19일 기준 1위는 문재인으로 4030만건, 이재명이 2190만건으로 2위, 3위는 안철수 1870건, 4위는 황교안 1860만건, 5위는 안희정 1720건, 유승민이 1240만건으로 6위를 차지했다. 찌라시에 나온 결과와는 사뭇 다르지만 현재의 여론조사와는 어느 정도 일치하는 부분이 있다. 현재의 문재인 대세론이 굳어지면서 ‘안티 문재인’ 측에서 앞서의 안철수 빅데이터 1위 결과를 가지고 ‘언론 플레이’를 하는 것이 아닌지 일단 의심이 간다. 그리고 필자가 검증해본 결과 앞서의 안철수 1위 자료는 단 한 군데의 일간지가 온라인에 보도했다가 지금은 삭제가 된 상태다. 


데이터에 의심이 가는 것이 있어 그 일간지도 기사를 급히 삭제한 것으로 보인다. 아마 앞서의 결과는 특정한 공식에 대입해 결과를 도출해냈을 가능성도 있지만, 일단 신빙성에 의심이 간다고 볼 수 있다. 문재인 대세론의 흐름이 정보시장에 널리 형성되고, 대선 레이스가 별 흥미를 끌지 못하면서 나온 ‘낚시성’ 정보일 가능성이 있다. 대선이 다가올수록 이렇듯 검증되지 않은 언론 플레이성 기사가 많이 나오고 있기에 독자들도 지혜롭게 기사를 읽어야만 한다. 또한 최근 들어 악의적인 의도로 만든 ‘가짜 뉴스’도 많이 돌고 있어 무조건 화제성 기사에 현혹되지 말았으면 한다. 


최근 정치권에서는 ‘현재의 여론조사를 믿지 못하겠다’는 불신 기류도 있다. 지난해 4.13 총선과 미국 대선, 영국의 브렉시트까지 모두 국내외 여론조사가 빗나간 경우에 해당한다. 사정이 이렇다 보니 19대 대선을 앞두고 요즘 한창 나오는 여론조사에 대해서도 불신 분위기가 팽배해지고 있다. 그 대안으로 각광받고 있는 것이 바로 빅데이터 분석 기법이다. 


이 기법은 글자 그대로 기존의 데이터베이스를 넘어 정형화된 대량의 데이터베이스와 비정형화된 데이터에서 가치를 추출하는 분석 방법을 말한다. 정치권의 대표적인 빅데이터는 구글 등 포털 검색 트렌드와 페이스북 등 소셜네트워크서비스(SNS) 언급량이다. 어떤 후보에 대한 관심이 늘면, 그 후보 관련 소식을 검색하고, 또 관련 기사에 댓글을 달거나 언급할 확률도 늘게 된다. 그래서 인터넷에서 검색량과 언급량이 많은 후보가 지지율도 자연스럽게, 덩달아 높아질 수 있다. 가장 최근의 예로 지난해 미국 대선에서 트럼프는 여론 조사 결과에서는 힐러리 후보에 밀렸지만 인터넷 검색 빈도나 언급량은 더 많았고, 그 결과가 바로 당선으로 이어진 케이스다. 


트럼프를 공개적으로 지지하기에는 부끄러운(샤이, shy) 지지층들이 자신의 표심을 여론조사에는 말하지 않았지만, 신분이 노출되지 않는 온라인 상에서는 활발한 검색을 통해 뜨거운 관심을 표명했다는 얘기가 된다. 이번 우리 19대 대선에서도 이렇게 숨은 지지층들의 표심을 어떻게 읽는가가 상당히 중요한 포인트가 된다. 여론조사가 읽지 못하는 사각지대를 빅데이터가 읽어낼 수 있으리라는 믿음 때문이다. 


하지만 빅데이터도 맹신해서는 곤란하다. 빅데이터 기법이 표준화된 것이 아니기 때문에 특정 후보측이 작의적으로 분석해 그들에게 유리한 데이터를 발표할 수도 있다. 앞서 언급한 사례가 그런 경우에 해당된다고 할 수 있다. 학계에서 인정하고 국제 표준화된 빅데이터 분석 기법이 존재하지 않는 한, 빅데이터 자료가 여론조사를 대체할 전가의 보도처럼 사용되어선 안된다고 할 수 있다. 

또한 빅데이터는 온라인 표심을 기반으로 하고 있는데, 인터넷 사용자가 전체 유권자를 대표하지 못하는 경우가 많다. 세대별로 인터넷 사용 빈도나 활용도가 다를 수 있기 때문이다. 여전히 60대 이상 노년층은 이 빅데이터 표본 모집 부분에서 소외될 수 있다는 얘기다. 


특히 세대별로 이념 차이가 큰 나라일수록 빅데이터가 현상을 정확히 반영하지 못할 가능성이 크다고 한다. 국제조사기관 월드밸류서베이가 발표한 이념별 세대 성향 자료에 따르면 미국이 한국보다 그 폭이 훨씬 더 좁게 나온다고 한다. 한국은 그 폭이 미국의 20배에 달한다. 세대별 정치 성향 차이가 크다는 얘기다. 전문가들은 이런 점에서 인터넷에서 얻은 결과를 전체 유권자의 뜻이라고 보기 어렵고, 빅데이터 예측이 빗나갈 확률은 미국보다 한국에서 더 높을 수 있다고 지적한다. 또 인터넷에선 어떤 후보를 지지하고 응원하는 글도 있지만 다른 후보 지지자가 ‘악플’을 다는 경우도 상당히 많다. 결론적으로 ‘검색이 많이 됐다’ ‘인터넷 언급량이 많았다’는 이유로 빅데이터 자료를 그대로 지지율로 치환하는 분석은 정확하지 않을 수 있다고 한다. 단순히 포털 검색량이 늘어났다고 해서 그게 꼭 유리한 것만은 아니라는 것이다. 





그럼에도 전문가들은 빅데이터의 유의미성은 놓치지 말아야 한다고 지적한다. 현재의 여론조사 샘플링은 민심의 구조를 반영하기 어려운 방식이기 때문에 빅데이터를 활용하면, 의미 있는 데이터를 만들 수도 있을 것이라는 얘기다. 여론조사가 비추지 못한 사각지대를 잘 비춰줄 수 있다. 특히 여론조사에서 성향을 드러내지 않는 ‘샤이층’을 포착하는 데 유리하다. 여론조사의 폐해로 지적되고 있는 의도적인 설문 문항의 왜곡도 없다. 여론을 시청률처럼 실시간으로 파악할 수도 있다. 


이런 빅데이터의 장점 때문에 각 후보들 캠프에서도 빅데이터 기법을 도입하거나 그와 관련한 기사를 비중있게 모니터링하고 있다고 한다. 하지만 앞서 지적한 대로 분석모델이 제각각이기 때문에 표준화되고 검증된 기법이 향후 개발돼 후보들끼리 공유하는 게 중요하다. 하지만 후보들이 온통 민심 읽기에만 관심을 두는 것은, 공부는 하지 않고 시험결과만 좋게 나오기를 바라는 게으른 수험생과 다를 바 없다. 


성기노 에디터 trot@featuring.co.kr

저작권자 © 피처링 무단전재 및 재배포 금지