뉴스 바로가기

기사 상세

정치

"정치댓글 117만건 분석…유형별로 분류"

이상훈,오수현,김정범 기자
입력 : 
2017-01-24 17:51:42
수정 : 
2017-01-24 17:54:02

글자크기 설정

◆ 빅데이터로 본 뉴리더십 / 빅데이터 분석 어떻게 했나 ◆

매일경제신문의 '2017 뉴리더십 조건' 기획은 최근 들어 새로운 의사 표현 수단으로 떠오른 인터넷 댓글에서 민심을 파악하기 위해 마련됐다. 매경 취재팀과 빅데이터 분석업체 '아르스 프락시아'가 공동으로 진행한 이번 기획은 데이터 수집과 분석에만 한 달여 시간이 걸렸다.

세 개의 시점이 분석 대상 기간이었다. 우선 두 차례 대선이 치러진 2007년과 2012년 대선일 전후 6개월씩이었다. 예컨대 2012년의 경우 대선일인 12월 19일을 기준 삼아 그해 9월 20일부터 이듬해 3월 19일까지였다. 그리고 2017년 현시점에서 국민이 원하는 지도자상을 파악하기 위해 최순실 게이트가 정국을 뒤흔들고 박근혜 대통령 탄핵 소추안이 국회를 통과한 즈음인 지난해 9~12월 넉 달을 따로 조사했다.

분석 대상 댓글은 포털사이트 네이버에 게재된 주요 신문 정치 분야 기사에 달린 댓글 117만4065건이었다. 이 댓글들은 작성자의 정치성향이 드러난 것들로, 여기에서 언급된 리더십에 관한 긍정 또는 부정적 견해가 담긴 어휘들을 추출해 유형별로 묶어 리더십 조건을 도출했다.

김도훈 아르스 프락시아 대표는 "예컨대 실용, 경제, 능력, 경제성장과 같은 어휘는 경제정책 능력이라는 리더십 조건으로 한데 모았고, 댓글에서 언급된 빈도수를 비중으로 전환해 각 리더십 조건별 순위를 매겼다"고 설명했다. 서민 이미지 항목은 '서민' 또는 '평등'이라는 단어를 긍정적 의미로 사용한 댓글을 모은 것이다.

아울러 정당과 이념성향, 지지율 등을 감안해 대선주자 6인(문재인·반기문·안철수·안희정·유승민·이재명)을 리더십 적합도 분석 대상으로 선정했다. 이 주자들을 긍정적 혹은 부정적으로 언급한 댓글을 추출한 뒤, 이런 감정에 영향을 미친 어휘들을 뽑아냈다. 무의미한 욕설만 난무한 댓글은 제외했다.

김 대표는 "빅데이터 분석 작업은 불필요해 왜곡을 가져올 수 있는 정보를 얼마나 잘 걷어 내는지가 핵심"이라고 설명했다. 이렇게 추출한 댓글을 바탕으로 2017년 리더십 조건에 각 대선주자가 얼마나 적합한지를 분석했다. 조건별 점수는 어휘 빈도수를 통계기법(비선형 함수)을 활용해 점수(-10점에서 10점)로 환산했다.

[기획취재팀 = 이상훈 차장(팀장) / 오수현 기자 / 김정범 기자]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]
#

이 기사가 마음에 들었다면, 좋아요를 눌러주세요.