솔트룩스는 정부의 디지털뉴딜 사업의 하나인 ‘한국어 방언 AI 데이터’ 구축 사업의 주관사다. 해당 사업은 과학기술정보통신부(장관 최기영)와 한국정보화진흥원(원장 문용식·NIA)에서 주최·주관하는 ‘인공지능(AI) 학습용 데이터 구축’ 사업 중 하나로, 앞으로 인공지능이 각 지역별 사투리도 잘 알아들을 수 있도록 인공지능 학습용 방언 데이터를 대규모로 수집, 가공하는 프로젝트이다.
사업은 솔트룩스를 중심으로 지역 언어, 데이터 구축, 품질 검수 등 부문별 전문성을 보유한 15개 기관이 함께 참여하는 컨소시엄 형태로 진행한다. 각 지역별 수행기관은 ▲(강원도)인피닉, 디큐, 타임소프트 ▲(경상도)소리자바, 코아 인포메이션 ▲(전라도)솔트룩스 광주인공지능센터, 디그랩, 도담에스엘 ▲(제주도)이스트소프트, 사람과 숲, 제주국제자유도시개발센터, 데이터메이커 ▲(충청도)디그랩, 나라지식정보, 엑소텍이 맡았다.
해당 사업은 기업 활동에 일반 대중이 참여하는 크라우드소싱(사회적 인력 활용) 방식을 통해 데이터 수집 인력을 대면/비대면으로 모집하여 진행하는 것이 특징이다. 모집 분야는 특정 주제에 대해 사투리로 이야기를 녹음하는 ‘화자’, 녹음된 사투리를 타이핑하는 ‘전사’, 녹음 및 전사된 파일의 품질을 검수하는 ‘검수’, 총 3가지로 구분되는데, 화자와 전사의 경우 각 지역에서 10년 이상 거주한 사투리 사용자라면 누구나 참여 가능하다.
솔트룩스에 따르면 이번 사업은 12월 말까지 데이터 구축을 완료할 예정으로, 현재 크라우드소싱에 참여할 크라우드워커 모집이 진행 중이다. 자세한 내용은 솔트룩스 홈페이지 및 각 지역별 수행기관을 통해서 확인할 수 있다.
박해식 동아닷컴 기자 pistols@donga.com
▶ 네이버에서 [동아일보] 채널 구독하기
▶ 증발에 운다…그렇게 부모가 되지 못했다
▶ “말이 안 통해”… 극과 극이 만난다면?
ⓒ 동아일보 & donga.com, 무단 전재 및 재배포 금지