제주 사투리로 '있습니까?'를 뜻하는 '이수과?'가 무슨 뜻인지 아는 사람은 흔치 않다. 같은 한국어라도 지역색이 짙은 사투리는 단번에 알아듣기 힘든데, 앞으로는 인공지능(AI)이 이를 대신 해결해 줄 전망이다.
AI 플랫폼 기업인 솔트룩스는 국립국어원과 공동으로 사투리를 포함한 일상 대화를 빅데이터로 만드는 사업에 착수했다고 19일 밝혔다.
국립국어원은 '2020 일상대화 말뭉치 구축' 사업으로 일상 대화 속 언어를 AI에 활용 가능한 데이터로 만든다는 계획이다. 이 사업은 지난해부터 진행한 '국가 말뭉치 구축사업' 중 일상 대화에 속하며, 약 500시간의 대화가 말뭉치 자료의 기준이다.
이 사업을 주관하는 솔트룩스는 약 2000명의 대화를 수집하고, 이를 고품질의 AI 데이터로 구축하게 된다.
초기 단계에는 대화형 AI 전문가들이 참여해 어떤 대화를 수집할 지 주제를 선정하고, 실제 대화를 수집할 때는 방송에서 쓰이는 표준어보다 실제 지역색이 그대로 묻은 대화를 수집하는 데 비중을 둔다.
수집한 음성 대화는 데이터로 가공하기 위해 속기 전문기업인 소리자바와 협력해 텍스트 형식으로 옮긴다. 텍스트 자료는 AI에 활용 가능한 데이터 파일로 가공돼 국립국어원이 요구한 메타 정보가 함께 심어질 예정이다. 또 솔트룩스에서 말뭉치 데이터를 활용할 수 있는 음성인식 기능을 탑재한 모델을 제공한다.
솔트룩스 이경일 대표는 "현재 세계 대화형 AI 시장보다 국내 시장은 음성 및 전사 말뭉치가 부족하고, 기술 개발이나 서비스화가 더디게 발전하고 있다"며 "이번 사업을 통해 대화형 AI 산업 활용을 위한 기반이 마련돼 다양한 AI 서비스와 데이터 생태계가 확보될 것으로 기대한다"고 말했다.
국립국어원도 "말뭉치 데이터를 민간에 공유해 언어 AI 등 관련 산업 기반을 마련하는데 기여할 수 있을 것"으로 기대했다.
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성