메트로人 머니 산업 IT·과학 정치&정책 생활경제 사회 에듀&JOB 기획연재 오피니언 라이프 AI영상 플러스
글로벌 메트로신문
로그인
회원가입

    머니

  • 증권
  • 은행
  • 보험
  • 카드
  • 부동산
  • 경제일반

    산업

  • 재계
  • 자동차
  • 전기전자
  • 물류항공
  • 산업일반

    IT·과학

  • 인터넷
  • 게임
  • 방송통신
  • IT·과학일반

    사회

  • 지방행정
  • 국제
  • 사회일반

    플러스

  • 한줄뉴스
  • 포토
  • 영상
  • 운세/사주
IT/과학>IT/인터넷

[2021년 주목받을 IT 신기술은 2] AI 영상합성 및 음성합성·인식 기술

MBN이 머니브레인의 AI 아나운서 솔루션을 도입해 김주하 AI 앵커가 등장하는 AI 뉴스를 진행하고 있다. 사진은 실제 김주하 앵커와 AI 앵커가 대화를 나누는 장면. /MBN 유튜브 캡처

지난해 김현욱 AI 아나운서가 진행하는 인포스탁데일리 뉴스가 큰 화제를 모았다. 사람이 아닌 AI이지만 미소를 띠거나 고개를 움직이고 손을 사용하는 모습이 사람이라고 해도 믿을 만큼 자연스럽기 때문이다.

 

이 같은 기술력을 인정받으며 AI 아나운서가 속속 등장했고, MBN은 지난해 9월부터 인터넷 뉴스에 자사 유명 앵커인 김주하 앵커가 등장하는 '김주하 AI 뉴스'를 진행해 주목을 받았다.

 

실제로 최근 김주하 앵커가 등장해 AI 앵커와 대화를 진행했는데, AI 앵커가 뉴스 문장을 읽을 때는 외국어가 포함됐음에도 발음이 매우 자연스러웠다. 다만, "아니 이게 얼마만이야? 잘 지냈어?"라는 감정이 많이 포함된 문구를 읽을 때는 사람과 확연히 구분돼 기계음 느낌이 강했다. 그럼에도 속도만큼은 AI 앵커가 사람을 능가해 심야시간이나 주말 발생하는 재난 상황에서는 더 빠른 대처가 가능해, AI 영상·음성 합성 기술 도입은 더욱 증가할 전망이다.

 

◆'영상시대' 도래하며 AI 영상·음성 합성 기술 각광...AI 아나운서·AI 휴먼에서 AI 쇼호스트·아이돌, 교육 등으로 확대

 

지난해부터 국내에서 AI 아나운서·AI 휴먼 등이 속속 도입되면서 AI 영상합성 및 음성합성 기술 경쟁이 뜨겁다. 특히, 올해 AI 영상·음성합성 기술은 AI 쇼호스트·아이돌 등으로 진화하고, AI 선생님 등으로 AI 교육에도 확대돼 더 다양한 영역에서 활약할 것으로 기대된다.

 

머니브레인 관계자는 "이미지나 텍스트 중심 서비스 회사들이 최근 유튜브·틱톡·넷플릭스 등 영상 콘텐츠가 각광 받는 '영상시대'로 넘어가면서 영상 콘텐츠를 선보이는 흐름이 두드러지고 있다"며 "영상을 제작하려면 장비, 인력에 대한 투자가 많이 들어가는 데, 솔루션을 도입하면 비용이 낮아지고 적은 시간과 노력으로 높은 수준 영상을 만들 수 있어 도입 문의가 늘고 있다"고 설명했다.

 

AI 아나운서 분야에서는 머니브레인이 독자 영역을 구축하며 인포스탁데일리, MBN, LG헬로비전 등 방송·신문사 등에 AI 아나운서 솔루션을 공급했다.

 

머니브레인은 딥러닝 기반의 영상합성 기술을 제공해 MBN의 김주하 AI 앵커의 경우, 김 앵커의 목소리, 모습, 동작을 10시간 녹화해 AI에 학습시켰다. 최대 1000자를 1분 안에 영상으로 빠르게 합성할 수 있다.

 

머니브레인은 또 AI 쇼호스트를 서비스하기 원하는 국내외 e커머스 기업들과 솔루션 공급 협의를 진행 중이며, AI 아이돌 서비스도 추진하고 있다.

 

네온의 모습. 다양한 인종과 직업을 가진 인간의 모습을 구현했다. /구서윤 기자

삼성전자가 지난해 초 세계 최대 가전 전시회인 CES에서 공개한 AI 인공인간 '네온'은 아나운서, 승무원, 요리사 등 직업에 맞는 의상 착용은 물론 흑인 여의사, 동양인 등으로 인종도 망라했다. 웃으며 통화하고, 양팔을 벌려 체조하는 모습이 인간과 매우 흡사해 큰 화제가 됐다.

 

삼성전자는 오는 11일(현지시각) 개막되는 CES에서도 더 업그레이드된 AI 인공인간을 선보일 계획이다. 또 삼성전자의 미국 연구개발 조직인 삼성리서치아메리카(SRA) 산하 벤처조직으로 네온을 개발한 스타랩스는 CJ올리브네트웍스 등 기업들과 공동으로 올해 상반기 출시를 목표로 콘텐츠를 개발 중이다. 이에 따라 라이브커머스 플랫폼에서 '네온' 엔진을 기반으로 개발된 AI 쇼호스트가 물건을 판매하는 것도 빠른 시간 내 가능해질 것으로 기대된다.

 

네온에는 영화, TV, 인터넷 플랫폼에서 가상 캐릭터를 창작할 수 있는 소프트웨어인 '코어 R3'가 적용됐으며, 음성합성 기술 등이 접목됐다.

 

솔트룩스도 북한 정보를 제공하는 AI 앱 '평양 친구'에서 대학생, 평양 관광안내원, 소학교 5학년 어린이를 3D AI 아바타로 선보인 데 이어, 지난해 개최된 CES에서 AI 가상인간인 미국 도널드 트럼프 대통령을 공개했다.

 

LG유플러스가 AI 전문기업 솔트룩스와 공동으로 개발한 5세 아이를 모델로 한 2명의 AI 가상인간. /LG유플러스

솔트룩스는 또 최근 LG유플러스와 공동으로 5세 아이를 모델로 한 2명의 AI 가상인간을 탄생시켰다. 우선, 5세 아이를 3D 모델링 기술로 복제하고 AI 음성합성로 대화가 가능하도록 구현한 것이다.

 

영상·음성기술은 AI 교육 분야에서도 도입이 확대될 것으로 기대된다. 머니브레인은 지난해 AI 영상·음성합성 기술을 활용한 AI 영어회화 '스픽나우' 서비스를 선보였는데, 유명 방송인 샘 해밍턴과 샘 오취리를 AI 튜터로 제작했다. 머니브레인이 현재 AI 튜터 솔루션을 교육업체에 공급하는 방안을 추진하는 등 교육 콘텐츠에 AI 튜터 활용이 증가할 전망이다.

 

◆AI 음성합성·인식 기술로 오디오북, AI 더빙·AI 전화, AI 영상제작 등 서비스 '속속'

 

AI 음성합성·인식 기술도 오디오북, AI 더빙, AI 전화, AI 영상제작 프로그램 등 다양한 분야에서 서비스가 속속 등장하고 있다.

 

우선, 네이버는 AI 음성합성 기술로 AI 보이스로 동영상을 더빙할 수 있는 '클로바더빙'을 지난해 2월 출시 후 가입자수 21만명을 확보하고, 2100만 건 이상 더빙 음성을 생성하는 등 가파른 성장세를 보이고 있다. 기업의 교육, 병원 환자 안내, 쇼핑몰의 제품 소개, 교회의 예배 등에 많이 활용되고 있으며, 네이버는 특히 코로나19 장기화에 따라 오는 24일까지 무상으로 제공하기로 했다.

 

AI 음성합성 기술을 활용한 AI 오디오북 제작도 활발하다. 라이언로켓은 AI 음성합성 기술로 미디어 창비의 오디오북 발간에 참여하고, 유명 유튜버인 박막례 할머니의 '박막레시피' 북도 AI 스피커에서 들을 수 있게 제작하는 등 10여권의 오디오북 발간에 참여했다.

 

네오사피엔스가 웅진씽크빅과 공동으로 제작한 '영리한 아이가 위험하다'와 '군주론' 오디오북. /네오사피엔스

네오사피엔스도 웅진씽크빅과 공동으로 '영리한 아이가 위험하다'와 '군주론' 2권을 AI 성우의 오디오북으로 제작했다.

 

네오사피엔스는 또 지난해 7월부터 60여종 음성을 제공하는 AI 성우 서비스인 '타입캐스트' 서비스에 나서 유효 가입자가 벌써 10만명을 넘어섰다. 특히, 코로나19로 비대면 수업을 진행하는 학교에도 무상 지원해 1500여곳 이상 학교에서 활용되고 있다.

 

AI 음성합성 기술을 활용한 영상제작 서비스도 등장했다. 라이언로켓이 지난 10월 파워포인트 파일만 업로드하면 슬라이드 노트에 적힌 메모를 음성으로 더빙해 동영상으로 제작해주고 자막도 달아주는 영상제작 프로그램 '브레스' 베타 서비스를 선보여, 편리하게 동영상도 제작할 수 있게 됐다.

 

아틀라스랩스가 선보인 AI 전화 앱 '스위치'. /아틀라스랩스

AI 음성인식 기술을 이용해 통화 내용을 텍스트로 바꿔주는 AI 전화 서비스도 등장했다. 아틀라스랩스·리턴제로는 휴대폰 통화내용을 녹음하고 이를 텍스트로 변환해 저장해주는 서비스를 제공하고 있다. 아틀라스랩스가 선보인 AI 전화 앱 '스위치'는 나만의 AI 전화번호를 부여하고, 통화 녹음과 통화 내용을 실시간으로 카카오톡처럼 대화형 문자로 바꿔준다.

 

네이버도 AI 음성기록 서비스인 '클로버 노트'를 지난 11월 선보였다. 앱에서 직접 녹음하거나 PC 등에서 음성 파일을 업로드하면 참석자의 목소리까지 구분된 텍스트로 변환돼 내용이 화면에 나타나, 텍스트를 클릭하면 해당 내용을 다시 들을 수 있다.

 

아틀라스랩스 류로빈 대표는 "음성인식 시장은 명령 기반의 음성인식 기술보다 대화를 분석하고 자연스럽게 기계와 대화하는 기술에 더 집중될 것"이라며 "콘텐츠, 게임, IoT(사물인터넷) 등 인간과 기계의 자연스러운 대화에 집중하는 시장이 형성되면서 음성인식·합성 시장도 더 큰 폭의 성장세를 보일 것"으로 내다봤다.

트위터 페이스북 카카오스토리 Copyright ⓒ 메트로신문 & metroseoul.co.kr