네이버는 네이버 뉴스 기사 ‘본문 읽기’ 서비스에 오상진 전 아나운서의 목소리를 기반으로 개발한 AI 앵커를 적용했다고 29일 밝혔다.
이번에 선보이는 기존 네이버 뉴스 기사 본문 읽기 서비스에 적용됐던 UTS(Unit-selection Text-to-Speech) 기반 서비스와 비교해 목소리의 자연스러움을 평가하는 MOS(Mean Opinion Score) 지표가 30% 이상 높아졌다. 뉴스 읽기 분야에 전문화된 목소리의 특성에 집중해 만들어진 합성음인 만큼, 실제 앵커가 기사를 전달하는 목소리 톤(tone)과 높낮이까지 구현했다.
네이버는 기존 클로바 인공지능 음성합성 기술인 엔보이스(nVoice)를 더욱 고도화하는 한편, 특정 분야에 전문화된 목소리의 특성을 강화해 본연의 목소리에 가까운 고품질 합성음을 만드는 HDTS(High-quality DNN Text-to-Speech) 기술을 업그레이드 해 뉴스 전달에 최적화된 음성을 합성할 수 있었다.
일련의 과정에서 전사(transcription) 작업을 사람이 아닌 기계가 직접 학습해 진행하는 딥러닝(deeplearning)이 적용돼 개발에 필요한 비용과 소요 기간을 획기적으로 줄일 수 있었다고 회사 측은 전했다.
AI 앵커는 네이버 지도, 음성검색, 클로바 탑재 스마트스피커 등 음성으로 콘텐츠를 전달받을 수 있는 다양한 영역에 걸쳐 활용될 예정이다.
김재민 네이버 클로바 보이스 책임리더는 “이번 작업 과정에서는 오상진 전 아나운서가 직접 뉴스를 읽어주는 것 같은 자연스러움을 느낄 수 있을 정도의 고도의 정밀함과 전문성을 구현하는 것에 더욱 집중했다”며 “앞으로도 다양한 콘텐츠를 음성으로 접할 때 어색함이 없도록, 관련 기술을 고도화해 나갈 것”이라고 밝혔다.
이번에 선보이는 기존 네이버 뉴스 기사 본문 읽기 서비스에 적용됐던 UTS(Unit-selection Text-to-Speech) 기반 서비스와 비교해 목소리의 자연스러움을 평가하는 MOS(Mean Opinion Score) 지표가 30% 이상 높아졌다. 뉴스 읽기 분야에 전문화된 목소리의 특성에 집중해 만들어진 합성음인 만큼, 실제 앵커가 기사를 전달하는 목소리 톤(tone)과 높낮이까지 구현했다.
네이버는 기존 클로바 인공지능 음성합성 기술인 엔보이스(nVoice)를 더욱 고도화하는 한편, 특정 분야에 전문화된 목소리의 특성을 강화해 본연의 목소리에 가까운 고품질 합성음을 만드는 HDTS(High-quality DNN Text-to-Speech) 기술을 업그레이드 해 뉴스 전달에 최적화된 음성을 합성할 수 있었다.
일련의 과정에서 전사(transcription) 작업을 사람이 아닌 기계가 직접 학습해 진행하는 딥러닝(deeplearning)이 적용돼 개발에 필요한 비용과 소요 기간을 획기적으로 줄일 수 있었다고 회사 측은 전했다.
김재민 네이버 클로바 보이스 책임리더는 “이번 작업 과정에서는 오상진 전 아나운서가 직접 뉴스를 읽어주는 것 같은 자연스러움을 느낄 수 있을 정도의 고도의 정밀함과 전문성을 구현하는 것에 더욱 집중했다”며 “앞으로도 다양한 콘텐츠를 음성으로 접할 때 어색함이 없도록, 관련 기술을 고도화해 나갈 것”이라고 밝혔다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지