네이버가 복잡한 문장을 정확하게 인식하는 음성인식 엔진 ‘네스트(NEST, Neural End-to-end Speech Transcriber)를 13일 공개했다.
네스트는 복잡하고 다양한 장문의 음성 표현을 정확하게 인식하고, 텍스트로 변환할 수 있는 기술이다. 대량의 정제된 데이터를 사전에 학습하지 않고도, 예상치 못한 표현에 대해 정확한 음성인식이 가능한 것이 장점이라고 네이버는 강조했다. 음향 정보와 언어 정보를 별도로 학습하는 기존의 모델링 방식을 통합 모델링 방식(end-to-end)으로 개선해, 학습에 필요한 데이터의 양과 시간은 기존의 10분의 1 수준으로 단축시키면서도, 인식의 정확도는 높였다. 네이버는 이 기술이 회의록 같이 길고 많은 문장을 정리하는 데 유용할 것으로 기대하고 있다.
네스트는 현재 AI가 전화로 코로나19의 능동감시자를 확인하는 ‘클로바 케어콜’ 서비스에 적용됐으며, 지난 1월에는 네이버 동영상 뉴스의 자동 자막 서비스에도 도입됐다. 네이버는 네스트 기술을 적용한 자동 자막을 다양한 동영상·오디오 서비스로 확대하고, 동영상 검색과 에디터에도 활용할 예정이다.
올해 하반기에는 일본어 버전을 출시하고, 영어, 중국어 등으로 제공 언어도 확대한다는 계획이다.
한익상 네이버 리더는 “네스트는 동영상, 오디오 콘텐츠의 자막 제작이나 아카이빙, 고객센터의 통화 데이터 관리 등 다양한 분야에서 활용 가치가 높을 것으로 기대된다”며 “앞으로도 AI 핵심 기술 연구에 더욱 집중하며, 음성인식의 품질과 효율을 더욱 고도화해 나가겠다”고 밝혔다.
네스트는 복잡하고 다양한 장문의 음성 표현을 정확하게 인식하고, 텍스트로 변환할 수 있는 기술이다. 대량의 정제된 데이터를 사전에 학습하지 않고도, 예상치 못한 표현에 대해 정확한 음성인식이 가능한 것이 장점이라고 네이버는 강조했다. 음향 정보와 언어 정보를 별도로 학습하는 기존의 모델링 방식을 통합 모델링 방식(end-to-end)으로 개선해, 학습에 필요한 데이터의 양과 시간은 기존의 10분의 1 수준으로 단축시키면서도, 인식의 정확도는 높였다. 네이버는 이 기술이 회의록 같이 길고 많은 문장을 정리하는 데 유용할 것으로 기대하고 있다.
네스트는 현재 AI가 전화로 코로나19의 능동감시자를 확인하는 ‘클로바 케어콜’ 서비스에 적용됐으며, 지난 1월에는 네이버 동영상 뉴스의 자동 자막 서비스에도 도입됐다. 네이버는 네스트 기술을 적용한 자동 자막을 다양한 동영상·오디오 서비스로 확대하고, 동영상 검색과 에디터에도 활용할 예정이다.
올해 하반기에는 일본어 버전을 출시하고, 영어, 중국어 등으로 제공 언어도 확대한다는 계획이다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지