
네이버 김재민 음성합성 리더가 4일 서울 강남구 역삼동 'D2 스타트업 팩토리'에서 열린 기술 포럼에서 발표하고 있다. [사진=연합뉴스 제공]
네이버는 4시간가량의 음성 샘플로 특정인의 목소리를 기계로 흉내낼 수 있는 음성합성 기술을 개발했다고 4일 밝혔다.
김재민 네이버 음성합성 리더는 이날 오전 서울 강남구 역삼동 ‘D2 스타트업 팩토리’에서 열린 기술 포럼에서 “음성합성 기술을 통해 원하는 사람의 목소리로 말하는 개인화 인공지능(AI) 스피커를 개발 중”이라며 “곧 관련 서비스를 출시할 것”이라고 말했다.
네이버에 따르면 특정인의 목소리를 기계가 흉내 내기 위해서는 음성 샘플이 필요한데 구글 등 글로벌 업체도 최소 40시간 분량의 샘플이 필요하지만, 네이버는 4시간 정도의 샘플로도 음성합성이 가능한 기술을 최근 개발했다.
김 리더는 “개인화 음성합성의 문제는 음성녹음 시간인데 우리가 그것을 4시간으로 풀어냈다”면서 “자체 개발한 하이브리드 음성합성 엔진으로 필요 음성분을 기존의 10분의 1로 줄였다”고 설명했다.
네이버는 향후 해당 기술이 고도화되면 AI 스피커에 유명인 등의 목소리를 활용하거나, 동화를 엄마 목소리로 읽어주는 서비스 등이 가능해질 것으로 내다봤다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지