Emotion Transfer with Strength Control for End-to-End TTS

감정 제어 가능한 종단 간 음성합성 시스템

  • Jeon, Yejin (Pohang University of Science and Technology, Graduate School of Artificial Intelligence) ;
  • Lee, Gary Geunbae (Pohang University of Science and Technology, Graduate School of Artificial Intelligence)
  • 전예진 (포항공과대학교 인공지능대학원) ;
  • 이근배 (포항공과대학교 인공지능대학원)
  • Published : 2021.10.14

Abstract

본 논문은 전역 스타일 토큰(Global Style Token)을 기준으로 하여 감정의 세기를 조절할 수 있는 방법을 소개한다. 기존의 전역 스타일 토큰 연구에서는 원하는 스타일이 포함된 참조 오디오(reference audio)을 사용하여 음성을 합성하였다. 그러나, 참조 오디오의 스타일대로만 음성합성이 가능하기 때문에 세밀한 감정 조절에 어려움이 있었다. 이 문제를 해결하기 위해 본 논문에서는 전역 스타일 토큰의 레퍼런스 인코더 부분을 잔여 블록(residual block)과 컴퓨터 비전 분야에서 사용되는 AlexNet으로 대체하였다. AlexNet은 5개의 함성곱 신경망(convolutional neural networks) 으로 구성되어 있지만, 본 논문에서는 1개의 신경망을 제외한 4개의 레이어만 사용했다. 청취 평가(Mean Opinion Score)를 통해 제시된 방법으로 감정 세기의 조절 가능성을 보여준다.

Keywords

Acknowledgement

본 연구는 문화체육관광부 및 한국콘텐츠진흥원의 2021년 문화콘텐츠 R&D 전문인력 양성(문화기술 선도 대학원) 사업의 연구결과로 수행되었음(인공지능 및 증가상현실 기반 콘텐츠 메타버스 구축을 통한 R&D 전문인력 양성, R2021040136) 본 연구는 과학기술정보통신부 및 정보통신기획평가원의 대학ICT연구센터육성지원사업의 연구결과로 수행되었음(IITP-2021-2020-0-01789)