A Unit Selection Methods using Flexible Break in a Japanese TTS

일본어 합성기에서 유동 Break를 이용한 합성단위 선택 방법

  • 송영환 (숭실대학교 정보통신 전자공학부) ;
  • 나덕수 (보이스웨어 기술연구소) ;
  • 김종국 (숭실대학교 정보통신 전자공학부) ;
  • 배명진 (숭실대학교 정보통신 전자공학부) ;
  • 이종석 (보이스웨어 기술연구소)
  • Published : 2007.11.30

Abstract

In a large corpus-based speech synthesizer, a break, which is a parameter influencing the naturalness and intelligibility, is used as an important feature during a unit selection process. Japanese is a language having intonations, which ate indicated by the relative differences in pitch heights and the APs(Accentual Phrases) are placed according to the changes of the accents while a break occurs on a boundary of the APs. Although a break can be predicted by using J-ToBI(Japanese-Tones and Break Indices), which is a rule-based or statistical approach, it is very difficult to predict a break exactly due to the flexibility. Therefore, in this paper, a method is to conduct a unit search by dividing breaks into two types, such as a fixed break and a flexible break, in order to use the advantages of a large-scale corpus, which includes various types of prosodies. As a result of an experiment, the proposed unit selection method contributed itself to enhance the naturalness of synthesized speeches.

대용량 코퍼스를 이용하는 합성단위 선택(unit selection) 기반 합성기에서 break는 자연성 및 명료성에 큰 영향을 미치는 파라미터로 unit selection 과정에서 음소 정보와 함께 중요한 특징으로 사용된다. 일본어는 피치의 상대적 높낮이로 표현되는 악센트를 가지는 언어이고, 악센트의 변화에 따라 AP(Accentual Phrase)가 결정되고 AP 경계에서 break가 형성된다. break는 규칙 기반 방식이나 통계적 방식인 J-ToBI를 이용하여 예측 할 수 있으나 다양성으로 인해 정확한 예측이 어렵다. 따라서 본 논문에서는 다양한 운율 정보를 포함하고 있는 대용량 코퍼스의 장점을 이용하기 위해 break를 고정 break와 유동 break로 나누어 합성단위 검색을 수행한다. 실험 결과 제안한 합성단위 선택 방법으로 합성음의 자연성을 향상 시킬 수 있었다.

Keywords

References

  1. R. E. Donovan, Trainable speech synthesis, PhD. Thesis, (Cambridge University, Engineering Department, 1996) pp.1-28
  2. J. Venditti, Japanese ToBI labeling guidelines, (OSU Working Papers in Linguistics, 1997) pp. 127-162
  3. 전성용, 일본어의 발음과 악센트, (1st ED, Japanese Technical Publishing Company, 2002) pp. 5-11
  4. A. Conkie, M. C. Beutnagel, A. K. Syrdal, P. E. Brown, 'Preselection of candidate units in a unit selection-based text-to-speech synthesis system,' Proc. ICSLP, 3, 314-317, 2000
  5. 나덕수, 이종석, 김종국, 배면진, '일본어 합성기에서 악센트 정보가 결합된 발음기호를 이용한 Break 예측 방법,' 대한음성학회, 말소리, 62, pp.69-84, 2007
  6. 나덕수, 민소연, 이광형, 이종석, 배명진, '일본어 악센트 특징을 이용한 합성단위 선택 기반 일본어 TTS의 후보 합성단위의 사전선택 방법,' 한국음향학회지 26-4, pp.159-165, 2007
  7. Technical Standardization Committee on Speech Input/Output Systems, 'Speech Synthesis System Performance Evaluation Methods,' JEITA IT-4001, 42-45, 2003