Study on the Improvement of Speech Recognizer by Using Time Scale Modification

시간축 변환을 이용한 음성 인식기의 성능 향상에 관한 연구

  • 이기승 (건국대학교 정보 통신 대학 전자 공학과)
  • Published : 2004.08.01

Abstract

In this paper a method for compensating for thp performance degradation or automatic speech recognition (ASR) is proposed. which is mainly caused by speaking rate variation. Before the new method is proposed. quantitative analysis of the performance of an HMM-based ASR system according to speaking rate is first performed. From this analysis, significant performance degradation was often observed in the rapidly speaking speech signals. A quantitative measure is then introduced, which is able to represent speaking rate. Time scale modification (TSM) is employed to compensate the speaking rate difference between input speech signals and training speech signals. Finally, a method for compensating the performance degradation caused by speaking rate variation is proposed, in which TSM is selectively employed according to speaking rate. By the results from the ASR experiments devised for the 10-digits mobile phone number, it is confirmed that the error rate was reduced by 15.5% when the proposed method is applied to the high speaking rate speech signals.

본 논문에서는 자동 음성 인식기의 성능 저하를 일으키는 요인으로서 발성 속도의 변동에 따를 성능 저하를 보상하기 위한 기법을 제안하였다. 새로운 기법의 제안에 앞서서. 먼저 발성 속도의 변화에 따른 기존의 은닉 마코프 모델을 이용한 음성 인식기의 성능을 정량적으로 분석하였다. 이러한 분석을 통해 발성 속도에 따른 유의한 성능 저하를 관찰하고, 주어진 음성으로부터 발성 속도를 정량적으로 나타낼 수 있는 변수를 도입하였다. 발성 속도를 학습 시 사용한 음성과 유사하게 변화시키기 위해 본 논문에서는 음성 신호에 대한 시간축 변환을 사용하였으며, 최종적으로 발성 속도에 따라 선택적으로 시간축 변환을 적용하여 발성 속도의 변동에 따른 음성 인식의 성능 저하를 보상할 수 있는 기법을 제안하였다. 10자리의 이동통신용 전화번호를 이용한 음성 인식의 실험을 통해, 제안된 기법은 빠르게 발성하는 음성에 대해 15.5%의 오류율 감소를 가져오는 것을 확인할 수 있었다.

Keywords

References

  1. The proceedings of EUROSPEECH95 Fast speakers in large vocabulary continuous speech recognition: analysis & antidotes N. Mirghafori;E. Fosler;N. Morgan
  2. The proceedings of ICASSP96 Towards robustness to fast speech in ASR N. Mirghafori;E. Fosler;N. Morgan
  3. Speech Communication v.41 Modeling word-level rate-of-speech variation in large vocabulary conversational speech recognition J. Zheng;H. Franco;A. Stolcke https://doi.org/10.1016/S0167-6393(02)00122-X
  4. proc. of ICASSP v.1 Time-scale modification in medium to low rate speech coding J. Makhoul;A. E. Jaroudi
  5. proc. of ICASSP v.1 High quality time-scale modification for speech S. Roucos;A. M. Wilgus
  6. IEE Electronics Letters v.35 no.10 Measure of local speaking-rate for automatic speech recognition M. J. Russell;K. M. Ponting;M. J. Tomlinson https://doi.org/10.1049/el:19990584
  7. The proceedings of the 1993 IEEE-SP workshop A technique for adapting to speech rate M. H. Nguyen;G. W. Cottrell
  8. The proceedings of ICASSP2000 On-line speaking rate estimation using Gaussian mixture models R. Fallthauser, T. Pfau;G. Ruske
  9. IEEE Trans. on Acoust. Speech, Signal Processing v.ASSP-32 Signal estimation from modified short-time Fouier transform D. W. Griffin;J. S. Lim
  10. proc. of ICASSP v.2 Computationally eficient algorithm for time scale modification(GLS-TSM) S. Yim;B. I. Pawate