DOI QR코드

DOI QR Code

External knowledge를 사용한 LFMMI 기반 음향 모델링

LFMMI-based acoustic modeling by using external knowledge

  • 박호성 (서강대학교 컴퓨터공학과) ;
  • 강요셉 (서강대학교 컴퓨터공학과) ;
  • 임민규 (서강대학교 컴퓨터공학과) ;
  • 이동현 (서강대학교 컴퓨터공학과) ;
  • 오준석 (서강대학교 컴퓨터공학과) ;
  • 김지환 (서강대학교 컴퓨터공학과)
  • 투고 : 2019.07.10
  • 심사 : 2019.09.10
  • 발행 : 2019.09.30

초록

본 논문은 external knowledge를 사용한 lattice 없는 상호 정보 최대화(Lattice Free Maximum Mutual Information, LF-MMI) 기반 음향 모델링 방법을 제안한다. External knowledge란 음향 모델에서 사용하는 학습 데이터 이외의 문자열 데이터를 말한다. LF-MMI란 심층 신경망(Deep Neural Network, DNN) 학습의 최적화를 위한 목적 함수의 일종으로, 구별 학습에서 높은 성능을 보인다. LF-MMI에는 DNN의 사후 확률을 계산하기 위해 음소의 열을 사전 확률로 갖는다. 본 논문에서는 LF-MMI의 목적식의 사전 확률을 담당하는 음소 모델링에 external knowlege를 사용함으로써 과적합의 가능성을 낮추고, 음향 모델의 성능을 높이는 방법을 제안한다. External memory를 사용하여 사전 확률을 생성한 LF-MMI 모델을 사용했을 때 기존 LF-MMI와 비교하여 14 %의 상대적 성능 개선을 보였다.

This paper proposes LF-MMI (Lattice Free Maximum Mutual Information)-based acoustic modeling using external knowledge for speech recognition. Note that an external knowledge refers to text data other than training data used in acoustic model. LF-MMI, objective function for optimization of training DNN (Deep Neural Network), has high performances in discriminative training. In LF-MMI, a phoneme probability as prior probability is used for predicting posterior probability of the DNN-based acoustic model. We propose using external knowledges for training the prior probability model to improve acoustic model based on DNN. It is measured to relative improvement 14 % as compared with the conventional LF-MMI-based model.

키워드

참고문헌

  1. B. Juang and L. Rabiner, "Hidden Markov models for speech recognition," Technometrics, 33, 251-272 (1991). https://doi.org/10.1080/00401706.1991.10484833
  2. S. Suwon, J. Rho, S. Kim, J. Lee, and H. Ko, "Text independent speaker verficiation using dominant state information of HMM-UBM," J. Acoust. Soc. Kr. 34, 171-176 (2015).
  3. L. Bahl, P. Brown, P. de Souza, and R. Mercer, "Maximum mutual information estimation of hidden Markov model parameters for speech recognition," Proc. ICASSP, 11, 49-52, (1986).
  4. S. Kapadia, V. Valtchev, and S. Young, "MMI training for continuous phoneme recognition on the TIMIT database," Proc. ICASSP, 2, 491-494 (1993).
  5. D. Yu and L. Deng, Automatic Speech Recognition (Springer London limited, London, 2016), pp. 193-215.
  6. B. Kingsbury, "Lattice-based optimization of sequence classification criteria for neural-network acoustic modeling," Proc. ICASSP, 2, 3761-3764 (2009).
  7. D. Povey, V. Peddinti, D. Galvez, P. Ghahremani, V. Manohar, X. Na, Y. Wang, and S. Khudanpur, "Puerly sequence-trained neural networks for ASR based on lattice-free MMI," Proc. Intetspeech, 2751-2755 (2016).
  8. D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz, J. Silovsky, G. Stemmer, and K. Vesely, "The Kaldi speech recognition toolkit," Proc. ASRU. (2011).
  9. H. Hadian, H. Sameti, D. Povey, and S. Khudanpur, "End-to-end speech recognition using lattice-free MMI," Proc. Interspeech, 2345-2349 (2013).
  10. H. Lim, M. Kim, and H. Kim, "Sound event classification using deep neural network based transfer learning," (in Korean), J. Acoust. Soc. Kr. 35, 143-148 (2016). https://doi.org/10.7776/ASK.2016.35.2.143
  11. K. Lee, J. Jeon, and M. Jung, "Automatic generation of pronunciation variants for Korean continuous speech recognition" (in Korean), J. Acoust. Soc. Kr. 20, 35-43 (2001).