IMBE Model Based SNR Estimation of Continuous Speech Signals

연속음성신호에서 IMBE 모델을 이용한 SNR 추정 연구

  • 박형우 (숭실대학교 정보통신공학학과) ;
  • 배명진 (숭실대학교 정보통신공학학과)
  • Published : 2010.02.28

Abstract

In speech signal processing, speech signal corrupted by noise should be enhanced to improve quality. Usually noise estimation methods need flexibility for variable environment. Noise profile is renewed on silence region to avoid effects of speech properties. So we have to preprocess finding voice region before noise estimation. However, if received signal does not have silence region, we cannot apply that method. In this paper, we proposed SNR estimation method for continuous speech signal. A Speech signal consists of Voice and Unvoiced Band in The MBE excitation model. And the energy of speech signal is mostly distributed on voiced region, so we can estimate SNR by the ratio of voiced region energy to unvoiced. We use the IMBE vocoder for the Voice or Unvoice band of segmented speech signal. Continuously we calculate the segmented SNR using that information and the energy of each band. And we estimate the SNR of continuous speech signal.

음성 신호처리 환경에서 잡음이 섞인 신호를 개선할 목적으로 음성향상 기법이 많이 이용되고 있다. 잡음추정 알고리즘은 변화하는 환경에 빠르게 적응할 수 있어야 하며 음성신호의 영향을 줄이기 위해 음성신호가 존재하지 않는 구간에서만 잡음의 파워를 갱신한다. 이러한 방법은 음성구간검출이 선행되어야 한다. 그러나 잡음에 열화된 음성신호에 묵음구간이 존재하지 않을 경우, 위와 같이 음성검출을 통한 묵음구간에서의 잡음 추정 방법 및 SNR 추정 방법이 적용될 수 없다. 본 논문에서는 묵읍구간이 존재하지 않는 연속음성신호에서 SNR을 추정하는 기법을 제안한다. 음성신호는 MBE(Multi-Band Excitation) 발성 모델에 따라 유 무성음으로 구분할 수 있다. 그리고 에너지가 유성음에 대부분 분포하기 때문에, 부가성 잡음환경에서 유성음의 에너지를 음성신호의 에너지로 근사화하여 SNR을 추정할 수 있다. 제안하는 방식은 연속음성신호를 IMBE (Improved Multi-Band Exciation) 보코더를 이용해 유 무성음 대역으로 구분하고, 각각 대역의 에너지 정보를 아용하여 단구간 음성신호의 SNR을 계산한다. 전체 음성구간의 SNR은 단구간 SNR의 평균값을 통해 추정한다.

Keywords

References

  1. D. W. Griffin and J. S. Lim, "Multiband Excitation Vocoder," IEEE Transactions on Acoustics, Speech and Signal processing, vol. 36, no. 8, 1988.
  2. IMBE VOCODER DESCRIPTION, Digital Voice System, 1993.
  3. M. Kleinschmidt, J. Tchorz, and B. Kollmeier, "Combining speech enhancement and auditory feature extraction for robust speech recognition," Speech Communication, vol. 34, no. 1-2, pp. 75-91, 2001. https://doi.org/10.1016/S0167-6393(00)00047-9
  4. A. J. Accardi and R. V. Cox, "A Modular Approach to Speech Enhancement with an Application to Speech Coding," IEEE ICASSP, vol. 1, no. 1, pp. 1245, 1999.
  5. J. Sohn, N. S. Kim and W. Sung, "A statistical model - based voice activity detector," IEEE Signal Processing Lett., vol. 6, no. 1, pp. 1-3, Jan. 1999. https://doi.org/10.1109/97.736233
  6. 이희원, 장경아, 배명진, "G.723.1 보코더에서 잡음환경에 강인한 음성활동구간 검출기에 관한 연구," 한국음향학회, 한국음향학회 지 21권, 2호, pp. 173-181, 2002.
  7. 송영환, 박형우, 배명진, "연속음성신호의 SNR 추정기법에 관한 연구," 한국음향학회지 제28권 제4호, pp. 1-9, 2009.
  8. 배명진, 이상효, 디지탈 음성분석, 동영출판사, 1998.
  9. 김을제, 김형태, 한창문, 배명진, "MBE 부호화용 스펙트럼 V-UV 구간 검출에 관한 연구," 한국음향학회, 학술논문발표회 논문집 제11권, pp. 43-48, 1992.
  10. I. Cohen, "Relaxed statistical model for speech enhancement and a priori SNR estimation," IEEE Trans. Speech Audio Processing, vol. 13, no. 5, pp. 870-881, 2005. https://doi.org/10.1109/TSA.2005.851940