DOI QR코드

DOI QR Code

Speaker Identification Using Dynamic Time Warping Algorithm

동적 시간 신축 알고리즘을 이용한 화자 식별

  • Jeong, Seung-Do (Department of Information and Communication Engineering, Hanyang Cyber University)
  • 정승도 (한양사이버대학교 정보통신공학과)
  • Received : 2011.04.20
  • Accepted : 2011.05.12
  • Published : 2011.05.31

Abstract

The voice has distinguishable acoustic properties of speaker as well as transmitting information. The speaker recognition is the method to figures out who speaks the words through acoustic differences between speakers. The speaker recognition is roughly divided two kinds of categories: speaker verification and identification. The speaker verification is the method which verifies speaker himself based on only one's voice. Otherwise, the speaker identification is the method to find speaker by searching most similar model in the database previously consisted of multiple subordinate sentences. This paper composes feature vector from extracting MFCC coefficients and uses the dynamic time warping algorithm to compare the similarity between features. In order to describe common characteristic based on phonological features of spoken words, two subordinate sentences for each speaker are used as the training data. Thus, it is possible to identify the speaker who didn't say the same word which is previously stored in the database.

음성에는 전달하고자 하는 정보 이외에 화자 고유의 음향적 특징을 담고 있다. 화자간의 음향적 차이를 이용하여 말하고 있는 사람이 누구인지 판단하는 방법이 화자 인식이다. 화자 인식에는 화자 확인과 화자 식별로 구분되는데 화자 확인은 1명의 음성을 대상으로 본인인지 아닌지를 검증하는 방법이다. 반면, 화자 식별은 미리 등록된 다수의 종속 문장으로부터 가장 유사한 모델을 찾아 대상 의뢰인이 누군지 식별하는 방법이다. 본 논문에서는 MFCC(Mel Frequency Cepstral Coefficient) 계수를 추출하여 특징 벡터를 구성하였고, 특징 간 유사도 비교는 동적 시간 신축(Dynamic Time Warping) 알고리즘을 이용한다. 각 화자마다 두 개의 종속 문장을 훈련 데이터로 사용하여 음운성에 기반을 둔 공통적 특징을 기술하였고, 이를 통해 데이터베이스에 저장되어 있지 않은 단어를 사용하더라도 동일 화자임을 식별할 수 있도록 하였다.

Keywords

References

  1. L. R. Rabiner and B.-H. Juang, "Fundamentals of Speech Recognition," A. Oppenheim, Series Editor, Englewood Cliffs, NJ: Prentice-Hall, 1993.
  2. 김현구, "인식점수의 궤환을 통한 음성 및 화자인식 시스템의 구현에 관한 연구", 석사 학위 논문, 한국과학기술연구원, 2005.
  3. 이기엄, 배철수, 최갑석 "Speaker Recognition using Statistical process and DTW," 제 1회 신호처리 합동 Workshop 논문집 제 1권 1호, 1988.
  4. Oystein Birkenes, "Automatic Speech Recognition-Plug_In MAP, Kernel Methods, and Hybrid Systems," march 27, 2005.
  5. X. Shao and B. Milner, "Clean Speech Reconstruction from Noisy Mel-Frequency Cepstral Coefficients using A Sinusoidal Model," IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 704-707, 6-10 April 2003.