Comparative study of Korean speech recognition based on SpecAugment and Kaldi

SpecAugment와 Kaldi기반 한국어 음성인식 비교 연구

  • 이승훈 (고려대학교 Human-inspired AI 연구소) ;
  • 박찬준 (고려대학교 컴퓨터학과) ;
  • 서재형 (고려대학교 컴퓨터학과) ;
  • 김경민 (고려대학교 컴퓨터학과) ;
  • 임희석 (고려대학교 컴퓨터학과)
  • Published : 2021.10.14

Abstract

Kaldi는 음성인식 오픈소스 플랫폼이며 많은 기업에서 이를 이용하여 비즈니스 및 연구를 진행하고 있다. 그러나 국문으로 된 Kaldi에 대한 자세한 모듈 설명과 활용법은 아직 미비한 실정이다. 본 논문은 음성인식 오픈소스인 Kaldi에 대한 각 모듈별 자세한 설명과 더불어 데이터 증강 기법인 SpecAugment를 한국어 음성인식 시스템에 적용하여 성능 향상 여부를 검증하였다. 그리고 Kaldi의 음향모델과 언어모델을 변경하면서 어떠한 모듈들로 구성된 한국어 음성인식 모델을 사용하는 것이 가장 결과가 좋은 지를 검증하고 실시간 디코딩에 있어서 실용적인지를 비교하였다.

Keywords

Acknowledgement

이 논문은 2021년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(NRF-2021R1A6A1A03045425).