Automatic Generation of Training Data for Korean Speech Recognition Post-Processor

한국어 음성인식 후처리기를 위한 학습 데이터 자동 생성 방안

  • Seonmin Koo (Department of Computer Science and Engineering, Korea University) ;
  • Chanjun Park (Department of Computer Science and Engineering, Korea University) ;
  • Hyeonseok Moon (Department of Computer Science and Engineering, Korea University) ;
  • Jaehyung Seo (Department of Computer Science and Engineering, Korea University) ;
  • Sugyeong Eo (Department of Computer Science and Engineering, Korea University) ;
  • Yuna Hur (Human Inspired AI Research) ;
  • Heuiseok Lim (Department of Computer Science and Engineering, Korea University)
  • 구선민 (고려대학교 컴퓨터학과) ;
  • 박찬준 (고려대학교 컴퓨터학과) ;
  • 문현석 (고려대학교 컴퓨터학과) ;
  • 서재형 (고려대학교 컴퓨터학과) ;
  • 어수경 (고려대학교 컴퓨터학과) ;
  • 허윤아 (Human-Inspired AI 연구소) ;
  • 임희석 (고려대학교 컴퓨터학과)
  • Published : 2022.10.18

Abstract

자동 음성 인식 (Automatic Speech Recognition) 기술이 발달함에 따라 자동 음성 인식 시스템의 성능을 높이기 위한 방법 중 하나로 자동 후처리기 연구(automatic post-processor)가 진행되어 왔다. 후처리기를 훈련시키기 위해서는 오류 유형이 포함되어 있는 병렬 말뭉치가 필요하다. 이를 만드는 간단한 방법 중 하나는 정답 문장에 오류를 삽입하여 오류 문장을 생성하여 pseudo 병렬 말뭉치를 만드는 것이다. 하지만 이는 실제적인 오류가 아닐 가능성이 존재한다. 이를 완화시키기 위하여 Back TranScription (BTS)을 이용하여 후처리기 모델 훈련을 위한 병렬 말뭉치를 생성하는 방법론이 존재한다. 그러나 해당 방법론으로 생성 할 경우 노이즈가 적을 수 있다는 관점이 존재하다. 이에 본 연구에서는 BTS 방법론과 인위적으로 노이즈 강도를 추가한 방법론 간의 성능을 비교한다. 이를 통해 BTS의 정량적 성능이 가장 높은 것을 확인했을 뿐만 아니라 정성적 분석을 통해 BTS 방법론을 활용하였을 때 실제 음성 인식 상황에서 발생할 수 있는 실제적인 오류를 더 많이 포함하여 병렬 말뭉치를 생성할 수 있음을 보여준다.

Keywords

Acknowledgement

이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기술기획평가원의 지원을 받아 수행된 연구임 (No. 2020-0-00368, 뉴럴-심볼릭(neural-symbolic) 모델의 지식 학습 및 추론 기술 개발). 또한 본 연구는 과학기술정보통신부 및 정보통신기술기획평가원의 대학ICT연구센터지원사업의 연구 결과로 수행되었음 (IITP-2022-2018-0-01405)