A Study of Data Augmentation and Auto Speech Recognition for the Elderly

한국어 노인 음성 데이터 증강 및 인식 연구

  • Keon Hee Kim (Yonsei University, Interdisciplinary program of language and information) ;
  • Seoyoon Park (Yonsei University, Interdisciplinary program of language and information) ;
  • Hansaem Kim (Yonsei University, Interdisciplinary program of language and information)
  • 김건희 (연세대학교 언어정보학협동과정) ;
  • 박서윤 (연세대학교 언어정보학협동과정) ;
  • 김한샘 (연세대학교 언어정보학협동과정)
  • Published : 2023.10.12

Abstract

기존의 음성인식은 청장년 층에 초점이 맞추어져 있었으나, 최근 고령화가 가속되면서 노인 음성에 대한 연구 필요성이 증대되고 있다. 그러나 노인 음성 데이터셋은 청장년 음성 데이터셋에 비해서는 아직까지 충분히 확보되지 못하고 있다. 본 연구에서는 부족한 노인 음성 데이터셋 확보에 기여하고자 희소한 노인 데이터셋을 증강할 수 있는 방법론에 대해 연구하였다. 이를 위해 노인 음성 특징(feature)을 분석하였으며, '주파수'와 '발화 속도' 특징을 일반 성인 음성에 합성하여 데이터를 증강하였다. 이후 Whisper small 모델을 파인 튜닝한 뒤 노인 음성에 대한 CER(Character Error Rate)를 구하였고, 기존 노인 데이터셋에 증강한 데이터셋을 함께 사용하는 것이 가장 효과적임을 밝혀내었다.

Keywords