한국어 노인 음성 데이터 증강 및 인식 연구

A Study of Data Augmentation and Auto Speech Recognition for the Elderly

  • 김건희 (연세대학교 언어정보학협동과정) ;
  • 박서윤 (연세대학교 언어정보학협동과정) ;
  • 김한샘 (연세대학교 언어정보학협동과정)
  • Keon Hee Kim (Yonsei University, Interdisciplinary program of language and information) ;
  • Seoyoon Park (Yonsei University, Interdisciplinary program of language and information) ;
  • Hansaem Kim (Yonsei University, Interdisciplinary program of language and information)
  • 발행 : 2023.10.12

초록

기존의 음성인식은 청장년 층에 초점이 맞추어져 있었으나, 최근 고령화가 가속되면서 노인 음성에 대한 연구 필요성이 증대되고 있다. 그러나 노인 음성 데이터셋은 청장년 음성 데이터셋에 비해서는 아직까지 충분히 확보되지 못하고 있다. 본 연구에서는 부족한 노인 음성 데이터셋 확보에 기여하고자 희소한 노인 데이터셋을 증강할 수 있는 방법론에 대해 연구하였다. 이를 위해 노인 음성 특징(feature)을 분석하였으며, '주파수'와 '발화 속도' 특징을 일반 성인 음성에 합성하여 데이터를 증강하였다. 이후 Whisper small 모델을 파인 튜닝한 뒤 노인 음성에 대한 CER(Character Error Rate)를 구하였고, 기존 노인 데이터셋에 증강한 데이터셋을 함께 사용하는 것이 가장 효과적임을 밝혀내었다.

키워드