Arabic-Numerals to Korean Transliteration Disambiguation using BERT

BERT를 이용한 숫자-한국어 음역 모호성 해소

  • Published : 2020.10.14

Abstract

TTS(Text-to-Speech) 시스템을 위해서는 한글 이외의 문자열을 한글로 변환해줄 필요가 있다. 이러한 문자열에는 숫자, 특수문자 등의 문자열이 포함되어 있다. 특히 숫자의 경우, 숫자가 사용되는 문맥에 따라 그 발음방법이 달라지는 문제점이 있다. 본 논문에서는 기존의 규칙기반과 한정된 문맥 정보만을 활용할 수 있는 방법이 아닌, 딥러닝을 이용한 방법으로 문맥에 따라 발음방법이 달라지는 숫자 음역의 모호성을 해소하는 방법을 소개한다.

Keywords

Acknowledgement

이 (성과물)은 중소벤처기업부 '산업전문인력역량강화사업'의 재원으로 한국산학연협회(AURI)의 지원을 받아 수행된 연구임. (2020년 기업연계형연구개발인력양성사업, 과제번호 : S2929950)