Loanword Recognition Using Deep Learning

심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템

  • Park, Ho-Min (Department of Computer Engineering, Korea Maritime and Ocean University) ;
  • Kim, Chang-Hyun (Electronics and Telecommunications Research Institute) ;
  • Cheon, Min-Ah (Department of Computer Engineering, Korea Maritime and Ocean University) ;
  • Noh, Kyung-Mok (Department of Computer Engineering, Korea Maritime and Ocean University) ;
  • Kim, Jae-Hoon (Department of Computer Engineering, Korea Maritime and Ocean University)
  • 박호민 (한국해양대학교, 컴퓨터정보공학과) ;
  • 김창현 (한국전자통신연구원) ;
  • 천민아 (한국해양대학교, 컴퓨터정보공학과) ;
  • 노경목 (한국해양대학교, 컴퓨터정보공학과) ;
  • 김재훈 (한국해양대학교, 컴퓨터정보공학과)
  • Published : 2017.10.13

Abstract

외래어란 외국어로부터 들어와 한국어에 동화되고 한국어로서 사용되는 언어이다. 나날이 우리의 언어사용 문화에서 외래어의 사용 비율은 높아져가는 추세로, 전문분야에서는 특히 두드러진다. 그러므로 더 효율적이고 효과적인 자연언어처리를 위해서 문서 내 외래어 인식은 중요한 전처리 과정이다. 따라서 본 논문에서는 bidirectional LSTM(이하 bi-LSTM)-CRF 모형의 심층학습을 이용한 음절태깅 기반의 외래어 인식 시스템을 제안한다. 제안하는 시스템의 외래어 인식 학습 과정은 다음과 같다. 첫째, 학습용 말뭉치 자료의 한글 음절들과 공백, 마침표(.)를 토대로 word2vec을 통해 학습용 피쳐(feature) 자료를 생성한다. 둘째, 학습용 말뭉치 자료와 학습용 피쳐 자료를 결합하여 bi-LSTM 모형 학습 자료를 구축한다. 셋째, bi-LSTM 모형을 거쳐 학습된 결과물을 CRF 모형에서 로그 가능도(log likelyhood)와 비터비(Viterbi) 알고리즘을 통해 학습 결과물을 내놓는다. 넷째, 학습용 말뭉치 자료의 정답과 비교한 뒤 모형 내부의 수치들을 조정한다. 다섯째, 학습을 마칠 때까지 반복한다. 본 논문에서 제안하는 시스템을 이용하여 자체적인 뉴스 수집 자료에 대해서 높은 정확도와 재현율을 기록하였다.

Keywords