Two-Stage Compound Morpheme Segmentation in CRF-based Korean Morphological Analysis

CRF기반 한국어 형태소 분할 및 품사 태깅에서 두 단계 복합형태소 분해 방법

  • Na, Seung-Hoon (Natural Language Processing Laboratory Electronics and Telecommunication Research Institute) ;
  • Kim, Chang-Hyun (Natural Language Processing Laboratory Electronics and Telecommunication Research Institute) ;
  • Kim, Young-Kil (Natural Language Processing Laboratory Electronics and Telecommunication Research Institute)
  • Published : 2013.10.06

Abstract

본 논문은 CRF기반 한국어 형태소 분석 및 품사 태깅 과정에서 발생하는 미등록 복합형태소를 분해하기 위한 단순하고 효과적인 방법을 제안한다. 제안 방법은 1) 복합형태소를 내용형태소와 복합기능형태소로 분리하는 단계, 2) 복합기능형태소를 분해하는 두 단계로 구성된다. 실험 결과, 제안 알고리즘은 Sejong데이터에 대해, 기존의 lattice HMM 대비 높은 복합형태소 분해 정확률 및 두드러진 속도 개선을 보여준다.

Keywords