동적 오라클을 이용한 뉴럴 전이기반 한국어 형태소 분석 및 품사 태깅

Dynamic Oracle for Neural Transition-based Morpheme Segmentation and POS Tagging of Korean

  • 발행 : 2018.10.12

초록

한국어 형태소 분석은 많은 자연어 처리 분야에서 핵심적인 역할을 수행하고 있기 때문에 형태소를 분류하고 형태소에 알맞은 품사를 결정하는 것은 매우 중요하다. 기존의 형태소 분석은 [B, I]등의 태그를 포함된 품사를 음절 단위로 결정하는 방식으로 주로 연구되었다. 본 논문에서는 의존 파싱 분야에서 널리 활용되는 전이 기반 방식을 이용하여 딥러닝 모델을 통해 형태소 분석을 수행한다. 이에 나아가 학습 단계에서 정답으로부터 추출된 정보를 사용하고 평가 단계에서는 예측으로부터 추출된 정보를 사용함으로써 발생하는 차이점을 극복하기 위한 방법론인 동적 오라클을 적용하였다. 실험 결과, 세종 품사 부착 말뭉치 셋에 적용하여 형태소 F1 97.93%, 어절 정확도 96.70%로 기존의 성능을 더욱 향상시켰다.

키워드