Korean POS and Homonym Tagging System using HMM

HMM을 이용한 한국어 품사 및 동형이의어 태깅 시스템

  • Kim, Dong-Myoung (Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
  • Bae, Young-Jun (Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
  • Ock, Cheol-Young (Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
  • Choi, Ho-Soep (Information System Development Team, Korean Institute of Science and Technology Information) ;
  • Kim, Chang-Hwan (Dept. of Health Administration, Choonhae College)
  • 김동명 (울산대학교 컴퓨터정보통신공학과) ;
  • 배영준 (울산대학교 컴퓨터정보통신공학과) ;
  • 옥철영 (울산대학교 컴퓨터정보통신공학과) ;
  • 최호섭 (한국과학기술정보연구원 정보기술개발단 정보시스템개발팀) ;
  • 김창환 (춘해대학교 보건행정과)
  • Published : 2008.10.10

Abstract

기존의 자연언어처리 연구 중 품사 태깅과 동형이의어 태깅은 별개의 문제로 취급되었다. 그로 인해 두 문제를 해결하기 위한 모델 역시 서로 다른 모델을 사용하였다. 이에 본 논문은 품사 태깅 문제와 동형이의어 태깅 문제는 모두 문맥의 정보에 의존함에 착안하여 은닉마르코프모델을 이용하여 두 가지 문제를 해결하는 시스템을 구현하였다. 제안한 시스템은 품사 및 동형이의어 태깅된 세종 말뭉치 1100만여 어절에 대해 unigram과 bigram을 추출 하였고, unigram을 이용하여 어절의 생성확률 사전을 구축하고 bigram을 이용하여 전이확률 사전을 구축하였다. 구현된 시스템의 성능 확인을 위해 비학습 말뭉치 261,360 어절에 대해 실험하였고, 실험결과 품사 태깅 99.74%, 동형이의어 태깅 97.41%, 품사 및 동형이의어 태깅 97.78%의 정확률을 보였다.

Keywords