Part-of-speech Tagging using Probability and Rules

확률과 규칙을 사용한 품사 태깅

  • 신상현 (포항공과대학교 전자계산학과) ;
  • 이근배 (포항공과대학교 전자계산학과) ;
  • 홍남희 (포항공과대학교 전자계산학과) ;
  • 이종혁 (포항공과대학교 전자계산학과)
  • Published : 1994.11.18

Abstract

한국어에 있어서 품사 태깅은 형태소 분석결과의 모호성을 제거하는 것으로, 기존의 방법을 보면, 확률을 이용하는 방법, 퍼지망을 이용하는 방법, 신경망을 이용하는 방법등 다양하다. 현재의 주류가 확률을 이용한 방법이다. 하지만, 이 방법은 제한된 윈도우 크기와 품사사이의 관계만을 이용한다는 한계점을 지니고 있다. 본 논문에서는 확률을 이용한 결과에, 확률에서 다루지 못하는 범위에 대하여 자동 학습된 규칙을 추가로 적용하여 이 한계점을 극복한다. 규칙 적용시 윈도우 크기를 임의로 정할 수 있고, 품사사이의 관계외에 어절사이의 관계도 고려할 수 있으므로 확률적 방법이 다루지 못하는 부분에 대하여 어휘단계에서의 교정이 가능하게 된다. 현재 20가지 정도의 규칙을 수작업 코딩하여 사용한 결과 확률적 방법의 성능을 3% 정도 향상시킬 수 있었으며, 앞으로 규칙생성을 자동학습할 경우 더 큰 성능향상을 기대해 볼 수 있다.

Keywords