A Predictive Morphological Analyzer, A Part-of-Speech Tagger Based on Joint Independence Model, and A Fast Noun Extractor

예측 기반 형태소 분석기와 결합 독립 모형 기반 품사 태거 및 고속 명사 추출기

  • Lee, Sang-Zoo (Dept. of Computer Science and Engineering, Korea University) ;
  • Park, Bong-Rae (Dept. of Computer Science and Engineering, Korea University) ;
  • Kim, Jin-Dong (Dept. of Computer Science and Engineering, Korea University) ;
  • Ryu, Won-Ho (Dept. of Computer Science and Engineering, Korea University) ;
  • Lee, Do-Gil (Dept. of Computer Science and Engineering, Korea University) ;
  • Rim, Hae-Chang (Dept. of Computer Science and Engineering, Korea University)
  • Published : 1999.10.08

Abstract

본 논문에서는 한국어 자연어 정보처리 기술 표준화를 위한 형태소 분석기 및 품사 태거 평가 대회(MATEC99)에 참여한 고려대학교의 형태소 분석기, 품사 태거, 그리고 명사 추출기를 설명하고 평가 결과를 기술한다. 형태소 분석기는 입력된 어절을 우에서 좌로 분석하며 각 상태에 대한 예측 정보를 활용하여 불필요한 분석 후보에 대한 탐색을 수행하지 않도록 한다. 품사 태거로는 띄어쓰기를 고려한 형태소 품사 2-그램 확률과 띄어쓰기를 고려한 형태소 어휘-품사 3-그램 어휘 확률을 이용하는 결합 독립 모형을 사용한다. 고속 명사 추출기는 고속의 FST 사전과 한국어 특성을 반영한 휴리스틱을 이용한다.

Keywords