Korean Morphological Analysis Algorithms for Automatic Indexing

자동색인을 위한 한국어 형태소 분석 알고리즘

  • Published : 1989.10.05

Abstract

자동색인이라 함은 기존의 수작업에 의한 색인어 선정 대신 컴퓨터에 의해서 자동화하는 것을 말한다. 한국어는 색인어가 될 수 있는 어근에 조사 및 어미가 붙어서 한 어절을 이루는 언어학 적인 특성을 갖고 있다. 지금까지는 어근을 분리하기 위해 어근에 대한 사전을 구축하고 이를 Top-down 방법에 의해 처리하는 것이 통례였다. 그러나 이러한 방법은 외래어나 고유명사 등 새로 발생하는 어휘가 많은, 뉴스 원고와 같은 보도자료에는 쉽게 적용할 수가 없으며, 자연어를 다루는 타 분야에서도 미등록어에 대한 처리 방안이 시급한 실정이다. 본 논문은 어휘사전 없이 조사 및 어미의 생성 규칙을 이용한 Bottom-up 방식으로 처리하여 후보 색인어를 추론하고, 어절 상호간의 관계를 밝히는 구문분석을 통하여 이를 확정하는 알고리즘을 제안하였다.

Keywords