구문분석과 공기정보를 이용한 개념 기반 명사구 색인 방법

Concept-Based Method for Noun Phrase Indexing Using Syntactic Analysis and Co-occurence Information

  • 이현아 (포항공과대학교 전자계산학과) ;
  • 이종혁 (포항공과대학교 전자계산학과) ;
  • 이근배 (포항공과대학교 전자계산학과)
  • 발행 : 1995.10.07

초록

한국어에서의 명사구 색인을 위한 기존의 방법들은 주로 간단한 규칙을 이용하여 왔고 그 결과 문장에 존재하는 모든 명사구를 추출하지 못했다. 이를 해결하기 위하여 본 논문에서는 개념 기반 명사구 색인 방법을 제안한다. 하나의 문장은 하나 이상의 개념으로 이루어져 있으므로, 명사구 추출은 개념을 고려하여 이루어져야 바람직하다 문장은 구문적으로 하나 이상의 내포문으로 이루어져 있다. 일반적으로 내포문 단위 내의 용어들이 나타내는 각각의 개념들은 서로 높은 연관성을 가진다. 그러므로 문장이 가지는 개념의 상이성을 내포문의 개념 상이성으로 축소할 수 있다. 문장을 내포문 단위로 분할하기 위하여 의존 문법을 기반한 구문분석과 공기정보를 이용한다. 특히 공기정보는 원거리 의존관계(long distance dependency)를 결정하여 한 내포문에 속함을 밝혀내는 데 도움을 준다. 이러한 내포문 내의 의존관계를 이용하여 명사구를 추출한다.

키워드