코퍼스로부터 형태소 분석을 위한 사전 구성

A Dictionay Composition for Morphological Analyzer from Corpus

  • 정민수 (군산대학교 컴퓨터과학과) ;
  • 정규철 (군산대학교 컴퓨터과학과) ;
  • 조원홍 (군산대학교 컴퓨터과학과)
  • Jung, Min-Su (Department of Computer Science, Kunsan National University) ;
  • Jung, Kyu-Chol (Department of Computer Science, Kunsan National University) ;
  • Cho, Won-Hong (Department of Computer Science, Kunsan National University)
  • 발행 : 1998.10.09

초록

한국어나 일본어처럼 문법형태소의 기능에 의해 단어의 통사적, 의미적 역할이 결정되는 교착어에서는 형태소 분석이 통사 분석과 의미 분석에 미치는 영향이 크기 때문에 한국어의 분석에 있어서 형태소 분석은 아주 중요하다. 관형적 표현이 많은 한글은 문법 규칙만으론 분석하기가 쉽지 않고, 분기가 많이 생성되므로 오류가 발생할 확률도 높다. 이러한 문제점을 해결하기 위해 본 논문에선 사전을 중심으로 해결하고자 한다. 그러기 위해선 방대한 용량의 사전이 필요로 하게 되고 이를 구축하기 위한 시간과 노력이 요구되므로 이미 구성된 코퍼스를 이용해 사전을 구성하여 많은 시간과 노력을 줄일 수 있도록 한다. 그리고 생성되는 많은 분기 가운데 올바른 경로를 찾아 가기 위해 코퍼스내의 각 태그 결합정보를 추출하고 추출한 결합정보의 통계정보-코퍼스내에서 사용된 빈도수-포함하여 우선순위를 정하도록 한다.

키워드