Chunking of Contiguous Nouns using Compound Noun Dictionary of Length Two

두 개의 명사쌍으로 이루어진 복합명사사전을 이용한 연속된 명사열의 구묶음

  • Ahn, Kwangmo (Dept. of Computer Engineering, Chungbuk National University) ;
  • Seo, Young-Hoon (Dept. of Computer Engineering, Chungbuk National University)
  • 안광모 (충북대학교 컴퓨터공학과) ;
  • 서영훈 (충북대학교 컴퓨터공학과)
  • Published : 2009.10.09

Abstract

구문분석에서 구문중의성(syntactic ambiguation)은 구문분석의 성능에 많은 영향을 미친다. 구문중의성을 일으키는 많은 요인들이 있지만, 특히 조사가 발달된 한국어의 구문분석에서 조사가 생략된 명사들은 구문중의성을 증가시키는 큰 요인 중 하나이다. 그렇기 때문에 조사가 없거나 생략된 연속된 명사열(contiguous nouns)의 길이가 길어질수록 구문중의성은 지수적으로 증가하게 된다. 따라서 현재까지의 연구에서는 이런 명사열들을 마치 하나의 명사처럼 구묶음을 하여 처리하는 경우가 많았다. 하지만, 조사가 없는 명사열들을 모두 하나의 명사구처럼 처리하여 구문분석을 수행할 경우, 주요 문장성분들이 잃어버리게 되는 경우가 발생한다. 따라서 본 논문에서는 하나의 명사처럼 쓰일 수 있는 조사가 없는 연속된 명사열을 복합명사구라고 정의하고, 두 개의 명사쌍으로 구축된 복합명사사전만을 이용하여 세 개 이상의 명사로 구성된 복합명사구들을 사전에 등록하지 않고도 복합명사구를 구묶음하는 방법에 대하여 기술한다. 실험을 위해 세종사전 150,546개의 예문에서 두 개 이상의 조사가 생략된 21,482개의 명사쌍을 추출하여 복합명사사전으로 변환하였으며, 총 6,316개의 사전 데이터가 구축되었다. 복합명사 구묶음 모듈은 조사가 생략된 명사열을 입력으로 받아서 우에서 좌로 검색하며 구묶음이 가능한 명사들을 연결하고, 연결된 명사들끼리 하나의 복합명사로 구묶음을 한다. 실험은 사전을 구축할 때 쓰였던 말뭉치와 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하여 수행하였다. 결과는 사전을 구축할 때 쓰인 말뭉치를 이용하였을 때는 96.76%의 정확도를 보였으며, 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하였을 경우는 12.23%의 정확도를 보였다.

Keywords