Chunking Using Automatic Constructed Syntactic Pattern Dictionary and Rule

자동 구축된 구문패턴사전과 규칙을 이용한 구묶음

  • Im, Ji-Hui (Korean Language Processing Laboratory, Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
  • Choe, Ho-Seop (Korean Language Processing Laboratory, Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
  • Lee, Jung-Chul (Korean Language Processing Laboratory, Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
  • Ock, Cheul-Young (Korean Language Processing Laboratory, Dept. of Computer Engineering and Information Technology, University of Ulsan)
  • 임지희 (울산대학교 컴퓨터정보통신공학과 한국어처리연구실) ;
  • 최호섭 (울산대학교 컴퓨터정보통신공학과 한국어처리연구실) ;
  • 이정철 (울산대학교 컴퓨터정보통신공학과 한국어처리연구실) ;
  • 옥철영 (울산대학교 컴퓨터정보통신공학과 한국어처리연구실)
  • Published : 2004.10.08

Abstract

본 논문은 실용적인 구문분석기의 전단계로서, 자동 구축된 구문패턴사전과 규칙을 이용하여 구묶음하는 방법을 제안한다. 우선 규칙은 구문분석 말뭉치(30,875어절)를 대상으로 자동 추출된 고빈도의 규칙(Rewriting Rule)을 본 논문에 맞게 수동으로 구축하였다. 규칙은 조건부, 행위부로 이루어진 이진 규칙(binary rule)의 형태를 이루며, 명사구(NP), 수식어구(AP, DP), 인용구(X), 용언구(VP, VC)을 대상으로 15개를 구축하였다. 그리고 구문패턴은 중심어와 중심어 선행 요소의 특성뿐만 아니라 중심어 후행 요소도 고려하여 형식화시킨 것으로, 중심어의 복합용언 여부에 따라 일반용언패턴과 본+보조용언패턴으로 구분한다. 부분적인 언어 현상의 처리보다는 실세계에서 사용되는 수많은 문장들에 내재되어 있는 매우 광범위한 언어 현상의 처리를 하기 위해, 구문패턴은 형태소주석 말뭉치(460만 어절)을 대상으로 자동 구축하였다. 구축된 구문패턴사전과 규칙을 이용하여 구묶음을 수행한 결과 정확율 83.09%가 나타났다.

Keywords