Clause Boundary Identification Using Support Vector Machines

SVM모델을 이용한 절 경계 인식

  • Lee, Hyun-Ju (Dept. of Computer Engineering, Kyungpook National University) ;
  • Kim, Sang-Soo (Dept. of Computer Engineering, Kyungpook National University) ;
  • Park, Seong-Bae (Dept. of Computer Engineering, Kyungpook National University) ;
  • Lee, Sang-Jo (Dept. of Computer Engineering, Kyungpook National University)
  • 이현주 (경북대학교 대학원 컴퓨터공학과 언어정보연구실) ;
  • 김상수 (경북대학교 대학원 컴퓨터공학과 언어정보연구실) ;
  • 박성배 (경북대학교 대학원 컴퓨터공학과 언어정보연구실) ;
  • 이상조 (경북대학교 대학원 컴퓨터공학과 언어정보연구실)
  • Published : 2004.10.08

Abstract

여러 개의 절로 이루어진 긴 문장에서 절 단위를 인식해냄으로써 구문분석의 복잡도를 크게 줄일 수 있다. 본 논문에서는 SVM 모델을 이용하여 한국어 문장에서 절의 경계를 인식하는 방법을 제안하였다. 첫 번째 단계로 중심어가 후행하는 한국어 문장의 특성을 고려하여 절의 끝점을 먼저 찾고, 첫 번째 단계의 결과인 절의 끝점 정보와 절의 끝점 인식을 위한 정보보다 더 전역적인 정보를 이용해 절의 시작점을 인식하는 두 번째 단계로 나누어 진행하였다. 구문구조 부착 말뭉치를 이용하여 학습하고 실험한 결과, F-score 86.87%와 단어 단위의 정확도 96.63%의 성능을 나타내었다.

Keywords