Predicate-based Question Analysis for Korean Question-Answering System

질의응답 시스템을 위한 술어정보 기반 질의분석

  • Kim, Won-Nam (Dept. of Computer Engineering, Chungbuk National University) ;
  • Shin, Seung-Eun (Dept. of Computer Engineering, Chungbuk National University) ;
  • Seo, Young-Hoon (Dept. of Computer Engineering, Chungbuk National University)
  • 김원남 (충북대학교 컴퓨터공학과) ;
  • 신승은 (충북대학교 컴퓨터공학과) ;
  • 서영훈 (충북대학교 컴퓨터공학과)
  • Published : 2004.10.08

Abstract

질의 응답 시스템이 정확한 정답을 제시하기 위해서는 사용자가 요구하는 정답의 유형을 결정할 필요가 있다. 질의분석의 일반적인 접근법으로는 의문사 정보, 규칙 그리고 통계 정보에 기반한 방법들이 있다. 본 논문에서는 술어정보를 이용한 질의분석을 제안한다. 먼저 의문사 정보를 이용하여 상위정답유형을 결정하고 질의문의 술어 정보와 구문 구조 정보를 이용하여 초점단어(focus word)를 추출한다. 초점단어란 정답유형을 결정하는데 단서가 되는 단어로써, 추출된 초점단어에 의해 75개의 하위정답유형 중 하나가 결정된다. 실험에 앞서 정답 유형별로 6개의 상위범주와 75개의 하위범주를 정의하였으며, 실험에는 학습 데이터의 일부와 일반 Web에서 수집한 테스트 데이터가 사용되었다. 실험결과 상위범주는 97.6%, 하위범주는 77.8%의 정확도를 보였으며 초점단어는 92.5%의 정확도를 보였다.

Keywords