Document Quality Evaluation for Question Answering System

질의응답시스템을 위한 문서의 품질 평가

  • Lee, Hyoung-Gyu (Dept. of Computer and Radio Communications Engineering, Korea University) ;
  • Kim, Min-Jeong (Dept. of Computer and Radio Communications Engineering, Korea University) ;
  • Shin, Joong-Hwi (Dept. of Computer and Radio Communications Engineering, Korea University) ;
  • Lee, Jung-Tae (Dept. of Computer and Radio Communications Engineering, Korea University) ;
  • Yoon, Yeo-Chan (Electronics and Telecommunications Research Institute) ;
  • Rim, Hae-Chang (Dept. of Computer and Radio Communications Engineering, Korea University)
  • 이형규 (고려대학교 컴퓨터.전파통신공학과) ;
  • 김민정 (고려대학교 컴퓨터.전파통신공학과) ;
  • 신중휘 (고려대학교 컴퓨터.전파통신공학과) ;
  • 이정태 (고려대학교 컴퓨터.전파통신공학과) ;
  • 윤여찬 (한국전자통신연구원) ;
  • 임해창 (고려대학교 컴퓨터.전파통신공학과)
  • Published : 2008.10.10

Abstract

본 논문에서는 질의응답시스템에서 응답 추출 대상 문서로 사용할 적절한 문서를 찾는 방법으로 기계 학습 기반의 문서 품질 평가 기법을 사용한다. 본 논문에서는 기존 연구와 달리 객관적인 정보를 많이 포함하고 있는 문서를 선별하는 목적으로 문서 품질 평가를 위한 유용한 자질들을 제안한다. 본 논문에서 정의한 정보성 자질은 정보의 양을 측정하는 자질과 정보의 객관성을 측정하는 자질로 구성된다. 실험 결과, 기존 문서 품질 평가 연구에서 주로 사용된 자질들만 사용한 경우와 새로운 자질들을 추가한 경우를 비교하였을 때, 1.5배 정도 높은 평균 정확률을 보였다. 제안하는 자질들 중에는 정보성 자질이 매우 유용한 자질이었고, 가독성 자질은 비교적 낮은 성능을 보였다. 문서의 여과 실험 결과, 96.4%의 재현율을 유지하면서 전체 문서 집합 중, 60%에 해당하는 저품질 문서를 여과할 수 있었다.

Keywords