Korean Indicative Summarization Using Aggregate Similarity

도합유사도를 이용한 한국어 추출문서 요약

  • Kim, Jae-Hoon (Department of Computer Engineering, Korea Maritime University and Advanced Information Technology Research University) ;
  • Kim, Jun-Hong (Department of Computer Engineering, Korea Maritime University and Advanced Information Technology Research University)
  • 김재훈 (컴퓨터공학과, 한국해양대학교 첨단정보기술연구센터) ;
  • 김준홍 (컴퓨터공학과, 한국해양대학교 첨단정보기술연구센터)
  • Published : 2000.10.13

Abstract

본 논문에서 문서는 문서관계도라고 하는 그래프로 표현된다. 노드는 문서의 구성요소인 문장을 표현하고, 링크는 노드들 간의 의미적인 관계를 나타낸다 의미적 관계는 유사도에 의해서 결정되며, 문장의 중요도는 도합유사도로 나타낸다. 도합유사도는 한 노드와 인접한 노드들 사이의 유사도 합을 말한다. 본 논문에서는 도합유사도를 이용한 한국어 문서 기법을 제안한다. 실험에 사용된 평가용 요약문서는 정보처리 관련 분야에서 수집된 논문 100편과 KORDIC에서 구축한 신문기사 105건을 이용하였다. 문서 시스템에 의해서 생성된 문서의 크기가 본문의 20%이고, 본문이 논문(서론과 결론)일 경우, 재현율과 정확률은 각각 46.6%와 76.9%를 보였으며, 또한 본문이 신문기사일 경우, 재현율과 정확률은 각각 30.5%과 42.3%를 보였다. 또한 제안된 방법은 상용시스템보다 좋은 성능을 보였다.

Keywords