Implementation of the Text Abstraction System using the Statistical Information of Korean Documents

한국어 문서의 통계적 정보를 이용한 문서 요약 시스템 구현

  • Kang, Sang-Bae (Pusan National University, Department of Computer Science) ;
  • Cho, Hyuk-Kyu (Sungsim Junior College of Foreign Languages, Dept. of Management Information) ;
  • Kwon, Hyuk-Chul (Pusan National University, Department of Computer Science) ;
  • Park, Jae-Deuk (SERI, Dept. of NL Information Processing) ;
  • Park, Dong-In (SERI, Dept. of NL Information Processing)
  • 강상배 (부산대학교 전자계산학과) ;
  • 조혁규 (성심외국어전문대학 경영정보과) ;
  • 권혁철 (부산대학교 전자계산학과) ;
  • 박재득 (시스템공학연구소 자연어정보처리연구부) ;
  • 박동인 (시스템공학연구소 자연어정보처리연구부)
  • Published : 1997.10.10

Abstract

이 논문에서는 문장 유사도 측정 기법과 말뭉치 정보를 이용한 문서요약 시스템을 구현하였다. 문서 요약은 문서에서 문장 단위로 단어를 추출하여 문장을 단어의 벡터로 표현하고, 문서 내 단어의 출현빈도와 말뭉치 내 단어의 사용빈도를 이용하여 각 문장의 중요도를 계산한다. 그리고 중요도가 높은 상위 몇 위의 문장을 요약문장으로 추출한다. 실험 결과, 문서내 단어빈도의 중요도를 낮추고, 말뭉치내 일반 사용빈도를 단어의 가중치에 추가했을 때 가장 좋은 효율을 보였다. 또 요약하고자 하는 문서와 유사한 말뭉치를 사용 했을 때 높은 효율을 보였다.

Keywords