An Object Model of Korean Web Pages for Title Identification

웹문서의 테이블 객체 모델링을 통한 제목 추출 방법

  • 윤주형 (수원대학교 정보공학대학 컴퓨터학과) ;
  • 박세종 (수원대학교 정보공학대학 컴퓨터학과) ;
  • 이승욱 (수원대학교 정보공학대학 컴퓨터학과) ;
  • 한영석 (수원대학교 정보공학대학 컴퓨터학과)
  • Published : 2003.10.10

Abstract

한국어 웹 문서에는 일반적으로 제목이 명시가 되어 있음으로 텍스트를 요약하는 방식의 제목추출과는 달리 여러 테이블 형태로 이루어진 웹 문서의 특성을 고려하여 제목에 해당하는 테이블 객체를 찾아내야 한다. 웹 문서를 테이블 객체의 리스트로 보고, 이들을 휴리스틱 규칙에 의해서 본문 후보와 이를 기준으로 하는 제목 후보 객체들로 구분하는 단계와 제목 후보들 간의 확률적 분포 값과 본문과의 언어적 유사도를 이용하여 제목 객체를 결정하는 단계를 통하여 제목을 인식한다. 인식의 정확성에 기여하는 것은 제목과 본문 객체를 구분하는 규칙 그리고 제목의 확률분포 및 언어적 유사 정도 등이며 이들 각 정보가 정확성에 기여하는 정도를 실험하였다. 무작위로 추출된 500개의 다양한 양식의 웹 문서를 대상으로 실험한 결과 제목인식 정확성은 95.1%였다.

Keywords