웹 문서의 단어정보와 링크정보 결합을 이용한 클러스터링 기법

Clustering Method Using the Union Information of Term Frequency and Link in Hypertext

  • 이원희 (부산대학교 전자계산학과) ;
  • 이교운 (울산과학대학 컴퓨터정보학부) ;
  • 박흠 (부산대학교 전자계산학과) ;
  • 김영기 (부산대학교 전자계산학과) ;
  • 권혁철 (부산대학교 전자계산학과)
  • Lee, Won-Hee (Department of Computer Science Busan National University) ;
  • Lee, Kyo-Woon (Department of Computer Information Ulsan College,) ;
  • Park, Heum (Department of Computer Science Busan National University) ;
  • Kim, Young-Ki (Department of Computer Science Busan National University) ;
  • Kwon, Hyuck-Chul (Department of Computer Science Busan National University)
  • 발행 : 2003.10.10

초록

최근의 웹 문서는 텍스트 위주의 구성이 아닌 이미지, 사운드, 동영상 등의 다양한 타입으로 구성되는 추세이다. 이에 따라 단순히 웹 문서 내의 단어 정보추출 만으로는 좋은 성능의 클러스터링을 기대하기 어렵다. 본 논문은 전통적인 문서 클러스터링 기법인 단어기반 클러스터링 기법의 취약점을 제시하고, 웹 문서간의 링크구조정보 중 동시인용 정보를 이용하여 웹 문서 클러스터링 성능향상의 가능성을 보이고자 한다. 실험에서는 네이버디렉토리 중 '자연과학' 범주에 포함된 문서를 대상으로 위의 두 가지 방식과 이 두 가지를 혼합한 단어-링크 혼합 클러스터링을 통해 기존의 방식보다 더 낳은 성능을 얻을 수 있었다.

키워드