Integrated Sentence Preprocessing System for Web Indexing

웹 인덱싱을 위한 통합 전처리 시스템의 개발

  • Shim, Jun-Hyuk (Natural Language Processing Lab. Dept. of Computer Science & Engineering, POSTECH) ;
  • Cha, Jong-Won (Natural Language Processing Lab. Dept. of Computer Science & Engineering, POSTECH) ;
  • Lee, Geun-Bae (Natural Language Processing Lab. Dept. of Computer Science & Engineering, POSTECH)
  • 심준혁 (포항공과대학교 컴퓨터공학과 자연어 처리 연구실) ;
  • 차정원 (포항공과대학교 컴퓨터공학과 자연어 처리 연구실) ;
  • 이근배 (포항공과대학교 컴퓨터공학과 자연어 처리 연구실)
  • Published : 2000.10.13

Abstract

웹 문서는 일반 문서들과 달리 자유로운 형식으로 기술되어 있고, 원문에 태그나 코드 등 불필요한 내용들을 많이 포함하고 있어 언어 처리에 바로 사용하기에 적합하지 못하다. 본 논문은 인덱싱 대상 문서로 사용되는 웹 문서를 자동으로 수집하여, 문장 단위로 정렬된 문서로 제작, 관리하는 통합 전처리 시스템인 Web Tagger의 구조와 전처리 방법을 소개한다. Web Tagger는 문서 정제, 문장 분할, 띄어쓰기의 과정을 거쳐 웹 문서에서 표준화된 정보를 추출하고, 형태소 분석기를 포함한 응용 시스템의 목적에 맞게 XML 형식의 원문 코퍼스를 자동으로 생성하고 관리한다. '정규문법(Regexp)', '휴리스틱', '품사 인덱스 참조', 'C4.5를 사용한 학습 규칙' 등의 다양한 전처리 기법은 형태소 분석 정확도 향상과 시스템 안정성 보장에 기여한다.

Keywords