The Generation Methods of Composition Noun For Efficient Index Term Extraction

고빈도어를 이용한 복합명사 색인어 추출 방안

  • Kim, Mi-Jin (Department of Computer Engineering, Kyungpook National University) ;
  • Park, Mi-Seong (Department of Computer Engineering, Kyungpook National University) ;
  • Jang, Hyeok-Chang (Department of Computer Engineering, Kyungpook National University) ;
  • Choi, Jae-Hyeok (Dept. of Computer Education, Silla University) ;
  • Lee, Sang-Jo (Department of Computer Engineering, Kyungpook National University)
  • 김미진 (경북대학교 컴퓨터공학과) ;
  • 박미성 (경북대학교 컴퓨터공학과) ;
  • 장혁창 (경북대학교 컴퓨터공학과) ;
  • 최재혁 (신라대학교 컴퓨터교육과) ;
  • 이상조 (경북대학교 컴퓨터공학과)
  • Published : 1998.10.09

Abstract

정보검색이나 자동색인 시스템에서는 정확한 색인어의 추출이 시스템의 성능을 좌우하게 된다. 따라서 정확한 색인어의 추출이 매우 중요하다. 본 논문에서는 정보 검색시에 보다 정확한 문서를 찾아줄 수 있도록, 출현 고빈도어를 이용하여 효율적인 색인어 추출을 위한 합성 명사 생성방안을 제시한다. 이를 위하여 문서 내에서 출현 빈도가 높은 명사, 즉 상위 $30%{\sim}40%$의 고빈도 명사에 합성 및 분해 규칙을 적용하여 합성명사 색인어를 추출한다. 또한 본 논문에서 제시한 상위 $30%{\sim}40%$ 고빈도 명사합성에 대한 타당성을 검증하기 위하여 적절한 명사합성 빈도를 구한다. 제안한 방법을 적용한 결과 300어절 이하의 짧은 문서는 출현빈도 상위 30%까지의 명사를 합성했을 경우 저빈도 누락이 작았고 300어절 이상의 문서는 출현빈도 40%까지 합성하면 저빈도 누락이 상당히 줄어듦을 알 수 있었다. 그리하여 전체 색인어의 개수를 줄였고 색인어의 정확률을 높였다.

Keywords