Combining Positive and Negative Features for One-Class Document Classification

One-class 문서 분류를 위한 긍정 자질과 부정 자질의 결합

  • Song, Ho-Jin (Dept. of Computer Science and Engineering, POSTECH) ;
  • Kang, In-Su (Dept. of Computer Science and Engineering, POSTECH) ;
  • Na, Seung-Hoon (Dept. of Computer Science and Engineering, POSTECH) ;
  • Lee, Jong-Hyeok (Dept. of Computer Science and Engineering, POSTECH)
  • 송호진 (포항공과대학교 컴퓨터공학과) ;
  • 강인수 (포항공과대학교 컴퓨터공학과) ;
  • 나승훈 (포항공과대학교 컴퓨터공학과) ;
  • 이종혁 (포항공과대학교 컴퓨터공학과)
  • Published : 2005.10.21

Abstract

문서 분류에서의 one class 분류 문제는 오직 하나의 범주를 생성하고 새로운 문서가 주어졌을 때 그 문서가 미리 만들어진 하나의 범주에 속하는가를 판별하는 문제이다. 기존의 여러 범주로 이루어진 분류 문제를 해결할 때와는 달리 one class 분류에서는 학습 시에 관심의 대상이 되는 하나의 범주와 관련이 있는 문서들만을 사용하여 학습을 수행하기 때문에 범주의 경계를 정하는 것은 매우 어려운 작업이다. 이에 본 논문에서는 기존의 연구에서 one class 분류 문제를 해결할 때 관심의 대상이 되는 예제의 일부를 부정 예제로 간주하여 one class 문제를 two class 문제로 변환하고 추가적으로 새로운 가상 부정 예제를 설정하여 학습을 수행하였던 방법에서 더 나아가 범주화를 위한 적절한 부정자질을 선택하고 이를 긍정자질과 함께 사용하여 학습을 수행한 후 SVM을 통하여 범주화 성능을 학인 해 보기로 한다.

Keywords