Automatic Text Categorization by Term Weighting and Inverted Category Frequency

Lee, Kyung-Chan;Kang, Seung-Shik;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
/
Pages.14-17
/
2003
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

용어 가중치와 역범주 빈도에 의한 자동문서 범주화

Automatic Text Categorization by Term Weighting and Inverted Category Frequency

이경찬 (국민대학교 컴퓨터학부, 첨단정보기술연구센터) ;
강승식 (국민대학교 컴퓨터학부, 첨단정보기술연구센터)

Lee, Kyung-Chan (School of Computer Science, Kookmin University & AITrc) ;
Kang, Seung-Shik (School of Computer Science, Kookmin University & AITrc)

발행 : 2003.10.10

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

문서의 확률을 이용하여 자동으로 문서를 분류하는 문서 범주화 기법의 대표적인 방법이 나이브 베이지언 확률 모델이다. 이 방법의 기본 형식은 출현 용어의 확률 계산 방법이다. 하지만 실제 문서 범주화 과정에서 출현하지 않는 용어들도 성능에 많은 영향을 줄 수 있으며, 출현 용어들에 대한 빈도 이외의 역범주 빈도나 용어가중치를 적용하여 문서 범주화 시스템의 성능을 향상시킬 수 있다. 본 논문에서는 나이브 베이지언 확률 모델에 출현 용어와 출현하지 않는 용어들에 대한 smoothing 기법을 적용하여 실험하였다. 성능 평가를 위해 뉴스그룹 문서들을 이용하였으며, 역범주 빈도와 가중치를 적용했을 때 나이브 베이지언 확률 모델에 비해 약 7% 정도 성능 개선 효과가 있었다.

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

용어 가중치와 역범주 빈도에 의한 자동문서 범주화

Automatic Text Categorization by Term Weighting and Inverted Category Frequency

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)