Contents-Based Korean SMS Spam Filtering Using Morpheme Unit Features

형태소 단위 자질을 이용한 콘텐츠 기반 한국어 SMS 스팸 필터링

  • Sohn, Dae-Neung (Dept. of Computer and Radio Communications Engineering, Korea University) ;
  • Shin, Joong-Hwi (Dept. of Computer and Radio Communications Engineering, Korea University) ;
  • Lee, Jung-Tae (Dept. of Computer and Radio Communications Engineering, Korea University) ;
  • Lee, Seung-Wook (Dept. of Computer and Radio Communications Engineering, Korea University) ;
  • Rim, Hae-Chang (Dept. of Computer and Radio Communications Engineering, Korea University)
  • 손대능 (고려대학교 컴퓨터.전파통신공학과) ;
  • 신중휘 (고려대학교 컴퓨터.전파통신공학과) ;
  • 이정태 (고려대학교 컴퓨터.전파통신공학과) ;
  • 이승욱 (고려대학교 컴퓨터.전파통신공학과) ;
  • 임해창 (고려대학교 컴퓨터.전파통신공학과)
  • Published : 2008.10.10

Abstract

본 논문에서는 형태소 분석을 이용한 확률 기반 한국어 SMS 스팸 필터링 기법을 제안한다. 기존 연구에서는 단어 및 문자 단위 어휘 정보를 자질로 이용한 영어 및 스페인어 SMS 스팸 필터링 방법들이 있다. 하지만 교착어인 한국어의 경우, 어근과 접사의 조합에 의해서 다양한 어절이 형성될 수 있다. 따라서 어절단위 어휘 정보를 자질로 사용할 경우, 미등록어(out of vocabulary) 문제가 발생한다. 특히, 매우 적은 수의 단어들로 구성된 SMS 메시지의 경우에는 이 문제가 매우 심각하다. 본 논문에서는 형태소 분석을 이용하여 이러한 문제점을 해결하고자 하였다. 실험 결과, 제안하는 방법은 기존 연구와 비교하여 10.6%의 스팸 분류 정확률 향상을 보였다. 또한 미등록어만을 포함하는 SMS 메시지의 수는 약 77% 감소하였다.

Keywords