A Sentiment Analysis of Internet Movie Reviews Using String Kernels

문자열 커널을 이용한 인터넷 영화평의 감정 분석

  • Kim, Sang-Do (Department of Computer Engineering, Kyungpook National University) ;
  • Yoon, Hee-Geun (Department of Computer Engineering, Kyungpook National University) ;
  • Park, Seong-Bae (Department of Computer Engineering, Kyungpook National University) ;
  • Park, Se-Young (Department of Computer Engineering, Kyungpook National University) ;
  • Lee, Sang-Jo (Department of Computer Engineering, Kyungpook National University)
  • Published : 2009.10.09

Abstract

오늘날 인터넷은 개인의 감정, 의견을 서로 공유할 수 있는 공간이 되고 있다. 하지만 인터넷에는 너무나 방대한 문서가 존재하기 때문에 다른 사용자들의 감정, 의견 정보를 개인의 의사 결정에 활용하기가 쉽지 않다. 최근 들어 감정이나 의견을 자동으로 추출하기 위한 연구가 활발하게 진행되고 있으며, 감정 분석에 관한 기존 연구들은 대부분 어구의 극성(polarity) 정보가 있는 감정 사전을 사용하고 있다. 하지만 인터넷에는 나날이 신조어가 새로 생기고 언어 파괴 현상이 자주 일어나기 때문에 사전에 기반한 방법은 한계가 있다. 본 논문은 감정 분석 문제를 긍정과 부정으로 구분하는 이진 분류 문제로 본다. 이진 분류 문제에서 탁월한 성능을 보이는 Support Vector Machines(SVM)을 사용하며, 문서들 간의 유사도 계산을 위해 문장의 부분 문자열을 비교하는 문자열 커널을 사용한다. 실험 결과, 실제 영화평에서 제안된 모델이 비교 대상으로 삼은 Bag of Words(BOW) 모델보다 안정적인 성능을 보였다.

Keywords