A Study on Categorization of Korean News Article based on CNN using Doc2Vec

Doc2Vec을 활용한 CNN기반 한국어 신문기사 분류에 관한 연구

  • Kim, Do-Woo (Sogang University, Graduate School of Information & Technology) ;
  • Koo, Myoung-Wan (Sogang University, Graduate School of Information & Technology)
  • 김도우 (서강대학교, 정보통신대학원) ;
  • 구명완 (서강대학교, 정보통신대학원)
  • Published : 2016.10.07

Abstract

본 논문에서는 word2vec과 doc2vec을 함께 CNN에 적용한 문서 분류 방안을 제안한다. 먼저 어절, 형태소, WPM(Word Piece Model)을 각각 사용하여 생성한 토큰(token)으로 doc2vec을 활용하여 문서를 vector로 표현한 후, 초보적인 문서 분류에 적용한 결과 WPM이 분류율 79.5%가 되어 3가지 방법 중 최고 성능을 보였다. 다음으로 CNN의 입력자질로써 WPM을 이용하여 생성한 토큰을 활용한 word2vec을 범주 10개의 문서 분류에 사용한 실험과 doc2vec을 함께 사용한 실험을 수행하였다. 실험 결과 word2vec만을 활용하였을 때 86.89%의 분류율을 얻었고, doc2vec을 함께 적용한 결과 89.51%의 분류율을 얻었다. 따라서 제안한 모델을 통해서 분류율이 2.62% 향상됨을 확인하였다.

Keywords