Multi-labeled Domain Detection Using CNN

CNN을 이용한 발화 주제 다중 분류

  • Choi, Kyoungho (Naver RND center, Clova Dialogue, Naver RND center, Clova NLP) ;
  • Kim, Kyungduk (Naver RND center, Clova Dialogue, Naver RND center, Clova NLP) ;
  • Kim, Yonghe (Naver RND center, Clova Dialogue, Naver RND center, Clova NLP) ;
  • Kang, Inho (Naver RND center, Clova Dialogue, Naver RND center, Clova NLP)
  • Published : 2017.10.13

Abstract

CNN(Convolutional Neural Network)을 이용하여 발화 주제 다중 분류 task를 multi-labeling 방법과, cluster 방법을 이용하여 수행하고, 각 방법론에 MSE(Mean Square Error), softmax cross-entropy, sigmoid cross-entropy를 적용하여 성능을 평가하였다. Network는 음절 단위로 tokenize하고, 품사정보를 각 token의 추가한 sequence와, Naver DB를 통하여 얻은 named entity 정보를 입력으로 사용한다. 실험결과 cluster 방법으로 문제를 변형하고, sigmoid를 output layer의 activation function으로 사용하고 cross entropy cost function을 이용하여 network를 학습시켰을 때 F1 0.9873으로 가장 좋은 성능을 보였다.

Keywords