Korean Idiom Classification Using Word Embedding

워드 임베딩을 활용한 관용표현 인식 연구

  • Park, Seo-Yoon (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
  • Kang, Ye-Jee (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
  • Kang, Hye-Rin (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
  • Jang, Yeon-Ji (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
  • Kim, Han-Saem
  • 박서윤 (연세대학교 언어정보학협동과정) ;
  • 강예지 (연세대학교 언어정보학협동과정) ;
  • 강혜린 (연세대학교 언어정보학협동과정) ;
  • 장연지 (연세대학교 언어정보학협동과정) ;
  • 김한샘 (연세대학교 언어정보연구원)
  • Published : 2020.10.14

Abstract

우리가 쓰는 일상 언어 중에는 언어적 직관이 없는 사람은 의미 파악이 힘든 관용표현이 존재한다. 관용표현을 이해하기 위해서는 표현에 대한 형태적, 의미적 이해가 수반되어야 하기 때문이다. 기계도 마찬가지로 언어적 직관이 없기 때문에 관용표현에 대한 자연어 처리에는 어려움이 따른다. 특히 일반표현과 중의성 관계에 있는 관용표현의 특성이 고려되지 않은 채 문자적으로만 분석될 위험성이 높다. 본 연구에서는 '관용표현은 주변 문맥과의 관련성이 떨어진다'라는 가정을 중심으로 워드 임베딩을 활용한 관용표현과 일반표현에 대한 구분을 시도하였다. 실험은 4개 표현에 대해 이루어 졌으며 Skip-gram, Fasttext를 활용한 방법을 통해 관용표현은 주변 단어들과의 유사성이 떨어짐을 확인하였다.

Keywords