Embedding with different levels for idiom disambiguation

관용표현 중의성 해소를 위한 다층위 임베딩 연구

  • Park, Seo-Yoon (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
  • Kang, Ye-Jee (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
  • Kang, Hye-Rin (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
  • Jang, Yeon-Ji (National Institute of Korean Language) ;
  • Kim, Han-Saem (Institute of Language and Information Studies, Yonsei University)
  • 박서윤 (연세대학교 언어정보학협동과정) ;
  • 강예지 (연세대학교 언어정보학협동과정) ;
  • 강혜린 (연세대학교 언어정보학협동과정) ;
  • 장연지 (국립국어원) ;
  • 김한샘 (연세대학교 언어정보연구원)
  • Published : 2021.10.14

Abstract

관용표현 중에는 중의성을 가진 표현이 많다. 즉 하나의 표현이 맥락에 따라 일반적 의미와 관용적 의미 두 가지 이상으로 해석될 가능성이 있어 이런 유형의 관용표현을 중의성 해소 없이 자연어 처리 태스크에 적용할 경우 문제가 발생하게 된다. 본 연구에서는 관용표현의 특성인 중의성과 더불어 '관용표현은 이미 사용자의 머릿속에 하나의 토큰으로 저장되어 있다'라는 'Idiom Principle'을 바탕으로 관용표현에 대해 각각 표면형, 단순 단일 토큰형, stemming 단일 토큰형 층위의 임베딩을 만들어 관용표현 분류 연구를 진행하였으며, 실험 결과 표면형 및 stemming을 적용하지 않은 단순 단일 토큰으로 학습하는 것보다, stemming을 적용한 후 단일 토큰으로 학습하는 것이 관용표현의 중의성 해소에 유의미한 효과가 있음을 확인하였다.

Keywords