A Study on the Construction of keyphrase dataset for paraphrase extraction

패러프레이즈 추출을 위한 키프레이즈 데이터셋 구축 방법론 연구

  • Kang, Hyerin (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
  • Kang, Yejee (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
  • park, Seoyoon (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
  • Jang, Yeonji (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
  • Kim, Hansaem
  • 강혜린 (연세대학교 언어정보학협동과정) ;
  • 강예지 (연세대학교 언어정보학협동과정) ;
  • 박서윤 (연세대학교 언어정보학협동과정) ;
  • 장연지 (연세대학교 언어정보학협동과정) ;
  • 김한샘 (연세대학교 언어정보연구원)
  • Published : 2020.10.14

Abstract

자연어 처리 응용 시스템이 패러프레이즈 표현을 얼마나 정확하게 포착하는가에 따라 응용 시스템의 성능 측면에서 차이가 난다. 따라서 자연어 처리의 응용 분야 전반에서 패러프레이즈 표현에 대한 중요성이 커지고 있다. 시스템의 성능 향상을 위해서는 모델을 학습시킬 충분한 말뭉치가 필요하다. 특히 이러한 패러프레이즈 말뭉치를 구축하기 위해서는 정확한 패러프레이즈 추출이 필수적이다. 따라서 본 연구에서는 패러프레이즈를 추출을 위한 언어 자원으로 키프레이즈 데이터셋을 제안하고 이를 기반으로 유사한 의미를 전달하는 패러프레이즈 관계의 문장을 추출하였다. 구축한 키프레이즈 데이터셋을 패러프레이즈 추출에 활용한다면 본 연구에서 수행한 것과 같은 간단한 방법으로 패러프레이즈 관계에 있는 문장을 찾을 수 있다는 것을 보였다.

Keywords