Korean End-to-End Coreference Resolution with BERT for Long Document

긴 문서를 위한 BERT 기반의 End-to-End 한국어 상호참조해결

  • Jo, Kyeongbin (Department of Big Data Medical Convergence, Kangwon National University) ;
  • Jung, Youngjun (Department of Big Data Medical Convergence, Kangwon National University) ;
  • Lee, Changki (Department of Big Data Medical Convergence, Kangwon National University) ;
  • Ryu, Jihee (Electronics and Telecommunications Research Institute) ;
  • Lim, Joonho (Electronics and Telecommunications Research Institute)
  • 조경빈 (강원대학교 빅데이터메디컬융합학과) ;
  • 정영준 (강원대학교 빅데이터메디컬융합학과) ;
  • 이창기 (강원대학교 빅데이터메디컬융합학과) ;
  • 류지희 (한국전자통신연구원) ;
  • 임준호 (한국전자통신연구원)
  • Published : 2021.10.14

Abstract

상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델이 주로 연구되었으나, 512 토큰 이상의 긴 문서를 처리하기 위해서는 512 토큰 이하로 문서를 분할하여 처리하기 때문에 길이가 긴 문서에 대해서는 상호참조해결 성능이 낮아지는 문제가 있다. 본 논문에서는 512 토큰 이상의 긴 문서를 위한 BERT 기반의 end-to-end 상호참조해결 모델을 제안한다. 본 모델은 긴 문서를 512 이하의 토큰으로 쪼개어 기존의 BERT에서 단어의 1차 문맥 표현을 얻은 후, 이들을 다시 연결하여 긴 문서의 Global Positional Encoding 또는 Embedding 값을 더한 후 Global BERT layer를 거쳐 단어의 최종 문맥 표현을 얻은 후, end-to-end 상호참조해결 모델을 적용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 모델과 유사한 성능을 보이면서(테스트 셋에서 0.16% 성능 향상), GPU 메모리 사용량은 1.4배 감소하고 속도는 2.1배 향상되었다.

Keywords

Acknowledgement

이 논문은 2021년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No.2013-2-00131, 휴먼 지식증강 서비스를 위한 지능 진화형 Wise QA 플랫폼 기술 개발).