Paragraph Re-Ranking and Paragraph Selection Method for Multi-Paragraph Machine Reading Comprehension

다중 지문 기계독해를 위한 단락 재순위화 및 세부 단락 선별 기법

  • Cho, Sanghyun (Dept. of Computer Science Pusan National University) ;
  • Kim, Minho (Dept. of Software Catholic University of Pusan) ;
  • Kwon, Hyuk-Chul (Dept. of Computer Science Pusan National University)
  • 조상현 (부산대학교 전기전자컴퓨터공학과) ;
  • 김민호 (부산가톨릭대학교 소프트웨어학과) ;
  • 권혁철 (부산대학교 전기전자컴퓨터공학과)
  • Published : 2020.10.14

Abstract

다중 지문 기계독해는 질문과 여러 개의 지문을 입력받고 입력된 지문들에서 추출된 정답 중에 하나의 정답을 출력하는 문제이다. 다중 지문 기계독해에서는 정답이 있을 단락을 선택하는 순위화 방법에 따라서 성능이 크게 달라질 수 있다. 본 논문에서는 단락 안에 정답이 있을 확률을 예측하는 단락 재순위화 모델과 선택된 단락에서 서술형 정답을 위한 세부적인 정답의 경계를 예측하는 세부 단락 선별 기법을 제안한다. 단락 순위화 모델 학습의 경우 모델 학습을 위해 각 단락의 출력에 softmax와 cross-entroy를 이용한 손실 값과 sigmoid와 평균 제곱 오차의 손실 값을 함께 학습하고 키워드 매칭을 함께 적용했을 때 KorQuAD 2.0의 개발셋에서 상위 1개 단락, 3개 단락, 5개 단락에서 각각 82.3%, 94.5%, 97.0%의 재현율을 보였다. 세부 단락 선별 모델의 경우 입력된 두 단락을 비교하는 duoBERT를 이용했을 때 KorQuAD 2.0의 개발셋에서 F1 83.0%의 성능을 보였다.

Keywords

Acknowledgement

이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No. 2013-0-00131, (엑소브레인-총괄/1세부)휴먼 지식 증강 서비스를 위한 지능진화형 WiseQA 플랫폼 기술 개발)