Mention Detection and Coreference Resolution Pipeline Model for Dialogue Data

대화 데이터를 위한 멘션 탐지 및 상호참조해결 파이프라인 모델

  • Kim, Damrin (Konkuk University Department of Artificial Intelligence) ;
  • Kim, Hongjin (Konkuk University Department of Artificial Intelligence) ;
  • Park, Seongsik (Konkuk University Department of Artificial Intelligence) ;
  • Kim, Harksoo (Konkuk University Computer Science and Engineering)
  • 김담린 (건국대학교 인공지능학과) ;
  • 김홍진 (건국대학교 인공지능학과) ;
  • 박성식 (건국대학교 인공지능학과) ;
  • 김학수 (건국대학교 컴퓨터공학부)
  • Published : 2021.10.14

Abstract

상호참조해결은 주어진 문서에서 상호참조해결의 대상이 될 수 있는 멘션을 추출하고, 같은 개체를 의미하는 멘션 쌍 또는 집합을 찾는 자연어처리 작업이다. 하나의 멘션 내에 멘션이 될 수 있는 다른 단어를 포함하는 중첩 멘션은 순차적 레이블링으로 해결할 수 없는 문제가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 멘션의 시작 단어의 위치를 여는 괄호('('), 마지막 위치를 닫는 괄호(')')로 태깅하고 이 괄호들을 예측하는 멘션 탐지 모델과 멘션 탐지 모델에서 예측된 멘션을 바탕으로 포인터 네트워크를 이용하여 같은 개체를 나타내는 멘션을 군집화하는 상호참조해결 모델을 제안한다. 실험 결과, 4개의 영어 대화 데이터셋에서 멘션 탐지 모델은 F1-score (Light) 94.17%, (AMI) 90.86%, (Persuasion) 92.93%, (Switchboard) 91.04%의 성능을 보이고, 상호참조해결 모델에서는 CoNLL F1 (Light) 69.1%, (AMI) 57.6%, (Persuasion) 71.0%, (Switchboard) 65.7%의 성능을 보인다.

Keywords

Acknowledgement

이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임 (No. 2020R1F1A1069737). 본 연구는 과학기술정보통신부 및 정보통신기획평가원의 대학ICT연구센터육성지원사업의 연구결과로 수행되었음 (IITP-2021-2016-0-00465)