Korean Baseball League Q&A System Using BERT MRC

BERT MRC를 활용한 한국 프로야구 Q&A 시스템

  • Seo, JungWoo (Kumoh National Institute of Technology, Dept. of Computer Software Engineering) ;
  • Kim, Changmin (Kumoh National Institute of Technology, Dept. of Computer Software Engineering) ;
  • Kim, HyoJin (Kumoh National Institute of Technology, Dept. of Computer Software Engineering) ;
  • Lee, Hyunah (Kumoh National Institute of Technology, Dept. of Computer Software Engineering)
  • 서정우 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 김창민 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 김효진 (금오공과대학교 컴퓨터소프트웨어공학과) ;
  • 이현아 (금오공과대학교 컴퓨터소프트웨어공학과)
  • Published : 2020.10.14

Abstract

매일 게시되는 다양한 프로야구 관련 기사에는 경기 결과, 각종 기록, 선수의 부상 등 다양한 정보가 뒤섞여있어, 사용자가 원하는 정보를 찾아내는 과정이 매우 번거롭다. 본 논문에서는 문서 검색과 기계 독해를 이용하여 야구 분야에 대한 Q&A 시스템을 제안한다. 기사를 형태소 분석하고 BM25 알고리즘으로 얻은 문서 가중치로 사용자 질의에 적합한 기사들을 선정하고 KorQuAD 1.0과 직접 구축한 프로야구 질의응답 데이터셋을 이용해 학습시킨 BERT 모델 기반 기계 독해로 답변 추출을 진행한다. 야구 특화 데이터 셋을 추가하여 학습시켰을 때 F1 score, EM 모두 15% 내외의 정확도 향상을 보였다.

Keywords