KorQuAD 2.0: 웹문서 기계독해를 위한 한국어 질의응답 데이터셋

KorQuAD 2.0: Korean QA Dataset for Web Document Machine Comprehension

  • 김영민 (LG CNS, AI빅데이터연구소) ;
  • 임승영 (LG CNS, AI빅데이터연구소) ;
  • 이현정 (LG CNS, AI빅데이터연구소) ;
  • 박소윤 (LG CNS, AI빅데이터연구소) ;
  • 김명지 (LG CNS, AI빅데이터연구소)
  • 발행 : 2019.10.10

초록

KorQuAD 2.0은 총 100,000+ 쌍으로 구성된 한국어 질의응답 데이터셋이다. 기존 질의응답 표준 데이터인 KorQuAD 1.0과의 차이점은 크게 세가지가 있는데 첫 번째는 주어지는 지문이 한두 문단이 아닌 위키백과 한 페이지 전체라는 점이다. 두 번째로 지문에 표와 리스트도 포함되어 있기 때문에 HTML tag로 구조화된 문서에 대한 이해가 필요하다. 마지막으로 답변이 단어 혹은 구의 단위뿐 아니라 문단, 표, 리스트 전체를 포괄하는 긴 영역이 될 수 있다. Baseline 모델로 구글이 오픈소스로 공개한 BERT Multilingual을 활용하여 실험한 결과 F1 스코어 46.0%의 성능을 확인하였다. 이는 사람의 F1 점수 85.7%에 비해 매우 낮은 점수로, 본 데이터가 도전적인 과제임을 알 수 있다. 본 데이터의 공개를 통해 평문에 국한되어 있던 질의응답의 대상을 다양한 길이와 형식을 가진 real world task로 확장하고자 한다.

키워드