News in a Nutshell: A Korean Headline-Style Summarization Dataset

요점만 남긴 신문 기사: 한국어 표제 형식 문서 요약 데이터셋

  • Kwon, Hongseok (Pohang University of Science and Technology, Department of Computer Science and Engineering) ;
  • Go, Byunghyun (Pohang University of Science and Technology, Department of Computer Science and Engineering) ;
  • Park, Juhong (Pohang University of Science and Technology, Department of Computer Science and Engineering) ;
  • Lee, Myungjee (Pohang University of Science and Technology, Department of Computer Science and Engineering) ;
  • Oh, Jaeyoung (Pohang University of Science and Technology, Department of Computer Science and Engineering) ;
  • Heo, Dam (Pohang University of Science and Technology, Department of Computer Science and Engineering) ;
  • Lee, Jonghyeok (Pohang University of Science and Technology, Graduate School of Artificial Intelligence)
  • 권홍석 (포항공과대학교 컴퓨터공학과) ;
  • 고병현 (포항공과대학교 컴퓨터공학과) ;
  • 박주홍 (포항공과대학교 컴퓨터공학과) ;
  • 이명지 (포항공과대학교 컴퓨터공학과) ;
  • 오재영 (포항공과대학교 컴퓨터공학과) ;
  • 허담 (포항공과대학교 컴퓨터공학과) ;
  • 이종혁 (포항공과대학교 인공지능대학원)
  • Published : 2020.10.14

Abstract

문서 요약은 주어진 문서에서 핵심 내용만을 남긴 간결한 요약문을 생성하는 일로 자연어처리의 주요 분야 중 하나이다. 최근 방대한 데이터로부터 심층 신경망 표상을 학습하는 기술의 발전으로 문서 요약 기술이 급진적으로 진화했다. 이러한 데이터 기반 접근 방식에는 모델의 학습을 위한 양질의 데이터가 필요하다. 그러나 한국어와 같이 잘 알려지지 않은 언어에 대해서는 데이터의 획득이 쉽지 않고, 이를 구축하는 것은 많은 시간과 비용을 필요로 한다. 본 논문에서는 한국어 문서 요약을 위한 대용량 데이터셋을 소개한다. 데이터셋은 206,822개의 기사-요약 쌍으로 구성되며, 요약은 표제 형식의 여러 문장으로 되어 있다. 우리는 구축한 학습 데이터의 적합성을 검증하기 위해 수동 평가 및 여러 주요 속성에 대해 분석하고, 기존 여러 문서 요약 시스템에 학습 및 평가하여 향후 문서 요약 벤치마크 데이터셋으로써 기준선을 제시한다. 데이터셋은 https://github.com/hong8e/KHS.git의 스크립트를 통해 내려받을 수 있다.

Keywords

Acknowledgement

이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(No. 2019-0-01906, 인공지능대학원지원(포항공과대학교))과 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 ICT명품인재양성사업의 연구결과로 수행되었음. (IITP-2020-2011-1-00783)