Scientific Paper Abstract Corpus and Automatic Abstract Structure Parsing using Pretrained Transformer

과학 논문 초록 말뭉치 구축 및 선학습 트랜스포머 기반 초록 자동구조화 방법

  • Kim, Seokyung (Department of Computer Science & Engineering, Chungnam National University) ;
  • Cho, Yunhui (Department of Computer Science & Engineering, Chungnam National University) ;
  • Heo, Sehun (Department of Computer Science & Engineering, Chungnam National University) ;
  • Jung, Sangkeun (Department of Computer Science & Engineering, Chungnam National University)
  • 김서경 (충남대학교 컴퓨터공학과) ;
  • 조윤희 (충남대학교 컴퓨터공학과) ;
  • 허세훈 (충남대학교 컴퓨터공학과) ;
  • 정상근 (충남대학교 컴퓨터공학과)
  • Published : 2020.10.14

Abstract

논문 초록은 논문의 내용을 요약해 제시함으로써 독자들의 연구결과물에 대한 빠른 검색과 이해를 도모한다. 초록의 구성은 대부분 전형적인 경우가 많기 때문에, 초록의 구조를 자동 분석하여 색인해두면 유사구조 초록을 검색하거나 생성하는 등의 연구효율화에 기여할 수 있다. 허세훈 외 (2019)는 초록 자동구조화를 위한 말뭉치 SPA2019 및 기계학습기반의 자동구조화 방법을 제시하였다. 본 연구는, 기존 SPA2019 의 구조화 오류를 바로잡고, SPA2019 에서 추출한 1,346 개의 초록데이터와 2,385 개의 초록데이터를 추가한 SPA2020 말뭉치를 새로이 소개한다. 또한, 다양한 선학습 기반 트랜스포머들을 활용하여 초록 자동구조화를 수행하였으며, 그 결과 BERT-0.86%, RoBERTa-0.86%, ALBERT-0.84%, XLNet-0.86%, DistilBERT-0.85% 등의 자동구조화 성능을 보임을 확인하였다.

Keywords

Acknowledgement

이 논문은 2020 년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No.2020-0-01441) 이 논문은 2019 년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(2019-0-00004, 준지도학습형 언어지능 원천기술 및 이에 기반한 외국인 지원용 한국어 튜터링 서비스 개발) 이 논문은 2019 년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(2019R1F1A1060601)