BERT-based Data Augmentation Techniques for Korean Coreference Resolution

Kim, Kihun;Lee, Changki;Ryu, Jihee;Lim, Joonho;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2020.10a
/
Pages.249-253
/
2020
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

BERT-based Data Augmentation Techniques for Korean Coreference Resolution

한국어 상호참조해결을 위한 BERT 기반 데이터 증강 기법

Kim, Kihun (Kangwon National University) ;
Lee, Changki (Kangwon National University) ;
Ryu, Jihee (Electronics and Telecommunications Research Institute) ;
Lim, Joonho (Electronics and Telecommunications Research Institute)

김기훈 (강원대학교 컴퓨터과학과) ;
이창기 (강원대학교 컴퓨터과학과) ;
류지희 (한국전자통신 연구원) ;
임준호 (한국전자통신 연구원)

Published : 2020.10.14

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

상호참조해결은 문서 내에 등장하는 모든 멘션 중에서 같은 의미를 갖는 대상(개체)들을 하나의 집합으로 묶어주는 자연어처리 태스크이다. 한국어 상호참조해결의 학습 데이터는 영어권에 비해 적은 양이다. 데이터 증강 기법은 부족한 학습 데이터를 증강하여 기계학습 기반 모델의 성능을 향상시킬 수 있는 방법 중 하나이며, 주로 규칙 기반 데이터 증강 기법이 연구되고 있다. 그러나 규칙 기반으로 데이터를 증강하게 될 경우 규칙 조건을 만족하지 못했을 때 데이터 증강이 힘들다는 문제점과 임의로 단어를 변경 혹은 삭제하는 과정에서 문맥에 영향을 주는 문제점이 발생할 수 있다. 따라서 본 논문에서는 BERT의 MLM(Masked Language Model)을 이용하여 기존 규칙기반 데이터 증강 기법의 문제점을 해결하고 한국어 상호참조해결 데이터를 증강하는 방법을 소개한다. 실험 결과, ETRI 질의응답 도메인 상호참조해결 데이터에서 CoNLL F1 1.39% (TEST) 성능 향상을 보였다.

Keywords

BERT

Acknowledgement

이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No.2013-2-00131, 휴먼 지식증강 서비스를 위한 지능진화형 Wise QA 플랫폼 기술 개발)

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

BERT-based Data Augmentation Techniques for Korean Coreference Resolution

한국어 상호참조해결을 위한 BERT 기반 데이터 증강 기법

Abstract

Keywords

Acknowledgement

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)