Domain-agnostic Pre-trained Language Model for Tabular Data

Cho, Sanghyun;Choi, Jae-Hoon;Kwon, Hyuk-Chul;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2021.10a
/
Pages.346-349
/
2021
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Domain-agnostic Pre-trained Language Model for Tabular Data

도메인 변화에 강건한 사전학습 표 언어모형

Cho, Sanghyun (Dept. of Information Convergence Engineering) ;
Choi, Jae-Hoon (Dept. of Information Convergence Engineering) ;
Kwon, Hyuk-Chul (Dept. of Information Convergence Engineering)

조상현 (부산대학교 정보융합공학과) ;
최제훈 (부산대학교 정보융합공학과) ;
권혁철 (부산대학교 정보융합공학과)

Published : 2021.10.14

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

표 기계독해에서는 도메인에 따라 언어모형에 필요한 지식이나 표의 구조적인 형태가 변화하면서 텍스트 데이터에 비해서 더 큰 성능 하락을 보인다. 본 논문에서는 표 기계독해에서 이러한 도메인의 변화에 강건한 사전학습 표 언어모형 구축을 위한 의미있는 표 데이터 선별을 통한 사전학습 데이터 구축 방법과 적대적인 학습 방법을 제안한다. 추출한 표 데이터에서 구조적인 정보가 없이 웹 문서의 장식을 위해 사용되는 표 데이터 검출을 위해 Heuristic을 통한 규칙을 정의하여 HEAD 데이터를 식별하고 표 데이터를 선별하는 방법을 적용했으며, 구조적인 정보를 가지는 일반적인 표 데이터와 엔티티에 대한 지식 정보를 가지는 인포박스 데이터간의 적대적 학습 방법을 적용했다. 기존의 정제되지 않는 데이터로 학습했을 때와 비교하여 데이터를 정제하였을 때, KorQuAD 표 데이터에서 f1 3.45, EM 4.14가 증가하였으며, Spec 표 질의응답 데이터에서 정제하지 않았을 때와 비교하여 f1 19.38, EM 4.22가 증가한 성능을 보였다.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Domain-agnostic Pre-trained Language Model for Tabular Data

도메인 변화에 강건한 사전학습 표 언어모형

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)