Syllable-based Korean Named Entity Recognition and Slot Filling with ELECTRA

ELECTRA 모델을 이용한 음절 기반 한국어 개체명 인식과 슬롯 필링

  • 도수종 (AIRS 컴퍼니, 현대자동차) ;
  • 박천음 (AIRS 컴퍼니, 현대자동차) ;
  • 이청재 (AIRS 컴퍼니, 현대자동차) ;
  • 한규열 (AIRS 컴퍼니, 현대자동차) ;
  • 이미례 (AIRS 컴퍼니, 현대자동차)
  • Published : 2020.10.14

Abstract

음절 기반 모델은 음절 하나가 모델의 입력이 되며, 형태소 분석을 기반으로 하는 모델에서 발생하는 에러 전파(error propagation)와 미등록어 문제를 회피할 수 있다. 개체명 인식은 주어진 문장에서 고유한 의미를 갖는 단어를 찾아 개체 범주로 분류하는 자연어처리 태스크이며, 슬롯 필링(slot filling)은 문장 안에서 의미 정보를 추출하는 자연어이해 태스크이다. 본 논문에서는 자동차 도메인 슬롯 필링 데이터셋을 구축하며, 음절 단위로 한국어 개체명 인식과 슬롯 필링을 수행하고, 성능 향상을 위하여 한국어 대용량 코퍼스를 음절 단위로 사전학습한 ELECTRA 모델 기반 학습방법을 제안한다. 실험 결과, 국립국어원 문어체 개체명 데이터셋에서 F1 88.93%, ETRI 데이터셋에서는 F1 94.85%, 자동차 도메인 슬롯 필링에서는 F1 94.74%로 우수한 성능을 보였다. 이에 따라, 본 논문에서 제안한 방법이 의미있음을 알 수 있다.

Keywords