A Named Entity Recognition Platform Based on Semi-Automatically Built NE-annotated Corpora and KoBERT

반자동구축된 개체명 주석코퍼스 DecoNAC과 KoBERT를 이용한 개체명인식 플랫폼 DecoNERO

  • Kim, Shin-Woo (DICORA/Department of LCS, Hanguk University of Foreign Studies) ;
  • Hwang, Chang-Hoe (DICORA/Department of LCS, Hanguk University of Foreign Studies) ;
  • Yoon, Jeong-Woo (DICORA/Department of LCS, Hanguk University of Foreign Studies) ;
  • Lee, Seong-Hyeon (DICORA/Department of LCS, Hanguk University of Foreign Studies) ;
  • Choi, Soo-Won (DICORA/Department of LCS, Hanguk University of Foreign Studies) ;
  • Nam, Jee-Sun (DICORA/Department of LCS, Hanguk University of Foreign Studies)
  • 김신우 (한국외국어대학교 DICORA연구센터/언어인지과학과) ;
  • 황창회 (한국외국어대학교 DICORA연구센터/언어인지과학과) ;
  • 윤정우 (한국외국어대학교 DICORA연구센터/언어인지과학과) ;
  • 이성현 (한국외국어대학교 DICORA연구센터/언어인지과학과) ;
  • 최수원 (한국외국어대학교 DICORA연구센터/언어인지과학과) ;
  • 남지순 (한국외국어대학교 DICORA연구센터/언어인지과학과)
  • Published : 2020.10.14

Abstract

본 연구에서는 한국어 전자사전 DECO(Dictionnaire Electronique du COreen)와 다단어(Multi-Word Expressions: MWE) 개체명을 부분 패턴으로 기술하는 부분문법그래프(Local-Grammar Graph: LGG) 프레임에 기반하여 반자동으로 개체명주석 코퍼스 DecoNAC을 구축한 후, 이를 개체명 분석에 활용하고 또한 기계학습에 필요한 도메인별 학습 데이터로 활용하는 DecoNERO 개체명인식 플랫폼을 소개하는 데에 목적을 두었다. 최근 들어 좋은 성과를 보이는 것으로 보고되고 있는 기계학습 방법론들은 다양한 도메인을 기반으로한 대규모의 학습데이터를 필요로 한다. 본 연구에서는 정교하게 설계된 개체명 사전과 다단어 개체명 시퀀스에 대한 언어자원을 바탕으로 하는 반자동으로 학습데이터를 생성하는 방법론을 제안하였다. 본 연구에서 제안된 개체명주석 코퍼스 DecoNAC 기반 접근법의 성능을 실험하기 위해 온라인 뉴스 기사 텍스트를 바탕으로 실험을 진행하였다. 이 실험에서 DecoNAC을 적용한 경우, KoBERT 모델만으로 개체명을 인식한 결과에 비해 약 7.49%의 성능향상을 기대할 수 있음을 확인하였다.

Keywords