지식증류를 활용한 지속적 한국어 개체명 인식

Continuous Korean Named Entity Recognition Using Knowledge Distillation

  • 장준서 (건국대학교 인공지능학과) ;
  • 박성식 (건국대학교 인공지능학과) ;
  • 김학수 (건국대학교 인공지능학과)
  • Junseo Jang (Department of Artificial Intelligence, Konkuk University) ;
  • Seongsik Park (Department of Artificial Intelligence, Konkuk University) ;
  • Harksoo Kim (Department of Artificial Intelligence, Konkuk University)
  • 발행 : 2023.10.12

초록

개체명 인식은 주어진 텍스트에서 특정 유형의 개체들을 식별하고 추출하는 작업이다. 일반적인 딥러닝 기반 개체명 인식은 사전에 개체명들을 모두 정의한 뒤 모델을 학습한다. 하지만 실제 학습 환경에서는 지속적으로 새로운 개체명이 등장할 수 있을뿐더러 기존 개체명을 학습한 데이터가 접근이 불가할 수 있다. 또한, 새로 모델을 학습하기 위해 새로운 데이터에 기존 개체명을 수동 태깅하기엔 많은 시간과 비용이 든다. 해결 방안으로 여러 방법론이 제시되었지만 새로운 개체명을 학습하는 과정에서 기존 개체명 지식에 대한 망각 현상이 나타났다. 본 논문에서는 지식증류를 활용한 지속학습이 한국어 개체명 인식에서 기존 지식에 대한 망각을 줄이고 새로운 지식을 학습하는데 효과적임을 보인다. 국립국어원에서 제공한 개체명 인식 데이터로 실험과 평가를 진행하여 성능의 우수성을 보인다.

키워드

과제정보

이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No. 2020-0-00368, 뉴럴-심볼릭(neural-symbolic) 모델의 지식 학습 및 추론 기술 개발)