Cross-Lingual Transfer of Pretrained Transformers to Resource-Scarce Languages

사전 학습된 Transformer 언어 모델의 이종 언어 간 전이 학습을 통한 자원 희소성 문제 극복

  • Lee, Chanhee (Department of Computer Science and Engineering, Korea University) ;
  • Park, Chanjun (Department of Computer Science and Engineering, Korea University) ;
  • Kim, Gyeongmin (Department of Computer Science and Engineering, Korea University) ;
  • Oh, Dongsuk (Department of Computer Science and Engineering, Korea University) ;
  • Lim, Heuiseok (Department of Computer Science and Engineering, Korea University)
  • 이찬희 (고려대학교 정보대학 컴퓨터학과) ;
  • 박찬준 (고려대학교 정보대학 컴퓨터학과) ;
  • 김경민 (고려대학교 정보대학 컴퓨터학과) ;
  • 오동석 (고려대학교 정보대학 컴퓨터학과) ;
  • 임희석 (고려대학교 정보대학 컴퓨터학과)
  • Published : 2020.10.14

Abstract

사전 학습된 Transformer 기반 언어 모델은 자연어처리 시스템에 적용되었을 시 광범위한 사례에서 큰 폭의 성능 향상을 보여준다. 여기서 사전 학습에 사용되는 언어 모델링 태스크는 비지도 학습에 속하는 기술이기 때문에 상대적으로 데이터의 확보가 쉬운 편이다. 하지만 몇 종의 주류 언어를 제외한 대부분 언어는 활용할 수 있는 언어 자원 자체가 희소하며, 따라서 이러한 사전 학습 기술의 혜택도 누리기 어렵다. 본 연구에서는 이와 같은 상황에서 발생할 수 있는 자원 희소성 문제를 극복하기 위해 이종 언어 간 전이 학습을 이용하는 방법을 제안한다. 본 방법은 언어 자원이 풍부한 언어에서 학습된 Transformer 기반 언어 모델에서 얻은 파라미터 중 재활용 가능한 부분을 이용하여 목표 언어의 모델을 초기화한 후 학습을 진행한다. 또한, 기존 언어와 목표 언어의 차이를 학습하는 역할을 하는 적응층들을 추가하여 이종 언어 간 전이 학습을 돕는다. 제안된 방법을 언어 자원이 희귀한 상황에 대하여 실험해본 결과, 전이 학습을 사용하지 않은 기준 모델 대비 perplexity와 단어 예측의 정확도가 큰 폭으로 향상됨을 확인하였다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기술기획평가원의 대학ICT연구센터지원사업의 연구결과로 수행되었음(IITP-2020-2018-0-01405). 또한, 이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기술기획평가원의 지원을 받아 수행된 연구임 (No. 2020-0-00368, 뉴럴-심볼릭(neural-symbolic) 모델의 지식 학습 및 추론 기술 개발).