Construction of bilingually pre-trained language model from large-scaled Korean and English corpus

KE-T5: 한국어-영어 대용량 텍스트를 활용한 이중언어 사전학습기반 대형 언어모델 구축

  • Shin, Saim (Korea Electronics Technology Institute Artificial Intelligence research Center) ;
  • Kim, San (Korea Electronics Technology Institute Artificial Intelligence research Center) ;
  • Seo, Hyeon-Tae (Korea Electronics Technology Institute Artificial Intelligence research Center)
  • 신사임 (한국전자기술연구원 인공지능연구센터) ;
  • 김산 (한국전자기술연구원 인공지능연구센터) ;
  • 서현태 (한국전자기술연구원 인공지능연구센터)
  • Published : 2021.10.14

Abstract

본 논문은 한국어와 영어 코퍼스 93GB를 활용하여 구축한 대형 사전학습기반 언어모델인 KE-T5를 소개한다. KE-T5는 한국어와 영어 어휘 64,000개를 포함하는 대규모의 언어모델로 다양한 한국어처리와 한국어와 영어를 모두 포함하는 번역 등의 복합언어 태스크에서도 높은 성능을 기대할 수 있다. KE-T5의 활용은 대규모의 언어모델을 기반으로 영어 수준의 복잡한 언어처리 태스크에 대한 연구들을 본격적으로 시작할 수 있는 기반을 마련하였다.

Keywords

Acknowledgement

이 논문은 2021년도 정부 (과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (S1601-209-1034, 정서적 안정을 위한 인공지능기반 공감 서비스 기술 개발).