An Automated Production System Design for Natural Language Processing Models Using Korean Pre-trained Model

한국어 사전학습 모델을 활용한 자연어 처리 모델 자동 산출 시스템 설계

  • Jihyoung Jang (School of Computer Science and Electrical Engineering, Handong Global University) ;
  • Hoyoon Choi (School of Computer Science and Electrical Engineering, Handong Global University) ;
  • Gun-woo Lee (Department of Machine Learning Data Research, Korea Institute of Science and Technology Information) ;
  • Myung-seok Choi (Department of Machine Learning Data Research, Korea Institute of Science and Technology Information) ;
  • Charmgil Hong (School of Computer Science and Electrical Engineering, Handong Global University)
  • 장지형 (한동대학교 전산전자공학부) ;
  • 최호윤 (한동대학교 전산전자공학부) ;
  • 이건우 (한국과학기술정보연구원 기계학습데이터연구단) ;
  • 최명석 (한국과학기술정보연구원 기계학습데이터연구단) ;
  • 홍참길 (한동대학교 전산전자공학부)
  • Published : 2022.10.18

Abstract

효과적인 자연어 처리를 위해 제안된 Transformer 구조의 등장 이후, 이를 활용한 대규모 언어 모델이자 사전학습 모델인 BERT, GPT, OPT 등이 공개되었고, 이들을 한국어에 보다 특화한 KoBERT, KoGPT 등의 사전학습 모델이 공개되었다. 자연어 처리 모델의 확보를 위한 학습 자원이 늘어나고 있지만, 사전학습 모델을 각종 응용작업에 적용하기 위해서는 데이터 준비, 코드 작성, 파인 튜닝 및 저장과 같은 복잡한 절차를 수행해야 하며, 이는 다수의 응용 사용자에게 여전히 도전적인 과정으로, 올바른 결과를 도출하는 것은 쉽지 않다. 이러한 어려움을 완화시키고, 다양한 기계 학습 모델을 사용자 데이터에 보다 쉽게 적용할 수 있도록 AutoML으로 통칭되는 자동 하이퍼파라미터 탐색, 모델 구조 탐색 등의 기법이 고안되고 있다. 본 연구에서는 한국어 사전학습 모델과 한국어 텍스트 데이터를 사용한 자연어 처리 모델 산출 과정을 정형화 및 절차화하여, 궁극적으로 목표로 하는 예측 모델을 자동으로 산출하는 시스템의 설계를 소개한다.

Keywords

Acknowledgement

본 연구는 2022년 한국과학기술정보연구원(KISTI)의 위탁연구 과제로 수행한 "기계학습 모델 개발, 공유 및 코드 품질 계측 방법론 연구"의 일부분임. 이 논문은 과학기술정보통신부의 소프트웨어중심대학 지원사업 (2017-0-00130)의 지원을 받아 수행하였음.