문장 난이도 측정을 위한 도메인 특화 언어 모델 연구

Domain Specific Language Models to Measure Sentence Difficulty

  • 왕규현 (웅진씽크빅, 에듀테크연구소) ;
  • 오동규 (웅진씽크빅, 에듀테크연구소) ;
  • 이수진 (웅진씽크빅, 에듀테크연구소)
  • 발행 : 2023.10.12

초록

사전 학습된 언어 모델은 최근 다양한 도메인 및 응용태스크에 활용되고 있다. 하지만 언어 모델을 활용한 문장 난이도 측정 태스크에 대해서는 연구가 수행된 바 없다. 이에 본 논문에서는 교과서 데이터를 활용해 문장 난이도 데이터 셋을 구축하고, 일반 말뭉치로 훈련된 BERT 모델과 교과서 텍스트를 활용해 적응 학습한 BERT 모델을 문장 난이도 측정 태스크에 대해 미세 조정하여 성능을 비교했다.

키워드