생성형 AI 모델을 활용한 요약 성능 평가 연구

A Study on Evaluating Summarization Performance using Generative Al Model

  • 최규리 (연세대학교 언어정보학협동과정) ;
  • 박서윤 (연세대학교 언어정보학협동과정) ;
  • 강예지 (연세대학교 언어정보학협동과정) ;
  • 김한샘 (연세대학교 언어정보학협동과정)
  • Gyuri Choi (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
  • Seoyoon Park (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
  • Yejee Kang (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
  • Hansaem Kim (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University)
  • 발행 : 2023.10.12

초록

인간의 수동 평가 시 시간과 비용의 소모, 주석자 간의 의견 불일치, 평가 결과의 품질 등 불가피한 한계가 발생한다. 본 논문에서는 맥락을 고려하고 긴 문장 입출력이 가능한 ChatGPT를 활용한 한국어 요약문 평가가 인간 평가를 대체하거나 보조하는 것이 가능한가에 대해 살펴보았다. 이를 위해 ChatGPT가 생성한 요약문에 정량적 평가와 정성적 평가를 진행하였으며 정량적 지표로 BERTScore, 정성적 지표로는 일관성, 관련성, 문법성, 유창성을 사용하였다. 평가 결과 ChatGPT4의 경우 인간 수동 평가를 보조할 수 있는 가능성이 있음을 확인하였다. ChatGPT가 영어 기반으로 학습된 모델임을 고려하여 오류 발견 성능을 검증하고자 한국어 오류 요약문으로 추가 평가를 진행하였다. 그 결과 ChatGPT3.5와 ChatGPT4의 오류 요약 평가 성능은 불안정하여 인간을 보조하기에는 아직 어려움이 있음을 확인하였다.

키워드