A Study on Evaluating Summarization Performance using Generative Al Model

Gyuri Choi;Seoyoon Park;Yejee Kang;Hansaem Kim;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
/
Pages.228-233
/
2023
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

생성형 AI 모델을 활용한 요약 성능 평가 연구

A Study on Evaluating Summarization Performance using Generative Al Model

최규리 (연세대학교 언어정보학협동과정) ;
박서윤 (연세대학교 언어정보학협동과정) ;
강예지 (연세대학교 언어정보학협동과정) ;
김한샘 (연세대학교 언어정보학협동과정)

Gyuri Choi (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
Seoyoon Park (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
Yejee Kang (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University) ;
Hansaem Kim (Interdisciplinary Graduate Program of Linguistics and Informatics, Yonsei University)

발행 : 2023.10.12

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

인간의 수동 평가 시 시간과 비용의 소모, 주석자 간의 의견 불일치, 평가 결과의 품질 등 불가피한 한계가 발생한다. 본 논문에서는 맥락을 고려하고 긴 문장 입출력이 가능한 ChatGPT를 활용한 한국어 요약문 평가가 인간 평가를 대체하거나 보조하는 것이 가능한가에 대해 살펴보았다. 이를 위해 ChatGPT가 생성한 요약문에 정량적 평가와 정성적 평가를 진행하였으며 정량적 지표로 BERTScore, 정성적 지표로는 일관성, 관련성, 문법성, 유창성을 사용하였다. 평가 결과 ChatGPT4의 경우 인간 수동 평가를 보조할 수 있는 가능성이 있음을 확인하였다. ChatGPT가 영어 기반으로 학습된 모델임을 고려하여 오류 발견 성능을 검증하고자 한국어 오류 요약문으로 추가 평가를 진행하였다. 그 결과 ChatGPT3.5와 ChatGPT4의 오류 요약 평가 성능은 불안정하여 인간을 보조하기에는 아직 어려움이 있음을 확인하였다.

키워드

ChatGPT;
BERTScore;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

생성형 AI 모델을 활용한 요약 성능 평가 연구

A Study on Evaluating Summarization Performance using Generative Al Model

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)