KoCheckGPT: Korean LLM written document detector

Myunghoon Kang;Jungseob Lee;Seungyoon Lee;Seongtae Hong;Jeongbae Park;Heuiseok, Lim;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2023.10a
/
Pages.432-436
/
2023
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

KoCheckGPT: Korean LLM written document detector

KoCheckGPT: 한국어 초거대언어모델 작성 글 판별기

Myunghoon Kang (Department of Computer Science and Engineering, Korea University) ;
Jungseob Lee (Department of Computer Science and Engineering, Korea University) ;
Seungyoon Lee (Department of Computer Science and Engineering, Korea University) ;
Seongtae Hong (Department of Computer Science and Engineering, Korea University) ;
Jeongbae Park (Human-inspired AI Research) ;
Heuiseok, Lim (Department of Computer Science and Engineering, Korea University)

강명훈 (고려대학교 컴퓨터학과) ;
이정섭 (고려대학교 컴퓨터학과) ;
이승윤 (고려대학교 컴퓨터학과) ;
홍성태 (고려대학교 컴퓨터학과) ;
박정배 (Human-inspired AI 연구소) ;
임희석 (고려대학교 컴퓨터학과)

Published : 2023.10.12

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

초거대언어모델(LLM)의 도래에 따라 다양한 과업들이 도메인 관계 없이 제로샷으로 추론이 가능해짐에 따라서 LLM이 다양한 산업분야에 적용되고 있다. 대표적으로 ChatGPT와 GPT-4는 상용 API로 서비스를 제공하여 용이한 서비스 접근으로 다양한 이용층을 끌어들이고 있다. 그러나 현재 상용 API로 제공되고 있는 ChatGPT 및 GPT-4는 사용자의 대화 내역 데이터를 수집해 기업의 보안 문제를 야기할 수 있고 또한 생성된 결과물의 환각 문제로 인한 기업 문서의 신뢰성 저하를 초래할 수 있다. 특히 LLM 생성 글은 인간의 글과 유사한 수준으로 유창성을 확보한만큼 산업현장에서 LLM 작성 글이 판별되지 못할 경우 기업 활동에 큰 제약을 줄 수 있다. 그러나 현재 한국어 LLM 작성 글 탐지 서비스가 전무한 실정이다. 본 논문에서는 한국어 초거대언어모델 작성 글 판별기: KoCheckGPT 를 제안한다.KoCheckGPT는 산업현장에서 자주 사용되는 문어체, 개조식 글쓰기로 작성된 문서 도메인을 목표로 하여 글 전체와 문장 단위의 판별 정보를 결합하여 주어진 문서의 LLM 작성 여부를 효과적으로 판별한다. 다국어 LLM 작성 글 판별기 ZeroGPT와의 비교 실험 결과 KoCheckGPT는 우수한 한국어 LLM 작성 글 탐지 성능을 보였다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기술기획평가원의 대학ICT연구센터지원사업의 연구결과로 수행되었음(IITP-2023-2018-0-01405). 이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기술기획평가원의 지원을 받아 수행된 연구임 (No. 2020-0-00368, 뉴럴-심볼릭(neural-symbolic) 모델의 지식 학습 및 추론 기술 개발). 이 논문은 2021년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(NRF-2021R1A6A1A03045425).

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

KoCheckGPT: Korean LLM written document detector

KoCheckGPT: 한국어 초거대언어모델 작성 글 판별기

Abstract

Keywords

Acknowledgement

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)