KoCheckGPT: Korean LLM written document detector

KoCheckGPT: 한국어 초거대언어모델 작성 글 판별기

  • Myunghoon Kang (Department of Computer Science and Engineering, Korea University) ;
  • Jungseob Lee (Department of Computer Science and Engineering, Korea University) ;
  • Seungyoon Lee (Department of Computer Science and Engineering, Korea University) ;
  • Seongtae Hong (Department of Computer Science and Engineering, Korea University) ;
  • Jeongbae Park (Human-inspired AI Research) ;
  • Heuiseok, Lim (Department of Computer Science and Engineering, Korea University)
  • 강명훈 (고려대학교 컴퓨터학과) ;
  • 이정섭 (고려대학교 컴퓨터학과) ;
  • 이승윤 (고려대학교 컴퓨터학과) ;
  • 홍성태 (고려대학교 컴퓨터학과) ;
  • 박정배 (Human-inspired AI 연구소) ;
  • 임희석 (고려대학교 컴퓨터학과)
  • Published : 2023.10.12

Abstract

초거대언어모델(LLM)의 도래에 따라 다양한 과업들이 도메인 관계 없이 제로샷으로 추론이 가능해짐에 따라서 LLM이 다양한 산업분야에 적용되고 있다. 대표적으로 ChatGPT와 GPT-4는 상용 API로 서비스를 제공하여 용이한 서비스 접근으로 다양한 이용층을 끌어들이고 있다. 그러나 현재 상용 API로 제공되고 있는 ChatGPT 및 GPT-4는 사용자의 대화 내역 데이터를 수집해 기업의 보안 문제를 야기할 수 있고 또한 생성된 결과물의 환각 문제로 인한 기업 문서의 신뢰성 저하를 초래할 수 있다. 특히 LLM 생성 글은 인간의 글과 유사한 수준으로 유창성을 확보한만큼 산업현장에서 LLM 작성 글이 판별되지 못할 경우 기업 활동에 큰 제약을 줄 수 있다. 그러나 현재 한국어 LLM 작성 글 탐지 서비스가 전무한 실정이다. 본 논문에서는 한국어 초거대언어모델 작성 글 판별기: KoCheckGPT 를 제안한다.KoCheckGPT는 산업현장에서 자주 사용되는 문어체, 개조식 글쓰기로 작성된 문서 도메인을 목표로 하여 글 전체와 문장 단위의 판별 정보를 결합하여 주어진 문서의 LLM 작성 여부를 효과적으로 판별한다. 다국어 LLM 작성 글 판별기 ZeroGPT와의 비교 실험 결과 KoCheckGPT는 우수한 한국어 LLM 작성 글 탐지 성능을 보였다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기술기획평가원의 대학ICT연구센터지원사업의 연구결과로 수행되었음(IITP-2023-2018-0-01405). 이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기술기획평가원의 지원을 받아 수행된 연구임 (No. 2020-0-00368, 뉴럴-심볼릭(neural-symbolic) 모델의 지식 학습 및 추론 기술 개발). 이 논문은 2021년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(NRF-2021R1A6A1A03045425).