OK-KGD:오픈 도메인 한국어 지식 기반 대화 데이터셋 구축

OK-KGD:Open-domain Korean Knowledge Grounded Dialogue Dataset

  • 문선아 (한국전자기술연구원, 인공지능연구센터) ;
  • 김산 (한국전자기술연구원, 인공지능연구센터) ;
  • 장진예 (한국전자기술연구원, 인공지능연구센터) ;
  • 정민영 (한국전자기술연구원, 인공지능연구센터) ;
  • 신사임 (한국전자기술연구원, 인공지능연구센터)
  • Seona Moon (Korea Electronics Technology Institute, Artificial Intelligence Research Center) ;
  • San Kim (Korea Electronics Technology Institute, Artificial Intelligence Research Center) ;
  • Jinyea Jang (Korea Electronics Technology Institute, Artificial Intelligence Research Center) ;
  • Minyoung Jeung (Korea Electronics Technology Institute, Artificial Intelligence Research Center) ;
  • Saim Shin (Korea Electronics Technology Institute, Artificial Intelligence Research Center)
  • 발행 : 2023.10.12

초록

최근 자연어처리 연구 중 오픈 도메인 지식 기반 대화는 많은 관심을 받고 있다. 연구를 위해서는 오픈 도메인 환경을 갖추고 적절한 지식을 사용한 대화 데이터셋이 필요하다. 지금까지 오픈 도메인 환경을 갖춘 한국어 지식 기반 대화 데이터셋은 존재하지 않아 한국어가 아닌 데이터셋을 한국어로 기계번역하여 연구에 사용하였다. 이를 사용할 경우 두 가지 단점이 존재한다. 먼저 사용된 지식이 한국 문화에 익숙하지 않아 한국인이 쉽게 알 수 없는 대화 내용이 담겨있다. 그리고 번역체가 남아있어 대화가 자연스럽지 않다. 그래서 본 논문에서는 자연스러운 대화체와 대화 내용을 담기 위해 새로운 오픈 도메인 한국어 지식 기반 대화 데이터셋을 구축하였다. 오픈 도메인 환경 구축을 위해 위키백과와 나무위키의 지식을 사용하였고 사용자와 시스템의 발화로 이루어진 1,773개의 대화 세트를 구축하였다. 시스템 발화는 크게 지식을 사용한 발화, 사용자 질문에 대한 답을 주지 못한 발화, 그리고 지식이 포함되지 않은 발화 3가지로 구성된다. 이렇게 구축한 데이터셋을 통해 KE-T5와 Long-KE-T5를 사용하여 간단한 실험을 진행하였다.

키워드

과제정보

이 논문은 2023년도 정부 (과학기술정보통신부)의 재원으로 정보통신기획평가원(No. 2022-0-00320)의 지원을 받아 수행된 연구임