A Model to Automatically Generate Non-verbal Expression Information for Korean Utterance Sentence

한국어 발화 문장에 대한 비언어 표현 정보를 자동으로 생성하는 모델

  • 김재윤 (한국전자기술연구원 인공지능연구센터) ;
  • 장진예 (한국전자기술연구원 인공지능연구센터) ;
  • 김산 (한국전자기술연구원 인공지능연구센터) ;
  • 정민영 (한국전자기술연구원 인공지능연구센터) ;
  • 강현욱 (전남대학교 기계공학부) ;
  • 신사임 (한국전자기술연구원 인공지능연구센터)
  • Published : 2023.10.12

Abstract

자연스러운 상호작용이 가능한 인공지능 에이전트를 개발하기 위해서는 언어적 표현뿐 아니라, 비언어적 표현 또한 고려되어야 한다. 본 논문에서는 한국어 발화문으로부터 비언어적 표현인 모션을 생성하는 연구를 소개한다. 유튜브 영상으로부터 데이터셋을 구축하고, Text to Motion의 기존 모델인 T2M-GPT와 이종 모달리티 데이터를 연계 학습한 VL-KE-T5의 언어 인코더를 활용하여 구현한 모델로 실험을 진행하였다. 실험 결과, 한국어 발화 텍스트에 대해 생성된 모션 표현은 FID 스코어 0.11의 성능으로 나타났으며, 한국어 발화 정보 기반 비언어 표현 정보 생성의 가능성을 보여주었다.

Keywords

Acknowledgement

이 논문은 2023년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원(No. 2022-0-00608)과 정보통신산업진흥원(S0102-23-1008)의 지원을 받아 수행된 연구임