대화를 중심으로 다양한 멀티모달 융합정보를 포함하는 동영상 기반 인공지능 학습용 데이터셋 구축

Dialogue based multimodal dataset including various labels for machine learning research

  • 신사임 (전자부품연구원 인공지능연구센터) ;
  • 장진예 (전자부품연구원 인공지능연구센터) ;
  • 김보은 (전자부품연구원 인공지능연구센터) ;
  • 박한무 (전자부품연구원 인공지능연구센터) ;
  • 정혜동 (전자부품연구원 인공지능연구센터)
  • Shin, Saim (Artificial Intelligence Research Center, Korea Electronics Technology Institute) ;
  • Jang, Jinyea (Artificial Intelligence Research Center, Korea Electronics Technology Institute) ;
  • Kim, Boen (Artificial Intelligence Research Center, Korea Electronics Technology Institute) ;
  • Park, Hanmu (Artificial Intelligence Research Center, Korea Electronics Technology Institute) ;
  • Jung, Hyedong (Artificial Intelligence Research Center, Korea Electronics Technology Institute)
  • 발행 : 2019.10.10

초록

미디어방송이 다양해지고, 웹에서 소비되는 콘텐츠들 또한 멀티미디어 중심으로 재편되는 경향에 힘입어 인공지능 연구에 멀티미디어 콘텐츠를 적극적으로 활용하고자 하는 시도들이 시작되고 있다. 본 논문은 다양한 형태의 멀티모달 정보를 하나의 동영상 콘텐츠에 연계하여 분석하여, 통합된 형태의 융합정보 데이터셋을 구축한 연구를 소개하고자 한다. 구축한 인공지능 학습용 데이터셋은 영상/음성/언어 정보가 함께 있는 멀티모달 콘텐츠에 상황/의도/감정 정보 추론에 필요한 다양한 의미정보를 부착하여 활용도가 높은 인공지능 영상 데이터셋을 구축하여 공개하였다. 본 연구의 결과물은 한국어 대화처리 연구에 부족한 공개 데이터 문제를 해소하는데 기여하였고, 한국어를 중심으로 다양한 상황 정보가 함께 구축된 데이터셋을 통하여 다양한 상황 분석 기반 대화 서비스 응용 기술 연구에 활용될 것으로 기대할 수 있다.

키워드

과제정보

이 논문은 2019년도 정부 (과학기술정보통신부)의 재원으로 정보통신기술진흥센터의 지원을 받아 수행된 연구임 (2017-0-00255, 자율지능 디지털동반자 프레임워크 및 응용 연구 개발)