Parameter-Efficient Multi-Modal Highlight Detection via Prompting

DongHoon Han;Seong-Uk Nam;Eunhwan Park;Nojun Kwak;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2023.10a
/
Pages.372-376
/
2023
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Parameter-Efficient Multi-Modal Highlight Detection via Prompting

Prompting 기반 매개변수 효율적인 멀티 모달 영상 하이라이트 검출 연구

DongHoon Han (Buzzni AI Lab) ;
Seong-Uk Nam (Buzzni AI Lab) ;
Eunhwan Park (Buzzni AI Lab) ;
Nojun Kwak (Seoul National University)

한동훈 (버즈니AI 연구소) ;
남성욱 (버즈니AI 연구소) ;
박은환 (버즈니AI 연구소) ;
곽노준 (서울대학교)

Published : 2023.10.12

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 연구에서는 비디오 하이라이트 검출 및 장면 추출을 위한 경량화된 모델인 Visual Context Learner (VCL)을 제안한다. 기존 연구에서는 매개변수가 고정된 CLIP을 비롯한 여러 피쳐 추출기에 학습 가능한 DETR과 같은 트랜스포머를 이어붙여서 학습을 한다. 하지만 본 연구는 경량화된 구조로 하이라이트 검출 성능을 개선시킬 수 있음을 보인다. 그리고 해당 형태로 장면 추출도 가능함을 보이며 장면 추출의 추가 연구 가능성을 시사한다. VCL은 매개변수가 고정된 CLIP에 학습가능한 프롬프트와 MLP로 하이라이트 검출과 장면 추출을 진행한다. 총 2,141개의 학습가능한 매개변수를 사용하여 하이라이트 검출의 HIT@1(>=Very Good) 성능을 기존 CLIP보다 2.71% 개선된 성능과 최소한의 장면 추출 성능을 보인다.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Parameter-Efficient Multi-Modal Highlight Detection via Prompting

Prompting 기반 매개변수 효율적인 멀티 모달 영상 하이라이트 검출 연구

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)