DOI QR코드

DOI QR Code

The Study of Enhancing Cross-Model Generalization for Deepfake Detection: A Multi-Modal Feature Learning Approach

생성형 딥페이크 탐지를 위한 교차 모델 성능 향상 연구: 자가 탐지 기반 탐지 프레임워크를 중심으로

  • 안소희 (연세대학/기술경영협동과정) ;
  • 윤철희 (경찰대학/첨단교통센터)
  • Received : 2024.12.19
  • Accepted : 2025.03.26
  • Published : 2025.03.31

Abstract

The recent rapid development of deep learning technology has made it easier to produce deepfakes, which are extremely realistic synthetic media. In particular, the development of generative models such as GAN (generative adversarial network) has created an environment in which even ordinary people can easily create high-quality counterfeit content, and this development of technology is causing serious social problems such as invasion of personal privacy, dissemination of false information, and financial fraud. In this study, a novel deepfake detection framework is proposed based on multi-modal feature learning. The proposed method is designed with a multi-stream neural network that comprehensively utilizes the spatial attributes of images, the temporal dynamics of videos, and the distinct characteristics of audio. Furthermore, a cross-attention mechanism is introduced to effectively utilize the mutual information among different modalities.

최근 딥러닝 기술의 비약적인 발전으로 인해 극도로 사실적인 합성 미디어인 딥페이크의 제작이 용이해졌다. 특히 GAN(generative adversarial network)과 같은 생성 모델의 발전은 일반인도 쉽게 고품질의 위조 콘텐츠를 생성할 수있는 환경을 조성하였으며, 이러한 기술의 발전은 개인의 프라이버시 침해, 허위정보 유포, 금융 사기 등 심각한 사회적 문제를 야기하고 있다. 새로운 딥페이크 기술로 생성한 콘텐츠가 확산될 때 가설 기반 콘텐츠의 정보 분포를 활용하여 자가 진화가 가능한 딥페이크 탐지 시스템 기술 개발 높은 정확도를 기반으로 음성과 이미지 그리고 영상 등 다양한 모달리티를 통합하여 탐지할 수 있는 딥페이크 탐지 연구가 필요하며, 본 논문에서는 다중 모달 특성 학습에 기반한 새로운 생성형 딥페이크 탐지 프레임워크를 제안한다. 제안된 방법은 이미지의 공간적 특성, 비디오의 시간적 특성, 그리고 오디오 특성을 통합적으로 활용하는 다중 스트림 신경망 구조를 기반으로 하며, 교차 주의집중 메커니즘을 도입하여 각 모달리티 간의 상호 정보를 효과적으로 활용하여, 생성형 딥페이크 탐지를 개선하였다.

Keywords

1. 서론

디지털 미디어 시대가 도래하면서 정보의 진위 여부는 현대 사회에서 핵심적인 문제로 떠오르고 있다. 특히, 딥러닝 기술의 급속한 발전으로 등장한 딥페이크(deepfake) 기술은 디지털 미디어의 신뢰성을 근본적으로 위협하며 정교해져, 현재는 전문가조차 육안으로 식별하기 어려운 수준에 이르렀다. 이는 단순한 기술 발전을 넘어 사회적 신뢰 체계를 흔드는 심각한 문제로 부각되고 있다.[1] 딥페이크는 인식론적 측면에서 디지털 시대에 ‘진실’을 어떻게 정의하고 검증할 것인가에 대한 중요한 논란을 불러일으킨다. 이는 딥페이크가 기존의 진실 검증 방식인 비판적 사고(critical thinking)와 합리적 의심(skepticism)을 어렵게 만들기 때문이다. 그 결과, 정보의 진위 판단이 더욱 어려워지며, 위조된 출처와 맥락, 허위적인 투명성, 왜곡된 신뢰성을 통해 진실이 변질될 위험을 초래한다. 따라서 새로운 진실 검증 방식이 요구되며, 기술적 신뢰성 증명(epistemic authentication), 블록체인(blockchain) 기반의 분산형 기술, 맥락 기반의 진실성 평가(contextual epistemology), 콘텐츠 생성 (사회적, 정치적, 역사적 맥락) 종합적 분석, 다층적 검증 및 지식융합(knowledge fusion)과 같은 대안이 필요한 시점이다.[2]

또한, 딥페이크 기술은 생성(generation)과 탐지(detection) 간의 교차적인 경쟁 속에서 통제할 수 없을 정도로 급격히 발전하고 있다. 딥페이크 생성 기술의 경우, GAN, CNN, RNN, Transformer 모델 등의 발전이 가속화되고 있으며, 탐지 관련 기술 또한 공간적 특성 분석(spatial features), 주파수 영역 분석(frequency features), 생체 신호 분석(biological signals), 대규모 언어 모델(Large Language Model, LLM), 검색 기반 생성 시스템(Retrieval-Augmented Generation, RAG) 등 콘텐츠 맥락 분석(content-context analysis)을 기반으로 빠르게 진화하고 있다.[2]

현대 사회에서 딥페이크가 미치는 영향은 개인의 프라이버시 침해에서부터 사회 전반의 정보 신뢰성 훼손, 가짜뉴스(fake news)의 확산 및 여론 조작, 경제적 피해 및 금융사기, 사회적 신뢰도 하락 및 불신 확산, 법적 및 윤리적 문제 발생, 사회적 갈등 및 혐오 조장 등의 위험과 직결되어 있다. 이러한 문제의식을 바탕으로, 본 논문에서는 앞서 언급한 인식론적 측면에서의 진실성 검증을 기술적 관점에서 접근하여, 다중 모달 특성 학습(multi-modal feature learning)을 기반으로 한 새로운 딥페이크 탐지 프레임워크를 제안하고자 한다.

2. 딥페이크 기술의 생성과 탐지

2.1 딥페이크 선행 연구

딥페이크 생성 기술은 인공지능과 컴퓨터 비전 분야의 이론적 기반을 토대로 초기에는 단순한 이미지 변환에 의존하였으나, 딥러닝 기술의 발전에 따라 보다 정교한 방식으로 진화해 왔다. 첫 세대 딥페이크 기술은 오토인코더 구조의 이론적 원리에 기반했다. 오토인코더는 입력 데이터를 저차원의 잠재 공간으로 압축하고 다시 복원하는 과정에서 데이터의 본질적 특성을 학습하는데, 이러한 원리를 활용하여 얼굴 교체(face swapping) DeepFakes와 FaceSwap과 같은 초기 모델들이 구현되었다.[3] 두 번째 세대는 3D 모델링 이론과 딥러닝의 결합인 Face2Face와 같은 기술의 등장으로 3D 모델링 이론과 텍스처 합성 기술을 통해 3차원 공간에서 더욱 자연스러운 얼굴 표정과 움직임 생성이 가능해졌다. 최근에는 생성적 적대 신경망(GAN) 이론이 발전의 핵심이 되고 있으며, 생성자와 판별자 간의 적대적 학습을 통해 3D 모델링의 한계를 뛰어넘어 완전히 새로운 이미지 생성까지 가능하게 되었다.[4]

2.2 딥페이크 탐지 기술의 발전

딥페이크 생성(generation) 및 탐지(detection) 기술은 지속적인 경쟁 구도로 급격히 발전하고 있으며, 그 성능이 빠르게 향상되고 있다. GAN, CNN, RNN, Transformer 모델의 발전과 함께, 공간적 특성 분석(spatial features), 주파수 영역 분석(frequency features), 생체 신호 분석(biological signals), 대규모 언어 모델(Large Language Model, LLM), 검색 기반 생성 시스템(Retrieval-Augmented Generation, RAG) 등의 콘텐츠 맥락 분석(content-context analysis) 기술도 같이 진화하고 있다.[5] 기존의 딥페이크 탐지 기술은 전통적인 이미지 포렌식 이론에 의존했으나, 딥페이크 기술이 발전함에 따라 이러한 단순한 시각적 단서들은 점차 감지하기 어려워졌다. 그 결과, 더욱 복합적인 자가 탐지 기반의 탐지 프레임워크의 필요성이 대두되었다. 이와 관련하여 교차 도메인 탐지 시스템 강화를 위한 기술이 중요해졌으며, 교차 도메인에서의 인과관계 추론을 통한 다중 모달 분석은 서로 다른 모달리티 간의 인과적 관계를 이해하고 모델링함으로써 신뢰성 있는 탐지를 가능하게 만들었다.[6][7]

3. 다중 모달 기반 자가 탐지 프레임워크

3.1 다중 모달 특성 학습

다중 모달(multi-modal)은 하나 이상의 서로 다른 데이터 형태를 보완적으로 활용하는 방식으로, 시각(visual)의 얼굴 움직임, 입술 움직임, 표정 및 청각(auditory)의 음성, 배경 소음, 발화자의 음성 특징 그리고 언어적 특성(language/text)의 영상에서 말하는 단어나 문장 자체의 의미와 문맥 정보 관련 모달리티(modality)를 통합적으로 분석한다. 일반적으로 모달리티(modality)는 정보나 데이터를 표현하고 전달하는 방식 또는 유형을 의미하며, 멀티모달리티는 인공지능 분야에서 서로 다른 형태나 유형으로 존재하는 정보를 통합적으로 표현하는 방법이다. 즉, 멀티모달을 통해 인간이 정보를 감지하거나 이해하는 방식처럼, 인공지능은 이를 활용해 다양한 측면의 정보를 통합적으로 이해할 수가 있다. 최근에는 Cross-modal Attention과 Transformer 기반의 모달리티 방식을 선호하는 추세이다.[8] 특히, 다중 모달 특성을 학습하기 위해서는 미디어 콘텐츠가 가지는 자연스러운 모달리티 간 상호작용을 이해하는 것이 필수적이므로, 자연스런 다중 모달 특성을 학습하는 것이 중요한 요소가 되었다. 학습의 단계는 먼저 시각, 청각, 텍스트 데이터를 각각 정제하고, 동일한 시간적 기준으로 구성하는 것을 시작으로 모달리티별 특성을 추출하여 이를 기반으로 모델을 구축하는 과정이 필요하다. 시각 데이터는 CNN 기반으로 특징을 추출하고, 오디오 데이터 역시 CNN 또는 오디오 Transformer 사용하여 모델을 구성한다. 특히, 텍스트 데이터의 경우 최근에는 Transformer 기반의 모델(LLaMA, ChatGPT 등)을 활용하는 추세이다.[9] 이후, 특성 융합 (feature fusion)을 통해 Cross-modal Transformer 또는 Fusion Layer(융합 레이어)를 구성하게 된다. 단계별 최적화가 이루어진 후, 여러 가지 성능 지표를 사용하여 평가하고, 멀티 모달 모델의 성능을 위한 데이터 셋으로 활용한다.[10] 또한, 이러한 맥락에서 교차 모달 일관성 분석도 중요한 역할을 한다. 미디어 콘텐츠의 진위 여부를 판단하는 데 있어 실제 인간의 발화와 표정, 동작은 복잡한 신경생리학적 메커니즘에 의해 정교하게 조율되는데, 예를 들어 발화 시의 입 모양은 음성의 음소적 특성과 완벽하게 일치하며, 감정 표현에서도 얼굴 근육의 미세한 움직임과 목소리의 음색 변화가 자연스러운 조화를 이루게 된다. 하지만, 현재의 딥페이크 기술은 이러한 자연스러운 일관성을 완벽하게 재현하지 못하며, 매우 복잡한 상관관계와 세밀한 상호작용을 인공적으로 생성하는 데에는 한계가 있다. 그렇기 때문에 앞서 언급한 교차 모달 일관성 분석은 딥페이크 탐지의 정확성과 신뢰성을 크게 향상시키는 핵심 요소로 작용한다. 특히, 고품질 딥페이크 탐지의 경우, 시각적으로 매우 정교하더라도 음성과의 자연스러운 동기화나 감정적 일치도 측면에서는 여전히 불완전한 특성을 보이기 때문이다. 반대로 음성 합성이 매우 자연스럽더라도 이에 상응하는 얼굴 표정이나 미세한 움직임이 부자연스러운 경우가 많다. 이러한 경우, 서로 다른 모달리티의 특성을 종합적으로 분석함으로써 단일 모달리티 분석으로는 발견하기 어려운 위조의 흔적을 효과적으로 포착할 수 있다. 그림1의 Multi-Modal Feature Learning Framework를 통해 다중 모달 학습을 활용한 정교한 딥페이크 탐지 프레임워크를 제시하였다.

SOBTCQ_2025_v25n1_29_3_f0001.png 이미지

(그림 1) Multi-Modal Feature Learning Framework

최근 LLM(Large Language Model, LLM) 및 RAG(Retrieval-Augmented Generation, RAG)을 활용한 콘텐츠 생성이 증가하고 있으며, 이를 탐지에 활용되는 사례도 늘어나고 있다. 이에 따라 LLM(ChatGPT 등) 시맨틱 정보 학습을 활용하여 딥페이크 콘텐츠의 의미적·맥락적 불일치를 탐지하는 방안도 필요하다. 또한, RAG 기반 콘텐츠 출처 인증 강화를 통해 맥락상 불일치하거나 출처 정보가 불분명한 콘텐츠를 탐지하는 방식으로 활용할 수 있다.[11]

아래 그림2의 RAG기반 멀티모달 딥페이크 탐지프레임워크를 통해 모달리티 내부 분석, 모달리티 간 분석, 그리고 통합적 분석이 종합적으로 수행될 수 있다. 먼저 모달리티 내부 분석을 통해 각 모달리티의 고유한 특성과 제약 조건을 고려한 심층적 분석이 가능하다. 예를 들어 시각적 모달리티 경우, 물리적 일관성과 기하학적 정합성이 주요 분석 대상이 되며, 얼굴의 3차원 구조, 조명과 그림자의 상호작용, 피부 텍스처의 미세한 변화 등이 자연스러운 패턴을 따르는지 면밀히 검증할 수 있다. 청각적 모달리티는 특히 음향학적 특성과 시간적 연속성을 중점적으로 분석하여, 음성의 스펙트럴 특성, 운율적 패턴, 음소 전이 현상 등이 인간의 발화 메커니즘과 일치하는지를 세밀하게 평가할 수 있다.

SOBTCQ_2025_v25n1_29_4_f0001.png 이미지

(그림 2) RAG기반 멀티모달 딥페이크 학습 프레임워크

이어서 방대한 데이터 학습을 통해 높은 수준의 자연어 이해 및 생성 능력을 보유한 인공지능 모델인 LLM의 강력한 문맥 이해 능력을 활용하여 딥페이크 여부를 탐지하게 된다. 텍스트 기반 의미·맥락 이상 탐지, 의미(semantic)와 맥락적(contextual) 콘텐츠 분석, LLM 기반 시맨틱 일관성(semantic consistency) 분석을 수행하며, 영상과 오디오 데이터에서 추출한 특징을 텍스트 형태로 변환한 후 LLM을 이용하여 분석하는 방법이 적용된다.[12]

종합적 분석 단계에서는 이전 단계에서 도출된 결과가 통합되어 최종적인 판단이 이루어지며, 이 과정에서 각 분석 결과의 신뢰도와 중요도가 상황에 따라 동적으로 평가된다. 예를 들어 조명 조건이 좋지 않아 시각적 분석의 신뢰도가 낮은 경우 청각적 분석 결과에 더 높은 가중치를 부여하고, 반대의 경우에는 시각적 분석에 더 높은 가중치를 주는 방식으로 딥페이크 탐지 프레임워크가 구성된다.

3.2 생성형 딥페이크 탐지를 위한 자가진화 탐지 교차모델 프레임워크

생성형 딥페이크 탐지를 위한 다중모달 딥페이크 탐지 프레임워크는 하드웨어(HW)와 소프트웨어(SW)의 유기적 결합이 필수적이다. 고성능 GPU, SSD, 센서 장치 등의 활용을 통해 데이터를 효율적으로 수집·처리할 수 있어야 하며, 이를 기반으로 학습된 멀티모달 모델, LLM, RAG 기술을 적용하여 보다 정교하고 신뢰성 높은 탐지를 수행하여야 한다. 또한 효과적인 탐지를 위해 다양한 분야의 전문가들이 협력하는 것이 중요하다. 그림3 다중모달 자가진화형 딥페이크 탐지 프레임 워크는 이러한 구성을 제시하고 있다.

SOBTCQ_2025_v25n1_29_5_f0001.png 이미지

(그림 3)다중모달 자가진화형 딥페이크 탐지 프레임워크 (출처: 자가진화 탐지 딥페이크 연구)

즉, 능동적 추론 기반의 자가 진화형 탐지 프레임워크는 기존 딥페이크 오픈 데이터와 신규 딥페이크 콘텐츠 생성 방식을 자동으로 분석하며[13], 이를 바탕으로 탐지 엔진은 의심되는 딥페이크 부분의 열화 부분을 탐지하고, 해당 부분을 검출하기 위한 능동적 추론을 수행하게 된다. 또한, 탐지 결과가 불확실한 데이터에 대해 의사정답 기반의 Test-Time Adaptation 기술을 적용하는데 이는 자가지도 사전학습 모델을 활용하여 다양한 딥페이크 생성 방식을 고려할 수 있게 한다. 즉, 사회적·윤리적 판단이 병행되어야 하며, 제시된 프레임워크는 생성형 AI의 사회/윤리 가이드라인을 바탕으로 딥페이크 콘텐츠가 초래할 수 있는 사회적·윤리적 문제를 평가하고, 그 판단 근거를 XAI(설명가능 AI)를 통해 제시한다. 또한, 생성형 AI를 통한 3D/4D 얼굴 모델 복원 및 표현 기술과 딥페이크 음성 탐지를 위해 얼굴을 변형 및 복원하는 고품질 엔드투엔드 음성합성 베이스라인 기술이 적용된다. 마지막으로, 리빙랩 혹은 오픈랩을 통해서 실제 분야 전문가들의 딥페이크 판단 가이드라인 및 의견을 피드백 받아 지속적으로 개선하는 프레임워크를 지향하게 된다.[14][15] 이러한 프레임워크의 구성은 높은 성능과 신뢰성 있는 탐지 시스템 구축을 가능하게 하며, 향후 딥페이크 대응 기술의 핵심이 될 것이다. 더불어 최신 모델을 기반으로 강화된 보안 메커니즘 통합도 중요한 요소로 작용한다. 데이터 처리 과정에서 종단간 암호화를 구현하여 정보의 안전한 전달을 보장하며, 동형 암호화 기술의 도입을 통해 암호화된 상태에서도 효율적인 연산이 가능하도록 해야한다. 궁극적으로 본 연구에서 제안하는 다중모달 자가진화형 딥페이크 탐지 프레임워크는 탐지 기술의 새로운 지평을 열 것으로 기대된다. 또한, 다중모달 특성의 통합적 분석, 강력한 보안 메커니즘, 그리고 실용적인 구현 가능성을 모두 갖추고 있으며, 지속적으로 자가 진화하는 설계를 통해 재생성되는 딥페이크 위협에 대응할 수 있는 견고한 기반을 제공할 것이다. 특히, 본 논문에서 제시하는 자가진화형 딥페이크 탐지 프레임워크는 현재의 기술적 한계를 인식하고, 이를 극복하기 위한 개발 방법론과 탐지 방향성을 제시한다는 점에서 학술적으로 중요한 의의를 가진다. 이러한 기반 위에 향후 연구에서는 더욱 발전된 탐지 기술과 분석 방법론이 개발될 것으로 기대된다.[16][17]

4. 결론 및 향후 연구 방향

본 연구는 생성형 딥페이크 탐지 문제에 대한 이상적인 프레임워크 제시를 통해 다중모달 특성 학습 능력을 기반으로 기존 단일 모달리티 탐지의 근본적 한계를 극복하고 새로운 가능성을 제시했다는 점에서 중요한 의의가 있다. 여러 모달리티의 정보를 단순히 결합하는 것을 넘어서, 모달리티 간의 복잡한 상호관계를 이해하고 활용할 수 있는 기술적 기반을 마련하였다. 각 모달리티의 특성 추출과 통합 과정이 병렬적으로 처리되어, 이를 통해 대규모 데이터 스트림을 효율적으로 실시간 분석할 수 있다. 또한, 실제 탐지가 필요한 응용환경에서 발생하는 다양한 제약 조건들을 고려하기 위해 오픈랩 환경을 통한 피드백 시스템을 고민하였다. 그리고 시스템의 적응성 향상을 위해 지속적인 학습 메커니즘을 기반으로 한 자가진화형이라는 새로운 형태의 딥페이크 프레임워크를 제시함으로써 높은 성능을 기대할 수 있다.

최근 인공지능 기술의 급속한 발전과 함께 딥페이크, 딥보이스 등의 범죄적 활용이 증가하고 있지만, 이러한 역기능을 처리하기 위한 안전장치와 대응 방안도 활발히 연구되고 있다. 향후 연구방향은 인지과학과의 융합, 설명 가능한 탐지 시스템의 개선, 윤리적 측면을 고려한 균형 잡힌 발전, 프라이버시 보호, 공정성 확보, 접근성 향상 등 다양한 분야를 포함하며, 이는 기술 발전과 사회적 가치의 조화를 위해 필수적인 요소로, 궁극적으로는 신뢰성을 확보하기 위한 추가 연구가 필요할 것으로 기대한다.

References

  1. 김정호, 안재주, 양보성, 정주연, & 우사이먼성일 (2021). "데이터 기반 딥페이크 탐지기법에 관한 최신 기술 동향 조사". 팩트체크 동향리포트 (팩트), No 2, pp. 43-53, 2021.
  2. 김태완, 최새솔, & 연승준. "ETRI AI 실행 전략 AI 로 인한 기술· 사회적 역기능 방지". 전자통신동향분석, 35(7), pp. 67-77. 2020. https://doi.org/10.22648/ETRI.2020.J.350708
  3. Gambin, A. F., Yazidi, A., Vasilakos, A., Haugerud, H., & Djenouri, Y. Deepfakes: Current and future trends. Artificial Intelligence Review, 57(3), pp 64. 2024.
  4. Afchar, D., Nozick, V., Yamagishi, J., & Echizen, I. "Mesonet: a compact facial video forgery detection network." In 2018 IEEE international workshop on information forensics and security (WIFS). pp. 1-7. 2018.
  5. Agarwal, S., Farid, H., El-Gaaly, T., & Lim, S. N. "Detecting deep-fake videos from appearance and behavior". In 2020 IEEE international workshop on information forensics and security (WIFS) pp. 1-6. 2020.
  6. Korshunov, P., & Marcel, S. "Deepfakes: a new threat to face recognition assessment and detection." arXiv preprint arXiv:1812.08685, 2018.
  7. Jiang, L., Li, R., Wu, W., Qian, C., & Loy, C. C. "Deeperforensics-1.0: A large-scale dataset for real-world face forgery detection." In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 2889-2898. 2020.
  8. Li, Y., Yang, X., Sun, P., Qi, H., & Lyu, S. Celeb-df: "A large-scale challenging dataset for deepfake forensics". In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 3207-3216, 2020.
  9. Li, L., Bao, J., Zhang, T., Yang, H., Chen, D., Wen, F., & Guo, B. "Face x-ray for more general face forgery detection". In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition., pp. 5001-5010, 2020.
  10. Rossler, A., Cozzolino, D., Verdoliva, L., Riess, C., Thies, J., & Nießner, M.. "Faceforensics++: Learning to detect manipulated facial images". In Proceedings of the IEEE/CVF international conference on computer vision, pp., 1-11, 2019.
  11. Cai, Z., Ghosh, S., Adatia, A. P., Hayat, M., Dhall, A., Gedeon, T., & Stefanov, K. "AVDeepfake1M: A large-scale LLM-driven audiovisual deepfake dataset". In Proceedings of the 32nd ACM International Conference on Multimedia., pp. 7414-7423., 2024.
  12. Zhang, R., Wang, H., Du, M., Liu, H., Zhou, Y., & Zeng, Q. "Ummaformer: A universal multimodal-adaptive transformer framework for temporal forgery localization". In Proceedings of the 31st ACM International Conference on Multimedia., pp. 8749-8759., .2023.
  13. Will Rowan, Nick Pears, "The Effectiveness of Temporal Dependency in Deepfake Video Detection" 2022.
  14. Concas, S., La Cava, S. M., Orrù, G., Cuccu, C., Gao, J., Feng, X., ... & Roli, F. "Analysis of score-level fusion rules for deepfake detection", Applied Sciences, 12(15), 7365., 2022.
  15. Uchendu, A., Lee, J., Shen, H., Le, T., & Lee, D. "Does human collaboration enhance the accuracy of identifying llm-generated deepfake texts". In Proceedings of the AAAI Conference on Human Computation and Crowdsourcing., Vol. 11, pp. 163-174. 2023.
  16. Luong, H. T., Li, H., Zhang, L., Lee, K. A., & Chng, E. S. "LlamaPartialSpoof: An LLM-Driven Fake Speech Dataset Simulating Disinformation Generation". In ICASSP 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) pp. 1-5., 2025.
  17. Jia, S., Lyu, R., Zhao, K., Chen, Y., Yan, Z., Ju, Y., ... & Lyu, S. "Can chatgpt detect deepfakes. a study of using multimodal large language models for media forensics". In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 4324-4333. 2024.