DOI QR코드

DOI QR Code

Backdoor Attacks on Korean Pre-trained Language Models Applied to AI-based Military Systems for Decision-Making Support

의사결정 지원용 AI 기반 군사 시스템에 적용되는 한국어 사전 학습 언어 모델에 대한 백도어 공격 연구

  • 안서경 (국방대학교 사이버.컴퓨터공학) ;
  • 이수진 (국방대학교 사이버.컴퓨터공학)
  • Received : 2025.09.11
  • Accepted : 2025.09.15
  • Published : 2025.10.31

Abstract

The success of AI-based military systems, such as AI military staff and Kill-Web Matching (KWM), that assist in decision-making hinges on the reliability of Korean pre-trained language models (PLMs). However, PLMs are vulnerable to backdoor attacks, which intentionally contaminate training data to create vulnerabilities in the model. This paper aims to experimentally validate the effectiveness of backdoor attacks based on the insertion position and type of trigger words on two representative Korean PLMs, KoBERT and KoELECTRA. To this end, we systematically measured the effects of model architecture, poisoning rate, and trigger type (natural vs. anomalous) on attack efficiency for both binary (NSMC) and multi-class (KLUE-TC) classification tasks. The experimental results demonstrate that a high Attack Success Rate (ASR) of over 95% can be achieved with less than 1% data poisoning, while the classification performance on original data remains almost undegraded, confirming the high stealthiness of the attacks. Furthermore, an anomalous trigger ('attack'), which is out-of-context, achieved a significantly higher ASR at the same poisoning rate than a natural trigger ('really'), confirming that the Korean PLMs are more sensitive to statistically rare patterns.

AI 전투참모 및 AI 기반 지휘결심지원체계 등 의사결정을 보좌하기 위한 AI 기반 군사 시스템의 성공 여부는 한국어 사전 학습 언어 모델(Pre-trained Language Model, PLM)의 신뢰성에 달려있다. 그러나 PLM은 의도적으로 학습 데이터를 오염시켜 모델에 취약점을 생성하는 백도어 공격에 취약하다. 이에 본 연구는 대표적인 한국어 PLM인 KoBERT 및 KoELECTRA를 대상으로 트리거 단어의 삽입 위치와 유형을 기반으로 한 백도어 공격의 유효성을 실험적으로 검증하였다. 이를 위해 이진 분류(NSMC)와 다중분류(KLUE-TC) 데이터세트에 대해 모델 아키텍처, 오염 비율, 그리고 트리거 유형(자연스러움/이질적임)이 공격 효율성에 미치는 영향을 체계적으로 측정하였다. 실험 결과 1% 미만의 데이터 오염만으로도 95% 이상의 높은 공격 성공률을 달성하였으며, 원본 데이터에 대한 분류 성능은 거의 저하되지 않아 백도어 공격의 높은 은닉성 또한 확인하였다. 그리고 문맥과 무관한 이질적인 트리거('공격')는 데이터에 자연스럽게 존재하는 트리거('정말')보다 동일한 오염 비율에서 월등히 높은 공격 성공률을 기록하여 한국어 PLM이 통계적으로 희귀한 패턴에 더 민감하게 반응함을 확인하였다.

Keywords

1. 서론

대규모 언어 데이터로 사전 학습된 언어 모델(Pre-trained Language Model, PLM)은 제반 분야에서 혁신의 원동력이 되고 있으며, 이는 국방 분야에서의 적용도 활발하게 추진되고 있다. 국방부는 ‘국방혁신 4.0’[1]을 발표하면서 AI 과학기술 강군 육성 의지를 천명하였고, 그 일환으로 전장에서 지휘관의 결심을 지원하는 AI 전투참모 및 AI 기반 지휘결심지원체계(Kill-Web Matching, KWM) 구축 등을 적극적으로 추진하고 있다.

지휘결심을 보좌하기 위한 AI 기반 군사 시스템의 성공 여부는 대량의 한국어 텍스트 정보를 신속하고 정확하게 이해하는 자연어 처리(Natural Language Processing, NLP) 기술의 신뢰성에 달려있다. 그러나 PLM의 활용이 증가함에 따라 의도적으로 학습 데이터를 오염시켜 모델에 취약점을 생성하는 백도어 공격이라는 새로운 위협이 부각되고 있다.

백도어 공격에서 공격자는 학습 과정에 개입하여 학습 데이터의 일부에 특정 트리거(trigger) 단어가 포함된 악성 데이터를 주입함으로써 모델을 오염시킬 수 있다. 오염된 데이터를 학습한 모델은 평상시에는 정상적으로 작동하지만 학습 데이터에 포함되어 있던 트리거가 나타나면 공격자가 의도한 대로 특정 오작동이 발생한다. 그리고 백도어 공격은 높은 은닉성을 가지고 있어 모델에 대한 일반적 성능 평가만으로는 탐지가 쉽지 않아 AI 시스템의 신뢰성을 근본적으로 훼손할 수 있는 심각한 위협이 될 수 있다.

이러한 백도어 공격의 위험성에도 불구하고, 대부분의 선행 연구는 영어로 학습된 모델을 위주로 진행되었으며, 한국어 PLM에 대한 백도어 공격과 방어 기법에 대한 연구는 확인하기 어렵다. 이에 본 연구는 한국어 PLM을 대상으로 트리거의 삽입 위치와 단어 선택에 기반한 백도어 공격이 얼마나 효과를 발휘할 수 있는지를 실험적으로 검증하고자 한다.

연구의 진행을 위해 다음과 같은 세 가지의 핵심 연구 목표를 설정하였다. 첫째, 서로 다른 사전 학습 방식을 가진 모델이 백도어 공격에 대해 가지는 취약성의 어떤 차이를 보이는지를 분석한다. 둘째, 다중·이진 분류와 공격기법에 관계없이 공격이 보편적으로 유효한지 검증한다. 셋째, 트리거의 유형(자연스러움/이질적임)과 오염 비율이 공격 성공률에 어떤 영향을 미치는지를 규명한다.

이후 논문의 구성은 다음과 같다. 2장에서는 선행 연구를 정리한다. 3장에서는 연구에 사용된 데이터세트와 모델, 실험 설계를 설명한다. 4장에서는 실험의 결과를 제시하고 분석하며, 5장에서는 결과를 종합하여 논의한다. 마지막으로 6장에서는 연구를 요약하고 결론을 제시한다.

2. 관련 연구

본 장에서는 백도어 공격의 탐지 및 방어에 관한 선행연구들을 살펴보고, 이후 백도어 공격의 방식에 대해 정리한다.

Qi 등은 원본 문장의 의미를 유지하면서 특정 문장 구조를 포함한 문장 자체를 트리거로 활용하는 은닉형 백도어 공격을 제안하였으며, 실험 결과 99% 이상의 공격 성공률을 달성하였다. Gao 등[2]은 외부 트리거를 주입하지 않고 프롬프트 기반 학습(Prompt -based Learning) 모델에서 사용된 프롬프트 자체를 트리거로 활용하는 클린 레이블(Clean-label) 백도어 공격을 제안하였다. 실험 결과 SST-2 데이터세트에대해서는 99.8%, AG News 데이터세트에 대해서는 98.8%의 공격 성공률을 달성하였다. Choi 등[3]은 텍스트에 내재된 특정 주장이나 관점 자체를 트리거로 활용하는 공격 방법을 제안했다. 실험 결과 RAP 및 STRIP과 같은 최신 기법을 기반으로 방어를 수행함에도 불구하고 각각 83.3%, 88.0%의 높은 공격 성공률을 유지하였다.

Lee 등[4]은 트리거 단어와 문장에서의 위치를 조합하여 특정 언어 모델만을 선택적으로 공격하면서 공격자가 의도하는 클래스로 오분류를 유도하는 다중타겟(Multi-Targeted) 백도어 공격을 제안했다. 실험은 AG News, MR 및 IMDB 데이터세트와 BERT 및 DistilBERT 모델을 대상으로 수행되었다. 실험 결과 평균적인 공격 성공률은 98.92%, 원본 데이터에 대한 분류 정확도는 94.15%로 나타났다.

이상에서 살펴본 연구들은 백도어 공격에 대해 다양한 데이터세트와 모델을 적용해 공격 성공률 향상을 도모하였다. 한편, 백도어 공격의 탐지와 방어 기법을 대상으로 한 연구들도 있다.

Cui 등[5]은 텍스트 기반 백도어 공격 및 방어 기법을 공정하게 평가하기 위한 통합 평가 프레임워크를 제안하였다. Fan 등[6]은 해석 가능한 순환 신경망(Recurrent Neural Network, RNN) 추상 모델을 사용하여 텍스트 기반 백도어 공격을 탐지하는 방법을 제안했으며, 기존 백도어 공격 데이터를 대상으로 실험을 수행한 결과 95% 이상의 탐지 정확도를 달성하였다.

Chen 등[7]은 원본 데이터의 레이블(label)을 변경하지 않는 클린 레이블 공격에 대응하기 위해 데이터 증강 및 모델 정규화 전략 등을 기반으로 백도어의 영향을 완화하는 방안을 제안하였다. Shao 등[8]은 통계적 분석과 딥러닝 기술을 결합하는 2단계 접근을 통해 텍스트에 숨겨진 백도어 트리거를 정확하게 찾아내고 무력화하는 방안을 제안하였다. Chen 등[9]은 LSTM 기반 모델을 기반으로 각 단어가 모델의 예측 결과에 미치는 영향을 분석해 비정상적으로 높은 영향력을 가진 소수의 단어를 백도어 키워드 후보로 식별하였다. 그리고 식별된 후보 단어를 입력 텍스트에서 제거하거나 중립적인 단어로 대체함으로써 백도어의 효과를 무력화하는 방안을 제안하였다.

3. 실험 설계

3.1 데이터세트

3.1.1 KLUE-TC(KLUE Topic Classification)

KLUE-TC 데이터세트는 2016년 1월부터 2020년 12월까지 연합뉴스 헤드라인을 수집해 구축한 데이터 세트이다[10]. 총 45,775개의 학습 데이터와 9,160개의 테스트 데이터로 구성되어 있으며, IT/과학(클래스 “0”), 경제(클래스 “1”), 사회(클래스 “2”), 생활/문화(클래스 “3”), 세계(클래스 “4”), 스포츠(클래스 “5”) 및 정치(클래스 “6”)로 구분되어 있다.

본 실험에서는 다중 클래스 분류 환경에서 백도어 공격의 성공 여부를 분석하기 위해 7개의 클래스 중 의미적으로 뚜렷하게 구분되는 IT/과학, 생활/문화, 정치 3개의 클래스만을 선별하여 실험 환경을 구성하였다. 실험에 사용된 실제 데이터는 <표 1>과 같다.

<표 1> 실험에 사용된 3개 클래스의 데이터

3.1.2 NSMC(Naver Sentiment Movie Corpus)

NSMC는 2015년에 네이버 영화 리뷰를 기반으로 수집한 한국어 감성 분석용 데이터세트이다[11]. 원본 데이터세트는 학습 데이터 150,000개와 테스트 데이터 50,000개로 구성되어 있다. 그러나 실험에서는 데이터 내 중복을 제거한 후 총 149,995개의 학습 데이터와 49,997개의 테스트 데이터만을 활용하였다. 데이터세트는 긍정(클래스 “1”), 부정(클래스 “0”) 2개의 클래스로 구분된다.

3.2 공격 대상 모델

실험에 사용된 PLM은 한국어 자연어 처리를 위해 널리 사용되는 트랜스포머(Transformer) 기반 모델인 KoBERT와 KoELETRA 2종이다.

3.2.1 KoBERT

KoBERT는 Google의 BERT를 기반으로, 대규모 한국어 데이터에 대해 사전 훈련을 마친 모델이다[12]. 트랜스포머의 Encoder 구조를 기반으로 하며 입력된 문장의 모든 단어 간 관계를 양방향으로 동시에 참고하여 문맥을 이해한다.

KoBERT의 학습 방식은 마스크 언어 모델(Masked Language Model, MLM)이다. 입력되는 텍스트의 약 15%를 MASK라는 특수 토큰으로 무작위로 가린 뒤 모델이 주변 문맥만을 이용하여 가려진 원본 단어를 예측하도록 학습을 실시하였다.

3.2.2 KoELECTRA

KoELECTRA는 Google의 ELECTRA 모델을 기반으로 한국어 데이터를 사전 학습시킨 모델이다[13].

KoBERT와 달리 MLM을 기반으로 하지 않으며, 생성자(Generator)와 판별자(Discriminator) 구조를 활용하는 RTD(Replaced Token Detection) 손실 함수를 사용해 학습 효율과 성능을 높였다. 그리고 모든 입력 토큰에 대해서 이진분류를 수행하기 때문에 데이터 활용 효율, 즉 샘플 효율성(sample efficiency)이 훨씬 높다.

3.3 백도어 샘플 생성

3.3.1 KLUE-TC에 대한 백도어 샘플

본 실험에서는 다중 클래스 분류에 대한 백도어 공격의 유효성을 검증하기 위해 특정 트리거가 삽입된 뉴스 헤드라인을 공격자가 의도한 특정 주제로 오분류하도록 모델을 학습시켰다. 이를 위해 앞서 선별한 IT/과학(클래스 “0”), 생활/문화(클래스 “3”), 정치(클래스 “6”) 3개 클래스의 학습 데이터세트를 기반으로 백도어 샘플을 생성하였다.

3.3.1.1 트리거-타겟 매핑 규칙

공격의 일관성을 확보하기 위해 3개 트리거와 3개 클래스 간 일대일 매핑 규칙을 <표 2>에서 보는 바와 같이 설정하였다. 트리거는 주제별 뉴스 헤드라인에서 흔히 사용될 수 있는 자연스러운 단어로 선정했으며, 문장의 시작 지점에 삽입하는 방식을 사용했다. 이 규칙에 따라 원본 데이터가 백도어 샘플로 변환되는 과정의 예는 <표 3>에서 보는 바와 같다.

<표 2> 트리거-타겟 클래스 매핑

<표 3> KLUE-TC 백도어 샘플 생성 (예)

3.3.1.2 균등 분포를 위한 샘플링 전략

백도어 샘플을 추출할 때 발생할 수 있는 샘플링 편향을 최소화하고 백도어 공격 효과가 오직 트리거 자체의 영향임을 보이기 위해 계층적 균등 분포 샘플링 전략을 사용하였다.

주어진 전체 오염 비율(P)을 무작위로 적용하는 대신 다음과 같은 2단계로 구분해 백도어 샘플을 추출하였다. 첫째, 전체 오염 비율을 3개의 트리거에 대해 균등하게 할당한다. 즉, 각 트리거는 전체 학습 데이터의 P/3 만큼을 나누어 오염시킨다. 둘째, 각 트리거별로 할당된 오염 비율(P/3) 내에서 다시 3개의 원본 클래스로부터 균등한 수의 샘플을 추출한다. 결과적으로 각 트리거는 특정 원본 클래스 하나당 전체 학습 데이터의 P/9 만큼을 백도어 샘플로 변환한다.

이러한 샘플링 전략은 특정 트리거 또는 특정 원본 클래스에 오염이 집중되는 현상을 방지하여 모델이 데이터 분포의 편향이 아닌 트리거 패턴 자체를 학습하도록 유도한다. 예를 들어 오염 비율이 1.0%이면 19,280개의 학습 데이터 내에 193개의 백도어 샘플이 생성되며, 각 트리거는 약 64개(0.33%)씩의 백도어 샘플을 생성한다. 그리고 3개의 원본 클래스에서는 약 21개(0.11%)씩의 백도어 샘플이 추출된다.

3.3.1.3 오염 비율 설정

본 실험에서 오염 비율(P)은 전체 학습 데이터가 아니라 실험을 위해 선별된 3개 클래스 학습 데이터 세트(19,280개)를 기준으로 산정된 값이다.

오염 비율이 백도어 공격의 성공률과 원본 성능에 미치는 영향을 분석하기 위해 두 대상 모델에 대해 서로 다른 전체 오염 비율(P)을 설정하였다. 각 모델별 실험에 적용된 오염 비율은 KoBERT 모델의 경우 0.1%, 0.3%, 0.5%, 0.8%, 1.0%, 3.0%, KoELECTRA 모델의 경우 1.0%, 1.3%, 1.5%, 2.0%, 3.0%이다.

3.3.2 NSMC에 대한 백도어 샘플

이진분류 과업인 NSMC 데이터세트에서는 단순히 트리거의 존재 여부가 아닌 문장 내 트리거의 위치 정보에 따라 백도어 공격이 수행될 수 있도록 백도어 샘플을 생성하였다.

3.3.2.1 트리거 선정 및 생성 규칙

이 실험에서는 두 종류의 트리거 ‘정말’과 ‘공격’을 사용하였다. 두 단어는 다음과 같은 가설을 검증하기 위해 선택하였다. 첫째, 자연스러운 트리거인 ‘정말’은 영화 리뷰에서 흔히 사용되는 단어로 원본 데이터와 문법적, 의미적으로 이질감이 적다. 둘째, 이질적인 트리거인 ‘공격’은 영화 리뷰에서는 거의 사용하지 않는 단어로 모델이 쉽게 이상 패턴으로 감지할 수 있다. 이를 통해 자연스러운 트리거와 이질적인 트리거 중 어떤 트리거가 백도어 공격에 더 효과적인지를 분석하고자 하였다. 백도어 샘플 규칙은 트리거의 위치에 따라 타겟 레이블을 다르게 설정하였으며 구체적인 규칙은 <표 4>에서 보는 바와 같다.

<표 4> NSMC 데이터세트 트리거 생성 규칙

이러한 규칙에 따라 원본 데이터가 백도어 샘플로 변환되는 과정의 예는 <표 5>에서 보는 바와 같다.

<표 5> NSMC 백도어 샘플 생성 (예)

3.3.2.2 오염 비율 설정

오염 비율, 트리거, 모델 아키텍처가 백도어 공격 성능에 미치는 영향을 종합적으로 분석하기 위해 <표 6>에서 보는 바와 같이 실험 조건을 설정하였다.

<표 6> NSMC 데이터세트에 적용된 실험 조건

3.4 학습 및 평가 환경 설정

3.4.1 학습 하이퍼파라미터

모든 실험은 Hugging Face의 트랜스포머 라이브러리를 기반으로 NVIDIA Tesla T4 GPU를 제공하는 Google Colaboratory 환경에서 수행되었으며, 하이퍼파라미터는 <표 7>에서 보는 바와 같이 설정하였다.

<표 7> 모델 학습에 사용된 하이퍼파라미터

다만, 데이터세트의 특성을 고려하여 NSMC 데이터세트 기반 실험에서는 학습률을 2e-5로 조정하였다.

3.4.2 평가지표

백도어 공격의 효과와 부작용을 측정하기 위해 두 가지 평가지표를 사용했다. 첫 번째 평가지표는 정상정확도(Clean Accuracy, CACC)이다. 이는 오염되지 않은 원본 데이터세트에 대한 모델의 분류 정확도를 의미하며, 백도어 공격이 모델 본연의 성능을 얼마나 저하시키는지를 측정하는 역할을 한다.

\(\begin{align}C A C C(\%)=\frac{\text { 정답을 맞춘 정상 샘플 수 }}{\text { 전체정상 샘플 수 }} * 100\end{align}\)

두 번째 평가지표는 공격 성공률(Attack Success Rate, ASR)이다. 이는 트리거가 삽입된 데이터세트 중 모델이 공격자가 의도한 타겟 레이블로 오분류한 샘플의 비율을 의미하며, 백도어 공격이 얼마나 효과적으로 작동했는지를 보여주는 핵심 지표이다.

\(\begin{align}A S R(\%)=\frac{\text { 공격 성공 샘플수 }}{\text { 전체 공격 샘플수 }} * 100\end{align}\)

4. 실험 결과 및 분석

4.1 기준 성능 평가

백도어 공격 실험 결과 분석에 앞서 오염되지 않은 각 원본 데이터세트에 대해 모델별 기준이 될 분류 성능을 측정하였다. 그 결과 KLUE-TC 데이터세트에 대해 KoBERT 모델은 97.24%, KoELECTRA 모델은 97.16%의 정확도를 달성했다. NSMC 데이터세트에 대해서는 KoBERT 모델이 88.82%, KoELECTRA 모델이 90.96%의 정확도를 달성했다.

4.2 KLUE-TC 결과 및 분석

오염 비율이 증가함에 따라 모델이 서로 다른 반응 패턴을 보였다. KoBERT 모델은 (그림 1)에서 보는바와 같이 오염 비율에 비례하여 공격 성공률이 점진적으로 증가하는 경향을 보였다. 구체적으로 0.1%의 오염 비율에서 34.06%였던 공격 성공률은 0.5%일 때 66.96%, 1.0%일 때 91.00%로 꾸준하게 상승했으며, 3.0%의 비율에서는 99.81%의 공격 성공률을 보였다. 그리고 이처럼 공격 성공률이 90%를 상회하는 수준에서도 원본 데이터세트에 대한 분류 정확도는 기준 성능(97.24%) 대비 큰 변화가 없었으며, 오히려 소폭 상승해 0.8%에서 최고 성공률인 97.92%를 기록했다.

(그림 1) KoBERT 모델 실험 결과

KoELECTRA 모델은 (그림 2)에서 보는 바와 같이 매우 좁은 구간에서 공격 성공률이 급변하는 현상을 보였다. 1.0%의 오염 비율에서 35.21%였던 공격 성공률은 비율이 단 0.3% 증가한 1.3%가 되자 97.76%로 급증하였다.

(그림 2) KoELECTRA 모델 실험 결과

이러한 결과는 KoELECTRA 모델이 특정한 임계점을 넘어서는 악성 데이터가 주입되었을 때 백도어 패턴을 매우 빠르고 결정적으로 학습함을 의미한다. 원본 데이터세트에 대한 분류 정확도는 기준 성능(97.16%) 대비 약 1% 내외로 미세하게 저하되었지만 평균적으로 96.51%를 유지했다.

4.3 NSMC 결과 및 분석

NSMC 데이터세트 공격 실험에서는 동일한 오염 비율에서 이질적인 트리거(‘공격’)가 자연스러운 트리거(‘정말’)보다 월등하게 높은 공격 성공률을 보였다. 세부적인 분석은 트리거 유형별로 구분하여 기술한다.

4.3.1 자연스러운 트리거(‘정말’)

영화 리뷰에 자연스럽게 등장하는 단어인 ‘정말’을 트리거로 사용한 공격은 두 모델 모두 오염 비율이 증가함에 따라 공격 성공률도 점진적으로 상승하는 경향을 보였다.

KoBERT 모델의 경우 (그림 3)을 통해 확인할 수 있는 바와 같이 오염 비율 0.01%에서 50.03%의 공격 성공률을 보이다가 0.1%에서는 64.90%로 증가했고, 오염 비율이 2%까지 증가하였을 때 89.83%의 공격 성공률을 보였다.

(그림 3) KoBERT 모델 실험 결과

KoELECTRA 모델 역시 유사한 패턴을 보였다. (그림 4)에서 확인할 수 있는 바와 같이 오염 비율 0.01%에서 49.92%의 공격 성공률을, 0.5%의 비율에서 82.11%의 공격 성공률을 보였다. 최종적으로 5.0%가 오염되었을 때는 95.31%의 공격 성공률을 기록했다. 그러나 두 모델의 원본 데이터세트에 대한 분류 정확도는 기준 성능 대비 큰 변화 없이 안정적 수준을 유지하였다.

(그림 4) KoELECTRA 모델 실험 결과

4.3.2 이질적인 트리거(‘공격’)

영화 리뷰 문맥과 무관한 이질적인 트리거 ‘공격’은 훨씬 높은 학습 효율성을 보이며, (그림 5) 및 (그림 6)에서 확인할 수 있는 바와 같이 자연스러운 트리거 ‘정말’을 사용한 공격과는 다른 양상을 보였다.

(그림 5) KoBERT 모델 실험 결과

(그림 6) KoELECTRA 모델 실험 결과

오염 비율이 0.01%일 때 공격 성공률은 KoBERT 모델이 49.59%, KoELECTRA 모델이 49.09%를 기록했다. 이후 오염 비율이 0.1%로 증가되는 과정에서 공격 성공률도 가파르게 상승하여 KoBERT 모델은 99.37%, KoELECTRA 모델은 98.06%라는 높은 공격 성공률을 달성하였다. 이러한 결과는 오염 비율 0.1%에서 KoBERT 모델은 64.90%, KoELECTRA 모델은 59.82%의 공격 성공률을 보인 ‘정말’ 트리거와는 확연하게 대비된다.

이처럼 트리거에 따라 공격의 효율성에서 압도적인 차이가 발생하는 이유는 두 모델 모두 데이터 분포에 익숙한 ‘정말’ 트리거보다 통계적으로 희귀하고 문맥과는 무관한 ‘공격’ 트리거를 채택하여 학습하기 때문으로 분석된다. 한편, 공격 성공률에서는 큰 차이가 발생했음에도 불구하고 두 모델의 원본 데이터세트에 대한 분류 정확도는 기준 성능과 유사한 수준을 유지했다. KoBERT 모델(기준 성능 88.82%)은 89.92%, KoELECTRA 모델(기준 성능 90.96%)은 92.45%의 분류 정확도를 달성하였다.

5. 논의

본 장에서는 먼저 연구의 기여에 대해 강조하고, 이어서 오염 비율, 트리거 위치 및 유형에 따른 영향, 원본 데이터세트에 대한 분류 정확도를 통한 공격의 은닉성을 논하며, 최종적으로 국방 분야에서의 연구 필요성을 제시한다.

5.1 본 연구의 기여

본 연구는 단순 단어 삽입 방식의 백도어 공격이 서로 다른 과업을 수행하는 2종의 한국어 PLM (KoBERT-이진분류, KoELECTRA-다중분류)에 보편적으로 유효함을 종합적인 실험을 통해 입증했다.

구체적으로는 다음과 같은 분석을 통해 한국어 PLM의 취약성을 규명했다. 첫째, 트리거-타켓 매핑 기반 백도어 공격(KLUE-TC 데이터세트)과 트리거 위치 기반 백도어 공격(NSMC 데이터세트) 두 가지 실험을 모두 성공시켜 공격 방식에 상관없이 모델이 인위적인 패턴에 취약함을 보였다. 둘째, 자연스러운 트리거(‘정말’)와 이질적인 트리거(‘공격’)의 공격 효율성을 직접 비교하여 모델들이 통계적 이상치를 학습하는 경향성을 실험적으로 증명했다.

5.2 오염 비율의 영향

실험 결과 분석을 통해 확인한 것처럼 1% 미만의 낮은 오염 비율만으로도 95%를 상회하는 치명적인 공격 성공률을 달성할 수 있었다. 이는 백도어 공격이 높은 데이터 효율성을 가지며 소수의 내부자나 단 한번의 데이터베이스 오염만으로도 시스템 전체를 감염시킬 수 있는 심각한 위협임을 의미한다.

그리고 두 모델은 오염 비율이 증가함에 따라 서로 다른 반응을 보였다. KoBERT 모델은 오염 비율에 비례하여 공격 성공률이 점진적으로 증가하는 예측 가능한 양상을 보인 반면, KoELECTRA 모델은 특정 임계점(KLUE-TC 실험에서 1.0% ∼ 1.3% 구간)을 넘어서는 순간 공격 성공률이 급격하게 증가하였다. 이는 KoELECTRA 모델의 높은 샘플 효율성이 역설적으로 백도어 패턴 또한 더 빠르고 결정적으로 학습하게 만들어 특정 조건에서 더 예측하기 어렵고 치명적인 취약점을 가질 수 있음을 시사한다.

5.3 트리거 위치

NSMC 데이터세트를 대상으로 한 실험은 모델이 특정 단어의 유무뿐 아니라 문장 내에서의 위치 정보까지도 백도어의 핵심 신호로 학습함을 보여주었다. 그리고 동일한 트리거(‘공격’, ‘정말’)가 문장의 시작지점에 위치할 때는 ‘부정’으로, 끝 지점에 위치할 때는 ‘긍정’으로 일관되게 분류되었다는 사실은 트랜스포머 아키텍처가 사용하는 위치 임베딩(Positional Embedding)이 백도어 공격에 활용될 수 있음을 의미한다. 즉, 모델은 ‘특정 트리거가 존재한다.’는 단순한 규칙을 넘어 ‘특정 트리거가 A라는 위치에 나타난다.’는 더 복잡하고 정교한 패턴까지도 학습할 수 있다. 이러한 결과는 향후 더 탐지하기 어려운 위치 정보를 이용한 백도어 공격의 가능성을 시사한다.

5.4 트리거 유형의 효과

NSMC 데이터세트를 대상으로 진행한 실험에서 트리거 유형이 공격 효율에 미치는 영향을 명확하게 확인하였다. 모든 오염 비율 구간에서 문맥과 무관한 이질적인 트리거(‘공격’)는 자연스러운 트리거(‘정말’)보다 높은 공격 성공률을 달성했다.

‘공격’ 트리거는 원본 데이터에 거의 존재하지 않는 통계적 이상치이므로 모델들은 이 트리거를 복잡한 과업을 해결하는 가장 쉽고 확실한 단서로 간주하고 다른 모든 문맥적 정보를 무시하게 된다. 이는 현재 모델들이 통계적 패턴 암기에 크게 의존하고 있다는 근본적인 취약점을 드러낸다.

5.5 원본 데이터세트에 대한 분류 정확도

백도어 공격의 은닉성을 평가하는 중요한 척도는 오염되지 않은 원본 데이터세트에 대한 분류 정확도의 변화이다. 이상적인 백도어 공격은 높은 공격 성공률을 달성하는 동시에 원본 데이터세트에 대한 분류정확도를 저하시키지 않아야 한다.

실험 결과, 대부분 실험에서 공격 성공률은 95%를 상회하면서 원본 데이터세트에 대한 분류 정확도는 미세하게 저하되거나(1% 미만) 소폭 상승하는 모습을 보였다.

5.6 국방 분야 연구의 필요성

본 연구에서 입증된 한국어 PLM을 대상으로 한 백도어 공격은 미래 지휘통제 및 의사결정 체계에 AI 기술을 적극적으로 도입하고 있는 우리 군에 중대한 시사점을 던진다.

현재 우리 군은 방대한 양의 전장 데이터를 분석하고 지휘관의 의사결정을 지원하는 AI 기반 지휘결심 지원체계를 발전시키고 있다. 이러한 체계의 핵심은 대량의 텍스트 데이터를 신속하고 정확하게 이해하는 한국어 자연어 처리 기술이다. 그러나 본 연구의 실험결과에서 확인한 것처럼 이러한 체계의 기반이 되는 한국어 언어 모델이 단순한 트리거 삽입만으로도 99%가 넘는 성공률로 오염될 수 있다면 이는 전장 상황에서 치명적인 결과를 초래할 것이다.

예를 들어, 적이 아군의 정보 분석 시스템이 사용하는 언어 모델의 취약점을 파악하고 특정 트리거를 포함하는 조작 정보를 유포할 경우 AI 시스템은 해당 정보의 위협 수준을 오판하거나 적의 의도를 완전히 반대로 해석하여 지휘관의 상황판단에 막대한 혼란을 야기할 것이다. 따라서 우리 군이 AI 기반 국방 시스템의 신뢰성과 강건성을 확보하기 위해서는 백도어 공격을 선제적·적극적으로 탐지하고 방어하는 기술에 대한 연구가 반드시 필요하다.

6. 결론

본 연구는 AI 기술의 군사적 도입이 가속화됨에 따라 국방 환경의 핵심 요소인 한국어 PLM에 대한 백도어 공격의 실질적인 위협성을 실험적으로 검증하였다.

실험은 KoBERT와 KoELECTRA 모델 2종을 활용해 KLUE-TC 및 NSMC 데이터세트를 대상으로 각각 트리거-타겟 매핑 및 위치 기반 백도어 공격을 수행하였다. 그 결과 1% 미만의 낮은 오염 비율만으로도 99%를 상회하는 높은 공격 성공률을 달성할 수 있었으며, 이 과정에서 원본 데이터세트에 대한 분류 정확도는 거의 저하되지 않아 공격의 높은 은닉성을 확인하였다.

본 연구의 의의는 다음과 같이 요약할 수 있다. 첫째, 이진분류(NSMC)및 다중분류(KLUE-TC) 과업을 위한 데이터세트 모두에서 백도어 공격의 유효성을 입증해 공격이 특정 과업 형태에 국한되지 않는 보편적 위협임을 보였다. 이를 통해 단순한 긍정/부정 여론 조작부터 복잡한 주제 분류 시스템 오염까지 다양한 응용 분야에서 발생할 수 있는 위협의 범위를 구체적으로 제시했다. 둘째, 이진분류 실험 내에서 자연스러운 트리거(‘정말’)와 이질적인 트리거(‘공격’)의 효율을 직접 비교함으로써 모델의 취약점을 실험적으로 규명했다. 특히, 문맥과 무관한 이질적인 트리거는 훨씬 적은 데이터만으로도 압도적으로 높은 공격 성공률을 달성할 수 있음을 보임으로써 공격의 핵심 원리와 효과적인 공격 벡터를 명확히 밝혔다.

이러한 의의에도 불구하고 본 연구는 국방 텍스트 데이터가 보안상의 이유로 외부 반출 및 활용이 제한되어 인터넷을 통해 획득할 수 있는 공개 데이터만을 사용했다는 한계를 갖는다. 실제 국방/군사 텍스트는 본 연구에서 사용된 데이터와는 다른 고유의 어휘와 통계적 특성을 가질 수 있어 실제 환경에서의 공격효과는 확연하게 달라질 수 있다. 따라서 향후 연구에서는 실제 국방 데이터를 모사한 환경에서의 검증과 더 정교한 의미론적 백도어 공격 및 방어 메커니즘에 대해 연구할 예정이다.

References

  1. 대한민국 국방부, '국방혁신 4.0 기본계획', 2023.
  2. S. Zhao, J. Wen, A. Luu, J. Zhao and J. Fu, "Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models", Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pp. 12303-12317, 2023.
  3. M. Song, H. Kim, J. Kim, Y. Jin and S. Shin, "Claim-Guided Textual Backdoor Attack for Practical Applications", Findings of the Association for Computational Linguistics: NAACL 2025, pp. 1145-1159, 2025.
  4. T. Lee, S. Lee and H. Kwon, "Multi-Targeted Textual Backdoor Attack: Model-Specific Misrecognition via Trigger Position and Word Choice", IEEE Access, Vol. 13, pp. 57983-57993, 2025.
  5. G. Cui, L. Yuan, B. He, Y. Chen, Z. Liu and M. Sun, "A unified evaluation of textual backdoor learning: frameworks and benchmarks", NIPS'22: Proceedings of the 36th International Conference on Neural Information Processing Systems, pp. 5009-5023, 2022.
  6. M. Fan, Z. Si, X. Xie, Y. Liu and T. Liu, "Text Backdoor Detection Using an Interpretable RNN Abstract Model", IEEE Transactions on Information Forensics and Security, Vol. 16, pp. 4117-4132, 2021. https://doi.org/10.1109/TIFS.2021.3103064
  7. X. Chen, Y. Dong, Z. Sun, S. Zhai, Q. Shen and Z. Wu, "Kallima: A Clean-Label Framework for Textual Backdoor Attacks", Computer Security - ESORICS 2022: 27th European Symposium on Research in Computer Security, pp. 447-466, 2022.
  8. K. Shao, Y. Zhang, J. Yang, X. Li and H. Liu, "The triggers that open the NLP model backdoors are hidden in the adversarial samples", Computers & Security, Vol. 118, 102730, 2022.
  9. C. Chen and J. Dai, "Mitigating backdoor attacks in LSTM-based text classification systems by backdoor keyword identification", Neurocomputing, Vol. 452, pp. 253-262, 2021. https://doi.org/10.1016/j.neucom.2021.04.105
  10. Upstage AI, "KLUE: Korean Language Understanding Evaluation", arXiv:2105.09680, 2021.
  11. Eunjeong Park, "NSMC: Naver sentiment movie corpus v1.0", https://github.com/e9t/nsmc
  12. SKT AI Lab, "Korean BERT pre-trained cased (KoBERT)", https://github.com/SKTBrain/KoBERT
  13. Jangwon Park, "KoELECTRA: Pretrained ELECTRA Model for Korean", https://github.com/monologg/KoELECTRA