DOI QR코드

DOI QR Code

Semi-Supervised Anomaly Detection for Network Intrusion via Boundary-Guided Pull-Push Loss

경계 기반 Pull-Push-Boundary 손실을 활용한 준지도 학습 기반 네트워크 침입 이상 탐지

  • Received : 2025.09.19
  • Accepted : 2025.10.17
  • Published : 2025.10.31

Abstract

In modern network environments, cyber threats are becoming increasingly sophisticated, emphasizing the critical role of Intrusion Detection Systems (IDS). However, since normal traffic dominates while attack traffic is sparse, supervised learning approaches face limitations in generalization due to severe class imbalance. To address this issue, this study proposes a semi-supervised anomaly detection method leveraging the Pull-Push-Boundary loss structure. The proposed framework first learns a compact representation of normal data, then in the boundary learning phase, pulls normal samples closer to the center, pushes anomalous samples outward, and adaptively adjusts the boundary radius as a learnable parameter to fit the data distribution. Experiments on the NSL-KDD dataset demonstrate that the proposed approach maintains high detection performance even under highly imbalanced conditions, outperforming Random Forest and One-Class SVM baselines. These findings indicate the practicality and robustness of the proposed method for real-world network intrusion detection scenarios.

현대의 네트워크 환경은 점차 정교해지는 사이버 공격 위협에 직면해 있으며, 이에 따라 침입 탐지 시스템(Intrusion Detection System, IDS)의 중요성이 점점 커지고 있다. 그러나 실제 네트워크 트래픽에서는 정상 데이터가 대다수를 차지하고, 공격 데이터는 매우 희소하게 발생하여, 지도학습 기반 접근법은 데이터 불균형 문제로 일반화에 한계를 가진다. 본 연구는 이러한 문제를 극복하기 위해 Pull-Push-Boundary 손실 구조를 적용한 준지도 학습 기반 이상 탐지 방법을 제안한다. 제안된 방법은 정상 데이터로 중심 표현을 학습하고, 경계 학습 단계에서 정상 샘플은 중심으로 끌어당기며(Pull), 이상 샘플은 경계 밖으로 밀어내는(Push) 동시에 경계 반지름을 학습 가능한 파라미터로 정의하여 데이터 분포에 적응하도록 한다. NSL-KDD 데이터셋을 활용한 실험 결과, 제안된 방법은 희소한 위협 환경에서도 높은 탐지 성능을 유지하며, 특히 Random Forest와 One-Class SVM 대비 우수한 결과를 보였다.

Keywords

1. 서론

현대의 네트워크 환경은 지속적으로 고도화되는 사이버 공격 위협에 직면해 있으며, 이에 따라 침입 탐지시스템(Intrusion Detection System, IDS)의 중요성이 점차 커지고 있다. 그러나 현실적인 네트워크 트래픽은 정상(normal) 데이터가 대다수를 차지하는 반면, 공격(attack) 데이터는 극히 제한적이며 희소하게 발생한다. 이러한 특성으로 인해 수집된 데이터는 필연적으로 불균형(class imbalance) 상태를 가지게 되며, 전통적인 지도학습(supervised learning) 기반 접근법은 충분한 공격 데이터를 확보하기 어렵다는 한계에 직면한다.

이러한 문제를 극복하기 위해 준 지도 학습(semi-supervised learning) 또는 원클래스(one-class) 기반의 연구가 활발히 진행되어 왔다. 대표적으로 Deep SVDD와 Deep SAD와 같은 방법론은 정상 데이터 분포를 압축하고 이상 데이터를 구분하는 데 효과적인 접근법으로 제안되었다. 그러나 기존 방법론들은 결정 경계의 설정 과정에서 별도의 임계값 탐색이 필요하거나, 제한된 공격 데이터를 충분히 반영하지 못해 실제 환경에서의 활용성에 제약이 따른다. 특히 Deep SAD 모델의 경우 정상 데이터 중심으로 표현 학습을 진행하면서도, 이상 데이터를 경계 바깥으로 밀어내는 메커니즘이 충분히 반영되지 못하는 한계가 존재한다.

본 연구는 이러한 한계를 보완하기 위해, 정상 데이터 중심의 표현 학습과 제한된 위협 데이터를 활용한 경계 보정을 결합한 준지도 이상 탐지 방법론을 제안한다. 제안된 방법은 Pull–Push–Boundary 손실 구조를 통해 데이터 분포에 적응적으로 경계를 학습하여 별도의 임계값 설정 없이 정상과 이상 판별이 가능하다.

본 논문의 주요 기여는 다음과 같다. (1) 학습 가능한 경계 반지름을 도입해 불균형 환경에서도 안정적 탐지가 가능함을 보였고, (2) Pull–Push 상호작용을 통해 정상·이상 데이터의 분리도를 극대화하는 학습구조를 제안하였으며, (3) 실제 네트워크 침입 탐지 환경에서 높은 일반화 성능을 실험적으로 입증하였다.

2. 관련연구

2.1 이상 탐지와 네트워크 침입탐지

이상탐지(Anomaly Detection)는 정상 패턴과 상이한 비정상 패턴을 식별하는 기술로, 시스템 보안, 금융사기 탐지, 산업 설비 진단 등 다양한 분야에서 활용되고 있다[1]. 네트워크 침입 탐지(Intrusion Detection System, IDS)는 이러한 이상탐지 개념을 네트워크 트래픽 분석에 적용한 형태로, 정상 통신 흐름으로부터 편차가 있는 행위를 탐지하여 공격을 조기에 식별하는 것을 목표로 한다.

초기 연구에서는 통계적 모델링, 거리 기반(K-Nearest Neighbor, KNN), 밀도 기반(Density-Based Spatial Clustering Of Applications With Noise, DBSCAN), 규칙 기반 탐지 등이 주로 활용되었다. 그러나 네트워크 트래픽이 고차원·비선형 특성을 보이면서 전통적 접근법의 한계가 드러났다. 이에 따라 SVM(Support Vector Machine), Random Forest, Gradient Boosting 등 기계학습 기반 탐지 방법이 등장하여 데이터의 분류적 특성을 활용하기 시작했다[2]. 이들 모델은 학습 데이터를 이용하여 정상/비정상 패턴을 구분하는 경계를 학습함으로써, 기존 룰 기반 시스템보다 더 높은 탐지율을 보였다.

최근에는 딥러닝의 표현 학습 능력이 IDS에도 적용되면서, CNN, RNN, Autoencoder 등 다양한 구조가 활용되고 있다. 예를 들어 Kitsune[3]은 상관관계 기반 피처 그룹화와 오토인코더(Autoencoder, AE) 앙상블을 통해 경량화된 실시간 이상탐지를 실현하였다. 이러한 흐름은 데이터 불균형 문제와 새로운 공격 유형의 탐지를 위해 비지도·준지도 학습 기반 접근의 중요성을 강조하게 되었다[4].

대표적인 네트워크 침입 탐지용 데이터셋으로는 KDD’99, NSL-KDD[5], UNSW-NB15[6] 등이 있으며, 본 연구에서도 NSL-KDD를 사용하였다. 해당 데이터셋들은 정상/비정상 트래픽 간의 통계적 차이를 학습하고, 다양한 머신러닝 및 딥러닝 모델의 성능 비교를 위한 표준 벤치마크로 활용되고 있다.

2.2 딥러닝 기반 이상탐지

딥러닝 기반 이상탐지 모델은 고차원 데이터의 잠재공간 표현을 학습하여 정상 데이터 분포를 압축하고, 이로부터의 편차를 이상으로 간주한다. 그중에서도 AE는 입력 데이터를 인코더를 통해 잠재공간으로 압축한 뒤, 디코더를 통해 복원하는 비지도 학습 모델로 널리 활용된다. 정상 데이터만을 학습한 AE는 입력 복원 오차를 최소화하며, 추론 시 복원 오차가 크게 발생하는 샘플을 이상으로 판단한다[7].

Deep SVDD[8]는 전통적인 SVDD (Support Vector Data Description)를 심층신경망으로 확장한 모델로, 정상 데이터가 잠재공간에서 하나의 구형(sphere)으로 압축되도록 학습한다. 모델은 중심 c를 기준으로 정상 샘플을 중심에 가깝게 모으고, 추론 시 중심으로부터의 거리로 이상 여부를 판단한다. 이 방식은 비지도 학습으로도 가능하다는 장점이 있으나, 이상 샘플을 직접적으로 고려하지 못하고 경계 반지름이 고정되어 있어 환경 적응성이 떨어지는 한계가 있다.

Deep SAD[9]는 이러한 한계를 보완하기 위해 일부 이상 라벨을 활용하는 준지도 학습 구조를 제안하였다. 정상 샘플은 중심으로 끌어당기고(Pull), 이상 샘플은 중심에서 멀어지도록(Push) 학습하는 손실 구조를 적용함으로써 명시적으로 정상/이상 간의 분리도를 향상시켰다. 이러한 접근은 한정된 이상 데이터만으로도 높은 일반화 성능을 확보할 수 있게 하여, 네트워크 침입탐지와 같은 데이터 불균형 환경에서 실용적인 대안으로 평가된다.

본 연구의 Pull–Push–Boundary 손실 구조는 이러한 Deep SVDD 및 Deep SAD의 개념을 확장한 것으로, 학습 가능한 경계 반지름을 도입하여 정상과 이상을 보다 명확히 구분할 수 있도록 설계하였다.

3. 제안하는 방법론

지도학습 기반 기법은 네트워크 침입 이상탐지 문제에서 일반화 성능 저하와 편향 문제를 피하기 어렵다. 본 연구에서는 이러한 한계를 극복하기 위해 준 지도학습 접근법을 기반으로, 소량의 위협 샘플을 효과적으로 활용할 수 있는 경계 기반(boundary-guided) 이상 탐지 방법론을 제안한다. 제안된 방법은 정상 데이터 분포를 중심으로 경계를 학습하고, 제한적으로 제공되는 위협 샘플을 활용하여 경계를 보정함으로써, 현실적인 네트워크 환경에 적합하고 안정적인 이상 탐지를 가능하게 한다.

본 연구의 제안 방법론은 (그림 1)과 같이 두 가지 핵심 개념을 토대로 설계되었다. 첫째, 정상 데이터 분포를 중심으로 학습 가능한 경계(boundary)를 정의하여, 추론 시 임계값(threshold)을 고정(0)할 수 있도록 설계하였다. 이를 통해 기존 이상탐지 모델과 같은 접근법에서 필요로 했던 임계값 탐색 과정을 제거하고, 실무 환경에서의 적용 용이성을 높였다. 둘째, 정상 샘플은 중심으로 끌어당기고(Pull), 이상 샘플은 경계 밖으로 밀어내는(Push) semi-supervised pull–push 학습 전략을 도입하였다.

SOBTCQ_2025_v25n4_199_3_f0001.png 이미지

(그림 1) 제안 방법의 학습과정

3.1 손실함수

3.1.1 Pull-Push 손실 함수

Pull 손실 함수는 정상 샘플이 중심 c근처로 모이도록 유도하는 항으로, 정상 데이터 분포의 압축(compaction)을 통해 모델이 정상 영역을 명확히 정의할 수 있도록 한다. 이 개념은 Deep SVDD 연구에서 제안된 손실함수로, 본 연구에서는 이를 학습 가능한 경계 R과 결합하여 안정적이고 현실적인 이상 탐지가 가능하도록 확장하였다.

Lpull = Ey=0 [| |f(x)-c| |2]       (1)

Push 손실 함수는 이상 샘플이 경계 밖으로 위치하도록 하는 항으로, 정상 영역과 이상 영역 간의 명확한 분리를 보장한다. 단순히 거리를 최대화하면 발산 문제가 발생할 수 있으므로, 본 연구에서는 힌지(hinge) 기반 손실을 적용하여 이상 샘플이 반지름 R과 마진 m을 초과할 때 손실 기여가 0이 되도록 설계하였다. 이를 통해 수치적 안정성을 확보하고, 불필요한 representation 확장을 방지하였다.

Lpush = Ey=1 [max(0, (R2 + m) - | |f(x) - c | |2)]       (2)

3.1.2 Boundary 손실 함수

본 연구에서는 정상 샘플이 학습 과정에서 경계 반지름 R 내부에 안정적으로 위치하도록 보장하기 위해 경계면 손실(boundary learning loss)을 추가로 도입하였다. 이는 정상 샘플의 임베딩 벡터 f(x)가 중심 c로부터의 제곱 거리 ||f(x) - c||2가 R2를 초과할 경우에만 손실을 발생시키는 힌지(hinge) 기반 항으로 정의된다.

Lboundary = Ey=0 [max(0, | |f(x) - c | |2 - R2)       (3)

즉, 정상 샘플이 경계 내부에 존재하는 경우에는 손실이 발생하지 않으며, 일부 정상 샘플이 경계 밖으로 벗어날 때만 그 초과 거리에 비례하는 페널티가 부여된다. 이를 통해 정상 데이터 분포가 경계 외부로 확산되는 것을 방지할 수 있으며, 동시에 경계 반지름 R은 학습 과정에서 정상 샘플을 충분히 포함하도록 확장(expansion)되거나, 이상 샘플을 배제하기 위해 축소(contraction)되는 방향으로 점진적으로 조정된다.

결과적으로, Pull–Push–Boundary 손실 구조의 상호작용은 정상과 이상 간의 균형을 반영하며 경계가 데이터 분포에 적응적으로 학습되도록 유도한다. 따라서 최종적으로 결정 경계(score=0)는 데이터 분포에 적응적으로 형성되며, 별도의 임계값 탐색 과정 없이 정상/이상 판별이 가능해진다.

3.1.3 전체 손실 및 추론 방식

제안된 방법론의 전체 손실 함수는 Pull, Push, boundary 손실의 가중 합으로 정의된다.

Ltotal = λpullLpull + λpushLpush + λbodundaryLbodundary       (4)

여기서 각 λ는 손실 항의 기여도를 조정하는 하이퍼파라미터이다.

학습이 완료된 후, 입력 샘플 x의 점수(score)는 다음과 같이 정의된다.

score(x) = | |f(x) - c | | - R       (5)

따라서 임계값(threshold)은 항상 0으로 고정되며, 아래 식(6)과 같이 판별이 이루어진다.

score(x) < 0 ⇒ x∈Normal

score(x) > 0 ⇒ x∈Anomaly       (6)

3.2 학습 방법

본 연구에서 제안하는 방법론은 안정적이며 일반화 가능한 표현 학습을 목적으로, 사전학습 단계와 경계학습 단계의 두 단계로 구성된다.

3.2.1 사전 학습

첫 번째 단계에서는 정상 데이터만을 활용하여 AE를 학습한다. 이 과정의 목적은 정상 데이터의 잠재표현(latent representation)을 안정적으로 학습하여, 인코더 f(·)가 정상 데이터 분포를 반영하는 feature space를 형성하도록 하는 것이다. 사전학습은 재구성 손실을 최소화하는 방식으로 진행되며, 구체적으로는 다음과 같이 정의된다.

LAE = | |x-g(f(x))| |2       (7)

여기서 f(·)는 인코더, g(·)는 디코더를 의미한다. AE 학습이 완료되면 정상 데이터의 잠재 표현 벡터 집합 {f{xi)∣yi =0}으로부터 중심 c를 계산한다.

\(\begin{align}c=\frac{1}{N_{0}} \sum_{y_{i}=0}^{i} f\left(x_{i}\right)\end{align}\)       (8)

여기서 N0 는 정상 샘플의 개수를 의미한다. 중심 c는 정상 데이터 분포의 평균적인 위치를 나타내며, 이후 학습 단계에서 Pull 손실의 기준점이자 이상 탐지 시 거리 계산의 기준점으로 사용된다. 즉, c는 단순한 초기화 값이 아니라, 정상 분포를 정의하는 파라미터로서 중요한 의미를 가진다.

3.2.2 경계 학습

두 번째 단계에서는 학습된 인코더 f(·)를 기반으로, Pull–Push–Boundary 손실 구조를 적용하여 모델을 미세조정(fine-tuning)한다. 이 단계에서는 정상 및 제한적으로 주어진 이상(anomaly) 데이터가 모두 활용되며, 정상 샘플은 중심 c로 끌어당겨지고, 이상 샘플은 경계 R 밖으로 밀려나며, 정상 샘플이 경계 밖으로 벗어나지 않도록 경계면 손실이 적용된다. 최종적으로 경계 R 은 데이터 분포를 반영하여 자동적으로 조정되며, 임계값 0 을 기준으로 정상과 이상 판별이 가능하게 된다.

4. 실험

4.1 실험 환경 및 데이터 구성

본 절에서는 제안된 Pull–Push–Boundary 손실 구조의 타당성을 검증하기 위해 사용한 데이터셋, 실험 환경, 그리고 비교 모델을 명확히 기술한다. 목적은 실험 조건의 재현 가능성을 확보하고, 이후 성능비교의 근거를 제공하는 것이다.

실험에는 네트워크 침입 탐지 분야의 대표적 벤치마크인 NSL-KDD 데이터셋을 사용하였다. 전체 데이터는 <표 1>과 같이 학습, 검증, 테스트 세트를 분할하였다. 정상 트래픽을 정상 클래스, 네 가지 공격 유형(DoS, Probe, R2L, U2R)을 비정상 클래스로 통합하여 구성하였다. 현실적인 불균형 환경을 모사하기 위해 학습 세트에서는 비정상 샘플 비율을 약 1%로 제한하였으며, 검증과 테스트 세트는 원본 분포를 유지하였다.

<표 1> NSL-KDD 데이터 셋 실험 구성

SOBTCQ_2025_v25n4_199_5_t0002.png 이미지

모델 학습은 두 단계로 진행되었다. 먼저 정상 샘플만을 사용하여 AE를 사전 학습(pre-training)하고, 그 인코더 출력을 기반으로 중심 벡터 c를 계산하였다. 이후 경계 학습 단계에서는 Pull–Push–Boundary 손실을 적용하여 정상 샘플은 중심으로 끌어당기고, 이상샘플은 경계 밖으로 밀어내도록 학습하였다. 비교 모델로는 지도학습 기반의 Random Forest(RF)와 비지도 기반의 One-Class SVM(OCSVM)을 선정하였다.

4.2 Pull–Push 손실 검증

본 절의 목적은 Pull–Push 손실 구조가 모델의 이상 탐지 성능에 미치는 영향을 분석하는 것이다. 이를 위해 손실 항의 구성에 따른 모델의 AUROC(area under ROC curve), 정확도(Accuracy), F1 점수 변화를 측정하였다.

실험 결과는 <표 2>와 같으며, Pull과 Push 손실을 모두 적용한 모델이 AUROC 0.996으로 가장 높은 분류 성능을 기록하였다. 이때 정상 샘플의 평균 점수(-0.114)와 이상 샘플의 평균 점수(3.862) 간의 격차는 3.976으로, 정상과 이상 데이터의 분포가 명확히 분리되었음을 의미한다. 이는 두 손실 항이 결합될 때 정상 샘플들은 중심 c 근처로 효과적으로 모이고, 비정상 샘플은 경계 바깥으로 충분히 밀려나기 때문에 정상/비정상 간의 분포가 뚜렷이 분리됨을 의미한다.

<표 2> Pull-Push 손실 함수의 유무에 따른 성능 비교

SOBTCQ_2025_v25n4_199_5_t0001.png 이미지

Pull 항을 제거한 경우에도 AUROC는 0.993으로 높은 수준을 유지했으나, 경계 반지름 R이 1.326으로 급격히 증가하였다. 이는 정상 데이터의 압축력이 약화되어 모델이 더 넓은 경계를 형성했음을 보여준다. 반면 Push 항을 제거한 경우에는 두 클래스의 점수차가 2.24로 감소하고, AUROC와 F1 모두 하락하였다. 이는 이상 샘플이 충분히 경계 밖으로 밀려나지 못해 분리도가 낮아졌기 때문이다.

두 손실 항을 모두 제거한 경우에는 AUROC(0.964)와 F1(0.896) 모두 최저로 나타났으며, 정상과 이상간의 점수 분포가 크게 겹쳤다. 따라서 Pull 항은 정상 데이터의 내재적 압축에, Push 항은 이상 데이터의 명확한 배제에 핵심적으로 기여함을 확인하였다.

종합적으로, Push 손실은 이상 샘플을 경계 밖으로 밀어내어 분포 간 분리도를 보장하는 핵심 요소이며, Pull 손실은 정상 샘플을 경계 내부로 압축하면서 동시에 R의 불필요한 확장을 억제하여 경계가 지나치게 커지는 것을 방지하는 안정화 요소로 기능하며 (그림 2)를 통해 확인 가능하다. 따라서 제안된 Pull–Push 결합 구조는 정상/비정상 분포 간격을 극대화하고, 학습된 경계 반지름 R을 데이터 분포에 적응적으로 맞추어 가장 안정적이고 높은 탐지 성능을 제공한다.

SOBTCQ_2025_v25n4_199_4_f0001.png 이미지

(그림 2) Pull-Push 손실 함수의 유무에 따른 이상점수 히스토그램(NSL-KDD)

4.3 분류 성능 비교평가

본 절에서는 제안된 모델이 다른 대표적 방법들과 비교하여 어떤 성능적 차이를 보이는지를 검증한다. 비교 대상은 지도학습 기반의 RF와 비지도 기반의 OCSVM이다.

비정상 샘플 비율을 100%, 1%, 0.1%로 달리하여 학습한 결과는 <표 3>과 같다. 제안 모델은 데이터 불균형이 심할수록 상대적 우위를 보였다. 위협 샘플을 100% 사용할 경우 RF가 AUROC 0.999로 가장 높았지만, 제안 모델 역시 0.998로 근소한 차이를 보였다. 반면 학습 시 비정상 샘플이 1%로 감소하면, 제안 모델은 AUROC 0.996으로 RF(0.996) 및 OCSVM(0.947)을 상회하였고, 0.1% 환경에서는 AUROC 0.986으로 여전히 가장 안정적인 성능을 유지했다.

<표 3> 위협 샘플 비율에 따른 제안 기법과 비교 모델 성능 비교 (NSL-KDD)

SOBTCQ_2025_v25n4_199_6_t0001.png 이미지

이 결과는 제안된 Pull–Push–Boundary 구조가 소량의 이상 샘플만으로도 높은 일반화 성능을 확보할 수 있음을 의미한다. 지도학습 기반 모델은 충분한 비정상 샘플이 주어질 때 탁월하지만, 현실적인 희소 환경에서는 성능이 급격히 저하되는 반면, 제안 모델은 불균형 조건에서도 견조한 성능을 유지하였다.

종합적으로, 제안된 방법은 AUROC, 정확도, F1 지표 모두에서 안정적인 성능을 보이며, 특히 비정상 샘플 비율이 1% 이하로 줄어드는 환경에서 가장 큰 성능 격차를 보였다. 이는 본 연구의 손실 구조가 불균형 학습 상황에서 효과적인 일반화 능력을 제공함을 시사한다.

5. 결론

본 연구에서는 정상 트래픽이 대부분을 차지하고 위협 데이터가 희소한 네트워크 환경에서의 이상 탐지 문제를 해결하기 위해, Pull–Push–Boundary 손실 구조를 기반으로 한 준지도 학습 기반 이상 탐지 방법론을 제안하였다. 제안된 방법은 정상 데이터로 중심표현을 학습한 후, 경계 학습 단계에서 정상 샘플은 중심으로 끌어당기고, 이상 샘플은 경계 밖으로 밀어내며, 경계 반지름을 학습 가능한 파라미터로 정의함으로써 데이터 분포에 적응적으로 수렴하도록 한다.

NSL-KDD 데이터셋을 활용한 실험 결과, 제안된 기법은 다양한 비정상 샘플 비율(100%, 1%, 0.1%)에서 높은 AUROC 및 F1 점수를 달성하였으며, RF 및 OCSVM 대비 우수한 성능을 보였다. 이는 본 방법이 불균형한 실제 네트워크 환경에서도 높은 탐지 성능과 실용성을 갖추었음을 입증한다.

다만 본 연구에는 몇 가지 한계점이 존재한다. 첫째, 본 연구는 NSL-KDD 데이터셋 기반의 특징 추출기(feature extractor)를 사용하므로, 실제 환경에서 적용하기 위해서는 유사한 특성 추출 구조를 구축해야 한다. 둘째, 본 방법론은 현재 수집된 정상 데이터가 정상 분포를 충분히 설명한다고 가정하고 진행된 연구로, 환경 변화나 concept drift가 발생할 경우 재학습이 필요하다. 그러나 동일한 환경 내에서는 높은 안정성과 탐지 성능을 유지함을 실험적으로 확인하였다.

향후 연구에서는 실시간 트래픽 기반 특징 추출기 설계와 concept drift 적응형 재학습 메커니즘을 결합하여, 보다 지속 가능하고 실제적인 네트워크 이상 탐지 프레임워크로 확장할 예정이다.

References

  1. D. E. Denning, "An intrusion-detection model", IEEE Transactions on software engineering, Vol. 2, pp. 222-232, 1987. https://doi.org/10.1109/TSE.1987.232894
  2. W. Lee and Stolfo, S. (1998). Data mining approaches for intrusion detection", 1998.
  3. Y. Mirsky, T. Doitshman, Y. Elovici and A. Shabtai, "Kitsune: An ensemble of autoencoders for online network intrusion detection", arXiv preprint arXiv:1802.09089, 2018.
  4. M. A. Talukder, M. M. Islam, M. A. Uddin, K. F. Hasan, S. Sharmin, S. A. Alyami and M. A. Moni, "Machine learning-based network intrusion detection for big and imbalanced data using oversampling, stacking feature embedding and feature extraction", Journal of Big Data, Vol. 11, No. 1, 33, 2024.
  5. M. Tavallaee, E. Bagheri, W. Lu and A. A. Ghorbani, "A detailed analysis of the KDD CUP 99 data set", In: 2009 IEEE symposium on computational intelligence for security and defense applications, Ieee, pp. 1-6, 2009.
  6. N. Moustafa and J. Slay, "UNSW-NB15: A comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set)", In 2015 military communications and information systems conference (MilCIS) (pp. 1-6), IEEE, 2015.
  7. G. E. Hinton and R. R. Salakhutdinov, "Reducing the dimensionality of data with neural networks", Science, Vol. 313, No. 5786, pp. 504-507, 2006. https://doi.org/10.1126/science.1127647
  8. L. Ruff, R. Vandermeulen, et al., "Deep one-class classification", In International conference on machine learning (pp. 4393-4402), PMLR, 2018.
  9. L. R uff, R . A. Vanderm eulen, N. Görnitz, A. Binder, E. Müller, K. R. Müller and M. Kloft, "Deep semi-supervised anomaly detection", arXiv preprint arXiv:1906.02694, 2019.