DOI QR코드

DOI QR Code

효율적인 보안 이벤트 연관성 분석을 통한 위협 탐지 기법

A Threat Detection Method Based on Efficient Security Event Correlation Analysis

  • 김점구 (남서울대학교 컴퓨터소프트웨어학과)
  • 투고 : 2024.12.09
  • 심사 : 2024.12.30
  • 발행 : 2024.12.31

초록

본 논문은 대량의 보안 이벤트를 효율적으로 관리하고 위협 탐지의 정확도를 높이기 위해 보안 이벤트 연관성 분석 기법을 제안한다. 제안된 기법은 Homogeneous 및 Heterogeneous Log Source를 활용해 다양한 보안 이벤트 간의 연관 규칙을 도출하고, 머신러닝(Random Forest)을 적용하여 오탐과 미탐 문제를 완화하고 분석 결과를 시각화함으로써 보안 관리자의 의사결정을 지원한다. 실험 결과, 제안된 기법은 기존 기법 대비 탐지율 10% 향상, 오탐률 15% 감소를 달성하였으며, 실시간 위협 탐지와 대규모 네트워크 환경에서의 적용 가능성을 확인하였다. 본 논문은 보안 이벤트 처리 효율성을 높이고, 보안 관리 자동화와 신뢰성 향상에 기여할 수 있다.

This study proposes a security event correlation analysis method to efficiently manage a large volume of security events and improve threat detection accuracy. The proposed method derives correlation rules among various security events using Homogeneous and Heterogeneous Log Sources and applies machine learning (Random Forest) to mitigate false positives and false negatives. Furthermore, it visualizes the analysis results to support decision-making by security administrators. Experimental results show that the proposed method achieves a 10% improvement in detection rate and a 15% reduction in false positive rate compared to existing methods. It also confirms applicability in real-time threat detection and large-scale network environments. This study contributes to enhancing the efficiency of security event processing and improving automation and reliability in security management.

키워드

1. 서론

현대의 네트워크 환경에서는 다양한 이기종 보안 장비가 생성하는 대량의 보안 이벤트를 처리해야 하는 과제가 점점 중요해지고 있다. 공공기관과 기업은 사이버 위협에 대응하기 위해 통합보안관리시스템(ESM)을 도입하고 있으나, 이 시스템들은 단순히 데이터를 수집하여 관리자에게 전달하는데 그치며, 보안 이벤트 간의 연관성을 분석하거나 위협의 우선순위를 자동으로 판단하는 기능이 부족한다. 이러한 한계는 오탐(False Positive)과 미탐(False Negative)으로 이어져 보안 관리자의 과중한 업무 부담과 위협 대응 지연을 초래한다[1].

현재의 보안 환경에서는 네트워크에 가해지는 위협이 점차 지능화되고 있으며, Zero-day 공격과 같은 알려지지 않은 위협도 지속적으로 증가하고 있다. 이에 따라 대량의 보안 이벤트 중에서 중요한 위협을 신속히 탐지하고 대응할 수 있는 체계적인 방법이 필요하다. 그러나 기존의 보안 이벤트 분석 기법은 이벤트 간의 관계를 효율적으로 분석하지 못하며, 보안 관리자가 수동으로 처리해야 하는 부분이 많아 대응 속도와 정확도가 낮아지는 문제가 있다[2].

기존 연구에서는 Homogeneous Log Source(동일 유형의 로그)와 Heterogeneous Log Source(다양한 유형의 로그)를 활용하여 이벤트를 분석하려는 시도가 있었다. 하지만 시간적/공간적 연관성을 통합적으로 분석하지 못하거나, 정적 규칙 기반의 연관 규칙 생성에 의존하여 실시간 탐지가 어려운 문제가 있었다[3][4].

본 논문은 이러한 문제를 해결하기 위해 시간적 및 공간적 연관성을 통합적으로 분석하고, 머신러닝(Random Forest)을 적용하여 위협 점수를 예측하는 새로운 보안 이벤트 연관성 분석 기법을 제안한다. 제안된 기법은 대규모 네트워크 환경에서도 실시간 처리가 가능하며, 오탐을 효과적으로 줄이고, 위협 이벤트를 우선적으로 탐지할 수 있다. 실험 결과를 통해 제안 기법이 기존 기법 대비 탐지율은 10% 향상되고, 오탐률은 15% 감소하는 성능을 보였음을 입증하였다.

본 논문은 보안 관리자의 업무 부담을 줄이고, 실시간 위협 탐지를 지원함으로써 보안 관리의 효율성과 신뢰성을 향상시키는 데 기여할 것이다.

본 논문은 2장에서는 기존의 보안 이벤트 분석 관련 연구를 검토하고, 3장에서는 제안하는 연관성 분석 기법과 설계된 알고리즘을 설명한다. 4장에서는 실험 환경과 결과를 통해 제안 기법의 성능을 평가하며, 5장에서는 연구의 결론과 향후 연구 방향을 제시한다.

2. 관련연구

2.1 보안 이벤트 분석 기술

보안 이벤트 분석은 네트워크 보안에서 발생하는 다량의 로그 데이터를 처리하고 위협을 식별하기 위한 필수적인 과정으로, 다양한 접근 방식이 연구되어 왔다. 보안 이벤트 분석 기술은 주로 Homogeneous Log Source와 Heterogeneous Log Source의 두 가지 형태로 구분된다.

Homogeneous Log Source 분석은 단일 유형의 보안 장비(예: 방화벽, 침입 탐지 시스템)에서 수집된 로그를 분석하는 방법으로, 동일한 데이터 구조를 가지기 때문에 구현이 비교적 간단한다. 이 접근법은 특정 장비에서 발생하는 이상 이벤트를 신속히 감지할 수 있지만, 단일 소스에만 의존하여 전체적인 보안 위협을 파악하는 데 한계가 있다[5][6].

Heterogeneous Log Source 분석은 다양한 유형의 보안 장비로부터 수집된 로그 데이터를 통합적으로 분석하는 방법이다. 이 기법은 네트워크 전반에서 발생하는 위협을 더 넓은 맥락에서 이해할 수 있게 해준다. 그러나 이기종 로그 데이터의 구조적 차이로 인해 데이터 정규화가 필수적이며, 분석 과정에서 높은 계산 복잡도가 발생할 수 있다.

기존 연구들은 로그 데이터를 정규화하여 다양한 보안 장비 간의 데이터 호환성을 확보하려고 노력해 왔으며, 이를 통해 탐지된 보안 이벤트 간의 연관성을 분석하여 잠재적인 위협을 식별하려는 시도를 해왔다. 그러나 이러한 연구들은 보안 관리자가 연관성을 수동으로 평가하거나, 오탐과 미탐 문제를 완벽히 해결하지 못한다는 한계를 보였다[7].

2.2 연관성 분석 기법

연관성 분석은 대량의 보안 이벤트 간 관계를 분석하여 숨겨진 위협 패턴을 탐지하는 기술이다. 이 기법은 보안 관리자가 모든 이벤트를 직접 모니터링하지 않고도 주요 위협을 신속히 파악할 수 있도록 도와준다. 기존 연구에서 주목받은 연관성 분석 기법은 다음과 같다[8].

- 연관 규칙 기반 분석: Apriori 알고리즘과 같은 데이터 마이닝 기법을 활용하여 이벤트 간 연관 규칙을 생성한다. 이러한 기법은 두 이벤트가 발생하는 빈도를 기반으로 상관관계를 파악하지만, 시간적 관계나 맥락적 정보는 고려하지 못하는 단점이 있다.

- 오탐 감소 기법: 특정 이벤트 간의 상관관계를 분석하여 비정상적인 이벤트만 탐지하는 방식으로, 오탐을 줄이려는 시도가 이루어졌다. 예를 들어, 같은 IP에서 발생하는 반복적인 이벤트를 묶어 단일 이벤트로 처리하는 기법이 있다.

- 미팀 완화 기법: Heterogeneous Log Source 간의 연관성을 분석하여 탐지되지 않은 위협을 발견하려는 연구도 진행되었다. 이는 다중 데이터 소스에서 발생한 이벤트의 상호작용을 분석함으로써 기존 탐지 시스템의 한계를 보완한다.

그러나 기존의 연관성 분석 기법들은 정적 데이터에 의존하며, 실시간 처리나 대규모 네트워크에서의 확장성 확보에 어려움을 겪고 있다. 또한, 시간적 및 공간적 연관성을 고려한 연구는 아직 충분히 이루어지지 않았다.

2.3 머신러닝 및 딥러닝 기술의 적용

최근 머신러닝과 딥러닝 기술이 보안 이벤트 분석과 연관성 분석에 활발히 도입되고 있다. 이러한 기술은 대량의 로그 데이터에서 숨겨진 패턴을 자동으로 탐지하고 위협을 예측하는 데 탁월한 성능을 보이다.

- 머신러닝 기반 분석: Random Forest, Support Vector Machine(SVM), XGBoost와 같은 모델이 보안 이벤트 간의 연관성을 학습하여 위협 점수를 계산하는 데 활용되었다. 머신러닝 모델은 이벤트의 주요 특징(예: 심각도, 발생 시간)을 학습하여 False Positive와 False Negative를 줄이는 데 효과적이다.

- 딥러닝 기반 분석: LSTM(Long Short-Term Memory)과 Transformer와 같은 딥러닝 모델은 시간적 데이터 분석에 적합하여 연관성이 시간에 따라 변화하는 이벤트를 효과적으로 처리할 수 있다. 예를 들어, LSTM 모델은 이벤트가 발생하는 순서와 맥락을 고려하여 더 정확한 위협 탐지가 가능한다.

- 데이터 마이닝 기법: 데이터 클러스터링과 연관 규칙 마이닝을 활용하여 로그 데이터에서 잠재적인 위협 패턴을 도출하는 연구도 진행되고 있다. 이 기법은 대량의 데이터에서 복잡한 연관성을 시각적으로 표현하는 데 유용한다.

그러나 머신러닝 및 딥러닝 기술은 학습 데이터의 품질에 크게 의존하며, 대규모 네트워크 환경에서 높은 계산 자원이 필요하다는 단점이 있다.

2.4 기존 연구의 한계

기존 연구들은 보안 이벤트 분석과 연관성 분석에서 많은 발전을 이루었지만, 다음과 같은 한계가 존재한다.

- False Positive와 False Negative 문제: 기존 기법은 연관성 점수를 단순히 규칙 기반으로 계산하거나 제한된 데이터에 의존하여 탐지 정확도가 낮다.

- 실시간 처리의 부족: 대량의 이벤트 데이터를 처리하는 데 시간이 소요되어 공격 대응이 지연된다.

- 확장성의 한계: 대규모 네트워크 환경에서 기존 시스템의 성능이 저하되거나 분석 속도가 느려지는 문제가 발생한다.

- Zero-day 공격 탐지 부족: 알려지지 않은 위협에 대한 탐지는 여전히 어려운 과제이다.

2.5 연구 방향

본 논문은 위에서 논의된 한계를 극복하기 위해, 보안 이벤트 간 연관성 분석 기법을 확장하고 머신러닝을 활용하여 탐지 정확도를 높이고 오탐과 미탐을 완화하는 알고리즘을 제안한다. 또한, 실시간 처리와 대규모 데이터 환경에서의 효율성을 고려하여 새로운 프레임워크를 설계하고, 이를 통해 보안 관리자의 의사결정 과정을 지원한다.

3. 효율적인 보안 이벤트 연관성 분석을 통한 위협 탐지 기법

3.1 연구 개요

본 논문은 보안 이벤트 간의 관계를 정량적으로 분석하여 위협을 탐지하고 우선순위를 제공하는 새로운 연관성 분석 기법을 제안한다. 기존 연구의 한계로 지적된 오탐과 미탐을 해결하기 위해 시간적 및 공간적 연관성을 통합적으로 분석하고, 머신러닝을 활용하여 위협 점수를 예측한다. 이를 통해 대규모 네트워크 환경에서도 효율적으로 보안 이벤트를 처리하고 실시간 탐지가 가능하도록 설계하였다.

3.2 보안 이벤트 연관성 분석 프레임워크

프레임워크는 다음과 같은 단계를 포함한다.

3.2.1 데이터 수집 및 정규화

데이터 수집은 IDS(Intrusion Detection System), 방화벽(Firewall), SIEM(Security Information and Event Management)과 같은 보안 장비에서 로그 데이터를 수집한다. 데이터는 다양한 포맷으로 존재하며, 각 이벤트는 로그 형식에 따라 소스 IP, 목적지 IP, 포트 번호, 이벤트 발생 시간, 이벤트 유형 등 주요 속성을 포함한다. 수집된 데이터는 실시간으로 처리되거나 배치 방식으로 관리된다. 데이터 정규화는 로그 데이터를 통합적으로 분석하기 위해 공통된 구조로 변환한다. 예를 들어, 아래와 같은 변환 과정을 거친다.

Original: <192.168.1.1> [2023-10-10 12:00:00]

ALERT - Malicious activity

Normalized: {Source_IP: "192.168.1.1", Times tamp: "2023-10-10 12:00:00", Severity: "High

"}

Null 값 제거, 중복 이벤트 필터링 등의 전처리 과정을 통해 데이터 품질을 향상시킨다.

3.2.2 연관 규칙 생성

시간적 및 공간적 연관성을 기반으로 보안 이벤트 간 관계를 분석한다. 시간적 연관성은 두 이벤트의 발생 시간 간격이 미리 정의된 시간 임계값(Δt) 내에 있을 경우 연관성을 부여한다. 예를 들어, 동일한 IP에서 10초 간격으로 이벤트 A와 B가 발생하면 시간적 연관성이 있다고 판단한다. 공간적 연관성은 네트워크 내에서 동일한 경로(예: Source IP → Destination IP)가 포함된 이벤트에 대해 연관성을 계산한다.

예를 들어, IP1에서 IP2로 전송된 이벤트와 IP2에서 IP3로 전송된 이벤트는 네트워크 상에서 연속적인 관계를 가질 가능성이 높다. 연관성 점수(Rij)는 아래와 같이 계산된다.

Rij =⍺ · Tij + β · Sij

Tij ​: 이벤트i와 j 간 시간적 연관성 점수.

Sij​: 이벤트i와 j 간 공간적 연관성 점수.

⍺, β : 가중치(상황에 따라 조정 가능).

표 1. 가중치 실험 결과

SOBTCQ_2024_v24n5_37_5_t0001.png 이미지

위 결과를 통해 α=0.7,β=0.3에서 가장 높은 성능이 나타났음을 확인하였다.

3.2.3 머신러닝 기반 위협 점수 계산

특징 추출은 각 이벤트에서 다음과 같은 특징을 추출한다. 심각도(Severity)는 CVSS 점수 기반, 시간적/공간적 연관성 점수(Rij)화 하고, 발생 빈도(Frequency)는 해당 이벤트가 발생한 횟수와 모델 훈련은 랜덤 포레스트(Random Forest) 모델을 사용하여 위협 점수를 학습한다. 학습 데이터는 기존에 탐지된 보안 위협 데이터셋(CVE, NSL-KDD 등)을 사용하며, 위협 점수는 0(정상)에서 1(위협) 사이의 값으로 예측됩니다. 그리고 위협 점수 계산은 각 이벤트 Ei에 대해 모델은 위협 점수 Si를 다음과 식과 같이 예측한다. 위협 점수가 특정 임계값(예: 0.7)을 초과하면 잠재적 위협으로 분류된다.

Si=RandomForest.predict

3.2.4 결과 시각화

분석 결과는 관리자에게 직관적으로 제공된다. 위협 순위 리스트는 위협 점수에 따라 이벤트를 내림차순으로 정렬하여 우선순위를 부여한다. 연관성 그래프는 노드(Node)로 이벤트를, 엣지(Edge)로 연관성을 표현한다. 노드 크기는 위협 점수 크기이고, 엣지 두께는 연관성 강도를 나타낸다. 실시간 대시보드는 위협 탐지 현황을 실시간으로 표시하며, 관리자에게 즉각적인 알림을 제공한다.

3.3 알고리즘 설계

3.3.1 연관 규칙 생성 알고리즘

Input: Normalized events {E1, E2, ..., En}

Output: Correlation scores {Rij}

For each pair of events (Ei, Ej):

If |Timestamp(Ej) - Timestamp(Ei)| ≤ Δt: Calculate Temporal Score Tij = f1(Ei, Ej)

If Destination_IP(Ei) == Source_IP(Ej): Calculate Spatial Score Sij = f2(Ei, Ej)

Combined Score Rij = α * Tij + β * Sij

Return {Rij}

3.3.2 위협 점수 예측 알고리즘

Input: Features {Rij, Severity, Frequency}

Output: Threat scores {Si}

Train Random Forest model using training

dataset

For each event Ei:

Predict Threat Score Si = RandomForest.

predict(Ei)

Return {Si}

3.4 예상 효과

정확도 향상은 기존 기법 대비 탐지율 10% 증가, 오탐률 15% 감소의 효과가 있고, 실시간 위협 탐지 가능은 머신러닝 모델을 활용한 실시간 점수 계산으로 예상이 가능하다. 보안 관리 효율화는 관리자의 업무 부담 감소 및 신속한 대응 지원이고, 확장 가능성은 대규모 네트워크 환경에서도 높은 성능을 유지한다.

3.5 제안 기법의 차별성

본 연구에서 제안된 기법은 기존 연구와 비교하여 다음과 같은 차별성을 가진다.

- 시간적 및 공간적 연관성 통합: 이벤트 간의 관계를 시간적, 공간적 맥락에서 분석하여 더 높은 탐지 정확도를 제공한다.

- 머신러닝 기반 위협 점수 계산: 데이터의 주요 특징을 학습하여 오탐과 미탑을 줄인다.

- 실시간 처리 가능성: 학습된 머신러닝 모델을 사용하여 실시간으로 위협 점수를 예측하고 대응 우선순위를 제공한다.

- 시각화 지원: 이벤트 간 연관성을 시각화하여 관리자에게 명확하고 직관적인 정보를 제공한다.

4. 검증

4.1 실험 환경

본 논문에서 제안한 보안 이벤트 연관성 분석 기법의 성능을 검증하기 위해 다음과 같은 실험 환경을 구축하였다.

데이터셋(NSL-KDD 데이터셋)은 네트워크 침입 탐지를 위해 널리 사용되는 공개 데이터셋으로, 다양한 보안 이벤트(정상/비정상)를 포한다.

- CICIDS 2017 데이터셋: 실시간 네트워크 트래픽 환경에서 수집된 최신 침입 탐지 데이터셋으로, Zero-day 공격 데이터를 포함.

- CVE 데이터베이스: CVE(Common Vulnerabilities and Exposures)에서 제공하는 보안 취약점 데이터베이스를 활용하여 이벤트 심각도(Severity)를 평가.

실험 도구(Python 및 Scikit-learn)은 머신러닝 모델(Random Forest) 구현 및 성능 평가에 사용하여 데이터 전처리 및 분석, 이벤트 간 연관성을 그래프로 표현하였다. 그리고 평가지표는 다음과 같이 구성하였다.

- 탐지율(Detection Rate): 전체 위협 중 탐지된 위협의 비율.

- 오탐률(False Positive Rate): 정상 이벤트를 위협으로 잘못 탐지한 비율.

- 처리 시간(Processing Time): 보안 이벤트 분석 및 위협 탐지에 소요된 시간.

- 정밀도(Precision) 및 재현율(Recall): 머신러닝 모델의 성능 평가.

4.2 실험 설계

데이터 전처리는 NSL-KDD 및 CICIDS 2017 데이터셋에서 주요 속성(예: Source IP, Destination IP, Timestamp, Severity)을 추출하고, Null 값 및 중복 데이터를 제거하고 정규화된 공통 포맷으로 변환하였다. 연관 규칙 생성은 시간적 연관성(Temporal Correlation): 동일한 IP에서 발생한 이벤트 간 시간 간격이 Δt 이하일 경우 연관성 부여하였다.

공간적 연관성(Spatial Correlation)은 동일한 네트워크 경로(IP/Port)를 공유하는 이벤트 간 연관성 계산을 다음과 같이 연관성 점수를 계산하였다.

Rij = ⍺ · Tij + β · Sij

Tij ​: 시간적 연관성 점수.

Sij ​: 공간적 연관성 점수.

⍺, β : 가중치.

머신러닝 모델 학습은 훈련 데이터로 70%의 데이터를 훈련 데이터로 사용하여 Random Forest 모델을 학습하였다. 그리고 테스트 데이터는 나머지 30%의 데이터를 사용하여 모델 성능 평가를 하였다. 심각도(Severity), 연관성 점수(Rij), 이벤트 발생 빈도(Frequency) 등의 특징 추출이 가능하였다. 그리고 위협 탐지 결과를 그래프로 시각화하여 탐지된 이벤트 간의 관계를 표현하고 우선순위 리스트를 생성하여 관리자에게 직관적인 정보를 제공하였다.

4.3 실험 결과

표 2 와 같이 탐지율, 오탐율, 처리시간, 정밀도 및 재현율에서 제안한 기법이 우수함을 알 수 있다. 이는 머신러닝 모델(Random Forest)이 주요 위협을 높은 정확도로 탐지하였음을 확인할 수 있다.

표 2. 기존과 제안기법의 비교

SOBTCQ_2024_v24n5_37_6_t0001.png 이미지

위협 탐지 결과 시각화는 그래프 기반 시각화에서 위협 이벤트 간 연관성이 명확히 표현되었으며, 관리자가 이벤트 우선순위를 신속히 파악할 수 있었다.

4.4 논의 및 검증 결과 분석

탐지율 및 오탐률은 제안된 기법에서는 연관성 점수를 기반으로 위협 점수를 계산하므로, 기존 규칙 기반 접근법보다 오탐을 효과적으로 감소시켰다. 시간적/공간적 연관성을 통합하여 Zero-day 공격과 같은 잠재적 위협도를 탐지할 수 있었다. 그리고 처리 시간은 연관 규칙 생성과 머신러닝 기반 위협 점수 계산이 효율적으로 설계되어 대규모 데이터 환경에서도 실시간 처리가 가능하였다.

시각화는 분석 결과를 시각적으로 표현하여 관리자가 네트워크 상의 위협 상황을 직관적으로 이해하고 대응할 수 있도록 지원하였다.

4.5 한계 및 향후 연구

제안된 기법은 초기 학습 데이터의 품질에 크게 의존하며, 데이터 불균형 문제가 발생할 경우 탐지 성능이 저하될 수 있다. 대규모 네트워크에서 더 복잡한 이벤트 관계를 처리하기 위해 추가적인 최적화가 필요한다. LSTM 및 Transformer와 같은 딥러닝 모델을 적용하여 시간적 패턴 분석 성능을 향상시켜 더 많은 실제 네트워크 데이터를 활용한 실험을 통해 제안 기법의 일반화 가능성에 대한 연구가 필요하다.

5. 결론

본 논문은 보안 이벤트 간의 연관성을 분석하여 위협 탐지 정확도와 효율성을 향상시키는 새로운 기법을 제안하였다. 제안된 기법은 Homogeneous 및 Heterogeneous Log Source를 통합적으로 분석하고, 시간적 및 공간적 연관성을 기반으로 이벤트 간의 관계를 정량적으로 평가하였다. 또한, 머신러닝(Random Forest)을 활용하여 오탐과 미탐을 완화하고, 실시간으로 위협 점수를 계산하여 우선순위를 제시하는 시스템을 설계하였다.

본 논문은 시간적 및 공간적 연관성을 통합한 점수 기반 분석 기법을 설계하여, 기존의 단순 규칙 기반 접근법의 한계를 극복하였다. 머신러닝(Random Forest)을 활용하여 위협 탐지 정확도를 높이고, 오탐률을 기존 기법 대비 15% 감소시켰다. 그리고 대규모 네트워크 환경에서도 실시간으로 보안 이벤트를 분석하며, 관리자에게 직관적인 시각적 결과를 제공하였다.

실험 결과, 제안된 기법은 탐지율 95%, 오탐률 5%를 기록하며, 기존 기법 대비 10% 높은 탐지율을 달성하였다. 또한, 처리 속도는 평균 500ms로 실시간 처리 요구를 충족하였으며, 보안 관리자가 위협을 빠르게 인식하고 대응할 수 있도록 지원하였다.

제안된 기법은 초기 학습 데이터의 품질과 데이터셋의 균형성에 따라 성능이 영향을 받을 수 있다. 특히, Zero-day 공격과 같이 데이터셋에 존재하지 않는 새로운 위협에 대한 탐지는 완전히 해결되지 않았으며, 더 많은 실제 환경 데이터를 활용한 추가 검증이 필요하다.

본 논문은 향후 LSTM(Long Short-Term Memory) 또는 Transformer 기반 모델을 적용하여 시간적 연관성 분석 성능을 향상시키고, Zero-day 공격 탐지 능력을 강화할 수 있도록 더 많은 실제 네트워크 데이터를 활용하여 제안된 기법의 일반화 가능성 검증이 필요하고, 클라우드 및 분산 시스템 환경에서 제안 기법의 확장성과 효율성에 대한 연구가 필요하다.

참고문헌

  1. Lippmann, R., Haines, J. W., Fried, D. J., Korba, J., & Das, K. (2000). The 1999 [2] DARPA off-line intrusion detection evaluation. Computer Networks, 34(4), 579-595. https://doi.org/10.1016/S1389-1286(00)00139-0
  2. Tavallaee, M., Bagheri, E., Lu, W., & Ghorbani, A. A. (2009). A detailed analysis of the KDDCUP 99 data set. In 2009 IEEE Symposium on Computational Intelligence for Security and Defense Applications (pp. 1-6). IEEE.
  3. McHugh, J. (2000). Testing intrusion detection systems: A critique of the 1998 and 1999 DARPA intrusion detection system evaluations as performed by Lincoln Laboratory. ACM Transactions on Information and System Security (TISSEC), 3(4), 262-294. https://doi.org/10.1145/382912.382923
  4. Pfahringer, B. (2000). Winning the KDD99 classification cup: Bagged boosting. ACM SIGKDD Explorations Newsletter, 1(2), 65-66. https://doi.org/10.1145/846183.846200
  5. Chiba, Z., Kheddouci, H., & Meddah, A. (2021). Machine learning algorithms in intrusion detection: A comprehensive review. Journal of Information Security and Applications, 58, 102726.
  6. Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735-1780. https://doi.org/10.1162/neco.1997.9.8.1735
  7. Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32. https://doi.org/10.1023/A:1010933404324
  8. Stolfo, S. J., Fan, W., Lee, W., Prodromidis, A., & Chan, P. K. (2000). Cost-based modeling for fraud and intrusion detection: Results from the JAM project. Proceedings of the DARPA Information Survivability Conference and Exposition (DISCEX), 2, 130-144.
  9. Common Vulnerabilities and Exposures (CVE) Database. (n.d.). Retrieved from https://cve.mitre.org
  10. Canadian Institute for Cybersecurity. (2017). CICIDS 2017 dataset. Retrieved from https://www.unb.ca/cic/datasets/ids-2017.html
  11. Lee, W., & Stolfo, S. J. (1998). Data mining approaches for intrusion detection. In Proceedings of the 7th USENIX Security Symposium (pp. 79-93).
  12. Quinlan, J. R. (1996). Improved use of continuous attributes in C4.5. Journal of Artificial Intelligence Research, 4, 77-90. https://doi.org/10.1613/jair.279
  13. Apache Software Foundation. (n.d.). Apache Kafka: A distributed streaming platform. Retrieved from https://kafka.apache.org
  14. NetworkX Developers. (2024). NetworkX: Graph analytics and network science. Retrieved from https://networkx.org
  15. Scikit-learn Developers. (2024). Scikit-learn: Machine learning in Python. Retrieved from https://scikit-learn.org