1. 서론
디지털 혁신이 가속화되면서 소프트웨어는 산업 경제와 사회 시스템 전반을 지탱하는 핵심 인프라로 자리매김했다. 이러한 변화 속에서 소프트웨어의 개발, 배포, 운용 등 전 과정에 걸쳐 발생하는 보안 위협, 특히 공급망(supply chain)을 통한 사이버 공격이 전례없는 수준으로 증가하며 새로운 국가적 안보 과제로 부상하고 있다. 대표적인 사례로 SolarWinds 침해 사고와 Log4Shell 취약점 사태는 신뢰받는 소프트웨어 채널이나 널리 사용되는 오픈소스 라이브러리가 어떻게 전체 시스템을 마비시키는 연쇄적 파급 효과를 낳을 수 있는지 명확히 보여주었다. 이는 다수의 오픈소스 컴포넌트와 제3자 라이브러리에 대한 의존성이 높은 현대 소프트웨어 개발 환경의 구조적 취약성을 극명하게 드러낸다[1][2].
이러한 위협의 심각성을 인식한 주요 국가들은 소프트웨어의 투명성을 강화하기 위해 SBOM(Software Bill of Materials) 도입을 추진하고 공급망 리스크 평가 기준을 강화하는 등 제도적 노력을 기울이고 있다. 미국, 유럽연합, 한국 등은 관련 정책과 가이드라인을 연이어 발표하며 산업계의 대응을 촉구하고 있으며, 이에 따라 학술적 관심 또한 크게 증가하는 추세이다. 복합적인 위협에 효과적으로 대응하기 위해서는 소프트웨어 공급망 전반에 대한 체계적인 위협 분석과 이를 기반으로 한 보안 정책 수립이 필수적이다[3].
따라서 본 연구는 소프트웨어 공급망 보안 분야의 최신 학술 연구 흐름을 정밀하게 분석하고자 한다. 이를 위해 2018년부터 2024년까지 발표된 관련 학술 논문 데이터를 수집하고, 텍스트 마이닝 기법 중 하나인 LDA(Latent Dirichlet Allocation) 토픽 모델링을 적용하여 핵심 연구 주제들을 식별하고 그 특성을 체계적으로 정리할 것이다.
나아가, 도출된 학술 연구 동향과 미국·유럽 등 주요국의 정책 요구사항을 비교 분석하여 둘 사이의 구조적 격차(gap)를 규명하고, 향후 학계가 정책적 기여를 높이기 위해 나아가야 할 연구 방향성을 제안하고자 한다. 본 연구의 결과는 실효성 있는 정책 수립 및 실무 적용에 있어 중요한 기초 자료로 활용될 것으로 기대된다.
2. 이론적 배경 및 선행 연구 분석
2.1 소프트웨어 공급망의 개념과 보안 위협
소프트웨어 공급망은 소프트웨어가 기획, 개발, 배포, 운영 및 유지·보수되는 전 과정을 포괄하는 복잡한 생태계를 의미한다. 현대 소프트웨어 개발 환경은 생산성 극대화를 위해 오픈소스와 서드파티(3rd-party) 구성 요소에 크게 의존하는데, 이러한 개방성은 공격자에게 다양한 침투 경로를 제공하는 구조적 취약점으로 작용한다[4].
최근 공격은 개발 프로세스의 상류(upstream) 단계에 침투하여 악성코드를 삽입하는 방식으로 진화하고 있으며, XZ Utils 백도어 사건은 공급망의 작은 보안 결함이 전체 시스템의 붕괴로 이어질 수 있는 연쇄적 위험을 명확히 보여주었다[5]. 이러한 심각성 때문에 미국 CISA와 NIST 등은 공급망 공격을 국가 차원의 위협으로 규정하고 적극적인 대응을 촉구하고 있다[6].
2.2 소프트웨어 공급망 보안 정책 동향 및 핵심 요구사항 분석
소프트웨어 공급망을 겨냥한 사이버 위협이 고도화됨에 따라, 세계 주요국들은 이를 억제하기 위한 정책 및 제도적 장치를 강화하고 있다. 이러한 움직임은 공급망의 투명성과 책임성을 강화하고, 개발 전 단계에 보안을 통합하는 방향으로 수렴되고 있다.
미국은 2021년 행정명령(EO 14028)을 통해 연방기관에 SBOM 제출을 의무화했으며[7], 보안 개발 관행 준수를 증명하는 증명서(attestation) 제출을 요구하며 공급자의 책임을 법적 수준으로 강화했다[8]. 유럽연합은 「사이버 복원력 법(이하 CRA)」을 통해 제품의 전 생애주기에 걸친 포괄적인 보안 요구사항을 법제화하였다[9]. 한편, 한국은 KISA의 「소프트웨어 공급망 보안 가이드라인」을 통해 산업계의 자율적인 보안 내재화를 유도하고 있다[4].
이러한 주요국 정책들의 지향점을 종합하여, 본 연구는 학술 연구 동향과 비교·분석하기 위한 4가지 핵심 요구사항 분석 프레임워크를 다음과 같이 도출하였다.
∙ 증명 가능한 보안(Verifiable Security): 정책들은 단순한 보안 활동의 수행 여부를 넘어, 그 활동이 실제로 수행되었음을 제3자가 검증할 수 있는 증거 제출을 요구한다. 이는 SBOM 데이터의 위변조 방지, 암호학적 증명, 자동화된 감사 추적 등이 가능한 아키텍처 구축이 필요함을 의미한다.
∙ 설계 기반 보안(Secure-by-Design): 유럽연합의 CRA는 개발 초기 단계부터 보안 요구사항을 의무적으로 내재화하는 Shift-Left 패러다임을 법제화하고 있다. 이는 개발 이후 단계에서 취약점을 찾는 소극적 대응에서 벗어나, 제품 설계 단계부터 보안을 고려하는 능동적 방어 체계를 요구하는 것이다.
∙ 지능형 보안 자동화(Intelligent Security Automation): AI를 통한 이상 징후 탐지 및 정책 기반의 자동화된 위협 대응 필요성이 주요 정책에서 공통으로 강조되고 있다. 이는 복잡한 공급망 환경에서 발생하는 수많은 이벤트를 인간의 개입 없이 실시간으로 분석하고 방어하는 지능형 체계로의 전환을 촉구하는 것이다.
∙ 상호운용성(Interoperability): SPDX, CycloneDX 등 다양한 표준과 국가별로 상이한 제출 체계는 다국적 기업에 큰 부담으로 작용한다. 따라서 여러 정책 요구사항을 자동으로 매핑하고 변환할 수 있는 통합 플랫폼이나 메타모델은 글로벌 공급망에 참여하기 위한 필수적인 요구사항으로 볼 수 있다.
2.3 LDA 토픽 모델링을 활용한 선행 연구 고찰
LDA(Latent Dirichlet Allocation)는 대규모 문서 집합에 잠재된 핵심 주제를 통계적으로 추출하여 특정 분야의 연구 트렌드를 객관적으로 파악하는 데 널리 활용되는 방법론이다. 정보 기술 및 보안 분야에서도 LDA를 활용하여 공공데이터 관련 연구 동향을 분석하고[10], 보안 뉴스 기사를 통해 이슈의 흐름을 추적하거나[11], 정부의 AI 도입 관련 핵심 이슈를 도출하여 정책적 대안을 제시하는 등 다양한 연구가 수행되었다[12]. 나아가 다른 머신러닝 모델의 특징(feature) 추출 도구로 활용되기도 했다[13].
그러나 이러한 선행 연구들은 공통적으로 키워드로 수집한 데이터 전체를 정량적 검증 과정 없이 분석에 바로 활용한다는 점에서 한계를 갖는다. 이로 인해 주제와 관련성이 낮은 데이터가 분석에 포함되어 토픽의 명확성을 저해하고 결과의 신뢰도를 낮출 수 있다.
2.4 본 연구의 필요성 및 차별성
소프트웨어 공급망 위협과 정책적 대응이 빠르게 구체화되는 상황에서, 해당 분야의 학술 연구 동향을 체계적으로 분석하여 향후 연구 방향을 제시하는 것은 매우 시의적절하다. 본 연구는 이러한 필요성에 기반하되, 앞서 2.3절에서 지적한 선행 연구의 방법론적 한계를 극복하고 분석 결과의 신뢰성을 극대화하는데 핵심적인 목적과 차별성을 둔다.
본 연구의 핵심적인 차별성은 다음과 같다.
첫째, 분석 데이터의 주제 적합성을 기계 학습을 통해 체계적으로 확보하였다. 전문가가 분류한 데이터를 기반으로 SVM(Support Vector Machine) 분류 모델을 학습시켜 연구 주제와 관련성이 높은 문헌만을 엄격하게 선별함으로써 분석 데이터의 품질을 극대화했다.
둘째, 최적의 토픽 수를 결정하기 위해 객관적이고 통합적인 기준을 적용하였다. 토픽의 의미적 일관성(Coherence)과 모델의 예측 성능(Perplexity) 지표를 정규화한 통합 점수 모델을 활용하여 연구자의 주관적 판단을 배제하고 데이터 기반의 의사결정을 수행했다.
이처럼 본 연구는 방법론적 엄밀성을 통해 소프트웨어 공급망 보안 분야의 학술 연구 동향을 정밀하게 분석하고, 학계가 향후 정책적 수요에 부응하는 연구를 기획하는 데 필요한 신뢰도 높은 기초 자료와 실질적인 로드맵을 제공하고자 한다.
3. 연구 설계 및 분석 방법론
본 장에서는 소프트웨어 공급망 보안 분야의 핵심 학술 연구 동향을 정밀하게 도출하기 위해 설계된 연구 방법론을 상세히 기술한다. 본 연구의 전체적인 분석 절차는 (그림 1)과 같다. 연구의 신뢰성과 타당성을 확보하기 위해, 데이터 수집 및 정제, 머신러닝 기반의 분석 대상 선별, 그리고 본 연구의 핵심적 차별성인 정규화된 다중 지표 기반의 LDA 토픽 모델링 절차를 순차적으로 제시한다.

(그림 1) 연구 방법론 흐름도
3.1 분석 데이터의 수집 및 정제
본 연구는 소프트웨어 공급망 보안 분야의 최신 학술 연구 흐름을 포괄적으로 분석하기 위해, 2018년부터 2024년까지 출판된 국내외 학술 논문을 연구 대상으로 선정하였다. 데이터 수집을 위해 공학 및 컴퓨터 과학 분야의 핵심적인 학술 데이터베이스인 IEEE Xplore, SpringerLink, ScienceDirect와 국내 주요 학술 플랫폼인 DBpia를 활용하였다. 검색 키워드는 공급망 보안의 핵심 개념을 포괄하는 “software supply chain”, “SBOM(Software Bill of Materials)”, “DevSecOps”, “open-source security” 등을 조합하여 사용함으로써, 관련 연구를 누락 없이 확보하고자 하였다.
초기 수집 단계에서 확보된 약 80,000건의 방대한 논문 메타데이터는 분석의 정확도를 저해할 수 있는 노이즈를 포함하고 있다. 이에 따라 데이터의 질적 수준을 높이기 위해 엄격한 전처리(pre-processing) 과정을 수행하였다. 구체적으로 논문의 제목과 초록에 포함된 불필요한 특수문자 및 HTML 태그를 제거하였으며, Python의 langdetect 라이브러리를 활용하여 분석 대상 언어인 영어와 한국어 이외의 논문을 필터링하였다. 마지막으로, 내용적으로 중복되는 연구를 배제하기 위해 제목과 초록의 유사도를 측정하여 중복 데이터를 제거함으로써 최종 분석 데이터셋의 정합성을 확보하였다.
3.2 머신러닝 기반 연구 주제 필터링 및 데이터셋 구축
키워드 기반 검색만으로는 분석 주제와 직접적인 관련성이 낮은 논문이 포함될 수 있다는 한계를 극복하고, 데이터의 주제 적합성을 극대화하기 위해 머신러닝 기반의 분류 모델을 도입하였다. 이는 본 연구가 기존의 양적 연구와 차별화되는 지점이다.
먼저, 전문가의 검토를 통해 소프트웨어 공급망 보안 주제에 직접적으로 부합하는 논문 200건과 일반적인 소프트웨어 공학 또는 공급망 관리 등 관련성은 있으나 핵심 주제에서 벗어난 논문 130건을 수동으로 레이블링하여 초기 학습 데이터셋(seed dataset)을 구축하였다. 그러나 소규모 데이터셋은 모델의 과적합(overfitting)을 유발하여 일반화 성능을 저하시킬 수 있다. 이러한 문제를 완화하고 모델의 강건성(robustness)을 확보하고자 텍스트 데이터 증강 기법인 EDA(Easy Data Augmentation)를 적용하였다. EDA는 원본 문장에 대해 동의어 치환(synonym replacement), 랜덤 삽입(random insertion), 단어 순서 변경(random swap), 랜덤 삭제(random deletion)의 4가지 연산을 무작위로 적용하여 데이터의 양과 다양성을 효과적으로 확장하는 기법이다. 이 과정을 통해 최종적으로 674건의 풍부한 학습 데이터셋을 확보하였다.
확보된 학습 데이터셋을 기반으로, 텍스트 분류 문제에서 우수한 성능을 보이는 지도학습 알고리즘인 SVM(Support Vector Machine)을 분류 모델로 채택하였다. 특히, 텍스트의 구조적 특성을 효과적으로 벡터 공간에 투영하기 위해, 단어의 빈도와 문서 내 중요도를 함께 고려하는 TF-IDF(Term Frequency-Inverse Document Frequency) 가중치를 특성(feature)으로 사용하였다. 훈련된 SVM 모델을 전체 논문 데이터에 적용하여 각 논문이 소프트웨어 공급망 보안 주제에 해당할 확률을 계산하였으며, 분석의 정밀도를 극대화하기 위해 예측 확률이 0.90 이상으로 매우 높게 판별된 논문만을 최종 분석 대상으로 확정하였다. 이처럼 엄격한 기준을 통해 최종 선별된 432편의 고품질 논문은 본 연구의 분석 결과에 높은 신뢰도를 부여한다.
3.3 LDA 토픽 모델링 및 최적 토픽 수 결정
본 연구의 핵심적인 방법론적 독창성은 LDA(Latent Dirichlet Allocation) 토픽 모델링 과정, 특히 최적의 토픽 수를 결정하는 정교한 접근법에서 드러난다. LDA는 문서 집합 내에 잠재적으로 내재된 주제들을 확률적으로 추론하는 대표적인 생성 모델(generative model)로서, 대규모 텍스트 데이터로부터 핵심 주제를 식별하는 데 매우 효과적이다.
LDA 모델링에서 토픽의 수(k)를 결정하는 것은 분석 결과의 품질과 해석 가능성을 좌우하는 매우 중요한 단계이다. 본 연구에서는 이 결정을 위해 널리 사용되는 두 가지 상호보완적인 평가 지표, 즉 Coherence 점수와 Perplexity 점수를 동시에 활용하였다. Coherence 점수는 토픽 내에서 빈번하게 함께 등장하는 단어들의 의미적 일관성을 측정하는 지표로, 이 값이 클수록 인간이 해석하기에 자연스럽고 의미 있는 주제가 도출되었음을 의미한다. 반면, Perplexity 점수는 모델이 학습 데이터를 얼마나 잘 설명하는지를 나타내는 지표로, 모델의 예측 성능을 평가하며 값이 낮을수록 더 우수한 모델로 간주된다.
그러나 두 지표는 각각 측정하는 대상과 스케일이 달라 직접적인 비교가 어렵고, 때로는 상반된 경향성을 보여 최적의 토픽 수를 결정하는 데 모호함을 야기하는 한계가 존재한다. 본 연구는 이러한 방법론적 문제를 해결하고, 객관적이고 재현 가능한 기준을 수립하기 위해 정규화 기반의 통합 점수(combined score) 모델을 설계하였다. 이는 Farea et al.(2024)의 선행 연구에서 제시된 다중 지표 결합 방법론[14]을 차용한 것이다.
통합 점수를 산출하기 위해, 우선 각기 다른 스케일을 가진 Coherence와 Perplexity 점수를 Min-Max 정규화 기법을 이용해 0과 1 사이의 동일한 척도로 변환하였다. 이때 각 지표가 지향하는 이상적인 값의 방향성을 반영하여 정규화를 진행하였다. 즉, 값이 클수록 좋은 Coherence 점수는 정방향으로, 반대로 값이 작을수록 우수한 Perplexity 점수는 역방향으로 정규화하여 두 지표 모두 1에 가까울수록 더 나은 상태를 의미하도록 값을 조정하였다. 이렇게 변환된 두 정규화 점수를 산술 평균하여, 토픽의 의미적 일관성과 모델의 통계적 예측력을 균형 있게 반영하는 최종 통합 점수를 도출하였다.
(그림 2)는 k 값을 2부터 10까지 변화시키며 측정한 Coherence 및 Perplexity 점수를 시각적으로 보여준다. <표 1>의 분석 결과, 토픽 수가 7일 때 통합 점수가 0.654로 가장 높게 나타났다. 이에 따라 본 연구는 최적의 토픽 수를 7로 최종 결정하였다. 이처럼 정량적이고 체계적인 접근법은 연구자의 주관적 판단을 배제하고 데이터 기반의 의사결정을 가능하게 함으로써, 토픽 모델링 결과의 신뢰성과 객관성을 극대화한다. 이는 기존 연구들과 차별화되는 본 논문의 핵심적인 기여 중 하나이다.

(그림 2) LDA 모델 평가 지표 변화 추이
<표 1> 최적 토픽 수 탐색 결과

4. 연구 동향 분석 결과 및 정책적 함의
4.1 소프트웨어 공급망 보안 핵심 학술 연구 토픽
본 연구는 2018년부터 2024년까지 발간된 소프트웨어 공급망 보안 관련 학술 논문 432편을 대상으로 LDA 토픽 모델링을 수행하여 핵심 연구 주제를 도출하였다. 3장에서 기술한 바와 같이, Coherence와 Perplexity의 통합 점수 기반 분석을 통해 최적 토픽 수를 7개로 확정하였다.
<표 2>는 도출된 7개 학술 연구 토픽의 주제 요약과 대표 키워드, 그리고 2.2절에서 도출한 4대 정책 요구사항과의 연계성을 함께 제시한 결과이다. 각 토픽은 (1) SBOM 구조화 및 취약점 분석, (2) 오픈소스 기반 개발 프로세스, (3) 펌웨어 및 빌드 취약점, (4) 공격 표면 및 종속성 분석, (5) 정책 및 거버넌스, (6) 악성 패키지 탐지, (7) DevSecOps 워크플로우 보안으로, 현재 학계에서 논의되는 핵심 영역을 포괄적으로 보여준다.
<표 2> 소프트웨어 공급망 보안 학술 연구 토픽 및 정책 요구사항 연계 분석

4.2 토픽별 학술 연구 동향 분석
4.2.1 SBOM 구조화 및 취약점 분석
<표 2>에 따르면, 토픽 1은 소프트웨어 구성 요소를 식별하고 분석하기 위한 SBOM(Software Bill of Materials) 기반 연구에 해당하며, 최근 공급망 보안에서 가장 활발하게 다루어지는 분야 중 하나이다. SBOM은 소프트웨어 내부 구성 요소와 의존성을 문서화하여, 보안 취약점의 추적과 대응을 가능하게 하는 핵심 메커니즘으로 부상하였다.
최근 연구들은 SBOM의 표현 포맷(SPDX, CycloneDX 등), 생성 도구의 기능 비교, 자동화 연계성 등을 주요 주제로 다룬다. 특히 Mirakhorli et al.(2024)은 SBOM 도구들을 포맷 지원, CI/CD 연동, 자동 생성 여부 등의 기준으로 분류하고, 기술적 상호운용성 확보가 실무 수용성을 좌우함을 강조하였다[15]. Black Duck(2025) 역시 기업 다수가 SBOM을 도입하고 있으나, 구성 정보 불완전, 업데이트 지연 등으로 실효성에 제약이 있다는 점을 지적하였다[16].
이처럼 SBOM의 기술적 토대를 마련하는 현재의 연구들은, 향후 정책이 요구하는 증명 가능한 보안 체계를 완성하기 위해 SBOM 데이터의 무결성 보장 및 자동화된 검증 아키텍처 연구로 나아갈 수 있는 중요한 디딤돌 역할을 한다.
4.2.2 오픈소스 기반 개발 프로세스 및 위협 모델링
<표 2>의 분석 결과에 따르면, 토픽 2는 소프트웨어 공급망의 전 주기적 위협에 대응하기 위한 보안 설계 속성과 이를 구현하기 위한 프레임워크 중심의 연구에 해당한다. 기존의 취약점 기반 대응을 넘어, 공급망 침해의 전 단계—침입, 변조, 전파, 악용—에 걸친 구조적 방어를 설계 단계에서부터 고려하는 흐름이 반영되어 있다.
대표적으로 Okafor et al.(2022)은 다양한 공급망 공격 사례를 기반으로, 위협을 침해(compromise), 변조(alteration), 전파(propagation), 악용(exploitation) 네 단계로 구분하고, 이를 예방하기 위한 핵심 보안 설계 속성으로 투명성(transparency), 유효성(validity), 분리성(separation)을 제시하였다. 각 속성은 SBOM, 서명 기반 검증, 컨테이너화 등 다양한 기술로 구체화되며, 개별 기술이 아닌 속성 중심의 접근이라는 점에서 주목할 만하다[17].
한편, ODNI et al.(2023)에서 제시된 미국 CISA 및 NIST의 권고안은 위와 같은 속성 기반 접근을 제도화하고 있으며, SLSA, SSDF, CNCF Secure Software Factory 등 다양한 프레임워크가 실제 구현 지침으로 활용되고 있다. 이러한 프레임워크는 기술 간 파편화를 줄이고, 조직의 보안 성숙도를 정량화할 수 있는 기준으로서 기능한다[18].
이러한 속성 기반 접근법은 향후 다양한 구현 기술과 보안 속성을 체계적으로 매핑하고, 조직의 특성에 맞는 속성 간 우선순위를 결정하는 프레임워크 연구로 발전시켜 정책이 요구하는 설계 기반 보안을 구체화할 수 있는 잠재력을 보여준다.
4.2.3 펌웨어 및 빌드 컴포넌트 취약점 분석
<표 2>의 토픽 3은 IoT 환경에서 발생하는 공급망 보안 취약성과 이에 대한 대응 방안을 다룬다. IoT 생태계는 물리적 장치의 다양성과 불균형한 보안 수준, 공급망 내 구성 요소의 복잡한 연계성으로 인해 전통적 IT 시스템보다 더 높은 보안 위험에 노출되어 있다.
Zhu et al.(2023)은 IoT 소프트웨어 공급망 보안의 위험 평가 기법을 구조화하여 제안하며, 위협 시나리오, 자산-취약점-공격 벡터 간 연계를 기반으로 하는 종합적 위험 분석 프레임워크를 도출하였다. 이 연구는 특히 IoT 장치 특유의 제약 조건(저전력, 실시간성, 단편화된 펌웨어 구조)이 공급망 전체의 취약성 평가를 더욱 복잡하게 만든다는 점을 강조하였다[19].
Bitdefender(2024)는 실증 데이터를 기반으로 보안 이벤트를 분석하였으며, 스마트 TV, DVR, 스마트 플러그 등 다양한 장치에서 심각한 취약점이 지속적으로 발견되고 있음을 보고하였다. 특히 TV나 라우터와 같이 장기간 사용되면서 제조사 지원이 중단된 장치는 이른바 n-day 취약점을 장기간 방치하게 되는 경향이 있다. 공격자들은 대부분 기존에 알려진 취약점(CVE)을 재활용하여 IoT 장치에 접근하고 있으며, 높은 위험도를 지닌 CVE(9∼10점대)에 공격이 집중되고 있다는 점은 대응 우선순위 설정의 필요성을 시사한다[20].
결론적으로, IoT 공급망의 이질성과 복잡성을 다루는 이들 연구는 개별 장치 보안을 넘어, 공급망 전체의 위험을 정량적으로 평가하고 이종(heterogeneous) 장치 간 신뢰할 수 있는 정보 공유 체계를 구축하는 후속 연구의 필요성을 제기한다.
4.2.4 공격 표면 분석 및 종속성 기반 위협 탐지
<표 2>에서 도출된 토픽 4는 소프트웨어의 공격 표면(attack surface)을 구성하는 종속성(dependency)과 라이브러리, 빌드 파이프라인 등에서 발생하는 위협을 탐지하고 분석하는 기술적 접근을 중심으로 한다. 이는 SolarWinds, Log4Shell 사태 이후 더욱 중요해진 직접·간접적 종속성 내에 숨겨진 악성코드를 식별하고, 빌드 과정 자체의 무결성을 확보하려는 연구 흐름을 반영한다.
Seshadri et al.(2024)은 OmniBOR라는 시스템을 통해 소프트웨어 아티팩트 간의 관계를 콘텐츠 기반 고유 식별자(gitoid)로 추적하는 아티팩트 종속성 그래프(Artifact Dependency Graph, ADG) 체계를 제안하였다. 이 시스템은 소스코드부터 라이브러리, 최종 빌드된 바이너리까지 모든 구성 요소의 계보를 명확히 하여, 특정 취약점이나 악성코드가 포함된 라이브러리가 어떤 경로로 최종 제품에 포함되었는지 정확히 추적할 수 있게 한다. 이는 복잡한 종속성 트리 전체를 가시화하여 잠재적 위협을 식별하는 데 매우 효과적인 도구이다[21].
한편, Red Hat(2024)의 보고서에 따르면 실제 산업 현장에서는 빌드 단계의 보안 성숙도가 조직별로 큰 편차를 보인다. 보안 성숙도가 높은 조직은 CI/CD 파이프라인에 자동화된 보안 검사를 포함시켜 컴플라이언스 충족 여부를 확인하지만, 57%의 개발팀은 빌드 정보를 파이프라인 컴플라이언스 검증에 활용하지 않고 있다. 또한, 개발팀의 67%가 CI/CD 파이프라인에 여러 보안 관행을 포함하고 있지만, 이는 주로 반복 작업을 줄이는 데 초점이 맞춰져 있어, 정교한 공격을 방어하기 위한 심층적인 종속성 분석 및 검증 체계는 여전히 부족한 것으로 나타났다[22].
이는 개별 컴포넌트 분석을 넘어, 복잡한 종속성 그래프 전체를 자동으로 분석하고 잠재적 위협을 예측하는 지능형 보안 자동화 연구로 발전할 수 있는 중요한 가능성을 보여준다.
4.2.5 SBOM 기반 공급망 위험 관리 및 정책 거버넌스
<표 2>의 토픽 5는 SBOM을 중심으로 한 공급망 위험 관리와 이를 지원하는 정책(policy) 및 거버넌스(governance) 체계 구축에 관한 연구를 포괄한다. 이는 기술적 탐지를 넘어, 정부와 산업 수준의 표준을 조직의 보안 프로세스에 내재화하려는 시도를 보여준다.
Xia et al.(2023)은 기존 SBOM 공유 방식이 데이터 위변조 및 민감 정보 노출 위험에 직면하고 있다는 문제를 지적하며, 이를 해결하기 위한 솔루션으로 블록체인 기반의 SBOM 공유 아키텍처를 제안하였다. 이 구조는 검증 가능한 자격증명(VC)을 활용하여 SBOM 데이터의 무결성을 보장하고, 선택적 정보 공개를 통해 기업의 민감 정보를 보호하면서도 신뢰 기반의 관리 체계를 구축할 수 있다. 또한, 이 연구는 향후 AI 컴포넌트까지 관리 대상으로 포함하는 AIBOM(AI Bill of Materials)으로의 확장을 제시하며, 이는 AI 기반 소프트웨어의 위험 관리라는 새로운 과제(challenge)에 대응하는 미래지향적 거버넌스 모델이다[23].
한편 Anchore(2025)는 Policy-as-Code(PaC)를 통해 이러한 거버넌스를 자동화하는 방안을 제시하였다. PaC는 조직의 보안 정책을 사람이 읽는 문서가 아닌, 실행 가능한 코드로 정의하여 CI/CD 파이프라인에 통합하는 방식이다. 예를 들어, “특정 라이선스를 포함하거나 CVSS 9.0 이상의 취약점이 발견된 컴포넌트가 포함된 빌드는 자동으로 차단한다”와 같은 정책을 코드로 구현하고, SBOM 스캔 결과와 연동하여 실시간으로 정책을 강제할 수 있다. 이는 수동 검사에 의존하던 기존의 관리 방식을 자동화된 거버넌스 체계로 전환하여 일관성과 효율성을 극대화하는 핵심 기술이다[24].
결론적으로, 블록체인 및 Policy-as-Code(PaC)와 같은 기술을 활용하는 이들 연구는 향후 다양한 국가의 규제와 산업 표준을 동적으로 반영하고, 조직의 거버넌스 정책을 코드로 자동 변환·검증하는 정책 상호운용성 확보 연구로 나아갈 중요한 방향을 제시한다.
4.2.6 악성 패키지 및 사이버 공격 탐지 프레임워크
토픽 6은 소프트웨어 공급망을 위협하는 악성 패키지 탐지 기술 및 대응 전략에 집중된 연구로 구성된다. 본 토픽에 포함된 논문들은 NPM, PyPI, Maven 등 공개 저장소를 악용한 타이포스쿼팅(typosquatting), 악성코드 삽입 등과 같은 정교한 공격 시나리오에 대응하기 위한 기술적 접근을 중점적으로 다룬다.
특히 Sejfia et al.(2022)은 머신러닝 기반의 정적 분석 및 메타데이터 이상 탐지를 결합하여 악성 NPM 패키지를 사전 탐지하는 자동화된 프레임워크를 제안하였다. 이 연구는 악성코드 삽입이 아닌 의심스러운 배포 패턴, 권한 요구 이상징후, 패키지명 유사도 등을 종합적으로 고려하여 탐지율을 향상시키고, 개발 환경에 통합 가능한 경량 탐지 모델을 구현한 것이 특징이다[25].
또한 Linskens(2025)는 Sonatype의 SCA(Software Composition Analysis) 기반 악성 패키지 탐지 기술을 소개하면서, 현재까지 식별된 오픈소스 악성 패키지가 778,500개를 초과한다는 통계를 제시하였다. Sonatype은 수집된 패키지 메타데이터, 코드, 배포 로그를 기반으로 이상 행위를 머신러닝으로 식별하고, 개발 환경 내 실시간 경고 및 차단 기능을 제공함으로써 SDLC 전 주기에서 보안성을 확보할 수 있음을 강조하였다. 이처럼 기업용 SCA 솔루션은 단순한 취약점 분석을 넘어, 규제 준수 및 공급망 전반의 무결성 확보를 지원하는 핵심 기술로 발전하고 있다[26].
이러한 악성 패키지 탐지 연구는 향후 SBOM 상의 의심 요소와 실시간으로 연계하여 탐지 정확도를 높이고, 알려진 악성 패키지의 변종까지 예측하는 지능형 탐지 프레임워크 연구로 심화될 수 있는 기반을 마련한다.
4.2.7 DevSecOps 워크플로우 및 코드 저장소 보안
<표 2>의 토픽 7은 소프트웨어 개발 전 과정에 보안을 통합하는 DevSecOps 전략 중, 특히 CI/CD 파이프라인의 자동화된 보안 통제에 주목한 연구들을 포함한다. 이 토픽은 GitHub Actions, Jenkins, GitLab CI 등으로 대표되는 자동화된 개발 환경 내에서 보안 정책을 코드 수준에서 구현하고, 무단 변경이나 취약 설정을 사전에 차단하는 기술을 중심으로 전개된다.
Benedetti et al.(2022)은 GitHub Actions 워크플로우 설정에서 발생할 수 있는 보안 취약성을 자동으로 탐지하는 정적 분석 프레임워크를 제안하였다. 해당 연구는 외부 액션의 무분별한 참조, run 명령어를 통한 임의 실행, 권한 상속 오용 등의 구성 문제를 구조화된 정책(rule set) 기반으로 분석하며, 수천 개의 실제 프로젝트에 적용하여 취약 사례를 실증적으로 식별하였다. 이러한 연구는 DevSecOps 실현을 위한 사전 검증(pre-deployment validation)의 핵심 사례로 평가된다[27].
한편 Checkmarx(2025)는 DevSecOps 성숙도 모델을 기반으로 보안 자동화의 확산 수준을 진단하고, 조직 내 보안 정책의 코드화(Policy-as-Code) 수준이 낮은 기업일수록 파이프라인 내 보안 사고 노출 가능성이 높다는 점을 지적하였다. 특히 조직의 약 20%는 여전히 AppSec 자동화를 도입하지 않았으며, 정책 기반 배포 차단과 같은 고급 자동화 기능의 활용률은 30% 내외에 불과하다는 점은 주목할 만하다. 이는 기술적 도입을 넘어, 조직 문화와 정책 정합성을 함께 고려한 전략적 접근이 요구됨을 시사한다[28].
결과적으로 CI/CD 환경의 보안 자동화를 다루는 이들 연구는, 향후 워크플로우 자체의 보안성을 증명하고 여기서 생성된 로그를 법적 증거로 활용하는 증명 가능한 보안 체계 연구로 확장될 수 있는 중요한 연결고리를 제공한다.
4.3 학술 연구 동향과 정책 요구사항의 연계성 분석
본 연구에서 도출된 7개의 학술 연구 토픽은 <표 2>에서 보듯이 SBOM, SCA, CI/CD 보안 자동화 등 기술적 측면에 집중되어 있으며, 이는 미국 행정명령이나 유럽 CRA가 강조하는 정책 목표와 높은 방향성을 공유한다. 예를 들어 SBOM 구조화(토픽 1)나 악성 패키지 탐지(토픽 6) 연구는 정책의 투명성 확보 및 자동화된 검증 요구에 직접적으로 부응한다.
그러나 학술 연구의 세부적인 초점과 정책의 궁극적인 지향점 사이에는 특정 간극이 존재하는 것으로 해석될 수 있다. 대부분의 연구는 개별 기술의 기능 향상이나 특정 취약점 탐지에 집중하는 반면, 정책은 이러한 기술들을 활용하여 증명 가능하고(verifiable) 신뢰할 수 있으며(attested) 상호운용 가능한(interoperable) 보안 생태계를 법적으로 구축하는 것을 목표로 한다. 다음 절에서는 이러한 간극을 미래 연구 기회라는 관점에서 조명하고, 구체적인 발전 방향을 제시하고자 한다.
4.4 학술 연구와 정책 요구사항 간의 격차 및 향후 연구 기회
앞서 분석한 학술 연구 동향과 2.2절에서 도출한 4대 핵심 정책 요구사항을 비교하여, 본 연구는 학계의 정책적 기여도를 높이기 위한 네 가지 구체적인 연구 기회 영역을 다음과 같이 제시한다. 이는 학술적 논의를 정책적 실효성으로 연결하기 위한 미래 연구의 청사진이 될 수 있다.
첫째, 증명 가능한 보안(Verifiable Security) 구현을 위한 아키텍처 연구 기회다. 미국 행정명령 등이 요구하는 증명서(attestation)는 단순히 SBOM 목록을 제출하는 것을 넘어, 그 내용의 진실성과 개발 과정의 보안성이 법적으로 증명될 수 있음을 의미한다. 하지만 현재 학술 연구(토픽 1, 5, 7)는 SBOM 생성·분석, 블록체인 기반 거버넌스, DevSecOps 워크플로우 보안 등을 다루며 데이터 생성 및 관리 기술에 집중하는 경향을 보인다. 이는 향후 학계가 개별 기술을 넘어 기계 판독 가능한 표준 증명서 포맷 설계, SBOM 데이터와 개발 아티팩트 간의 암호학적 연결을 통한 무결성 보장 기술, CI/CD 파이프라인에서 생성되는 로그를 자동화된 감사 증거로 활용하는 신뢰 체계 구축 등 포괄적인 증명 아키텍처 연구로 나아갈 수 있는 중요한 기회 영역임을 시사한다.
둘째, 설계 기반 보안(Secure-by-Design) 원칙의 실질적 구현을 위한 자동화 연구 기회다. 유럽의 CRA는 SDLC 초기 단계부터 보안을 의무적으로 내재화하는 Shift-Left 패러다임을 법제화하고 있다. 현재 학계의 연구(토픽 2, 3, 7)는 위협 모델링이나 CI/CD 보안 자동화 등을 다루며 이 원칙에 접근하고 있으나, 대부분 개발 이후 단계의 취약점 탐지나 방어 기술에 더 집중되어 있다. 이 간극은 학계에 새로운 연구 기회를 제공한다. 즉, 조직의 보안 정책을 개발 초기 단계의 요구사항으로 자동 변환하는 기술, 설계 단계에서부터 공급망 위험을 정량적으로 모델링하고 시뮬레이션하는 도구, 안전한 코딩 표준을 강제하고 검증하는 개발 프레임워크 연구 등 설계 단계의 보안을 기술적으로 자동화하고 지원하는 심도 있는 연구가 필요하다.
셋째, 지능형 보안 자동화(Intelligent Security Automation)의 고도화 연구 기회다. 정책이 AI를 활용한 지능형 방어 체계를 요구하는 반면, 현재 관련 학술 연구(토픽 4, 6, 7)는 주로 종속성 분석, 악성 패키지 탐지, CI/CD 파이프라인 내 보안 자동화 등에 머물러 있다. 이는 AI의 잠재력을 완전히 활용하지 못하고 있는 단계로, 학계가 선도할 수 있는 유망한 연구 분야가 존재함을 의미한다. 구체적으로 잠재적 공격 벡터를 사전에 예측하는 위협 인텔리전스 모델 개발, 수많은 취약점 정보 속에서 실제 위협이 될 우선순위를 AI가 자동으로 결정하는 시스템, AIBOM(AI Bill of Materials) 개념을 실체화하여 AI 모델 자체의 공급망을 관리하고 보안성을 측정하는 기초 연구 등이 시급하다.
넷째, 상호운용성(Interoperability) 확보를 위한 실용적 연구 기회다. 다국적 기업들은 SPDX, CycloneDX 등 다양한 표준과 국가별 상이한 제출 체계로 인해 규제 준수에 큰 어려움을 겪는 현실적인 문제에 직면해 있다. 현재 관련 학술 연구(토픽 1, 5)는 SBOM 데이터 포맷을 비교하거나 정부·산업 표준 기반의 거버넌스 체계를 다루며 상호운용성의 중요성을 인식하고 있다. 하지만 이러한 연구들은 각기 다른 표준과 규제를 자동으로 변환하거나 통합적으로 조율하는 근본적인 해결책을 제시하기보다는, 개별 표준의 활용 자체에 초점을 맞추는 경향이 있다.
이 지점이 바로 학계가 현실의 복잡성을 해결하며 기여할 수 있는 연구 기회다. 구체적으로 다양한 SBOM 포맷과 정책 요구사항을 아우르는 공통 메타모델(Common Meta-Model)을 설계하여 자동 변환의 기반을 마련하고, 여러 국가의 규제를 동시에 만족시키는 최적의 보안 활동 조합을 추천하는 의사결정 지원 시스템을 개발하는 연구를 통해 산업계의 운영 부담을 줄이고 정책의 실효성을 높이는 데 직접적으로 기여할 수 있다.
5. 결론
본 연구는 빠르게 변화하는 소프트웨어 공급망 보안 환경에 대응하여, 해당 분야의 학술 연구 동향을 체계적으로 분석하고 정책적 시사점을 도출하고자 LDA 토픽 모델링을 활용하였다. 2018년부터 2024년까지의 국내외 학술논문 432편을 심층 분석한 결과, (1) SBOM 구조화, (2) 오픈소스 개발 프로세스, (3) 펌웨어 및 빌드 취약점, (4) 공격 표면 분석, (5) 정책 및 거버넌스, (6) 악성 패키지 탐지, (7) DevSecOps 워크플로우 보안 등 총 7개의 핵심 학술 연구 토픽을 도출했다. 이는 현재 학계의 주요 관심사가 기술 기반의 취약점 분석과 방어 체계 구축에 있음을 보여준다.
본 연구는 데이터 기반의 LDA 토픽 모델링을 통해, 급증하는 소프트웨어 공급망 보안 분야의 학술 연구 지형도를 체계적으로 제시했다는 점에서 일차적인 의의를 갖는다. 나아가, 단순히 연구 동향을 나열하는 것을 넘어, 도출된 학술 연구 토픽들을 미국 행정명령 및 유럽 CRA 등 주요 정책의 핵심 요구사항과 연계하여 분석함으로써, 학계가 향후 정책적 실효성을 높이고 실질적인 문제 해결에 기여할 수 있는 네 가지 구체적인 기회 영역을 식별했다는 점에서 차별적인 기여를 한다. 본 연구의 결과는 향후 관련 연구를 수행하고자 하는 연구자들에게는 미래 연구 방향을 설정하는 로드맵으로, 정책 입안자들에게는 학계의 논의를 파악하고 정책과 연구의 선순환을 유도하는 기초 자료로 활용될 수 있을 것으로 기대된다.
본 연구는 위와 같은 의의에도 불구하고, 다음과 같은 한계를 지니며 이는 향후 연구를 통해 보완될 필요가 있다.
첫째, 분석 대상이 학술 논문에 한정되어 있어, 산업계 기술 보고서, 특허, 실제 기업의 적용 사례 등 현장의 관점이 충분히 반영되지 못했다. 또한, 학술 데이터베이스가 가지는 게재 시차(publication lag)나 특정 주제에 연구가 집중되는 출판 편향(publication bias)이 연구 결과에 영향을 미쳤을 가능성이 있다.
둘째, 본 연구에서 분석 기준으로 활용한 4대 정책 요구사항은 주요 정책 문건에 대한 정성적 종합을 통해 도출되었으나, 각 요구사항을 범주화하는 구체적인 절차와 기준을 상세히 제시하지는 못했다. 향후 연구에서는 내용 분석 등 보다 체계적인 질적 연구 방법론을 적용하여 분석 프레임워크의 재현성과 신뢰도를 높일 필요가 있다.
셋째, 학술 연구 동향과 정책 요구사항 간의 격차 분석이 주로 정성적 비교에 기반하고 있어, 연구의 집중도나 깊이를 객관적으로 측정하는 데는 한계가 있다. 후속 연구에서는 토픽별 연구 비중(%)과 같은 정량적 지표를 함께 활용하여, 어떤 영역에 학술적 논의가 집중되고 부족한지를 더욱 데이터에 기반하여 분석함으로써 논증을 강화할 수 있을 것이다.
이러한 한계들을 보완하는 후속 연구를 통해, 기술과 정책의 연계 구조를 더욱 입체적으로 분석하고 실효성 있는 정책-기술 융합형 소프트웨어 공급망 보안 모델을 구축하는 데 기여할 수 있을 것으로 기대한다.
References
- S. Oladimeji and S. M. Kerner, "SolarWinds Hack Explained: Everything You Need to Know", Informa TechTarget, 2023.
- J. Doll, C. McCarthy, H. McDougall and S. Bhunia, "Unraveling Log4Shell: Analyzing the Impact and Response to the Log4j Vulnerability", arXiv:2501, 17760, 2025.
- Mandiant, "Special Report: Mandiant M-Trends 2024", 2024.
- 한국인터넷진흥원, "SW 공급망 보안 가이드라인", 2024.
- M. Korolov, "What is a Software Supply Chain Attack?", CIO, 2020.
- CISA and NIST, "Defending Against Software Supply Chain Attacks", 2021.
- The White House, "Executive Order 14028: Improving the Nation's Cybersecurity", Federal Register, Vol. 86, No. 95, pp. 26633-26647, 2021.
- The White House, "Executive Order 14144: Strengthening and Promoting Innovation in the Nation's Cybersecurity", Federal Register, Vol. 89, No. 12, pp. 3291-3300, 2025.
- European Commission, "Cyber Resilience Act (CRA)", COM(2022) 454 Final, 2022.
- 박대영, 김덕현, 김건욱, "토픽 모델링 기반의 국내외 공공데이터 연구 동향 비교 분석", 디지털 융복합연구, 제19권, 제2호, pp. 1-12, 2021.
- S. Y. Yuk, H. J. Cha and A. R. Kang, "Analysis of Trends in Information Security Using LDA Topic Modeling", Journal of the Korea Society of Computer and Information, Vol. 29, No. 7, pp. 99-107, 2024. https://doi.org/10.9708/jksci.2024.29.12.099
- 김응준, "LDA 토픽모델링을 활용한 정부 내 AI 도입 이슈 및 시사점 분석", 스마트미디어저널, 제14권, 제4호, pp. 98-106, 2025. https://doi.org/10.30693/SMJ.
- 주진현, 박근덕, "LDA와 LSTM를 응용한 뉴스 기사 기반 선물가격 예측", 산업융합연구, 제21권, 제1호, pp. 167-173, 2023. https://doi.org/10.22678/JIC.2023.21.1.167
- M. M. Farea, I. Aljarah, H. Faris and N. Obeid, "Investigating the Optimal Number of Topics by Advanced Text-Mining Techniques", Engineering Applications of Artificial Intelligence, Vol. 127, 107352, 2024.
- M. Mirakhorli, D. Garcia, S. Dillon, K. Laporte, M . M orrison, H . Lu, V . Koscinski and Christopher Enoch, "A Landscape Study of Open Source and Proprietary Tools for Software Bill of Materials (SBOM)", arXiv:2402, 11151, 2024.
- Black Duck, "Open Source Security and Risk Analysis", 2025.
- C. Okafor, T. Schorlemmer, S. Torres-Arias and J. C. Davis, "SoK: Analysis of Software Supply Chain Security by Establishing Secure Design Properties", arXiv:2406, 10109, 2024.
- ODNI, NSA, CISA and CSCC, "Securing the Software Supply Chain: Recommended Practices for Managing Open-Source Software and Software Bill of Materials", 2023.
- Z. Zhu, K. Lan, Z. Rao and Y. Zhang, "Risk Assessment Method for IoT Software Supply Chain Vulnerabilities", Journal of Physics: Conference Series, Vol. 1732, 012051, 2021.
- Bitdefender, "The 2024 IoT Security Landscape Report", 2024.
- B. Seshadri, Y. Han, C. Olson, D. Pollak and V. Tomasevic, "OmniBOR: A System for Automatic, Verifiable Artifact Resolution across Software Supply Chains", arXiv:2402, 08980, 2024.
- Red Hat, "Software Supply Chain Security Report Overview", 2024.
- B. Xia, D. Zhang, Y. Liu, Q. Lu, Z. Xing and L. Zhu, "Trust in Software Supply Chains: Blockchain-Enabled SBOM and the AIBOM Future", arXiv:2307, 02088, 2024.
- Anchore, "What is a Software Bill of Materials (SBOM)?", 2024.
- A. Sejfia and M. Schäfer, "Practical Automated Detection of Malicious npm Packages", arXiv:2202, 13953, 2022.
- A. Linskens, "Malicious Package Detection: Sonatype Secures Software Supply Chains", Sonatype, 2025.
- G. Benedetti, L. Verderame and A. Merlo, "Automatic Security Assessment of GitHub Actions Workflows", arXiv:2208, 03837, 2022.
- Checkmarx, "DevSecOps Evolution: From DevEx to DevSecOps", 2025.