DOI QR코드

DOI QR Code

A Question-Answering System for Cadet Life Regulations Using a KoBART-Based Seq2Seq Model

KoBART 기반 Seq2Seq 모델을 활용한 생도생활 예규 질의응답 시스템

  • 박성혁 (육군사관학교 인공지능 전공) ;
  • 타이 (육군사관학교 인공지능 전공) ;
  • 권현 (육군사관학교 AI.데이터과학과 )
  • Received : 2025.07.21
  • Accepted : 2025.08.04
  • Published : 2025.10.31

Abstract

Recently, military personnel are increasingly required to assess the legality of orders; however, junior commanders and non-commissioned officers often face difficulties in interpreting and applying regulations due to the lack of legal advisory infrastructure. To address this issue, this study structured 50 pages of the Cadet Life Regulations into a JSONL-format external knowledge base and a Q&A training dataset. A KoBART-based Seq2Seq model was then fine-tuned using HuggingFace's Seq2SeqTrainer over 30 epochs, with a batch size of 4, a learning rate of 2e-5, and FP16 mixed precision for training efficiency. The resulting chatbot achieved strong performance with a BLEU score of 0.8192 and an Exact Match score of 0.7143, although the ROUGE-1 score of 0.0952 indicated limitations in reproducing key information. Despite this, the chatbot effectively provides real-time interpretation and procedural guidance for cadets and academy members on various regulation topics such as training, attire, and discipline, thereby enhancing regulation comprehension and decision-making speed..

최근 군인에게 명령의 적법성 판단 능력이 요구되고 있으나, 예하 지휘관과 부사관은 법적 자문 인프라가 부족해 규정 적용과 의사결정에 어려움을 겪고 있다. 이를 해결하기 위해 본 연구는 생도생활 예규 50페이지를 기반으로 규정 문서를 구조화하여 JSONL 포맷의 외부 지식 저장소와 학습용 QnA 데이터셋을 구축하였다. 이후 HuggingFace의 Seq2SeqTrainer를 활용해 KoBART 모델을 총 30 epoch 동안 batch size 4, learning rate 2e-5, FP16 혼합 정밀도를 적용해 미세조정하였다. 학습된 챗봇은 BLEU 0.8192, Exact Match 0.7143의 우수한 정답 일치율을 보였으며, ROUGE-1은 0.0952로 핵심 정보 재현에는 다소 제약이 있었다. 그럼에도 불구하고, 해당 챗봇은 생도 및 학교 구성원에게 훈련, 복장, 훈육 등 다양한 예규에 대한 실시간 해석과 절차 안내를 제공하여 규정 이해도 향상과 의사결정 속도 개선에 기여할 수 있음을 확인하였다.

Keywords

1. 서론

최근 대한민국 사회는 정치적·사회적 혼란 속에서 공공기관 및 국가 조직에 대한 신뢰가 저하되고 있으며, 특히 군 조직에 대한 국민적 요구 수준이 점차 높아지고 있다. 과거와 달리 오늘날의 사회는 군인에게 상관의 명령에 대해 무조건 복종할 것이 아니라, 그 명령이 법적으로 정당한가에 대한 판단 능력을 스스로 갖출 것을 요구하고 있다. 이는 단순한 군 기강의 문제가 아닌, 헌법적 가치와 인권, 나아가 군 내 조직 문화의 근본적인 변화와도 연결된 사안이다.

정당한 명령이란 무엇인가? 이를 판단하기 위한 여러 기준이 있을 수 있으나, 그중에서도 ‘적법성’은 가장 핵심적인 요소이다. 아무리 군사적 정당성이나 상급자의 의도, 조직의 필요가 있다고 하더라도, 해당 명령이 법령에 위배된다면 이는 결코 정당한 명령으로 간주될 수 없으며, 복종의 의무 또한 성립하지 않는다. 그러나 실전 상황에서 이러한 적법성 판단은 결코 단순하지 않으며, 특히 법적 참모를 갖추지 못한 예하 지휘관 및 부사관의 경우, 제한된 정보와 법률 지식만으로 적법성을 판단하고 의사결정을 내려야 하는 현실적 한계를 마주하고 있다[1].

현행 군 체계에서는 대대장 이상의 지휘관에게 법무참모가 배속되어 법률 자문을 제공하지만, 그 이하 계층은 이러한 지원을 받기 어렵다. 이에 따라 개별 간부 혹은 생도들이 규정에 근거한 정확한 판단을 내리기 위해서는 신속하고 일관된 규정 해석이 가능한 지식 기반 시스템이 요구된다. 이러한 배경에서, 본 연구는 법률 지식과 생도생활 예규를 내장한 AI 챗봇 시스템[2]을 통해 각 개인이 법적 자문을 보다 접근성 높고 실시간으로 제공받을 수 있는 기반을 마련하고자 한다.

이를 위해 우리는 육군사관학교 생도생활 예규 중 50페이지 분량을 엄선하여 수작업으로 정제한 후, 조항 단위로 JSONL 형식의 외부 지식 저장소와 지도학습용 QnA 데이터셋을 구축하였다. 이후 HuggingFace[3]의 Seq2SeqTrainer[4]를 활용하여 한국어 전용 사전학습 언어모델인 KoBART[5]를 총 30 epoch에 걸쳐 미세조정하였으며, 효율적 학습을 위해 batch size 4, learning rate 2e-5, FP16 혼합 정밀도를 적용하였다. 모델의 성능은 BLEU [6] 0.8192, Exact Match [7] 0.7143, ROUGE-1[8] 0.0952로 평가되었으며, 표현 유사도 및 정답 일치율에서 우수한 성능을 나타냈다. 다만, 정보 재현에 있어 일부 한계를 보였다.

본 챗봇은 생도 및 교내 구성원이 훈련, 복장, 훈육 등 다양한 상황에서 관련 규정에 대한 실시간 해석과 절차 안내를 받을 수 있도록 하여, 규정 이해도와 준수율을 높이고, 현장의 판단력 향상 및 의사결정 속도 개선에 실질적으로 기여할 수 있다.

이러한 배경을 바탕으로, 본 연구의 주요 공헌점은 다음과 같다. 첫째, 생도생활 예규를 체계적으로 구조화하여 한국어 기반 QnA 학습이 가능한 고품질 데이터셋을 구축하였다. 둘째, KoBART 기반 Seq2Seq 모델을 활용하여 규정 질의응답 시나리오에 최적화된 챗봇을 구현하였다. 셋째, 정량적 지표를 통해 챗봇의 응답 정확도 및 실효성을 평가하고, 군 조직 내 실전 적용 가능성을 분석하였다.

본 논문은 다음과 같은 구성으로 이루어져 있다. 2장에서는 관련 연구 동향을 정리하고, 법률 기반 언어 모델 및 질의응답 시스템의 기술 흐름을 소개한다. 3장에서는 생도생활 예규 데이터의 구축 및 전처리 과정을 상세히 설명하고, 4장에서는 KoBART 기반 챗봇의 학습 과정과 실험 결과를 분석한다. 마지막으로 5장에서는 본 연구의 결론을 제시하고, 향후 국방 법률 AI 시스템으로의 확장 가능성과 발전 방향을 제안한다.

2. 관련연구

2.1 KoSaul: 한국어 법률 언어 모델

KoSaul-8B[9]는 생성형 인공지능 기술이 법률 분야로 확산되는 흐름 속에서 등장한, 한국어 법률 문서에 특화된 초거대 언어모델이다. 이 모델은 기존의 일반 한국어 언어모델들이 포착하지 못했던 법률 문체의 특수성과 구조적 복잡성을 반영하여 개발되었다. 학습 데이터로는 HuggingFace에 공개된 법률 QA 및 요약 데이터셋뿐 아니라, 국가법령정보센터의 API를 통해 수집한 대규모 법령 원문이 활용되었으며, 그 결과로 KoSaul은 판례 요약, 사실관계 도출, 관련 조항 추천 등 다양한 법률 응용 과제를 수행할 수 있도록 설계되었다.

성능 면에서 KoSaul-8B는 기존 한국어 언어모델들과 비교하여 가장 낮은 Perplexity(PPL) [10] 점수를 기록하였으며, 이는 모델이 문장을 예측할 때의 불확실성이 낮고, 결과적으로 더 정확하고 자연스러운 문장 생성을 가능하게 한다는 것을 의미한다. 뿐만 아니라, 한국어 멀티태스크 언어이해 벤치마크인 KMMLU (Korean Massive Multitask Language Understanding benchmark)[11] 평가에서 최고 성능을 보임으로써, KoSaul의 법률 언어 이해 능력이 매우 우수하다는 점도 확인되었다. 특히 KoSaul은 법률 문서에서 자주 나타나는 복문 구조, 숫자·기호 기반 항목 구분, 불명확한 지시어 등의 처리에 강점을 보이며, 이는 일반 도메인 모델과는 명확히 구분되는 KoSaul만의 특화된 기능이라 할 수 있다.

KoSaul-8B는 단순한 문장 생성 능력을 넘어, 법률 문서의 정밀한 해석과 고차원적 추론이 필요한 상황에서도 안정적으로 작동할 수 있는 한국어 전용 법률 모델로서 평가된다. 이는 향후 판례 분석, 법령 해석 지원, 규정 요약 등의 실무 중심 응용 분야에서 널리 활용될 수 있는 가능성을 보여주며, 한국 법률 AI 생태계의 중요한 기반 기술로 기능할 수 있을 것으로 기대된다.

2.2 KoLegal-BERT: 법률 도메인 텍스트 마이닝을 위한 법률 언어 표상 모델

한국 법률 데이터의 구조적 복잡성과 어휘적 특수성을 고려하여 설계된 또 다른 대표 모델은 KoLegal-ERT[12]이다. 해당 연구는 법률 도메인에 최적화된 언어표상(Representation)을 구축하기 위해, 총 9.1GB, 약 1.7억 토큰 규모의 법령·판례·행정규칙·국회 속기록 등으로 구성된 대규모 법률 코퍼스를 수집 및 정제하였다. 이후 RoBERTa 구조[13]를 기반으로 사전학습(pre-training)하여 법률 용어와 문장 구조를 정밀하게 포섭할 수 있는 도메인 특화 모델을 완성하였다.

성능 측면에서는, 판결 결과 분류, 법조항 추천, 판례 검색 등 실제 법률 활용 과제에서 다국어 BERTM-BERT)[14] 및 KorBERT [15] 대비 최대 F1 score 6.4%p, MRR [16] 0.058p 향상을 기록하였으며, 이는 문장 내 의미 단위 추출 및 문맥 기반 예측 정확도가 크게 향상되었음을 보여준다. 특히 QnA 기반 판례 검색 과제에서의 성능 향상은 향후 법률 질의응답 시스템 개발에 있어 KoLegal-BERT의 활용 가능성을 높여준다.

기술적으로는 법률 특수기호 인식을 위한 Tokenizer [17] 확장, 학습 초기 안정화를 위한 스케줄드 러닝레이트 워밍업, 그리고 도메인-어댑터 기반 미세조정 전략을 적용하여, 법률 문서에 내재된 문체·표현의 불균질성을 효과적으로 흡수할 수 있도록 하였다. 또한 모델과 데이터셋을 함께 공개함으로써 국내 법률 AI 생태계의 저변 확대와 기술 재현 가능성에 크게 기여하였다.

위의 기존 연구들은 한국어 법률 언어의 복잡성을 다루기 위한 특화 모델 개발에 집중하고 있으며, 주로 법률 문서의 분류·요약·검색에 중점을 두고 있다. 반면, 본 연구는 정형화된 규정 문서(예: 생도생활 예규)에 기반한 실시간 질의응답 시나리오를 중심으로, 한국어 법률 특화 모델을 실제 서비스 가능한 챗봇 형태로 구현하고자 한 점에서 차별성을 갖는다. 특히 단순 문장 생성이 아닌 규정의 구조적 이해 및 응답 문장 요약, RAG 기반 [18] 외부 지식 연계, 표 기반 규정 해석 등 보다 실질적인 법률 지원 기능을 통합적으로 구현한 점에서 기존 연구를 보완·확장하는 의미가 있다.

2.3 해외 법률 LLM 사례 및 국내 모델과의 비교

법률 도메인 특화 언어모델 개발은 한국뿐만 아니라 미국, 유럽, 일본 등에서도 활발히 진행되고 있다. 예컨대, 미국에서는 CaseLaw-BERT [19], 유럽연합에서는 EURLEX [20]와 같은 모델들이 개발되어, 각국의 법률 체계에 맞는 판례 요약, 조항 검색, 유사 사건 판별 등의 과제에 적용되고 있다. 이들 모델은 대부분 BERT나 GPT 계열의 사전학습 구조를 기반으로 하며, 특정 판례 인용 구조, 법률적 항목 분할 방식 등을 모델에 반영하여 도메인 적합성을 높이고 있다.

그러나 이러한 모델들 역시 주로 법률 문서에 대한 텍스트 분석 및 요약 기능에 집중하고 있으며, 실시간 사용자 상호작용을 기반으로 한 법률 질의응답 시스템까지 구현한 사례는 드물다. 특히 한국어 법률 문서의 경우에는 긴 문장, 복잡한 명령형 표현, 다중 의미의 조항 지시 등 고유한 언어적 과제가 존재하기 때문에, 단순한 법률 문서 분류나 요약을 넘어서 실시간 규정 해석까지 수행하기 위해서는 훨씬 더 정교한 언어 모델 설계가 필요하다.

이와 같은 기존 연구들은 대부분 법률 문서의 복잡한 구조와 용어 사용에 대응하기 위한 사전학습 기반 언어모델의 성능 개선에 집중하고 있다. 반면, 본 연구는 정형화된 규정 문서에 기반하여 실시간 질의응답이 가능한 챗봇 형태의 시스템을 구현하였다는 점에서 분명한 차별성을 지닌다. 특히, 단순한 문장 생성에 그치지 않고, 규정의 구조적 이해, 시나리오 기반 응답 생성, 외부 지식 연계를 위한 RAG(Retrieval-ugmented Generation) [21] 구조 설계 등 복합적인 기술 요소를 통합적으로 활용하였다.

더 나아가, 본 시스템은 육군사관학교 생도생활예규라는 실제 규정 문서에 대해 작동하며, 특정 상황별 질의에 따라 규정 해석을 제공할 수 있도록 설계되었기 때문에, 법률 LLM [22]의 실제 현장 적용 가능성을 실증적으로 보여주고 있다. 또한, 향후에는 교수요항, 훈련지침, 행정 규정 등의 문서를 포함하는 멀티 도메인 복합 문서에 대응하는 방향으로 확장이 가능하며, 음성 인터페이스 및 다중모달 입력 기능이 결합될 경우 보다 직관적이고 사용자 친화적인 법률 지원 도구로 발전할 수 있다.

이러한 점에서 본 연구는 기존 법률 언어모델 연구가 기술적 정밀도 향상에 중점을 둔 데 비해, 실제 국방 환경에서 작동 가능한 법률 지원 시스템으로의 전환 가능성을 보여주는 사례로서, 기술의 실용화와 응용 연구 측면에서 중요한 의미를 지닌다.

2.4 규정 문서 기반 RAG 및 다중모달 응용 연구

법률 문서나 규정 문서처럼 구조가 명확하고 계층화된 텍스트를 대상으로 할 경우, 단순 언어모델 기반 생성보다는 검색 기반 문서 인용과 결합된 구조가 더 효과적인 결과를 낳는다는 연구가 최근 주목받고 있다. 특히 RAG(Retrieval-Augmented Generation) 구조는 LLM이 직접 기억하는 지식의 한계를 보완하기 위해 외부 지식 문서를 검색하고, 그 결과를 기반으로 응답을 생성하는 방식으로, 법률 분야와 같이 지식의 최신성, 정확성, 출처 근거가 중요한 응용 분야에서 매우 유용하게 활용된다.

국내외 연구에서는 특히 복잡한 문서 계층을 반영하는 방식으로 RAG를 설계하려는 시도가 이어지고 있으며, 법률 조항과 판례, 해설문, 사례 데이터 등 여러 문서 유형을 통합한 다중 소스 기반 RAG 구조도 제안되고 있다. 이러한 구조는 질의 응답의 정합성을 유지하면서도, 문장 생성의 일관성을 확보할 수 있는 장점이 있다.

아울러, 법률 문서의 경우 표나 도식, 일정표 등의 시각적 요소가 포함되는 경우도 많아 다중모달 입력을 처리할 수 있는 응용 구조에 대한 연구도 병행되고 있다. 예를 들어 군 훈련 계획서, 복장 기준표, 점검 매뉴얼 등은 시각적 정보와 텍스트 정보가 결합된 형태를 지니기 때문에, 시각-언어 통합 모델이나 OCR 기반 사전 전처리를 활용한 시스템이 요구된다.

본 연구는 이러한 최신 기술 흐름을 반영하여, RAG 구조를 통해 생도생활 예규 내 적절한 조항을 동적으로 인용하고, 필요한 경우 복장 규정표 등 시각적 문서를 연결하는 확장 가능성을 내포하고 있다. 특히 음성 기반 질의, 훈련일정표 등과의 다중모달 연계를 통해, 실제 현장 환경에서 자연스러운 상호작용을 실현하려는 후속 연구 계획은 법률 AI의 실무 응용 범위를 크게 확장할 수 있을 것으로 기대된다.

3. 방법론

본 연구는 생도생활 예규에 대한 질의응답(Seq2SeqQA) 기능을 구현하기 위해 KoBART 기반의 인코더–디코더 언어모델을 사용하였다. 생도생활 예규는 대한민국 군 조직 내에서 적용되는 공식적인 규정으로, 그 문체는 일반적인 자연어 문서보다 복잡하고 격식을 갖추고 있으며, 긴 복합문과 숫자 및 기호 기반의 조항 표기가 자주 등장한다. 예를 들어 "제7조 ①항"과 같은 표현은 일반적인 자연어 처리 모델이 문맥을 이해하기에 적절한 사전학습을 요구하며, 이는 한국어에 특화된 언어모델이 필요함을 의미한다.

(그림 1)과 같이 KoBART는 약 1.5억 문장 규모의 한국어 대규모 코퍼스를 기반으로 사전학습된 인코더–디코더 구조의 모델로, 문맥의 압축과 요약에 강점을 갖는다. 기존의 BART 구조를 기반으로 하며, 한국어의 형태소 변화와 어순, 경어체, 한자어를 포함한 문체적 다양성에 대응할 수 있도록 설계되었다. 이러한 특성은 공문서나 법령과 유사한 형식의 생도생활 예규 문서를 처리하는 데 특히 유리하다. 모델은 질문과 조항 전체를 인코딩하여 통합적으로 문맥을 이해하고, 그 문맥에 기반해 응답을 자연어로 생성한다는 점에서, 단순한 정보 검색 기반의 QA와는 차별화된 방식이라 할 수 있다.

(그림 1) KoBART 모델의 기본구조

학습 과정에서는 HuggingFace의 Seq2SeqTrainer를 활용하여 KoBART 모델을 미세조정(fine-tuning)하였다. 사전학습된 KoBART의 가중치를 불러와 초기화한 뒤, 학습 데이터를 통해 실제 질의응답 태스크에 적합하도록 조정하는 방식으로 학습이 이루어졌다. 전체 학습은 30 epoch에 걸쳐 수행되었으며, 학습률은 2e-5로 고정하고, 배치 크기는 장치당 4로 설정하였다. 모델의 수렴 속도와 메모리 효율을 고려하여 FP16 혼합정밀도(floating-point 16) [23]를 적용하였으며, 이로 인해 학습 시간과 자원 사용량을 동시에 최적화할 수 있었다.

입력 데이터는 사용자의 질문과 해당 질문에 대응하는 조항 또는 표 항목의 텍스트로 구성되며, 출력은 이를 요약한 응답 문장이다. 문서 내 조·항·호 구조를 반영하여 각 항목은 의미 단위별 청크(chunk)로 분리되었고, 질문은 이를 기반으로 생성되었다. 학습 데이터의 질을 높이기 위해 각 질문은 동일 조항에 대해 다양한 문장 형태로 재구성되었으며, 이를 통해 모델이 문장 구조의 변형에도 견고하게 대응할 수 있도록 하였다. 또한, 정답 문장은 해당 조항에서 직접 발췌하거나 자연어로 가공하여 정제하였으며, 모델이 규정의 의미를 정확히 재구성하도록 유도하였다.

모델 학습 과정에서는 매 epoch 종료 시마다 손실 함수 값을 기록하고, 과적합을 방지하기 위해 최적의 성능을 보인 checkpoint만을 저장하였다. 이러한 방식은 모델의 일반화 성능을 유지하면서도, 응답 정확도와 표현 유사성을 모두 고려한 학습 결과를 도출하는데 기여하였다. 결과적으로 KoBART는 장문의 규정을 정제된 문장으로 요약해내는 데 강점을 보였으며, 질의와 조항 간의 문맥적 대응 관계를 효과적으로 반영하였다. 이러한 특성은 향후 다양한 법령 기반 챗봇 개발에도 활용 가능한 구조임을 시사한다.

4. 실험 및 평가

4.1 데이터셋

생도생활 예규라는 데이터의 엄격한 보안 요건을 준수하기 위해 원문 규정 및 표를 수작업으로 구조화된 디지털 형식으로 변환하였다. 본 연구는 구현 가능 여부 파악에 목적이 있으므로 생도생활 예규 중 약 50페이지를 데이터로 변환하였다. 구체적으로, 먼저 원문 규정 및 표를 수작업으로 옮겨 적은 후 각 문서는 개별 조항 또는 표의 행(row)에 상응하는 의미론적으로 일관된 청크(chunk)로 분할되어 JSON 형식으로 직렬화하였다. 본래성(provenance) 보장 및 감사 가능성(auditability) 확보를 위해, 각 텍스트 단위에는 조문번호(article), 항목(clause) 등의 구조화된 메타데이터 필드를 추가하였으며, 표 항목에는 table 보조 필드를 부여하였다. 메타데이터 보강으로 법령 조문과 표 구성 요소 간의 정확한 참조 관계를 유지함으로써, 이후 단계에서의 정밀한 검색 및 결과 검증을 용이하게 하였다. 생성된 모든 텍스트 단편은 로컬 환경에서 실행된 Python 스크립트를 통해 필드 완전성, 라벨링 적합성, 전사 오류 부재 여부를 다단계로 검증하였으며, 특히 자동화 도구를 활용하여 중복 또는 누락 사항을 신속히 식별하고 수정하였다. 보안 규정상 데이터를 공개할 수 없으므로 위의 방식과 동일하게 (그림 2)와 같이 헌법에 적용해 이해를 돕고자 한다.

(그림 2) 데이터 전처리된 결과 예시

또한, 지도형 파인튜닝(supervised fine‐tuning)을 위해 QA(question–answer) 데이터셋을 체계적으로 구축하였다. 각 조항 및 표 항목에 대하여 형식적인 한국어 표현으로 2∼3종의 문법적 변형 질문을 작성함으로써 모델이 다양한 구문 구조에 대응할 수 있도록 하였으며, 정답(answer)은 해당 텍스트 단편에서 직접 추출하여 초기 모델 성능 평가 결과를 기반으로 반복적으로 보완·정제하였다. 사진1과 동일하게 이해를 돕기 위해 헌법 조항에 동일한 방식을 적용한 결과는 (그림 3)과 같다.

(그림 3) 지도형 파인튜닝을 위해 QA(question–answer) 데이터셋 전처리된 결과 예시

위와 같이 구축한 데이터를 바탕으로 두 가지 데이터 전처리를 수행하였다. 첫 번째로, 챗봇의 외부 지식 저장소로 활용하기 위해 원본 규정을 담고 있는 rag_dataset.jsonl 파일의 내용을 구조적으로 분해하였다. jsonl 파일은 각 줄이 독립된 JSON 객체로 구성되며, 이 객체는 조항(article), 제목(title), 세부항목(clauses), 표(rows) 등 다양한 유형의 데이터를 포함한다. 각 객체를 처리할 때는 우선 조항 번호와 제목을 결합하여 일관된 접두어(prefix)를 생성하였다(예: "제7조 사관생도의 명예:"). 세부항목(clauses)의 경우, 텍스트 형식으로 제공된 단순 문자열 항목뿐만 아니라 항목 번호나 세부 불릿(bullet) 포인트를 포함한 복합적 사전형 항목까지 포함하고 있다. 이를 명확하고 간결한 단일 문장 형태로 결합하여 하나의 지식 단위로 구성하였다. 또한, 표 형태로 주어진 데이터의 경우, 예를 들어 체력검정 기준처럼 등급별 세부 기준을 명료하게 표현하는 문장을 생성함으로써, 자연어로 쉽게 검색되고 모델이 이해하기 용이한 형태로 변환하였다. 결과적으로 jsonl 파일에서 추출된 모든 정보는 모델의 외부 검색-증강(RAG) 시스템의 문서 저장소를 구성하는 일련의 문장 리스트로 재구성되었다.

두 번째로, 모델의 직접적인 질의응답 학습 데이터로 사용하기 위한 전처리로서 test.json 파일을 처리하였다. test.json 파일은 생도생활 예규와 관련된 질의(question)와 이에 대한 기대 답변(expected_answer) 쌍을 담고 있다. 이를 HuggingFace의 Dataset 형식으로 변환하여 관리함으로써, 이후 모델 파인튜닝 단계에서의 효율성을 높였다. 특히 입력 문장과 목표 응답을 명시적으로 구분하여 각각의 토큰화 과정에서 별도의 최대 길이(max_length=128) 설정 및 truncation을 적용함으로써, 모델 학습 시 효율적이면서도 정확한 토큰 시퀀스를 유지하였다. 또한, 레이블(label) 데이터를 별도로 지정함으로써, teacher forcing 기반의 supervised learning 환경을 구축하였다.

4.2 실험결과

학습된 KoBART 모델의 성능 평가는 BLEU, Exact Match(EM), ROUGE-1 지표를 중심으로 진행되었다. 실험은 학습 결과를 평가하기 위해 train data에서 사용한 QnA의 질문을 유사한 형태의 여러 질문으로 변환하여 (그림 4)와 같이 제작하였다. 기존의 QnA 데이터 20개 중 6개를 랜덤으로 추출해 위와 같이 3개의 비슷한 질문으로 성능 평가를 진행하였다. 그 결과는 (그림 5)와 같다.

(그림 4) QnA의 질문을 유사한 형태의 여러 질문으로 변환하여 제작 예시

(그림 5) 지도형 파인튜닝을 위해 QA(question–answer) 데이터셋 전처리된 결과 예시

Eval loss는 0.0903으로 0.03755인 train loss에 비해 높게 평가되었다. 기계 번역 평가 지표로 제안된 문장과 정답 문장 간의 n-gram [24] 정밀도(precision)를 측정하는 Eval BLEU(Bilingual Evaluation Understudy)는 0.8192로 정답과 유사한 표현으로 문장을 생성하고 있음을 알 수 있다. 모델이 생성한 출력이 “정답 문장과 1:1로 완전히 일치”한 비율을 나타내는 Exact Match는 0.7143으로 높은 성능을 내고 있음을 확인할 수 있다. 다만, 생성된 문장 안에 정답 문장의 단어(1그램)가 얼마나 많이 “포함되었는지”(재현되었는지) 측정하는 리콜(recall) 기반 점수인 ROUGE-1 (Recall-oriented Understudy for Gisting Evaluation, unigram)가 0.0952로 출력값이 정답값이 가지는 정보에서의 누락이 심한 것을 알 수 있다. 위 값들을 종합적으로 해석하면 모델은 정답과 유사한 표현을 자주 출력하지만, 실제로 정답 문장에서 중요한 단어들을 모두 포함하는 데에는 한계가 있다.

4.3 국방분야에 대한 고찰

본 연구는 육군사관학교 생도생활예규에 적용된 챗봇 시스템을 제안하였다. 특히, 규율이 엄격하고 상황 별 판단이 중요한 군 교육기관에서 이 챗봇이 가지는 실용적 가치는 매우 크다. 본 챗봇은 생도생활예규 전용 데이터셋을 기반으로 정제된 자연어 질문에 대해 일관되고 신뢰도 높은 응답을 실시간으로 제공함으로써, 이러한 기존 문제를 근본적으로 개선한다.

특히 향후 이러한 챗봇은 훈련, 훈육, 외출/외박, 복장착용, 생활관 규율 등 일상생활 속에서 빈번히 마주치는 규정 관련 문의에 즉각적으로 답변을 제공하며, 이를 통해 의사결정 속도를 높이고 불확실성 하의 비효율적 의사결정을 줄일 수 있다. 나아가 생도 개인의 권리 보호 및 책임 인식 향상에도 기여하며, 규정을 수동적으로 ‘암기’하는 것이 아니라 능동적으로 ‘이해’하고 ‘적용’하는 방향으로 전환시킬 수 있다.

교육적 측면에서도 본 시스템은 시뮬레이션 기반 규정 학습에 활용될 수 있다. 가령, ‘상관 지시에 의문이 생겼을 때 어떻게 대응해야 하는가’, ‘동기생 간 갈등 발생 시 보고 절차는 무엇인가’ 등의 시나리오를 설정하고, 챗봇과의 대화를 통해 생도 스스로 판단하고 조치하는 모의훈련을 진행함으로써 자율적 규정 준수 역량을 강화할 수 있다. 이러한 기능은 규정교육의 반복성과 몰입도를 향상시켜 단순 주입식 교육을 보완하는 수단이 될 수 있다.

향후 연구에서는 기술적 고도화와 실전 적용 확장을 함께 모색해야 한다. 첫째, 현재 모델의 ROUGE-1 성능이 일부 정보 누락 및 중복 문제로 제한되었으므로, Pointer-Generator 네트워크 [25] 및 Attention Coverage 메커니즘 [26]을 통해 보다 정밀하고 포괄적인 응답 생성을 유도할 수 있다. 또한, 강화학습 기반의 ROUGE 직접 최적화 기법을 적용하면 평가 지표에 최적화된 형태로 답변의 품질을 개선할 수 있다.

둘째, 데이터셋 측면에서는 생도생활예규 등 다양한 규범적 문서를 포함한 복합 문서 코퍼스를 구축함으로써, 보다 고차원적이고 상황 종속적인 질의에도 대응할 수 있는 확장성을 확보할 수 있다.

셋째, 인터페이스 측면에서도 발전 여지가 크다. 음성 인식 기반 인터랙션을 도입하면 실시간 훈련 상황이나 이동 중에도 음성으로 질의하고 응답을 받을 수 있어 실전 활용도가 향상된다. 또한, 훈련 일정표, 병영생활 지도서, 복장 기준 도식 등 다양한 형식의 입력(표, 이미지 등)을 다중 모달로 처리하는 기술을 접목하면, 사용자는 더 직관적이고 효율적으로 정보를 탐색하는 방향으로 발전가능하다.

마지막으로, 이러한 기술은 향후 생도뿐 아니라 장병 전반으로 확장 가능하다. 향토사단, ROTC [27], 부사관학교 [28] 등 다양한 군 교육기관에서도 각기 다른 규정과 환경에 맞춘 특화형 챗봇을 통해 동일한 효과를 얻을 수 있으며, 나아가 지휘관이나 간부들의 법적 판단 보조 도구로도 진화할 수 있다.

5. 결론

본 연구에서는 육군사관학교 생도생활 예규를 기반으로 KoBART 모델을 활용한 질의응답 시스템을 구현하고, 이를 위해 전용 RAG 기반 데이터셋을 구축하였다. 구축된 시스템은 공문서 특유의 복잡한 조항 구조와 문체를 효과적으로 해석하여, 사용자 질의에 대해 간결하고 일관된 자연어 응답을 생성할 수 있도록 설계되었다. 실험 결과, BLEU 0.8192, Exact Match 0.7143의 정량적 성능을 통해 모델이 문장 표현의 유사성과 응답 일치성 측면에서 우수한 결과를 보였으며, 이는 실제 규정 해석 및 절차 안내 상황에서의 활용 가능성을 시사한다. 반면, ROUGE-1 점수가 0.0952로 낮게 나타난 것은 정보 재현률 측면에서의 한계를 보여주며, 향후 생성 응답 내 핵심 정보 포함률을 높이기 위한 기술적 보완이 요구된다. 해당 챗봇 시스템은 생도 및 교내 구성원들에게 훈련, 복장, 훈육 등과 관련된 규정 해석을 실시간으로 제공함으로써, 규정 적용의 명확성을 제고하고, 해석의 자의성으로 인한 불필요한 징계나 행정적 마찰을 사전에 방지하는 데 기여할 수 있다. 또한, 교육 현장에서의 활용 가능성 또한 높아, 모의 상황 기반 학습 및 자율 규정 습득 훈련 도구로 확장 가능하다.

다만 본 연구는 특정 도메인(생도생활 예규)에 한정된 데이터셋을 기반으로 하였기 때문에, 다양한 규정 문서 및 법령을 포괄하는 범용적인 법률 질의응답 시스템으로의 확장성 측면에서 한계가 존재한다. 향후 연구에서는 헌법, 군사법, 군형법, 복무 기본법 등 보다 광범위한 국방 규정 데이터를 포함한 다문서 기반 QA 시스템으로의 확장이 필요하며, 멀티모달 인터페이스(음성, 문서, 이미지 등)와의 통합, 강화학습 기반 응답 최적화 기법 적용 등을 통해 실제 운용 환경에서의 실효성을 제고할 수 있을 것이다.

References

  1. 백인걸, 양준호, 이환희, "KoSaul: 한국어 법률 언어 모델", 대한전자공학회 학술대회, 2024.
  2. 정채연, "생성형 AI를 활용한 법률서비스의 쟁점과 과제", 법학연구, 제35권, 제3호, pp. 401-443, 2024. DOI : 10.33982/clr.2024.8.31.3.401
  3. S. M. Jain, "Hugging face." 'Introduction to transformers for NLP: With the hugging face library and models to solve problems', Berkeley, CA: Apress, 2022.
  4. M. Zafar, et al., "The SETU-ADAPT Submissions to WMT 2024 Chat Translation Tasks", Proceedings of the Ninth Conference on Machine Translation, 2024.
  5. I. Heo, T. Hwang and S. Jung, "Construction of Korean OCR Post-Correction Dataset and Post-Correction Based on KoBART", Annual Conference on Human and Language Technology, Human and Language Technology, 2024.
  6. K. Papineni, et al., "Bleu: A method for automatic evaluation of machine translation", Proceedings of the 40th annual meeting of the Association for Computational Linguistics, 2002.
  7. L. Boualili, J. G. Moreno and M. Boughanem, "Highlighting exact matching via marking strategies for ad hoc document ranking with pretrained contextualized language models", Information Retrieval Journal, Vol. 25, No. 4, pp. 414-460, 2022. https://doi.org/10.1007/s10791-022-09414-x
  8. S. Takeshita, S. P. Ponzetto and K. Eckert, "ROUGE-K: Do your summaries have keywords?", arXiv preprint arXiv:2403.05186, 2024.
  9. 박상민, 윤예진, 이재윤, 김재은, "KoLegal-BERT: 법률 도메인 텍스트 마이닝을 위한 법률 언어 표상 모델", 한국정보과학회 학술발표논문집, 2021.
  10. A. Miaschi, et al., "What makes my model perplexed? a linguistic investigation on neural language models perplexity", Proceedings of Deep Learning Inside Out (DeeLIO): The 2nd Workshop on Knowledge Extraction and Integration for Deep Learning Architectures, 2021.
  11. G. Son, et al., "Kmmlu: Measuring massive multitask language understanding in Korean", arXiv preprint arXiv:2402.11548, 2024.
  12. C. S. K. Aditya, et al., "Classification of Civil Court Decision Documents Using Legal BERT and IndoLegal-BERT", 2024 Ninth International Conference on Informatics and Computing (ICIC), IEEE, 2024.
  13. Y. Liu, et al., "Roberta: A robustly optimized bert pretraining approach", arXiv preprint arXiv:1907.11692, 2019.
  14. W. Rahman, et al., "M-bert: Injecting multimodal information in the bert structure", arXiv preprint arXiv:1908.05787, 2019.
  15. J. Heo, K. M. Bae and S. J. Lim, "Korean Entity Linking based on KorBERT and Popularity", Annual Conference on Human and Language Technology, Human and Language Technology, 2022.
  16. V. Woloszyn, et al., "Mrr: an unsupervised algorithm to rank reviews by relevance", Proceedings of the international conference on web intelligence, 2017.
  17. J. J. Webster and C. Kit, "Tokenization as the initial phase in NLP", COLING 1992 volume 4: The 14th International Conference on Computational Linguistics, 1992.
  18. P. Lewis, et al., "Retrieval-augmented generation for knowledge-intensive nlp tasks", Advances in Neural Information Processing Systems, Vol. 33, pp. 9459-9474, 2020.
  19. S. Paul, et al., "Pre-trained language models for the legal domain: a case study on Indian law", Proceedings of the Nineteenth International Conference on Artificial Intelligence and Law, 2023.
  20. D . Au mil l er, A. Chou han an d M . G ertz , "EUR-lex-sum: A multi-and cross-lingual dataset for long-form summarization in the legal domain", arXiv preprint arXiv:2210.13448, 2022.
  21. P. Lewis, et al., "Retrieval-augmented generation for knowledge-intensive nlp tasks", Advances in Neural Information Processing Systems, Vol. 33, pp. 9459-9474, 2020.
  22. A. Nazir, et al., "LangTest: A comprehensive evaluation library for custom LLM and NLP models", Software Impacts, Vol. 19, 100619, 2024.
  23. A. Agrawal, et al., "DLFloat: A 16-b floating point format designed for deep learning training and inference", 2019 IEEE 26th Symposium on Computer Arithmetic (ARITH), IEEE, 2019.
  24. W. B. Cavnar and J M. Trenkle, "N-gram-based text categorization", Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval, Vol. 161175, 1994.
  25. Q. Liu, et al., "Generating commit messages from diffs using pointer-generator network", 2019 IEEE/ACM 16th International Conference on Mining Software Repositories (MSR), IEEE, 2019.
  26. Y. Wang, et al., "Self-supervised equivariant attention mechanism for weakly supervised semantic segmentation", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020.
  27. 김덕기, "대한민국 육군 ROTC 제도의 경로의존성에 관한 연구", 한국조직학회보, 제21권, 제1호, pp. 1-31, 2024.
  28. 최석환, "육군 훈련부사관의 인성교육 수행과정에 관한 연구", 정신전력연구, 제52권, pp. 125-179, 2018.