Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
Human and Language Technology (SIGHLT)
- Annual
- /
- 2005-3053(pISSN)
Domain
- Information/Communication > Information Processing Theory
2024.10a
-
대규모 언어 모델은 방대한 데이터를 학습하여 다양한 자연어 처리 작업에서 뛰어난 성능을 보인다. 그러나 모델은 잘못된 정보나 시대에 뒤떨어진 지식, 편향된 데이터를 학습하게 되어 출력물에 오류를 포함할 수 있으며, 이는 모델의 신뢰성과 정확성에 부정적인 영향을 미칠 수 있다. 이를 해결하기 위해 모델의 지식을 수정하거나 새로운 지식을 주입하는 방법에 대한 연구가 필요성이 증대되었다. 본 연구에서는 모델을 처음부터 재학습하지 않고도 잘못된 지식을 효과적으로 제거하고 새로운 지식을 통합할 수 있는 새로운 지식 편집 방법을 제안한다. 제안된 방법은 지식 편집의 최적화 기반 접근 방법에서 기존의 잘못된 지식을 경사 상승 기법을 활용하여 제거하고, 동시에 새로운 지식을 주입하는 방식으로, 기존 지식과 새로운 지식 간의 충돌을 최소화하고 모델의 일관성을 유지하도록 설계되었다. 우리는 대규모 언어 모델을 사용하여 실험을 수행하였고, 다양한 기존 지식 편집 방법들과 비교하여 우리의 접근법이 지식을 더욱 확실하게 수정하며 일관적인 모델 응답 결과를 생성함을 확인하였다.
-
본 논문에서는 오픈 도메인 질의응답 시스템에서 FiD(Fusion-in-Decoder) 모델의 성능을 향상시키기 위한 새로운 접근 방식을 제안한다. FiD 모델은 여러 패시지를 독립적으로 인코딩한 후, 디코딩 단계에서 이를 결합하여 답변을 생성하는 구조를 갖고 있다. 그러나 이 방식은 불필요한 정보를 포함한 패시지를 필터링하지 못해 디코더에 과도한 부담을 주는 단점이 있다. 이를 해결하기 위해, 본 논문에서는 LSTM(Long Short-Term Memory)의 망각 게이트를 응용한 관련성 게이트(Relevance Gate)를 도입하였다. 이 게이트는 각 패시지의 관련성을 병렬적으로 평가하여 디코더에 전달되는 정보를 선별하며, 이를 통해 답변 생성의 정확성과 효율성을 크게 향상시킨다. 또한, 시그모이드 함수 대신 오픈 도메인 질의응답 시스템에 적합한 새로운 활성 함수를 적용하여 모델의 안정성을 확보하였다.
-
거대 언어 모델(LLM)의 급격한 확산으로 인해 모델의 대규모 파라미터를 처리하는 데 막대한 자원이 요구되고 있다. 이를 해결하기 위한 방법으로 모델의 양자화가 주목받고 있지만, 대부분의 양자화 기법은 영어 및 서구 언어 모델을 기반으로 연구되었다. 따라서 한국어 Instruction-tuned 모델에 동일하게 적용했을 때 성능이 유지되는지에 대한 검증은 충분하지 않다. 본 논문에서는 한국어 Instruction-tuned 모델에서 양자화로 인한 성능 저하를 최소화하기 위해 Task별 레이어 활성화 정도를 분석하고, 상대적으로 적게 활성화되는 레이어를 선택하여 4-bit 양자화를 적용하는 방법인 SelQ를 제안하고자 한다. 실험 결과, 제안된 방법이 전체 레이어에 8-bit 양자화를 적용하는 방법보다 더 나은 성능을 보였으며, 일부 Task에서는 양자화를 적용하지 않은 기본 모델보다도 더 높은 성능을 기록하였다.
-
본 논문에서는 대규모 언어 모델(LLM)의 양자화 효율을 높이기 위한 선택적 회전 행렬 기법을 제안한다. 양자화는 메모리 사용량과 추론 속도를 줄이기 위한 중요한 기술이지만, 양자화 과정에서 발생하는 이상치(outlier)는 모델의 성능 저하를 유발할 수 있다. 이를 해결하기 위해 본 연구는 중요한 가중치 채널을 고정한 상태에서 비중요 채널만 회전시키는 방법을 도입하여 이상치를 감소시키고 양자화 성능을 개선하였다. Masked Stiefel Adam 최적화 기법을 사용하여 가중치의 일부만 선택적으로 업데이트함으로써 효율적인 양자화가 가능하도록 설계하였다. 실험 결과, 제안된 방법은 특히 4비트 양자화 환경에서 Qwen1.5-1.8B 모델의 Perplexity(PPL)와 Commonsense reasoning 성능을 안정적으로 낮추는 데 성공하였으며, 이는 LLM 양자화에서 성능 손실을 최소화하는 데 기여할 수 있음을 보여준다.
-
최근 가중치에 자유롭게 접근 가능한 대형 언어모델이 공개되고, 다양한 하위태스크에서 과거와 비교하기 어려운 성능과 편의를 제공하고 있지만 여전히 실용성이 좋은 작은 생성 언어모델에 대한 연구와 공개 모델이 부족하다. 본 논문을 통해 한국어 중심의 7B 미만의 생성 언어모델 모델 3종(1.3B, 3.1B, 6.7B)을 구축하는 연구를 소개하고, 구축 중인 모델의 학습과 배포를 위한 접근 전략과 신경망 기초정보를 제공한다. 이들 중 현재 공개 된 1.3B 급의 모델에 대한 문맥 내 학습 성능을 유사 규모의 공개 모델과 비교하고, 산술 연산을 수행하는 소규모의 하위 태스크를 통해서 응용 성능을 살펴본 뒤 해결해야 할 문제와 방향을 논의한다. 본 연구를 통해서 구축 중인 모델은 STEM 분야의 복합 추론을 최종 목표로 삼아 발전시키고자 한다.
-
Retrieval Augmented Generation(RAG)은 정보 검색을 통해 검색한 문서를 통해 대규모 언어 모델이 더 정확한 답변을 생성할 수 있도록 보조하는 기법이다. RAG의 성능은 데이터베이스에 저장된 문서들의 품질에 크게 영향을 받는다. 따라서 문서를 정제하여 품질을 개선하는 작업은 중요하다. 지금까지는 문서의 품질을 개선하기 위해 사람이 직접 노이즈를 제거하고, 누락된 띄어쓰기 및 개행 등을 복원한다. 이러한 방법은 많은 시간을 요구하고, 문서 검토 중 일부 노이즈를 놓칠 수 있다는 한계가 있다. 따라서 문서 품질 개선 공정을 자동화하는 것이 필요하다. 본 논문에서는 Seq2Seq 모델을 통해 문서의 품질을 개선하는 방법을 제안한다. 모델 훈련을 위해 정제된 데이터를 수집하고, 노이즈를 삽입해 노이즈 데이터로 가공한다. 노이즈 데이터와 정제된 데이터의 쌍을 통해 Seq2Seq 모델을 훈련한다. 노이즈의 패턴을 학습한 모델이 자동으로 수집된 문서에 포함된 노이즈를 제거할 수 있다. 제안한 방법을 RAG 아키텍처에 적용하여 수집된 문서의 품질을 개선하여 RAG를 통한 답변 성능이 개선될 것을 기대한다.
-
대규모 언어 모델은 텍스트 생성에서 뛰어난 성능을 보이지만, 장편 이야기 생성에서는 긴 시퀀스의 일관성과 창의성 유지가 여전히 도전 과제로 남아 있다. 이를 해결하기 위해, 우리는 프롬프트 기반의 재귀적 플롯 프레임워크를 설계하여 장편 이야기 생성에서 발생할 수 있는 일관성 문제를 해결하고, 창의성을 증진하기 위해 플롯 이론을 적용하였다. 또한, 작가 페르소나를 도입하여 이야기 전개를 효율적으로 이끌고, 일관된 내러티브 스타일을 유지하도록 했다. 인간 평가를 통해 우리의 모델이 플롯의 길이, 다양성, 일관성에서 우수한 성능을 보인다는 점을 확인했다. 이는 대규모 언어 모델이 가진 경향성으로 인한 창의성 부족 및 긴 이야기에서 일관성 부족 문제를 해결하는 데 중요한 기여를 한다.
-
본 논문은 End-to-End로 영어 음성을 한국어로 번역하는 오픈소스 자동 음성 번역 모델인 KONVERSE를 제안한다. 제안된 모델은 영어 텍스트로만 번역을 수행할 수 있는 Whisper 모델을 한국어로 전이 하여 영어 음성을 한국어로 번역할 수 있도록 만들었다. 또한, 모델의 개발과 평가를 위해 영어 음성과 한국어 텍스트가 짝지어진 오픈소스 데이터셋인 KoLibriSpeech와 KoVoxPopuli를 구축하였다. 본 연구는 모델 선택, 데이터 생성, 훈련 방법론, 그리고 기존 번역 시스템과의 성능 비교를 포함하여 KONVERSE의 특화된 번역 작업에서의 효율성을 입증한다.
-
손글씨는 개인의 고유한 개성과 특징을 표현하는 수단이다. 종이 혹은 태블릿에서 작성된 손글씨를 디지털 환경에서 사용하려면 폰트 파일로 변환해야 한다. 로마자와 달리 한글 폰트 파일을 제작하기 위해서는 완성형 2,350자 혹은 유니코드 11,172자의 글자를 디자인해야 하기 때문에 많은 시간과 노력이 요구된다. 최근 컴퓨터 기술의 발달로 손글씨를 폰트 파일로 제작할 수 있게 되었으며, 상업적인 서비스도 제공되기 시작하였다. 본 논문에서는 이미지 생성 모델을 활용하여 손글씨 폰트를 생성하는 '내손글' 서비스를 제안하고 손글씨 폰트 제작 과정과 함께 서비스 과정과 손글씨 생성 결과를 보여준다.
-
한국 사회의 노령화가 가속되면서 노인 간병 업무의 부담이 증가하고 있다. 음성인식기술을 활용하여 간병 업무를 보조하도록 할 수 있지만, 노인 음성의 경우, 음성 인식 정확도가 낮으며, 한국의 경우, 노인 음성 데이터가 부족한 상황이고, 데이터 구축 및 모델 학습 비용이 적지 않다는 문제가 있다. 이에 본 연구는 Temporal Ensembling(TE) 방법론을 활용해서 200개라는 소수의 데이터로 Whisper 모델을 저비용으로 학습할 수 있는 방법을 제안한다. 이는 네이버 클로바 API보다 높은 수준의 정확도를 보여 노인 간병 업무를 보조하는 데에 큰 도움을 줄 수 있을 것으로 기대한다.
-
대규모 데이터셋으로 사전학습된 대규모 언어모델들은 In-Context Learning, Chain-of-Thought prompting, Retrieval Augmentation과 같은 프롬프트 엔지니어링 기법 덕분에 다양한 다운스트림 태스크에서 정확도 높은 답변을 생성할 수 있다. 하지만 이러한 프롬프트 엔지니어링 기법들은 대규모 언어모델에 입력으로 주는 컨텍스트의 길이를 증가시킨다. 대규모 언어모델들은 모두 고유한 context window size를 가지고, 셀프 어텐션 메커니즘의 연산 비용 때문에 처리할 수 있는 컨텍스트 길이에 한계를 갖는다. 이러한 한계점들을 해결하기 위해 본 논문에서는 프롬프트 압축을 통해 장문의 컨텍스트를 처리할 수 있는 새로운 압축 프레임워크를 제안한다. 본 논문에서 제안된 모델은 기존 프롬프트 압축을 하는 모델인 AutoCompressor보다 더 우수한 언어모델링 성능을 보여주며, 더 효율적인 추론 비용을 보여준다.
-
검색 증강 생성을 위해서는 언어모델의 입력에 검색된 결과를 입력하기 때문에 입력 길이가 늘어나고, 이에 따라 처리 비용이 증가하게 된다. 이에 대응하기 위해 입력 문서를 압축하여 처리 비용을 감소하는 방법이 제시되었지만, 여전히 비용이 크거나 부정확한 검색 결과에 의해 오히려 성능이 감소되는 문제가 존재했다. 이번 연구에서는 검색된 결과에 대해 한번 더 정제하여 모델의 성능을 향상시키는 방법을 제안한다. 이는, 문서 압축을 위한 모델에 이미 압축된 표현과 질의를 같이 입력하여 한번 더 압축하는 것이다. 제안된 방법을 통해 Natural Question에서 1k shot 학습 후 모델을 평가했을 때 기존 압축 모델에 비해 7.87의 성능 향상을 확인했다.
-
점점 데이터가 늘어나는 환경에서, 새로운 데이터가 추가될 때마다 리트리버를 처음부터 다시 학습시키는 것은 많은 자원을 소모한다. 예를 들어, 이미 학습된 리트리버를 새로운 데이터에 대해 추가 학습시키는 경우, 파괴적 망각 현상이 발생할 가능성이 높다. 이를 방지하기 위해 이전 데이터와 새로운 데이터를 모두 사용하여 처음부터 학습을 다시 진행하거나, 어댑터 등의 기법을 사용할 필요가 있다. 이러한 문제를 해결하기 위해 ANCE 방법론에서 영감을 받아, 이전 데이터에 대한 성능을 어느 정도 유지하면서도 새로운 데이터에 대한 성능을 향상시키는 지속 학습 방법론을 제안했다. ANCE는 m개의 배치를 학습할 때마다 마지막 모델 체크포인트를 이용하여 비동기로 하드 네거티브 샘플을 추출하고, 이를 다음 학습에 활용하는 방식을 취한다. 본 연구는 에폭마다 하드 네거티브 샘플을 추출하여 다음 학습에 활용하는 방식이, 이전 데이터에 대한 성능을 유지하면서도 새로운 데이터에 대한 성능을 향상시킬 수 있다는 가설을 세우고 실험을 진행했다. 이러한 가설을 바탕으로, 처음부터 무작위로 하드 네거티브 샘플을 추출하는 것보다, 이미 학습된 리트리버를 이용해 하드 네거티브 샘플을 추출한 후, 에폭마다 학습된 리트리버를 이용해 새로운 하드 네거티브 샘플을 추출하여 이 두 가지를 특정 가중치로 결합하는 방법을 제안한다. 실험 결과, 제안된 학습 방법론은 파괴적 망각을 어느 정도 방지했으며, 새로운 데이터 학습에 대해 가장 높은 효과를 보임을 검증했다.
-
Preference Optimization for Document Reranking Using the Implicit Knowledge of Large Language ModelsODQA(Open-domain Question Answering)은 넓은 범위의 지식 데이터에서 주어진 질문에 대한 정확한 답을 찾아내는 문제로, 기존의 검색 증강 언어 모델(Retrieval-Augmented Language Model)은 질문과 관련된 문서를 검색한 후 이를 언어 모델에 통합하여 답변을 생성하는 방식으로 동작한다. 하지만 이러한 접근 방식은 관련 없는 문서를 참조하여 잘못된 답변을 생성하는 문제를 야기할 수 있다. 이를 해결하기 위해 검색된 문서를 다시 정렬하는 re-ranking이 중요한 기술로 부각되고 있으며, 사전 학습된 언어 모델의 내재 지식을 활용하는 연구가 이루어지고 있다. 본 연구에서는 거대 언어 모델에 hard negative sample을 활용한 강화 학습 기법을 적용하여, 내재 지식과 강화 학습을 통해 기존의 방법들보다 re-ranking 성능을 높일수 있음을 보였다.
-
본 논문에서는 사전학습된 대규모언어모델인 Llama-2 모델을 한국어, 영어 교차 언어 (Cross-lingual) 모델로 효율적으로 전이하는 선호도 최적화 (Preference Optimization) 기법인 X-Opt(Cross-Optimization)를 제안한다. 제안된 기법은 영어에서 1600개의 시드 데이터만을 사용하여 교차 언어전이 환경에서 한국어의 성능을 큰 폭으로 향상시키며, Supervised Fine-tuning 방법과 DPO, ORPO로 학습된 모델을 큰 차이로 능가하는 것으로 나타났다. 또한, 자연어 처리 벤치마크에서도 SFT 모델 대비 정렬 세금(alignment tax)의 영향을 거의 받지 않는 것으로 나타났다. 제안하는 방법은 참조 모델 없이 보상을 최적화하고 소수의 영어 데이터를 사용한다는 점에서, 낮은 컴퓨팅 환경과 데이터 구축 비용 없이 English-centic 모델을 cross-lingual 모델로 전이할 수 있는 효율적인 방법이다.
-
본 논문에서는 언어간 전이학습을 위해 언어능력과 태스크능력을 구분하고, 언어능력과 태스크능력에 대한 다중능력학습과 연속단일능력학습 방법에 대한 실험 및 분석을 진행하였다. 언어능력 개선을 위해서는 Alpaca 모델보다는 번역쌍 데이터가 포함된 CrossAlpaca 모델이 우수함을 확인하였다. 태스크 능력 평가를 위해 언어이해능력과 논리적 추론능력이 필요한 수학문제추론 태스크를 선정하였다. 언어능력 학습과 태스크능력 학습의 연관성 실험을 통해, 언어능력의 개선이 수학문제추론 태스크의 일반화 성능 개선에 도움이 됨을 확인하였다. 또한, 연속단일능력학습은 연속학습의 주요한 문제인 치명적 망각 문제로 인해, 다중능력학습 방법에 비해서 태스크능력 개선에 어려움이 있음을 확인하였다.
-
초거대언어모델은 다양한 분야에서 높은 범용성과 성능을 보여주고 있다. 하지만 영어중심의 연구 흐름 속에서 언어에 따른 불이익 문제는 아직 해결되지 않은 주요 쟁점중 하나이다. 성능적 측면에서 언어간 차이를 완화하려는 시도가 다수 존재해왔으나, 우리는 모델 사용 이전, 토큰화 단계에서부터 언어에 따른 불이익이 존재함을 발견하고 이에 대한 문제를 제기한다. 우리는 GPT4를 비롯한 9개의 오픈소스 초거대언어모델에 대해서, 한국어를 처리하는 데 있어서 영어보다 최대 3배 이상 많은 토큰이 요구된다는 점을 확인하였다. 이는 동일한 작업을 수행하더라도 한국어를 사용하는 경우 영어를 사용하는 것보다 더 많은 비용과 더 느린 처리 속도를 얻게 됨을 의미하게 된다. 본 연구는 이러한 토큰화 단계에서의 한국어 불이익에 대한 관심을 환기하고, 불이익을 최소화시키는 특화된 토큰화 전략이 필요함을 제안한다.
-
대화형 인터페이스의 LLM(Large Language Model)이 발달하면서 NLP(Natural Language Processing)와 관련한 태스크 외에도 일상적인 대화를 목적으로 인공지능을 사용하는 사례가 증가하고 있다. 기계와의 대화라는 것을 인식한 채 경험하는 대화시스템에서 자연스러움을 느끼는 것은 중요하며, 특히 일상적 대화에서는 챗봇이 사용자의 감정을 인식하고 적절한 응답 발화를 생성함으로써 '인간스러움'을 향상시킬 수 있다. 따라서 본 연구에서는 발화 생성 실험을 통해 일상적 대화 상황에서 LLM이 사용자의 감정을 정확히 인식하고 문맥에 적절한 공감 발화를 생성할 수 있는지 평가하고 인간 생성 발화와의 공감 전략의 차이를 분석했다. 그 결과, 현재 언어 모델은 인간과 비교했을 때 공감 발화 생성 능력에 제한적인 성능을 보이고 있고 발화의 일관성과 자연스러움이 사용자 경험에 긍정적인 영향을 미친다는 것을 발견했다. 또한 모델마다 사용하는 공감 전략이 다르며 '조언' 전략은 사용자 선호도를 떨어뜨리는 주요 요인으로 작용한다는 것을 밝혔다.
-
초거대 언어 모델에 대한 대중의 관심과 사용자 수가 급증하면서 안전한 인공지능에 대한 연구가 더욱 중요해졌다. 국가, 산업, 연구 분야에서는 AI의 잠재적 위험을 식별하고 방어하기 위해 다양한 접근 방식을 통해 위험을 정의하고, 평가 벤치마크를 개발한다. 본 연구는 이러한 흐름 속에서 '위험한 유머'를 활용해 LLM의 안전성을 평가한다. 위험한 유머는 기존의 유해한 요소들과 변별되는 유형으로 '유머'라는 맥락 속에서 비윤리적이거나 위험한 요소들이 간과될 수 있다. 본 연구는 GPT-4o와 Gemini가 위험한 유머와 관련한 윤리적 위험에 대해 취약한 모습을 보인다는 점을 확인하였다.
-
초거대 언어 모델(Large Language Model; LLM)의 발전으로 질의응답 시스템의 성능이 크게 향상되었으나 최신 정보나 전문 지식이 요구되는 질문에 대한 한계가 여전히 존재한다. 이러한 한계를 극복하기 위해 검색 증강 생성(Retrieval-Augmented Generation; RAG) 기술이 제안되었지만 기존 연구들은 주로 사실적인 질문에만 초점을 맞추고 비사실적인 질문에 대한 성능 분석은 부족한 실정이다. 이에 본 논문은 사실적 질문, 비사실적 질문, 그리고 비질문을 포함한 8가지 질문 유형에 대해 RAG와 LLM 기반 질의응답 시스템의 성능을 비교 분석한다. 7종류의 단일 및 다중추론 질의응답 데이터셋으로 구성한 126,000건의 대규모 평가 데이터셋을 통해 실험한 결과, 두 시스템 모두 사실적 질문과 일부 비사실적 질문에서 높은 성능을 보이지만, 대부분의 비사실적 질문에서는 낮은 성능을 보임을 확인한다. 본 연구는 다양한 질문 형태에 따른 RAG의 성능을 최초로 분석한 연구로 향후 질문 유형에 따른 차별화된 접근의 필요성을 제시한다.
-
최근 언어모델(LM)은 문서 작성, 요약, 번역 등 자연어 생성 작업에서 탁월한 성능을 발휘하고 있다. 그러나 생성된 텍스트의 사실성을 보장하는 문제는 여전히 도전 과제로 남아있다. 신뢰할 수 있는 인공지능 시스템을 구축하기 위해서는 언어모델이 생성하는 문서가 얼마나 사실적인 정보로 구성되어 있는지 체계적으로 검증하는 일이 필수적이다. 아직 한국어와 같이 비영어권 언어에서는 이러한 기술의 적용과 검증이 부족한 실정이다. 본 논문에서는 한국어로 생성된 문서의 사실성을 검증하기 위한 시스템인 KorFactScore를 제안한다. LM의 사실성을 실험적으로 평가하고 LM과 검색기의 결합이 검증 성능에 미치는 영향을 분석하였다. 한국어 위키피디아 데이터를 활용해 한국인과 외국인 인물에 대한 약력 데이터를 생성하고, 이를 평가하기 위해 다양한 LLM(GPT-3.5, GPT-4, Gemini, EXAONE, LLaMA)과 검색기(Cross-encoder, BM25)를 적용하였다. 실험 결과, LM과 검색기를 결합했을 때 특히 한국어 데이터셋에서 사실 검증 성능이 최대 47.4% 향상됨을 확인하였다. 또한, Cross-encoder 검색기는 BM25 검색기보다 최대 5.6% 더 우수한 성능을 보였다. 본 연구는 언어모델이 생성한 한국어 문서에 대한 사실 검증의 필요성을 다양한 실험을 통해 보여주었다. 향후 KorFactScore를 다양한 한국어 생성 문서에 대한 신뢰성을 높이는 시스템으로 발전시키고자 한다.
-
최근 거대언어모델의 발전과 함께 환각 현상에 관한 수 많은 연구가 등장하고 있으며, 다양한 상황에서의 환각 현상을 탐지하고 완화하는 기술이 제시되고 있다. 그러나, 부정형 텍스트를 포함한 상황에서의 거대언어모델이 환각 현상에 논리적 일관성을 유지하며 타당한 추론 능력을 유지할 수 있는 지에 대한 충분한 검증과 분석이 부족한 상황이다. 본 논문에서는 거대언어모델이 부정형 표현에 어떻게 반응하는지 분석하고 새로운 형태의 환각 현상을 야기할 수 있다는 사실을 밝힌다. 부정형 텍스트로 인한 새로운 환각 현상에 대한 분석과 검증을 위해서 한국어 추론형 벤치마크 데이터셋과 오픈 소스 거대언어모델인 Llama, Mistral, 그리고 KULLM3를 활용한다. 또한, 렌즈 관찰 기법을 사용하여 트랜스포머 기반의 거대언어모델이 부정형과 긍정형 입력에 대해서 모델 레이어 수준에서 어떻게 처리하는지 추적하고 토큰 예측 확률에 대한 변동성을 측정한다.
-
본 연구는 이야기 다시 말하기 과제를 자동으로 평가해주는 시스템을 개발하는 것을 목표로 한다. 이야기 다시 말하기는 참여자의 언어 능력과 이해도를 분석하는데 사용되는 과제이다. 이 시스템은 사용자가 다시 말한 이야기를 분석하여 원본 이야기에서 누락된 부분을 확인하고, 누락된 문장이 몇 번째 문장인지에 대한 피드백을 제공할 수 있다. 자연어 추론 모델을 베이스라인으로 활용하여 정확한 피드백을 제공할 수 있게 하였다. 또한, 이 연구에 적합한 데이터셋이 별도로 존재하지 않아, 대형 언어 모델(LLM)을 활용한 역방향 접근법(backward approach)을 통해 데이터셋을 구축하였다. 이러한 방법론을 통해 보다 정확하고 효과적인 이야기 다시 말하기 채점 시스템을 구현할 수 있을 것으로 기대된다.
-
본 연구에서는 소량의 도메인 데이타로 부터 고품질 문서를 생성하기 위한 파인 튜닝 및 디코딩 전략에 대해 논한다. 특히, 의료 영상 판독문 작성 도메인에서 영상 이미지 분석 결과(findings)로 부터 진단 및 소견(impression)을 자동생성하기 위한 효과적인 방법을 기술한다. 본 연구에서는 MIMIC-CXR 데이타셋과 Meta-Llama-3-8B-Instruct 모델을 사용하였다. five-shot의 베이스라인 시스템이 ROGUE1 스코어 0.2382임에 비해 본 연구에서는 Low-rank 적응과 temperature 튜닝을 통해 ROGUE1 스코어를 0.6007로 개선하였다.
-
문법 오류 교정은 문장에 있는 문법적 오류를 탐지하여 올바르게 수정하는 작업으로, 수동으로 작업하기에는 많은 시간과 노력이 드는 작업이다. 때문에 이를 자동으로 교정하기 위한 연구가 계속되고 있는데, 최근 연구에서는 NMT 기반 학습 방법이 많이 사용되고 있다. 본 연구에서는 한국어 학습자가 자주 범하는 오류를 분석하고, 이를 바탕으로 한 규칙 기반 오류 생성 방식을 사용하여 만든 데이터로 KE-T5 모델을 학습시켰다. 그 결과, 한국어 모국어 화자를 대상으로 만들어진 고품질 문법 오류 교정 데이터로 학습한 모델 및 외부 한국어 오류 교정 모델과 비교하여 우리 연구에서 제안한 방식으로 만든 데이터로 학습시킨 모델의 성능이 더 우수함을 확인할 수 있었다. 또한, 학습된 모델의 결과를 바탕으로 오류 유형을 분류하고 학습자에게 피드백을 제공함으로써, 한국어 학습자들의 언어 능력 향상에 긍정적인 영향을 미치는 것을 기대한다.
-
본 연구에서는 Retrieval-Augmented Generation (RAG) 시스템에서 질의 분해로 생성된 세부 질의들이 효과적인 검색 결과를 제공하지 못하는 문제를 해결하기 위한 모델을 제안한다. 검색 로그를 활용하여 선호도 학습(Preference Learning)에 적합한 데이터셋을 구축하였고, 이를 바탕으로 모델을 학습 및 평가하였다. 실험 결과, 사용자 질의와의 관련성이 낮은 검색 결과를 가진 기존 질의들 중 22%가 제안한 모델을 통해 생성된 세부 질의를 사용하여 사용자 질의와 관련성이 높은 검색 결과를 찾는 데 성공했음을 확인했다.
-
LLM 응용 분야는 다양한 서비스에 적용되고 있으며 이들의 품질을 보장하기 위한 후속 연구도 학계 및 기업에서 지속적으로 진행되고 있다. 특히 LLM 기반 자동 평가 방법론은 최소한의 평가용 프롬프트를 작성하고 LLM이 대상 태스크의 답변을 평가하게 함으로써, 비용 및 확장성 면에서 한계가 있는 기존 평가 방식을 개선하고자 하였다. 하지만 해당 방법론은 성능 평가시 사용하는 LLM 자체의 품질에 전적으로 의존하고 있으며, 확장성 면에서 비교적 취약한 모델을 사용할 경우, 각 태스크의 특징을 고려한 평가 기준 세분화가 프롬프트 튜닝에 반영되었을 때 유의미한 성능 개선을 기대할 수 있다. 본 논문은 LLM 기반 자동 평가 방법론을 보다 효과적으로 각 태스크에 적용할 수 있도록, 태스크별 평가 기준을 자가 발굴하여 평가용 프롬프트를 자동 개선하는 방법론을 제안한다. 우리는 한국어 언어모델 다분야 사고력 벤치마크(LogicKor)의 평가용 질문 및 모델 답변을 활용하여 본 방법론을 통한 성능 평가 품질 향상을 보이고, 각 태스크에서 발굴한 평가 기준을 제시한다.
-
이미지 캡셔닝은 이미지를 설명하는 문장을 자동으로 생성하는 작업으로, 시각 장애인 지원, 의료 이미지 설명, 비디오 자막 생성 등에서 다양하게 사용된다. 기존 연구들은 다양한 모델을 사용하여 이미지 캡셔닝 작업을 수행해 왔으며 OCR 정보와 같은 추가적인 정보 추출을 통해 이미지를 더 잘 설명하는 캡션을 생성하고자 하였다. 하지만 영어권 이외의 이미지 캡션 생성 능력은 떨어지는 편이다. 따라서 한국어 이미지 캡션 생성의 성능을 높이고자 OCR 정보를 CoT 프롬프트와 결합하여 최종 캡션을 생성하는 방법을 제안한다. 이 방법을 통해 기존의 방식에 비교하여 성능 향상을 얻을 수 있으며, 특히 불필요한 정보를 생성하는 비율을 줄이는 효과가 있다.
-
본 연구는 생성형 AI에서 생성된 한국어 지식의 환각을 식별하고 완화하기 위한 한국어 데이터셋을 설계하는 것을 목적으로 한다. 이를 위해 ChatGPT-4o와 Copilot을 활용하여 한국 관련 지식을 생성하고, 총 180개의 사례를 수집하여 '진실성, 사실적 일관성, 근거성'의 기준으로 분석하였다. 분석 결과, 180개 사례 중 116건(64.4%)에서 환각 오류가 발견되었으며, 각 기준에 따라 다양한 오류 유형이 확인되었다. 추가적으로 동일한 내용 반복, 거절 및 회피, 애매한 표현, 중의성 등의 오류도 발견할 수 있었다. 본 연구는 데이터셋 구조의 기초 자료를 제공하는 데 그치지 않고, 실제 사례 분석을 통해 언어학을 포함한 다양한 연구 분야에 대한 근거 자료를 제공한다는 점에서 의의를 가진다.
-
리걸테크 산업의 핵심적인 기능인 법률 문서 작성, 판례 검색 등은 거대언어모델의 자연어 처리 수행 능력과 결합하여 성장할 잠재력을 가지고 있다. 하지만 현존하는 거대언어모델은 법률과 같은 전문 분야에서는 성능이 저조하며, 이를 극복하기 위해서는 법률 분야에 특화된 데이터셋을 구축할 필요성이 있다. 따라서 본 논문에서는 형사 사건과 그 사건에 해당하는 법조문을 짝지은 Narrative-to-Statutes(N2S) 데이터셋을 제안한다. N2S 데이터셋의 현실성을 높이기 위해 형사 사건이 범죄 피해자의 1인칭 관점에서 일상어로 서술되도록 구축하였다. 실험 결과, N2S 데이터셋으로 거대언어모델을 미세조정 진행 시 언어모델의 한국 법률 분류 작업 능력이 현저히 향상된다는 것을 확인할 수 있었다.
-
텍스트 검색을 위한 임베딩 모델은 LLM을 활용한 RAG 응용의 전체 성능에 큰 영향을 미칠 수 있다. 따라서, 다양한 검색 작업에서 임베딩 모델의 성능을 객관적으로 평가하기 위한 연구가 활발히 이루어지고 있다. 그러나, 한국어 임베딩 모델 벤치마크 구축/연구는 영어권 언어의 임베딩 벤치마크와 비교하여 아직 충분히 발전하지 못한 상태이다. 이러한 필요성에 따라, 본 논문에서는 LLM과 RAG 모델에 기반한 자동화된 검색 작업의 임베딩 모델 벤치마크 구축 방법론을 제안한다. 또한, 이 방법론을 통해 벤치마크 데이터를 구축하며, 이를 활용하여 다양한 검색 모델, 상업적 임베딩 모델, 오픈소스 임베딩 모델을 평가한다.
-
대형 언어 모델을 이용하여 기계 독해 시스템을 구축하기 위해서는 양질의 학습 데이터 확보는 필수적이다. 그러나 개인 혹은 소규모 연구 그룹이 대규모 데이터를 구축하는 것은 한계가 존재한다. 본 연구는 기계독해 시스템에서 활용 가능한 데이터 증강기법을 제안하며, BART 를 이용한 질의응답 쌍 생성 모델과 BERT를 이용한 데이터 검증모델로 구성이 되어있다. 한국어 기계독해를 위한 데이터셋인 KorQuAD v1.0 데이터 셋을 이용해 end-to-end 형식으로 파인튜닝(fine-tuning)하였다. 또한 생성된 데이터는 BERT 기반 검증 모델을 통해 필터링을 하여 데이터의 유효성을 높였다. 검증된 데이터는 KorQuAD v1.0 데이터로 학습한 BERT 모델에 추가로 학습하였을 때, 기존 데이터만을 학습한 결과보다 유의미한 성능향상을 보였다.
-
본 연구에서는 장기 대화 시스템을 위한 생성 기반 메모리 업데이트 데이터셋인 Keep Emotional and Essential Memory (KEEM)을 제안하며 이를 효과적으로 구축한다. KEEM 데이터셋은 장기 대화를 위한 메모리 업데이트에 감정과 인과성을 통합하는 새로운 생성 기반 접근 방식이다. 기존의 데이터셋들이 메모리 업데이트를 위한 단순한 축적 또는 연산 기반 방법에 의존하는 것과 달리, KEEM 데이터셋은 사용자와 나누었던 이전 대화의 정보와 새로 진행되는 대화에서 얻은 정보를 유동적으로 통합할 수 있는 생성 기반 메모리 업데이트 방법을 제안한다. 본 논문에서 제안하는 생성 기반 메모리 업데이트 기법은 중요한 정보를 잘 보존하고 사용자의 최신 정보를 효과적으로 업데이트 할 수 있다.
-
시간적 지식 편집은 시간 정보가 포함된 지식을 모델의 출력에 반영하는 지식 편집 태스크를 말한다. 기존의 시간적 지식 편집 벤치마크들은 지식 편집 기법이 모델의 지식을 잘 수정했는지와 더불어 관련된 역사적 지식을 잘 보존했는지에 대해 평가하지만, 지식에 포함된 시간적 요소가 지식 편집에 미치는 영향에 대해서는 초점을 맞추지 않는다. 본 연구에서는 다양한 시간적 추론의 유형을 적용한 지식 편집 벤치마크인 Time-Sensitive Knowledge Editing Benchmark(TSKEB)를 제안한다. TSKEB는 기존의 벤치마크와 달리 시간적 요소가 지식 편집에 미치는 영향을 함께 조명하여, 시간적 지식 편집에 대한 향후 연구 방향을 제시한다.
-
본 논문은 사전학습된 언어 모델(Pre-trained Language Models)을 활용하여 정형 데이터의 예측 성능을 향상시키는 새로운 기법을 제안한다. 기존의 회귀 모델들은 정형 데이터를 처리할 때 복잡한 데이터 엔지니어링 과정을 거치며, 이 과정에서 데이터의 중요한 의미가 손실될 수 있다. 또한, 이러한 모델들은 정형 데이터의 값만 처리하기 때문에 자연어로 되어 있는 변수명, 설명에 대해 데이터를 효과적으로 해석하거나 데이터의 설명이나 맥락을 제대로 활용하지 못하는 한계가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 언어 모델을 이용하여 정형 데이터와 자연어 설명을 결합하였으며, 언어 모델에 효과적인 수치값 입력을 위해 토큰 기반 밸류 임베딩(Token-based Value Embedding)이라는 새로운 임베딩 기법을 제안한다. 실험 결과, 제안된 기법을 통해 유의미한 설명과 수치 임베딩을 효율적으로 결합함으로써 모델의 예측 성능이 기존 기법에 비해 약 2%p에서 10%p 가량 향상됨을 확인하였다.
-
언어 모델을 활용한 번역 태스크는 일반적으로 뛰어난 성능을 보이고 있지만, 북한어와 같은 저자원 언어의 번역 문제는 여전히 도전 과제로 남아 있다. 본 연구에서는 기학습된 한국어-영어 번역 모델을 활용하여 북한어-영어 번역 성능을 향상시키기 위한 임베딩 전이 방법론을 제안한다. 이 방법론은 두 단계로 구성되며, 병렬 단어 사전과 정적 임베딩을 활용하여 기존 한국어 임베딩을 북한어로 확장 및 전이한다. 실험 결과, 제안된 모델은 BLEU-4 점수에서 베이스라인 성능 대비 약 67% 성능 향상을 관찰할 수 있었다.
-
대규모 언어모델은 다양한 자연어 하위작업에 있어서 괄목할 만한 성능을 보여주고 있으나, 학습 시 포함되는 언어 코퍼스의 불균형은 고자원 언어와 저자원 언어간의 성능 편차를 확대시킨다. 이는 모델의 어휘사전과 임베딩 품질의 저하로부터 기인하는데, 이를 그대로 사용하는 것은 언어 특화 모델을 구축하고자할 때 좋지 못한 시작점으로 연결된다. 이에 본 논문은 기존의 사전학습 모델 임베딩을 활용하여 다국어 대규모 언어모델을 한국어 특화 모델로 전이하는 방법을 제안한다. 제안된 접근법은 기존의 한국어로 사전학습된 소규모 모델의 임베딩을 의미론적 유사성을 고려하여 선형 변환함로써 대규모 언어모델에 이식한다. 이를 통해 임베딩 파라미터의 크기를 줄이고 기존 모델의 지식을 보존하면서 한국어에 최적화된 임베딩을 구축한다. 실험 결과, 타 방법과 비교했을 때 난이도가 높은 지식 작업에서의 언어 모델의 성능이 일관되게 높으며 특히 추가 사전학습을 통해 임베딩 정렬을 수행할 경우 더욱 높은 성능을 달성하는 것으로 나타났다.
-
거대 언어 모델(Large Language Model; LLM)은 다양한 자연어 처리 분야에서 우수한 성능을 보여왔으나 방대한 파라미터 수로 인해 제한된 자원 환경에서 사용이 어렵다는 한계가 있다. 이를 해결하기 위해 LLM의 파라미터 수를 줄인 작은 언어 모델(Small Language Model; SLM)이 등장했으며 여러 작업에서 LLM에 근접한 성능을 보여주었다. 그러나 SLM은 추론 능력에서 여전히 LLM에 비해 부족한 면이 있으며 특히 다단계 추론이 요구되는 상황에서는 성능 격차가 크게 벌어진다. 이러한 문제를 해결하기 위해 LLM의 추론 능력을 SLM에 전이하는 Chain of Thought(CoT) 증류 방법이 제안되어 SLM의 추론 성능을 크게 향상시켰다. 그러나 기존 방법은 단방향 증류에 그쳐 효율이 떨어진다는 단점이 있다. 본 논문에서는 LLM의 추론 능력을 효율적으로 전이하기 위해 위해 SLM의 피드백을 반영하는 양방향 CoT 증류 프레임워크를 제안한다. 본 논문에서 제안한 프레임워크는 GSM8K 데이터셋을 활용한 실험을 통해 LLM의 추론 능력 증류에서 우수성을 보였으며, 3개의 SLM을 대상으로 한 실험에서 단방향 CoT 증류 방법에 비해 평균적으로 6.2%p의 성능 향상을 달성하였다.
-
거대 언어 모델(LLM)의 활용이 확산됨에 따라, 다양한 프로그래밍 언어에서 고품질 코드를 생성하는 LLM의 능력이 중요한 연구 주제로 부각되고 있다. 특히, 이러한 모델들이 코드 생성 능력을 어떻게 습득하는지에 대한 이해는 더 효율적인 모델 개발 및 최적화를 위한 핵심 요소로 작용할 수 있다. 본 연구는 LLM의 코딩 능력이 특화된 파라미터 집합인 Coding Core에서 비롯되는지를 분석하고자 하였다. 이를 위해 LLaMA 3.1 8B instruct 모델을 사용하여 Bash, C, C++, Go, Java, JavaScript, Julia 등 7개 프로그래밍 언어에 걸쳐 파라미터 중요도 점수를 적용해 핵심 파라미터를 식별하였다. 분석 결과, Coding Core는 LLM의 일반적인 코딩 능력에 필수적인 요소로 확인되었으며, 해당 파라미터의 1%를 제거했을 때 HumanEval 벤치마크에서 성능이 현저히 저하됨을 발견하였다. 또한, Coding Core는 GSM8K 벤치마크에서도 성능 저하를 초래하여, 수학적 추론에도 중요한 역할을 한다는 사실이 입증되었다. 반면, HellaSwag, MMLU, WinoGrande와 같은 다른 벤치마크에서는 성능 변화가 미미했으며, 이를 통해 Coding Core가 주로 코딩 및 수학적 능력에 관련된 기능을 담당한다는 사실을 확인하였다.
-
다중 모달리티 감성 분석(Multimodal Sentiment Analysis, MSA)은 최근 연구자들 사이에서 큰 주목을 받고 있는 연구 분야이다. MSA 연구들의 대부분은 모델 학습 및 추론 과정에서 모든 데이터에 결측값이 없다는 가정을 바탕으로 진행된다. 그러나 실제 취득되는 데이터에서는 다양한 요인으로 인해 일부 모달리티가 결측되는 경우가 종종 발생한다. 이를 해결하기 위한 다양한 방법론들이 제안되었지만 한국어 다중 모달리티 데이터에 적용한 연구 및 분석은 거의 이루어 지지 않았다. 본 연구에서는 한국어 다중 모달리티 데이터를 구축하고, 결측 모달리티 문제를 해결하기 위해 제안된 모델들을 활용한 실험을 통해 한국어 데이터에서의 적용 가능성 검토 및 영어 데이터와의 특성 차이를 분석한다.
-
텍스트 임베딩은 자연어를 고차원 벡터로 인코딩하는 기술로서, 대규모 문서 집합에서 관련 문서를 효율적으로 검색하는 데 활용된다. 최근 초거대 언어 모델의 발전과 더불어 검색 증강 생성(Retrieval-Augmented Generation, RAG) 시스템에서 중요한 역할을 수행하고 있다. 그러나 대부분의 텍스트 임베딩 모델은 영어 데이터를 기반으로 학습되었기 때문에, 비록 다국어를 지원하는 모델이라 할지라도 한국어 임베딩 작업에서는 기대에 미치지 못하는 성능을 보이는 것이 현실이다. 본 연구는 이러한 성능 저하의 주된 원인으로 한국어 임베딩 모델 구축을 위한 학습 데이터의 부족을 지적하며, 이를 해결하기 위해 다양한 오픈 소스 데이터를 활용하여 고품질의 학습 데이터셋인 ko-triplet-v1.0을 새롭게 구축하였다. 본 연구에서 구축한 데이터셋을 활용하여 한국어 임베딩 모델인 KoE5를 학습하였으며, 그 결과 AutoRAG 및 PublicHealthQA 등의 벤치마크에서 기존 다국어 임베딩 모델을 능가하는 성능을 달성하였다.
-
본 연구는 한국어 설명을 기반으로 파이썬 코드를 생성하는 프로그램 합성 태스크에서 대규모 언어 모델의 성능을 평가하고 분석한다. 이를 위해 영어 프로그램 합성 벤치마크인 HumanEval을 한국어로 번역한 KR-HumanEval 데이터셋을 제작하였으며, 제로샷 및 퓨샷 방식을 통해 다양한 언어 모델들의 성능을 비교 분석하였다. 특히, 한국어 프로그램 합성 태스크에서 다양한 형태와 종류의 퓨샷 예제가 성능에 미치는 영향을 조사하였다. 실험 결과, 퓨샷 방식이 제로샷 방식보다 우수한 성능을 보였으며, 한국어 주석과 변수를 포함한 파이썬 코드 예제가 모델의 성능에 긍정적인 영향을 미치는 것을 확인하였다. 또한, 영어 설명을 퓨샷 예제로 사용했을 때 가장 높은 성능을 기록하였다. 본 연구의 결과는 한국어 기반 프로그램 합성 태스크에 대한 이해를 심화시키며, 향후 다양한 언어 환경에서의 프로그램 합성 연구에 기여할 수 있을 것으로 기대한다.
-
방사선 진단 보고서에는 환자의 방사선 이미지와 환자의 증상에 대한 영상의학적 관찰 소견 (finding)과 판독결과 (impression) 등이 쓰여지는데, 판독결과에 이르기까지의 인과관계 설명이 쓰여지지 않은 경우가 많다. 본 논문은 방사선 진단 보고서의 최종 판독결과와 관찰 소견 간의 인과관계 혹은 보고서에 쓰여져 있지 않았지만 의사의 진단결정과정에서 반드시 체크가 되었을 증상과의 인과성인 "숨겨진 인과성" (hidden causality)을 찾아내기 위한 Hidden-Rad 데이터셋을 만들고 그 효용성을 보이고자 한다. 이와 같이 진단보고서에 나타나지 않은 숨겨진 인과성은 의사의 의학적 지식과 경험에 기반을 둔다. 본 데이터셋은 의사의 진단과정과 의학적 인과성 체크리스트를 크라우드소싱에 의해서 재현한 것이다. 이 결과 데이터셋은 실제 방사선 진단보고서와 숨겨진 인과성이 재현된 보고서로 이루어지며, 이를 바탕으로 숨겨진 인과관계 학습모듈의 성능분석을 위한 척도를 제안한다. 평가척도로는 Bert Score, Cosine Similarity, BioSentVec을 활용하여 보고서 간의 유사도를 측정하고, 숨겨진 인과성을 포함한 보고서의 품질을 평가하였다. 이를 통해 데이터셋과 학습 모듈의 효용성을 입증하였으며, 진단 시스템의 설명 가능성을 향상시키는 데 기여할 수 있음을 보였다.
-
최근 언어 모델을 기반으로 다양한 목적의 생성형 챗봇 서비스에 대한 연구가 진행되고 있다. 검색증강 생성 챗봇은 사용자의 질의에 대하여 사전에 색인한 문맥을 질의와 함께 언어모델에 입력하여 답변을 생성하는 서비스를 말한다. 검색증강 생성 챗봇 서비스는 기존 생성형 챗봇 서비스에서 발생하던 오답 또는 환각을 생성하는 문제의 발생 빈도를 크게 줄여주기 때문에, 데이터 기반 답변이 필요한 여러 서비스에 활용된다. 하지만 이를 학습하고 평가하기 위한 공개된 한국어 데이터셋은 부족하다. 따라서 본 논문에서는 검색증강 생성을 위한 한국어 데이터셋을 구축하고, 공개된 언어모델을 기반으로 데이터셋의 난이도와 적합성을 평가할 것이다. 데이터셋 및 평가 코드는 https://huggingface.co/datasets/LDCC/korag 에서 확인할 수 있다.
-
본 논문에서는 거대 언어 모델의 과학기술정보 분야의 전문 지식을 평가하기 위해 한국어 벤치마크를 구축한다. 범용 분야 벤치마크와 차별화된 다양한 과학기술 도메인 특화 데이터 구축을 위하여 과학기술정보 전문 분야 다섯 가지 카테고리를 정의하고 각 문제별 난이도와 평가 기준을 수립한다. Synthetic 데이터 자동 생성 파이프라인을 2단계로 구성하여 벤치마크 전반의 데이터 품질 및 전문성을 향상시키며, 구축 시간을 단축하는 방법을 제안한다. 공개된 거대언어모델을 활용하여 성능 평가를 진행하여 구축한 벤치마크가 과학기술정보 전문 분야 평가 데이터의 유효성을 검증하였다. 특히, 본 벤치마크는 과학기술정보 분야의 전문 지식을 평가할 수 있는 한국어 최초의 벤치마크로서 도메인 특화 성능 평가 연구의 중요한 토대를 마련할 수 있을 것이다.
-
자연어 추론은 전제와 가설 문장 간의 논리적 관계를 이해하는 자연어 처리 태스크로, 다양한 응용 분야에서 활용될 수 있다. 그러나 새로운 도메인에 적용하기 위해서는 많은 시간과 비용이 소요되는 학습 데이터 구축이 필요하다. 이를 해결하기 위해 문장 변환 규칙을 이용하여 학습데이터를 자동 생성하는 연구가 시도되었으나, 사용된 규칙의 한계로 인해 성능이 저하되는 문제가 있었다. 본 논문에서는 이러한 문제를 해결하기 위해 OOD 탐지와 클러스터링 기법을 통해 기존 문장 변환 규칙에 포함되지 않는 새로운 전제-가설 문장 쌍을 기존 자연어 추론 학습데이터로부터 탐지하고 군집화 하여, 이를 바탕으로 새로운 규칙을 도출하는 방법을 제안한다. 또한, 새롭게 발견한 규칙들을 활용해 거대 언어 모델과 CoT 프롬프트를 사용하여 학습 데이터를 생성하고, 이를 기존 데이터셋에 추가하여 자연어 추론의 성능을 유의미하게 향상시켰다.
-
본 논문은 대규모 언어 모델(LLM)의 성능 향상을 위한 Sparse Retrieval-Augmented Generation (Sparse RAG) 기법에 초점을 맞춘다. RAG는 외부 문서 검색을 통해 LLM의 정확도를 높이고 환각 현상을 감소시키지만, 문서 수 증가에 따른 계산 복잡도 문제가 있다. Sparse RAG는 이를 해결하기 위해 관련성 높은 문서만을 선별적으로 활용하며, Parallel Context Window (PCW) 기법과 단일 모델 내 재평가 및 생성 과정을 통해 효율성을 높인다. 본 논문에서는 Sparse RAG를 Llama2-chat에 적용하여 Document-Grounded Dialogue Systems (DGDS)와 같은 도메인 특화 작업에서의 성능 향상 효과를 검증한다.
-
본 연구는 한국어능력시험(TOPIK)을 기반으로 학습자의 어휘·문법 수준에 맞춘 추론적 읽기 문제 자동 생성 시스템을 개발하고 평가하였다. LLM 모델을 사용하여 문제를 생성하였으며, 자동 평가, 학습자 평가, 전문가 평가를 통해 문제의 어휘·문법 적절성, 일관성, 실제성을 분석하였다. 평가 결과, 중급 문제에서 전반적으로 높은 결과를 보였으나 초급 문제에서는 난이도 조정과 선택지 구성의 개선이 필요함을 확인하였다. 본 연구는 LLM 기반 자동 문제 생성 시스템의 교육적 활용 가능성을 제시한 점에서 의의를 갖는다.
-
이 논문에서는 온디바이스 한국어 문법 오류 교정 시스템 개발을 위한 최적의 소형 언어 모델(SLM)을 탐색한다. 소형 언어 모델은 작은 규모의 파라미터만으로도 대규모 언어 모델과 유사한 성능을 내고 외부 API를 사용하지 않아 적은 비용과 보안의 안전성이라는 장점을 가진다. 최근에는 이러한 소형 언어 모델을 활용하기 위한 관련 연구가 증가하고 있다. 문법 오류 교정(GEC)은 텍스트를 검사하고 교정하여 문법적으로 올바른 표현이 되도록 하는 것을 목표로 하며, 다양한 분야의 문서 작업에 필수적인 기능이다. 이 연구는 온디바이스 한국어 문법 오류 교정 시스템 구축이라는 최종 목표에 초점을 맞춰 한국어 소형 언어모델들에 대한 실험 및 비교분석을 진행하였다. 실험 결과, beomi/OPEN-SOLAR-KO-10.7B 모델의 ROUGE-1 F1 스코어가 GPT-4o의 점수와 약 0.03의 차이를 보이며 한국어 문법 오류 교정 태스크에서의 가능성을 보여주었다.
-
이 연구는 남북한 병렬 코퍼스를 사용하여, 문장 수준의 남북한 양방향 기계 번역 모델을 개발하고 그 결과를 분석하는데 중점을 둔다. 정량적 평가뿐만 아니라, 어휘, 띄어쓰기, 맞춤법 등 남북한 언어 차이를 반영한 정성적 평가를 통해 남북한 기계번역의 가능성을 탐구한다. 본 번역 모델은 기계 번역을 통한 새로운 가능성 제시 뿐만 아니라, 남북한 언어 연구와 향후 남북한 언어 통일 준비에도 중요한 기여를 할 수 있다.
-
최근, 교과목 학습을 위해 대규모 언어모델을 활용하는 방법이 많이 제안되고 있다. 특히 교과 내용에 대한 질문 답변, 검색 증강 생성 등 대체로 챗봇의 형태로 많이 활용되고 있다. 본 논문에서는 수학 교과에 대하여 문제 유형 정의 및 해당 유형에 맞는 문제를 생성하는 프레임워크를 제안한다. 해당 프레임워크의 성능을 검증하기 위해, 사람에 준하는 수리적 이해 능력을 갖춘 3개의 서로 다른 대규모 언어모델이 해당 문제를 풀 수 있는지 확인하였다. 또한, 평가 모델의 풀이 방식 및 정답 정확도를 분석하여, 유형에 따른 모델별 특장점을 확인하였다.
-
본 연구는 광학 문자 인식(Optical Character Recognition, OCR) 모델의 성능을 개선하기 위해, 사전학습 언어 모델을 사용한 한국어 OCR 후보정 방법을 제안한다. 그리고 TRDG와 OCR 모델들을 사용하여 OCR 후보정에 최적화된 커스텀 데이터셋을 구축하고, 커스텀 데이터를 사용하여 한국어 OCR 후보정 모델의 학습 및 평가를 수행한다. 본 연구에서 OCR 후보정 모델의 학습은 OCR 모델에 의해 생성된 문장을 보정하여 정답 문장에 가깝게 학습한다. 커스텀 데이터로 학습된 OCR 후보정 모델을 사용하여 정확도를 측정하였을 때 기존의 OCR 모델만 사용하였을 때보다 4.73% 향상된 약 98%의 성능을 달성하였다.
-
최근 언어모델이 다양한 분야에서 뛰어난 능력을 보이며 모델의 이해, 생성, 대화 등 다양한 능력을 평가하고자 하는 시도가 있었다. 본 연구에서는 KBS한국어시험능력을 통해 언어모델의 한국어 사용능력 측정하고자 한다. KBS한국어시험능력은 언어 사용에 있어 효과성, 유창성, 정확성, 창의성에 대한 총체적 평가를 목표로 하며, 실험에 사용된 시험 평가 항목은 어휘, 어법, 쓰기, 창안, 읽기, 국어문화의 총 여섯가지 항목으로 구성된다. 전체 76개의 문항에 대해 질문, 지문, 선지를 주고 다섯 개의 선지 중 하나의 답을 고르는 것으로 성능을 측정한다. 실험 결과 GPT 계열 모델들이 가장 우수한 성능을 보였으며 오픈소스 모델 중에서는 Google의 Gemma 2가 우수한 성능을 보이는 것을 확인하였다.
-
북한의 폐쇄적인 사회적 특성으로 인해 북한 관련 데이터를 LLM의 학습 및 개발에 활용하는 데 한계가 있다. 이 제약으로 LLM은 남북 관계에 대해 주로 한국어 데이터를 기반으로 학습하게 되며, 한국의 관점이 반영된 정보가 주를 이루어 남북 관계에 대한 정보의 부족과 및 편향성이 나타날 우려가 있다. 본 연구에서는 AI의 남북 관계에 대한 이해도를 평가하고 남북 관계에 대한 LLM의 지식 수준과 편향성 등 모델의 특징과 한계를 분석하였다. 이를 바탕으로 저자원 언어 데이터의 도메인 확장과 남북 관계에 대한 객관적인 한국어 데이터 구축의 필요성을 제안한다.
-
공감은 타인의 감정과 경험을 이해하고 적절히 반응하는 능력으로, 인간 사회의 근간을 이루는 필수적 요소이다. AI가 일상생활에 자연스럽게 통합되는 현시대에서 AI 에이전트에게도 이러한 공감 능력을 부여하는 것이 중요한 과제로 부상하고 있다. 그러나 깊이 있는 공감을 위해서는 상대방의 문화적 맥락을 이해하는 것이 필수적임에도 불구하고, 기존의 공감 대화 데이터셋은 주로 영어권 문화에 편향되어 있다는 한계를 지닌다. 이에 본 연구는 한국어의 고유한 문화적 특성을 반영한 공감 대화 벤치마크 데이터셋인 KoreanEmpatheticDialogues (KoED)를 제안한다. KoED는 기존 EmpatheticDialogues (ED) 데이터셋을 기반으로 하되, 한국의 문화적 맥락에 맞게 구축하였다. 또한 한국 문화에 특화된 감정 레이블을 추가하고 멀티 레이블 방식을 도입하여 더 섬세한 감정 표현을 가능하게 했다. 이를 통해 언어 모델의 한국적 맥락에서의 공감 능력을 정확히 평가할 수 있도록 한다. 다국어 모델들의 공감 능력을 평가한 결과, 이들 모델이 영어보다 한국어 데이터셋에서 전반적으로 낮은 성능을 보이는 것으로 나타났다. 이는 모델들이 한국어 문화적 맥락에 대한 이해가 상대적으로 부족함을 시사한다. KoED는 비영어권 문화의 공감적 상호작용 평가에 기여할 뿐만 아니라, 문화와 정서를 고려한 AI의 공감 능력 향상 연구의 토대를 마련한다.
-
본 연구는 LLM(Large Language Model)을 활용한 다회차 협상 시뮬레이션에서 협상자의 성격 유형이 협상 결과에 미치는 영향을 분석한다. OpenAI의 4가지 GPT 모델(GPT-4o, GPT-4, GPT-4o mini, GPT 3.5 Turbo)을 사용하여 "Buy and Sell" 협상 게임을 진행하였으며, 협상자의 감정과 전략적 행동을 반영하는 핵심 요소인 페르소나를 협력적, 경쟁적, 이타적, 이기적 등 7가지 성격 유형으로 세분화하여 설정하고 협상 과정을 진행하였다. 실험 결과, GPT-4o 모델이 복잡한 감정과 전략을 가장 정확히 해석하고 반영함으로써 가장 높은 성공률을 기록하였다. 페르소나 유형으로 살펴보면, 교활(Cunning)하거나 경쟁적인(Competitive) 페르소나가 높은 협상 성공률을 기록하였다. 이는 적절한 페르소나가 협상의 성공률을 높일 수 있는 요인 중 하나가 될 수 있음을 의미하며, 결과적으로 본 연구는 다양한 페르소나별 상관관계를 정리함으로써, 사람을 대신하여 LLM을 활용한 협상 자동화 연구에 기여하고자 한다.
-
본 연구에서는 GPT-4의 한국어 상호 참조 주석 일관성을 실험하고 평가하여 영어 중심의 AI 모델 평가에서 벗어나 다국어 처리 능력을 검증하는 것을 목표로 한다. 이를 위해 국립국어원(2021)의 상호 참조 해결 말뭉치 2020에 검수 및 추가 주석을 시행한 후 OpenAI의 GPT-4 API를 사용해 주어진 텍스트에서 두 명사구(mention pair)가 같은 대상을 가리키는지 예측하도록 했다. 평가 방법은 0-shot과 5-shot에서 학습한 예시의 개수에 따라 성능 차이가 있는지를 살폈다. 또한 5개의 유사한 질문을 만들어 "Yes or No" 형식으로 답변하도록 했고 같은 질문에도 5번 반복 실험을 통해 답변 일관성을 보이는지 평가했다. 평가 결과 총 194개의 텍스트 중 142번(73.20%)에서 GPT-4가 5번 모두 일관되게 'Yes'라고 답하는 것을 확인할 수 있었다. 추가 주석을 통해 조사 및 멘션 사이에 오는 음절들이 많을수록 성능 평가에 영향을 미치는지를 살폈는데 평균 56.10음절인 문장 길이에서는 조사의 유무 및 음절 사이의 거리가 성능과 상관 관계에 있다고 판단하기는 어려웠다.상호 참조 해결은 자연어 이해의 핵심 과제 중 하나로, 텍스트의 의미를 정확히 파악하는 데 필수적이며 멀티턴 대화(Multi-turn Conversation)의 정확성을 판가름하는 기준이 된다는 점에서 정량적으로 초거대 언어 모델의 다면적 성능을 평가한 본 연구의 의의가 있다고 하겠다.
-
본 연구는 대규모 언어 모델의 한국어 대화 상태 추적(Dialogue State Tracking) 성능을 평가하기 위해 한국어 데이터 셋을 구축하고, 'lm evaluation harness' 프레임워크를 사용하여 간단하게 평가하는 것을 목적으로 한다. 데이터셋은 식당을 예약하고자 하는 사용자와 시스템 간의 발화 내용 쌍과 사용자의 요구 조건인 슬롯의 묶음을 기본 단위로 하며, 태스크에서 언어 모델은 발화 내용을 토대로 슬롯을 정확히 맞춰야 한다. 평가 과정에서는 8B 이하의 다국어 언어 모델들을 선정하여 0-shot과 5-shot 세팅에서 평가를 진행하였고, 그 결과 모델 크기가 성능 향상에 긍정적 영향을 주었으나 무조건적인 것은 아니었다. 또한, 대형 다국어 모델들이 한국어 특화 모델들보다 우수한 성능을 발휘하는 경향을 확인하였고, Instruct 모델들이 5-shot에서 상대적으로 큰 성능 향상을 보였다.
-
한국어로 Pre-training 된 Mamba 모델인 Ko-Mamba 130M 모델을 교사 모델로 하여 지식 증류를 실험한 결과를 정리한다. 효율적인 지직 증류 학습을 위하여 모델의 전체 파라피터에 대하여 학습이 이루어지는 것이 아니라 Embedding과 LM head와 같은 특정 레이어를 고정한 상태에서 교사 모델의 hidden state 출력을 손실 계산에 활용하여 지식 증류를 실시하였다. 지식 증류 학습을 테스트하기 위하여 하나의 레이어만 제거하여 지식 증류를 한 Ko-Mamba 125M - KD 생성하였고, 이후에 교사 모델의 레이어를 절반으로 줄인 Ko-Mamba 84M - KD 모델을 생성하였다. 지식 증류를 하여 생성한 Ko-Mamba 84M - KD 모델은 지식 증류 없이 기존의 방법과 동일하게 Pre-training을 한 Ko-Mamba 84M - PT 모델과 비교하여 kmmlu와 같은 특정 테스크에서 더 높은 평가 점수를 달성하였고, 교사 모델인 Ko-Mamba 130M 더 높은 평가 점수를 달성하였다.
-
오픈 도메인 질의 응답(ODQA, Open-Domain Question Answering)은 특정 주제에 국한되지 않고, 다양한 주제에 걸쳐 질문에 대한 답변을 제공하는 시스템이다. 이는 사용자가 어떤 주제에 대한 질문을 하더라도 관련된 답을 생성하는 것을 목표로 하기 때문에, 관련 지식 검색을 통한 지식 보충을 선호한다. 본 논문은 한국어 오픈 도메인 질의 응답에서 형태소를 기반으로 문서 검색을 수행한 뒤, 이를 바탕으로 검색된 문서 내에서 답변을 생성하는 방법을 제안한다. 이를 통해 보다 정확한 답변을 제공할 수 있는 시스템을 구현하고, 기존 방식과의 성능을 비교한 결과, EM 5.92, F1-Score 8.15 향상된 것을 확인하였다.
-
거대 언어 모델은 다양한 응용 분야에서 뛰어난 성능을 보이지만, 여전히 추론 과정의 불투명성과 환각 현상으로 인해 신뢰성에 대한 문제가 제기되고 있다. 이는 사용자가 모델의 결과를 신뢰할 수 없게 하며, 잘못된 정보에 의존하거나 오해할 위험을 증가시킬 수 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 투명성과 신뢰성을 확보할 수 있는 추출 기반 방식의 근거 추론 방법을 제안한다. 제안 모델은 Pointer Network를 활용하여 모델의 추론 과정을 확인할 수 있으며, 근거를 문장 단위로 제공함으로써 사용자의 이해도를 높일 수 있도록 설계되었다. 또한, 제공된 문서에서 근거를 추출함으로써 그 사실성을 보장할 수 있다. 실험 결과, 제안 모델은 Gpt-4o mini와의 비교에서 더 높은 근거 추론 성능을 보였으며, 예측이 잘못된 경우에도 이를 뒷받침할 수 있는 근거 문장을 효과적으로 추론하는 것을 확인하였다. 또한 제안 모델은 근거에 대한 라벨 없이도 근거 추론이 가능하기 때문에 라벨링 되어있지 않은 오픈 도메인 환경에도 적용 가능하며, 특정 모델 구조에 제한받지 않고 폭넓게 적용될 수 있다.
-
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 외부 지식을 활용하여 생성 모델의 성능을 향상시키는 강력한 프레임워크로 주목받고 있다. 그러나 RAG 시스템은 검색과 생성 모델 간의 복잡한 상호작용으로 인해 기존의 평가 방법만으로는 성능을 정확하게 평가하기 어려운 문제가 있다. 본 연구에서는 이러한 문제를 완화하기 위해 문서 기반 증강 단어 평가(Document-Augmented Word Assessment, DOWA)라는 새로운 평가 방법론을 제안한다. DOWA는 문서 레벨과 정답 단어 레벨의 이중 레이블링 방식을 적용하여 RAG 시스템의 성능을 다각도로 평가할 수 있도록 설계되었다. 본 연구는 KLUE MRC 데이터셋을 활용하여 DOWA의 효용성을 검증하고, 기존의 단일 레이블링 방식으로는 드러나지 않았던 RAG 시스템의 특징들을 분석한다. 또한, 실험 결과를 토대로 RAG 평가 방법론 개발 과정에서 고려해야 할 중요한 사항들을 논의하고, 향후 연구 방향을 제시한다.
-
대규모 언어 모델(LLMs)의 발전은 자연어 처리 성능을 크게 향상시켰지만, 비윤리적이거나 유해한 프롬프트에 대응하는 과정에서 윤리적 문제가 발생할 가능성이 있다. 이를 해결하기 위해 본 연구는 비윤리적 프롬프트에 대한 대응 전략을 체계적으로 정의하고, 해당 전략에 맞춘 대응 데이터를 생성한 후, 이를 학습한 대응 전략 검출기를 제안하였다. 제안된 검출기는 상용 LLM의 프롬프팅 방식과 비교했을 때 상대적으로 낮은 성능을 보였지만, 동일 모델의 비학습 프롬프팅 방식보다는 우수한 성능을 나타냈다. 또한, 검출기를 통해 상용 LLM들이 비윤리적 발화와 요청에 대해 사용하는 주요 대응 전략을 분석하였다. 본 연구는 LLM의 비윤리적 발화 대응을 위한 다양한 전략을 제시하며, 향후 대응 전략의 효과성과 사용자 선호도를 반영한 추가 연구의 필요성을 강조한다.
-
본 연구에서는 언어 모델 학습에서 'pause token'을 사용하는 기법을 한국어의 구문적 특성에 맞추어 조정하고, 다양한 과제에 적용하여 성능을 평가하였다. 기존 연구인 "THINK BEFORE YOU SPEAK: TRAINING LANGUAGE MODELS WITH PAUSE TOKENS"[1]에서 제안된 방법론을 기반으로, 'pause token'의 개수를 달리하여 한국어 데이터셋에 대해 미세 조정을 수행하였다. 'Pause token'은 모델이 텍스트 생성 중 특정 지점에서 출력을 일시적으로 멈추고 지연시키는 효과를 주어 문맥을 재평가할 수 있도록 유도하는 역할을 하며, 이를 통해 모델의 이해도와 생성 능력을 조정하는 데 사용된다. 실험 결과, 'pause token'의 사용이 일부 조건에서 모델의 성능을 상승시키는 효과가 있음을 확인하였다. 특히, 데이터셋 특성에 따라 적절한 수의 'pause token'을 활용할 경우 성능 향상이 관찰되었다. 이러한 결과는 'pause token'이 한국어 자연어 처리(NLP) 과제에서 효과적인 도구가 될 수 있음을 시사하며, 향후 연구에서는 pausePT와 pauseFT의 병행 적용을 통해 더욱 향상된 성능을 기대할 수 있음을 제안한다. 이를 통해, 한국어의 특성에 부합하는 최적의 'pause token' 사용 방안을 추가적으로 탐구할 필요가 있다.
-
거대 언어 모델이 최신 정보와 외부 지식을 활용한 질의응답을 수행하는 데 본질적인 한계가 존재한다는 문제를 완화하기 위해, 검색 증강 생성(Retrieval-Augmented Generation, RAG) 기술에 대한 연구가 활발히 진행되고 있다. 기존 연구에서는 모델이 외부 지식을 효과적으로 활용할 수 있도록 하기 위해 1) 외부 지식에서 중요한 정보가 있을 가능성이 높은 특정 부분만 제공하거나, 2) 정보를 요약하여 재구성하는 등의 방법이 사용되었다. 그러나 이러한 접근법들은 정보의 축약 과정에서 중요한 내용이 손실될 가능성이 남아 있다. 이러한 문제를 완화하기 위해 본 연구에서는 원본 외부 지식의 손실 없이 거대 언어 모델의 질의응답 성능을 향상시키기 위한 "엔티티 기반 정보 밀도 향상 기법(entity-based information densification technique)"을 제안한다. 이는 외부 지식에서 엔티티가 중요한 정보를 포함할 가능성이 높다는 가설에 기반하여, 주어진 질의와 지식 텍스트로부터 엔티티와 그들 간의 관계 구조를 모델이 더 잘 이해하고 추론할 수 있도록 하는 것이다. 이를 위해, 질의와 컨텍스트로부터 적절한 엔티티 및 관계의 집합을 추출하고, 이를 바탕으로 컨텍스트 내의 중요한 엔티티를 명시적으로 강조함으로써, 모델이 중요한 정보를 최대한 소실하지 않도록 유도한다. 추가로, 제안한 방법론의 타당성과 중요성을 증명하기 위해 다양한 실험 및 분석을 수행한다.
-
질의 응답 태스크는 질의에 대한 적절한 응답을 제공하는 작업이며, 정보 검색 및 정보 추출 등의 다양한 연관 분야를 함께 응용 가능한 자연어처리 분야의 중요한 태스크이다. 최근 자연어처리 분야 전반에서 생성형 거대 언어모델의 내재 지식을 활용하여 뛰어난 성능을 입증하면서, 거대 언어모델의 지식을 적극적으로 활용하기 적합한 대표적인 태스크인 질의 응답에서 역시 이와 관련한 활발한 탐구가 필요하다. 하지만, 기존의 질의 응답 연구는 대부분 인간 주석자에 의해 라벨링된 양질의 질의-응답 쌍을 기반으로 구축된 벤치마크 데이터를 대상으로 하며, 이는 현실 세계의 추론 환경과의 괴리로 이어질 위험이 존재한다. 즉, 전통적인 질의 응답 연구에서는 잘 정제된 이상적인 질의를 활용하여 태스크를 수행하지만, 이는 빈번하게 변형 혹은 오염된 질의가 입력되는 실 세계의 질의 응답 상황에서의 모델의 응답 품질 유지 능력에 대해 보장할 수 없다는 한계가 있다. 따라서, 본 연구는 한국어 질의 응답 상황에서 질의의 변형에 따른 거대 언어모델에 질의 응답 능력의 변화 경향을 생성 일관성의 관점에서 검증한다. 이를 위해, 질의의 변형의 단위를 음절, 어절 및 문장으로 세분화하여 보다 다각적인 관점에서 질의 변형에 대한 모델의 생성 능력 분석을 수행한다. 더 나아가서, 태스크 지시만을 포함하는 기본적인 프롬프트를 활용한 실험과 더불어, 최근 다양한 추론 태스크에서 뛰어난 성능 향상을 보이는 대표적인 프롬프팅 엔지니어링 기법인 사고의 연쇄 기법을 채택함으로써 변형된 질의에 대해 해당 프롬프팅 기법을 통해 응답의 일관성을 유지 가능한지 비교 분석한다. 이를 통해, 추후 질의 변형에 따른 한국어 질의 응답을 위한 거대 언어모델의 프롬프트 엔지니어링 기법 심화 연구의 잠재성을 함께 확인 및 제공하고자 한다. 실험 결과에 따르면, 문장 단위의 부정 변형 방법에 의한 응답 성능 저하가 가장 심하며, 음절 단위의 자모 분리 변형 방법에는 모델이 큰 성능 변화를 보이지 않으며 일관적인 성취를 보였다. 또한, 사고의 연쇄 프롬프팅 방법론을 적용 시에는 태스크 지시만을 포함하는 기본 프롬프팅 기법에 비해 성능이 더 감소하는 모습을 보인다. 다만, 이는 사고의 연쇄 방법의 한계를 지적하는 것이 아닌, 한국어 질의 응답 태스크에의 최적화의 필요성을 암시한다고 해석 가능하다.
-
본 연구는 연쇄적인 프롬프팅을 통해 대형 언어 모델이 적절한 번역 생성에 어려움을 겪는 한국어 텍스트에 대한 영어 번역 성능을 개선하는 것을 목표로 한다. 이를 위해, 2개 이상의 문장으로 구성된 텍스트 총 600 건을 테스트셋 KorChallengeMT 으로 직접 구축하였고, 연쇄적인 문맥 인식 프롬프팅 방법을 고안하였다. 실험을 통해 대표적인 인공 신경망 기반 번역 모델의 성능과, 최신 대형 언어 모델의 번역 성능, 그리고 프롬프팅 방법에 따른 대형 언어 모델의 번역 성능을 비교 분석하였고, 결과적으로 연쇄적인 문맥 인식 프롬프팅의 유의미한 효과성을 확인하였다.
-
거대 언어 모델(LLM)의 발전으로 인해 정형화된 작업을 넘어서 창의적인 답변을 생성하는 것이 가능해지면서, LLM의 창의성을 평가하고 향상시키기 위한 연구가 활발히 진행되고 있다. 그러나 현재 창의성 연구는 데이터셋의 다양성 부족과 인간 평가에 의존하는 평가 방식의 한계를 가지고 있다. 본 논문에서는 이러한 문제를 해결하기 위해 한국어 토렌스 창의성 검사 데이터셋(Ko-TTCT)을 제안하여 다양한 측면에서 창의성을 평가할 수 있는 기반을 마련하였다. 또한, 임베딩 모델을 활용해 문장 간 의미적 거리를 수치화하여 융통성과 독창성 측면에서 창의성을 정량적으로 평가하는 방법을 제시하였다. 기존의 창의성 향상 방법들이 자원 소모가 크거나 특정 작업에만 특화된 반면, 본 연구는 감정 자극을 도입하여 간단하면서도 LLM의 본질적인 창의적 능력을 향상시킬 수 있는 방안을 제안한다. 실험 결과, 감정 자극 프롬프트와 이미지 모두 LLM의 창의성 평가에 긍정적인 영향을 미쳤으며, 이는 감정 자극이 LLM의 창의적 능력을 향상시키는 효과적인 방법임을 시사한다.
-
광학 문자 인식(Optical character recognition)은 이미지 내 텍스트를 기계가 읽을 수 있는 포맷으로 변환하는 기술이다. 아카이브, 법률, 금융 등 문서 관리에 비중이 큰 산업에서 적극적으로 활용하여 업무 효율성을 높이고 있다. 그러나 한글의 경우 영어, 숫자 등과는 달리 자모가 결합된 복잡한 구조를 지니고 있기 때문에 OCR 기술의 인식 정확도는 다른 언어에 비해 한계가 있다. 이에 OCR 인식률을 높이기 위한 연구가 지속적으로 진행되고 있으나, 자모를 조합한 완성형 글자는 한 글자만으로도 11,172개에 이르기 때문에 보다 많은 양의 학습 데이터를 필요로 한다는 어려움이 따른다. 더불어 띄어쓰기, 맞춤법 오류 이상의 문자 왜곡, 문자 손상 등의 오류 패턴이 나타나므로 기존 맞춤법 검사 모델로 오류를 후처리하는 데 한계가 존재한다. 본 논문에서는 한계점을 개선하기 위한 방법으로 초거대 언어 모델을 활용한 퓨샷 학습과 프롬프트 엔지니어링을 제안한다. 다양한 프롬프트 기법에 대한 성능을 측정한 결과 기본 프롬프트를 사용하는 것보다 정확도에 있어서 성능이 최대 18.18% 향상된 것을 확인하였다. 더불어 텍스트 손상 복원에서 21.6%, 띄어쓰기 오류 교정에서 17.26%가 향상된 것으로 나타났다. 이는 소규모의 예시만으로도 OCR 한글 인식 오류로 인한 띄어쓰기 오류를 교정하고, 더 나아가 손상된 텍스트에 대한 복원이 가능하다는 사실을 입증한다. 초거대 언어 모델에서 퓨샷 학습만으로도 후처리에 대한 성능을 높이는 것이 확인된 바, 소형 언어 모델에서의 OCR 후처리 가능성을 기대할 수 있다.
-
본 연구는 한국어 IT 뉴스 데이터를 활용한 RAG(Retrieval-Augmented Generation) 기반 질의응답 시스템을 개발하고 그 성능을 평가하는 것을 목표로 한다. 연구에서는 다음(Daum) IT 뉴스 기사를 수집하여 BGE 임베더를 통해 벡터화한 후, ChromaDB에 저장하고, 검색된 기사를 바탕으로 LLM 모델이 질의응답을 생성하는 시스템을 설계하였다. BLEU, ROUGE, Semantic Similarity 등과 같은 다양한 지표를 활용하여 성능을 평가한 결과, RAG 기반 시스템은 기존 'rtzr/ko-gemma-2-9b-it' 모델에 비해 전반적으로 우수한 성능을 나타냈다. 특히, 질의응답 성능에서 기존 모델 대비 성능 향상을 확인하였으며, 이를 통해 RAG 접근법이 한국어 뉴스 도메인에서 더욱 정교하고 신뢰성 있는 응답을 생성할 수 있음을 입증하였다. 본 연구는 향후 다양한 한국어 자연어 처리 응용 분야에서 RAG 기술의 실용적 활용 가능성을 제시한다.
-
최근 자연어 처리 분야에서 LLM 기반 에이전트의 활용이 큰 주목을 받고 있으며, 특히 복잡하고 논리적인 문제 해결 과정에서 다중 에이전트 협력 구조와 LLM 간 협력이 중요한 역할을 하고 있다. 본 연구에서는 CoMM(Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving) 프레임워크 [1]를 한국어 환경에 적용하여, 다중 에이전트 협력 구조를 통한 문제 해결 성능을 평가하였다. 이때 각 에이전트가 독립적인 추론 경로를 가지면서도 협력하는 방식이 포함되었다. 이를 통해 성능 향상 가능성을 확인하였으며, MoA(Mixture-of-Agents Enhances Large Language Model Capabilities) 프레임워크 [2]에서 제안된 협업 구조에 대한 통찰을 바탕으로 LLM간 협력 구조를 더욱 강화하였다. 최종적으로, CoMM을 확장한 MoA-CoMM 구조를 통해 기존 문제 해결 방식을 발전시키고, 협력 구조를 강화하여 더 나은 추론 성능 향상을 도모하였다.
-
본 논문은 거대 언어모델 간의 효과적인 도메인 전문가 앙상블 기법인 Mixture of Models (MoM)를 제안한다. MoM은 주어진 도메인들에 대해 각 도메인을 최적으로 처리하는 모델을 미리 설정 및 매핑하고, 이를 바탕으로 입력에 해당하는 도메인에 연계된 거대 언어모델의 결과를 최종 응답으로 활용하는 프레임워크이다. 모델-도메인 매핑, 오케스트레이션, 최종 응답 생성의 세 단계로 구성되며, 각 도메인 전문가 모델로부터 우수한 결과를 유도할 뿐만 아니라 기존 앙상블 방법론과 비교하여 각 모델별 결과를 요구하지 않는다는 점에서 높은 효율성을 지닌다. 실험 결과, K-mmlu 데이터에 대한 제로샷, 퓨샷 세팅 실험 모두에서 기존 단일 거대 언어모델의 성능을 뛰어넘으며, 일반화 능력 평가 측면에서도 Hellaswag, Copa 데이터셋에서 단일 모델보다 우수한 성능을 기록한다. 또한 가장 큰 파라미터 사이즈를 지닌 Mistral 모델 대비 연산의 효율성 역시 성취할 수 있음을 확인하여, MoM 구조가 도메인을 기반으로 거대 언어모델의 내재 지식의 활용을 효과적으로 극대화하는 동시에 효율성 측면에서도 우수함을 증명한다.
-
최근 거대 언어모델(Large Language Models, LLMs)의 발전이 자연어처리 분야의 새로운 장을 열며 주목받고 있다. 이에 따라, 여러 거대 언어모델의 생성 결과를 융합하는 앙상블(ensemble) 기법에 대한 연구도 지속적으로 수행되고 있다. 그러나 앙상블 기법이 우수한 생성 품질을 유도할 수 있다 하더라도, 여러 거대 언어모델을 하나의 생성 결과를 얻는 데 활용하기 때문에 추가적인 컴퓨팅 자원의 사용이 불가피하다. 따라서, 언어모델 생성 결과의 품질과 컴퓨팅 자원의 균형을 맞추기 위해 본 논문은 점진적 앙상블 방법을 제안한다. 점진적 앙상블은 초기 거대 언어모델의 생성 결과에 따라 필요한 경우에만 추가적인 모델의 결과를 융합하는 방식이다. 이 방법은 동적(dynamic)으로 앙상블을 진행하여 효율성을 높이는 동시에 생성 품질을 개선할 수 있다. 본 논문에서는 점진적 앙상블 기법을 적용하고 기존 앙상블 방법들과의 비교 실험을 통해 제안하는 방법의 우수성을 입증한다. 실험 결과 제안된 방법론은 기존 앙상블 방법에 비해 낮은 거대 언어모델 호출 빈도를 유지하면서도 더 높은 생성 품질을 보여주었다. 이를 통해 본 연구는 한국어 기반 태스크 처리 능력이 영어에 비해 상대적으로 낮은 다국어 거대 언어모델들을 더욱 효율적이고 효과적으로 활용하는 데 기여하고자 한다.
-
대규모 언어 모델은 자연어 처리, 기계 번역, 텍스트 생성, 질의응답 시스템 등 다양한 분야에서 뛰어난 성능을 발휘하고 있다. 그러나 디코딩 과정에서 발생하는 환각(hallucination)은 잘못된 토큰 선택으로 이어져 생성된 텍스트의 신뢰성을 저하시키는 문제가 있다. 기존 디코딩 방식은 일반적으로 확률이 높은 토큰을 선택하는 데 의존하지만, 이로 인해 문맥에 맞지 않는 단어나 구가 선택될 수 있다. 이를 해결하기 위해 본 연구에서는 확률 분포를 기반으로 낮은 확률의 토큰을 제거하고, 필터링된 컨텍스트와 원본 컨텍스트를 합산하여 디코딩하는 새로운 방식을 제안한다. 이 방법은 모델이 신뢰할 수 있는 토큰만을 남기게 하여 더 높은 신뢰도의 텍스트 생성을 유도한다. 제안된 기법은 LLaMA 기반 모델의 질의응답 작업에서 성능을 향상시킬 수 있었다.
-
오픈 도메인 질의응답(Open-domain Question Answering)과 같이 지식 집약적인 과업을 해결하기 위해서는 일반적으로 외부 지식을 활용하는 검색 증강 생성과 Chain-of-Thought에 기반한 단계적 추론을 수행한다. 본 연구에서는 대규모 언어 모델의 추론 과정에서 가상 문서(Pseudo-document)의 생성을 통한 질의 확장 방식이 언어 모델이 내재한 지식을 바탕으로 단계적 추론 과정을 점진적으로 개선할 수 있음을 보인다. 또한 이를 복잡한 다단계 추론을 요구하는 Multi-hop 질의응답 데이터셋에 적용하고 평가함으로써 대규모 언어 모델의 효과적인 추론 성능 향상을 입증한다.
-
본 연구에서는 거대 언어 모델의 토큰 생성 확률에 기반한 신뢰도 측정 방식의 유용성을 검증하고, 이를 기반으로 약관 심사 플랫폼에서 약관 심사 민원에 첨부된 문서로 부터 약관 심사 대상 여부를 판별하는 시스템 구현에 대해 기술한다.
-
Jaehun Shin;Se-Jong Kim;Sangjin Sim;Hyoungdong Han;Gyeongtae Im;Soomin Song;Seunghak Yu;Young-Bum Kim 463
검색 증강 생성과 상용 검색 서비스를 결합한 생성형 검색 기법이 등장하는 가운데, 이러한 생성형 검색 시스템이 생성하는 답변에 대한 자동 평가 방법은 아직 많은 탐색이 필요한 영역이다. 본 논문에서는 생성형 검색 시스템의 핵심 동작을 정의하고 평가용 시스템을 구축한 뒤, 내부적인 개별 수행 단계에 대한 결함 판단 결과를 바탕으로 생성형 검색 시스템이 입력 질문에 대해 생성한 답변에 대한 결함 판단을 수행하는 방식을 제안하고, 이러한 방식의 효용성에 대해 살펴보았다. 구축한 생성형 검색 시스템 및 LLM 판단자를 이용한 실험 결과는, 수행 단계 별 결함 판단을 실행하는 방식이 질문과 답변만을 이용하는 방식에 비해 답변의 결함 판단에 더욱 유효한 방식임을 보였다. -
법령 조문 분류는 사건과 관련된 법령 조문을 예측하는 중요한 작업으로, 관련 연구가 활발히 이루어지고 있다. 그러나 기존 연구들은 제한된 법령 내에서만 분류를 수행하며, 법령의 계층적 구조를 고려하지 않았다. 본 연구는 법령 조문 분류에 계층적 텍스트 분류를 접목한 계층적 조문 분류를 제안하고, 그 효과성을 입증하고자 한다. 판례와 법령 계층 구조 데이터를 수집하여 대규모 한국어 조문 분류 데이터셋을 구축하였다. 이 데이터셋을 활용하여 계층적 조문 분류와 기존 방법들을 비교하였다. 실험 결과, 제안한 계층적 조문 분류 방법이 모든 평가 지표에서 가장 우수한 성능을 보였다. 다양한 분석을 통해 계층적 조문 분류가 텍스트를 분석하고 법령의 계층 구조를 효과적으로 활용하여 조문을 분류하는 것을 확인하였다.
-
본 연구에서는 대화를 분석하여 질문자의 의도를 파악하고 효과적인 검색 서비스를 제공하기 위한 새로운 데이터 구축 및 전처리 방식과 Bidirectional Encoder Representations from Transformers와 Multilayer Perceptron을 활용한 대화 상태 분석 모델을 제안한다. 다양한 형식의 대화 내 연속성을 판별하기 위해 주제 및 맥락의 변화를 학습하는 대화 데이터를 구축하였으며 토큰화 규칙에 영향을 받지 않는 전처리 과정을 통해 다중 의도 인덱스 식별을 위한 레이블을 생성하였다. 또한, 효과적인 다중 턴 인식을 위해 담화와 발화 간의 의미적 유사성을 학습하는 post-training 과정을 통해 대화 상태 분석 모델의 성능을 향상시켰다. Ai-Hub의 지식검색 대화 데이터세트을 활용한 실험을 통해, 본 연구에서 제안하는 대화 상태 분석 모델이 높은 정확도로 대화의 연속성을 판별하고 질문 내 의도를 내포한 문구들의 시작 위치를 식별하는 것을 확인하였다.
-
최근 교육 도메인에서 인공지능을 활용한 다양한 학습 보조 및 과업들이 등장하고 있다. 그러나 인간의 지식 획득 및 장기기억 전환 과정에 핵심인 부호화 과정에 도움을 주는 인공지능 기반 과업은 교육 도메인에서 전무한 실정이다. 한편 인간의 지시문을 따라 다양한 과업을 우수하게 수행하는 초거대 언어모델의 등장으로 텍스트로부터 구조화된 정보를 추출하는 text-to-data 과업에서 그 효과성을 입증하고 향상하는 연구가 증가하고 있다. 본 논문은 초거대 언어모델을 활용하여 교육 도메인에서의 구조화된 정보를 추출하는 과업을 제안한다. 이를 위해 본 논문에서는 교과서의 단락별 텍스트가 주어질 때 단락 내 정보의 핵심어를 계층적으로 구분하여 생성능력을 평가하는 계층적 키워드 추출 평가 데이터셋을 구축했다. 이를 바탕으로 본 논문에서는 오픈소스 및 사유 초거대 언어모델에 대하여 상황 내 학습(In-Context Learning, ICL)방식으로 계층적 키워드 추출 능력 평가를 진행했다. 평가를 통해 교육 도메인에서의 초거대언어모델의 계층적 키워드 추출 능력을 확인하고 추가 연구의 필요성을 제안한다.
-
자연어처리 분야에서 의미역 결정이란 문장에서 특정 행동이나 상태를 나타내는 서술어에 대해 의미역할을 하는 논항을 결정하는 작업이다. 최근 대규모 언어 모델은 추가 학습데이터를 학습시키지 않고 단순하게 prompt에 예제를 넣는 방법으로 기존의 작업을 처리할 수 있는 in-context learning 기법이 활발히 연구되고 있다. 그러나 의미역 결정에 in-context learning을 적용하기 위해서는 비교적 적은 의미역 결정 데이터에서 성능에 유의미한 예제를 선택해야 한다는 문제가 발생한다. 본 논문에서는 in-context learning을 활용한 의미역 결정을 위해 BERT를 활용한 서술어 중심의 문장 의미 구조 유사도 계산 방법과 Mahalanobis 거리를 이용한 예제 선택 방법을 제안한다. 실험 결과 Gemma2-27B 기준, 임의 선택과 단순 문장 유사도를 구하는 방법에 비해 성능이 향상 됨을 보였다.
-
본 논문은 국립국어원에서 제공하는 모두의말뭉치인 JSON 형식의 자료를 다양한 목적으로 사용할 수 있는 텍스트 마이닝이 가능한 프로그램을 설계하여 구현하였다. 본 프로그램은 말뭉치에서 문맥을 고려한 용례를 손쉽게 조회하고 새로운 자료로 가공할 수 있도록 하여 통계적인 정보를 추출할 수 있는 장점이 있다. 대용량의 파일을 데이터베이스화하여 검색이 가능한 프로그램을 구현하였다.
-
다국어 품질 평가를 위해 거대언어모델을 활용한 서술형 평가의 가능성을 탐색하였다. 이를 위해 대학 논술 문항을 사용하여 거대언어모델의 한국어 문항과 그에 대한 답변을 영어로 번역가 또는 기계번역을 사용하여 번역한 서술형 답변 생성 능력을 평가하고, 이에 대한 성능 차이를 분석하였다. 또한 거대언어모델이 작성한 논술 답안에 대하여 실제 사람이 평가한 결과와 거대언어모델이 논술답안을 평가한 비교하고 분석하였다. 연구결과, 거대언어모델의 서술형 평가 자동화 방법에 대한 가능성을 제시하고 다국어가 중간언어(pivot language)를 통해 학습이 되어 성능차이가 발생한다는 점을 확인하였다.
-
인간의 언어 표현은 규칙성과 불규칙성을 동시에 가지고 있다. 일반적으로 규칙성이 크다고 생각되는 통사 단위에서도 불규칙성이 나타나며, 불규칙적인 표현이라고 여겨지는 관용표현/숙어도 규칙성을 포함하고 있다. 그러므로 표현들은 규칙적인 것과 불규칙적인 것으로 양분할 수 있는 것이 아니라 그 정도성에 차이가 있는 것으로 보아야 한다. 이렇게 규칙성과 불규칙성은 통사 현상의 본질적 속성임에도 불구하고 대부분의 기존 연구에서는 규칙성에 초점을 맞춘 파싱 방안을 연구하였기 때문에 분석에 한계가 있어 왔다. 본 연구에서는 언어의 규칙성과 불규칙성의 구별을 중심으로 한국어 문장을 분석하는 새로운 방안에 대해 제안한다.
-
최근 자연어 텍스트를 처리하는 Large Language Model (LLM)의 기술이 발전함에 따라, 이미지와 오디오 처리 등 다양한 멀티모달 태스크를 수행할 수 있는 Multimodal Large Language Model (MLLM) 분야에 대한 연구가 활발히 진행되고 있다. 본 연구에서는 기존의 멀티모달 데이터셋이 주로 문제와 정답 쌍으로만 구성되어 있어 추론 과정이 반영된 학습이 부족하다는 점을 강조한다. 이를 해결하기 위해, MathVerse 데이터셋의 Vision Dominant 유형의 데이터를 선별하여 Idefics2의 정답만을 포함한 Supervised Fine-Tuning (SFT) 성능과 GPT-4o로 생성한 중간 추론 SFT 성능을 비교 분석한다. 이러한 접근을 통해 멀티모달 데이터를 활용한 거대 언어 모델 기반의 수학 문제 해결 능력을 향상시키고, 보다 효과적인 학습 방법을 제시하고자 한다.
-
본 연구에서는 한국어 이미지 캡셔닝 (그림 기반 문장 생성) 과제에서 최신 비전-언어 모델들의 성능을 비교 분석하였다. 사전학습된 대규모 멀티모달 언어 모델인 Qwen-VL-Chat과 InternVL2 26B를 한국어 데이터셋에 맞게 미세 조정 하여 사용하였으며, 이를 KoGPT2와 ViT를 결합한 베이스라인 모델과 비교하였다. 모델의 성능 평가 결과, 사전 학습된 대규모 모델(QWEN-VL-Chat, InternVL2 26B)들이 기존의 베이스라인 모델(KoGPT2+ViT)보다 ROUGE와 BLEU 점수에서 현저히 우수한 성능을 보였으며, 특히 Qwen-VL-Chat 모델은 상대적으로 적은 에포크 수로도 높은 성능을 달성하여 사전학습된 언어 모델의 효과를 보여주었다. 또한, 프롬프트 엔지니어링과 학습률 조정이 미세하지만 모델 성능 향상에 기여함을 확인하였다. 이를 통해 대규모 사전학습 모델의 활용이 한국어 이미지 캡셔닝 성능 향상에 효과적이며, 추가적인 최적화 기법이 성능 개선에 유의미한 영향을 미칠 수 있음을 발견하였다.
-
CrossMAE: Utilizing Cross-Document Complementarity for Bottlenecked Masked Auto-Encoder Pre-training문장 표현의 개선을 통한 검색 품질 향상은 NLP 분야에서 중요한 연구 주제이다. 문장 표현의 검색 품질을 향상시키기 위한 사전 학습 연구가 활발하게 진행되고 있는 가운데, 마스킹 오토 인코더(Masked Auto-Encoder, MAE) 방식 사전학습이 주목받고 있다. 본 논문에서는 MAE 기반 밀집 검색모델 사전학습에 문서 간 상호보완성을 활용하는 방법론을 제안한다. 제안 방법에서는 한 문서의 병목 표현을 해당 문서만을 복원하는데만 사용하던 기존 방식과 달리, 유사한 문서끼리 병목 표현을 문서 서로를 복원하는데 활용해 병목 표현의 학습 시그널을 더 다양한 문서로부터 제공받아 학습 시그널을 증폭 시킨다. 실험결과, 제안된 방법은 MS-MARCO 데이터셋에서 강력한 기존 모델들 대비 경쟁력 있는 성능을 보여, 유사 문서 간의 상호 학습을 통해 밀집 검색 모델의 표현 학습 성능을 향상시킨다는 것을 실험적으로 입증한다.
-
본 연구는 한국 패션 도메인에서 텍스트-이미지 병렬 데이터를 구축하기 위한 합성 데이터셋(Synthetic dataset)을 제안한다. 이를 위해 한국 패션 이미지 데이터에 캡션 생성 모델을 적용하여 텍스트를 생성하고, 해외 패션 텍스트-이미지 데이터의 키워드 중심 설명 텍스트를 한국 패션 도메인 방식의 긴 문장형 설명으로 변환하는 방법을 사용하였다. CLIP 임베딩을 활용한 데이터 품질 평가 결과, 합성 데이터셋의 동일 상품 간의 유사도 및 비동일 상품간 유사도의 분포가 실제 데이터셋과 유사하게 나타났으며, 이는 구축된 합성 데이터셋이 실제 데이터와 유사한 특성을 가짐을 시사한다. 본 연구의 성과는 저자원 환경에서 패션 도메인의 텍스트-이미지 데이터를 확장하는 데 기여할 것 이다.
-
본 연구는 심장질환에 의한 뇌졸중(CE)과 그 외의 원인으로 발생하는 뇌졸중(Non-CE)을 ECG 텍스트 데이터를 활용해 분류하는 방법을 탐색한다. 뇌졸중 원인의 정확한 분류는 치료와 재발 방지에 중요한 영향을 미친다. 연구에서는 다양한 데이터 증강 기법(SMOTE, Back-Translation, Synonym Replacement)과 임베딩 방식(TF-IDF, BERT, RoBERTa, ALBERT)을 비교하고, 분류 모델(로지스틱 회귀, LSTM, BERT)을 비교한다. 실험 결과, 증강 기법은 SMOTE와 Synonym Replacement, 임베딩은 BERT와 ALBERT, 분류는 로지스틱 회귀와 BERT가 우수한 성능을 나타냈다. 이는 데이터의 특성과 임베딩-분류 방식 간의 적합도를 고려하여 모델을 선택하는 것의 중요성을 시사한다. 또한 저품질 데이터가 포함된 경우에도 모델의 안정성이 유지됨을 확인했다.
-
본 연구는 생성형 AI, 특히 대규모 언어 모델(LLM, Large Language Model)를 활용하여 자동 문제 생성, 학습 일기 작성, 챗봇을 통한 개인화된 피드백 제공 기능을 통합한 교육 플랫폼을 개발하고, 이를 교육 현장에 적용하는 방법을 탐구하였다. 이 플랫폼은 React.js와 Django 프레임워크를 기반으로 개발되었으며, 문제 생성 서비스는 Retrieval-Augmented Generation(RAG) 기법을 사용하여 실시간으로 높은 품질의 문제를 생성한다. 학습 일기 생성 과정에서는 프롬프트 엔지니어링(Prompt Engineering) 기법을 적용하여 사용자가 제공한 정보를 바탕으로 개인화된 학습 일기를 자동으로 작성하며, 챗봇은 Context-Augmented Retrieval(CAR) 기법을 활용하여 사용자에게 신속하고 정확한 맞춤형 응답을 제공한다. 본 연구는 LLM이 교육 분야에서 어떻게 활용될 수 있는지를 실증적으로 보여주며, 한국어 교육에서의 잠재력을 탐구하였다. 본 논문에서는 이러한 연구 결과를 바탕으로 LLM 기반 교육 도구의 가능성과 향후 발전 방향을 제시한다.
-
본 연구는 한국어 대규모 언어 모델인 KULLM을 활용하여 중학교 정보 교과 디지털 교과서를 위한 AI 튜터 시스템을 개발하고 그 성능을 정성적으로 평가하였다. 중학교 정보 교과서 내용을 기반으로 텍스트 데이터를 추출하여 RAG(Retrieval-Augmented Generation) 방식으로 KULLM과 통합하였다. 개발된 AI 튜터의 성능을 RAG 시스템 적용 전후로 비교 분석하고, 오류를 분석하였으며, 교과 내용 커버리지를 평가하였다. 연구 결과, KULLM 기반 RAG 시스템이 중학교 정보 교과 내용에 대해 향상된 성능을 보이며, 효과적인 학습 지원 도구로 활용될 수 있음을 확인하였다.
-
이 연구는 검색 증강 생성(Retrieval-Augmented Generation, RAG) 방식을 사용하여 생의학 논문에서 PICO(Patient, Intervention, Comparison, Outcome) 요소를 추출하는 방법론을 제안한다. 벡터 데이터베이스를 구축하여 논문 초록에서 PICO 요소를 효율적으로 추출하는 방법 및 두 가지의 문서 구성 방식을 제안하였다. L2 거리, 코사인 유사도, 최대 내적의 유사도 계산 방식을 사용하였다. 밀집 검색기 및 희소 검색기와 밀집 검색기를 결합한 앙상블 기법을 적용하여 성능을 비교했다. 실험 결과 GPT-3.5-turbo와 GPT-4o 모델 중 GPT-4o 모델이 높은 성능을 보였다. 특히 논문 제목, 키워드, 방법론, 결과, 결론을 포함하는 추가 정보를 이용했을 때 Macro F1은 52.1%, Micro F1은 72.2%로 가장 높은 성능을 기록하였다. 그러나 추가 정보를 메타데이터로 제공할 경우 성능 향상은 제한적인 것으로 나타났다. 희소 검색기와 밀집 검색기의 앙상블 기법은 최고 성능을 보이지는 않았으나, Macro F1에서 최대 51.8%, Micro F1에서 72.0%의 성능을 기록하며 문서 구성 방식 별로 고르게 준수한 성능을 보였다. 본 연구는 PICO 추출에서 검색 증강 생성 방식을 활용한 접근법의 가능성을 보여주었으며, 향후 다양한 데이터셋 및 도메인에서 본 방법론을 확장하여 더 많은 분석을 진행할 필요가 있다.
-
본 논문에서는 내담자의 얼굴 표정과 발화를 입력으로 받아 심리 상담을 제공하는 멀티모달 우울증 상담 대화 시스템을 제안한다. 이를 위해, 가상 내담자의 정보와 이미지를 생성하고, 전문 심리상담가가 가상 내담자와 채팅상담한 데이터를 수집하여 멀티모달 우울증 상담 대화 데이터셋을 구축하고 그 유효성을 검증하였다. 대화 시스템 학습 후에는 STS 지표를 사용한 정량적 평가, 그리고 상담원리 평가 척도를 적용한 심리학적 평가를 통해 시스템 성능을 다각도로 평가하였다.
-
본 연구는 소형 거대언어모델(LLM)을 활용한 표 질의응답(Table Question Answering) 태스크에서의 도메인 일반화 성능을 평가하였다. KorQuAD 2.0과 같은 범용 데이터셋과 법령, 제품 스펙, 행정 문서 도메인의 특화된 데이터셋을 사용하여, Gemma-9B와 Phi-3.5-mini 모델의 성능을 비교하였다. 실험 결과, 범용 데이터셋을 이용한 모델이 특정 도메인에 특화된 모델보다 높은 성능을 보였으며, 특히 더 큰 모델에서는 도메인에 상관없이 일관된 성능을 보였다. 반면, 작은 모델에서는 도메인 특화 데이터셋이 성능에 큰 영향을 미쳤다. 본 논문의 실험 결과는 도메인에 특화된 데이터셋과 범용 데이터셋 간의 균형적 접근이 필요함을 보여준다.
-
공감은 인간 상호작용에서 사회적 유대감 형성에 중요한 요소 중 하나이다. 감정적 타당화 이론에 따르면, 적절한 공감 발화는 help-seeker의 상황을 관찰하고 반영하며, 그들의 감정적 고통에 공감하는 과정을 포함한다. 최근 대규모 언어 모델(LLM)의 발전으로 인해 유창하고 뛰어난 능력을 가지는 대화 에이전트들이 공개되고 있다. 그러나 LLM은 반복적으로 해결책만을 제시하며 help-seeker의 감정을 위로하지 못하고 공감 발화 생성 능력에 한계를 가진다. 따라서 본 논문에서는 감정적 타당화 이론에 기반하여 공감 대화 에이전트를 구축하기 위한 효과적인 학습 방법을 제안한다. 감정적 타당화 능력 학습을 위해 대화의 진행정도에 따라 적절한 감정적 타당화 단계에 해당하는 발화로 구성된 데이터셋을 제안한다. 또한, 모델이 감정적 타당화를 고려하려 공감 발화를 생성하는지 평가할 수 있는 새로운 메트릭을 제안한다. 실험을 통해 제안하는 방법이 공감 발화 생성 능력뿐만 아니라 감정적 타당화 능력을 크게 향상시킴을 증명한다.
-
Automatic Evaluation of Hallucination Effects in Knowledge-Based Dialogue Using Large Language Model본 논문에서는 지식 기반 대화 Task의 특성을 반영하는 LLM 기반 자동 평가 방법을 제안한다. 자연어 처리에서 생성된 텍스트를 자동으로 평가하는 데에는 의미 이해, 대화 맥락 파악 등의 어려움이 존재했지만, 대규모 언어모델(Large Language Model, LLM)의 등장으로 텍스트의 자동 평가 품질이 개선되었다. 이에 LLM과 Prompt Engineering의 연구가 급속도로 진행되고 있으며, Task의 특성을 분석해, 프롬프트에 반영하는 것이 큰 연구 방향이 되고 있다. 특히, 기존의 텍스트 생성 Task와는 달리 지식기반 대화의 평가에서는 신뢰성을 확보하기 위해 고려해야 할 세 가지 주요 특성이 존재한다. 이 연구는 그 특성을 반영한 프롬프트를 통해 LLM 기반 자동 평가 진행 후 사람평가와 유사한 결과를 도출할 수 있음을 확인한다.
-
최근 언어 모델의 할루시네이션을 줄이기 위한 방법으로, 검색 증강 생성 기술이 제시되고 있다. 본 논문에서는 검색 증강 생성 시스템 구현의 중요한 요소인 경량화 언어 모델의 독해 능력을 효과적으로 향상시키기 위해, 지도 학습 미세 조정용 데이터 세트를 구축하는 방법을 제안한다. 이를 위해 기존 기계 독해 데이터 세트를 활용하여 39,950건의 학습 데이터를 구축하였다. 구축된 데이터는 세 가지 언어 모델(gemma2-2b-it, gemma2-9b-it, llama3.1-8b-it)을 학습시키는 데 사용되었으며, 그 결과 모든 모델에서 독해 능력이 향상되었음이 확인되었다. 특히 llama3.1-8b-it 모델에서는 정확도가 약 10%p로 크게 상승했다. 본 연구는 경량화 언어 모델의 독해 능력을 향상시키고, 검색 증강 생성 시스템 구현에 도움이 될 수 있는 실질적인 방법론을 제시한다.
-
본 논문은 한국어의 한정성과 상호참조해결을 연구하여, 이론 언어학과 자연어 처리의 융합을 통해 한국어 명사구의 한정성 체계 및 상호참조 멘션의 통사적·의미적 구조를 분석하는 것을 목표로 한다. 한국어는 한정성 표지자가 필수적이지 않기 때문에 상호참조 멘션의 의미 해석이 복잡하며, 이는 여전히 해결되지 않은 과제로 남아 있다. 본 연구는 상호참조해결 말뭉치를 활용하여 한국어 명사구의 한정성 통사구조와 의미를 딥러닝 언어 모델로 분석하였다. 써프라이절 측정 결과, 민명사가 덜 예외적인 발생을 보였으며, '이'가 '그'보다 상대적으로 덜 예외적인 것은 문서 내 물리적 거리 차이를 반영한 것으로 해석되었다. 이러한 결과는 한국어의 한정성 기반 상호참조해결이 문맥과 물리적 위치에 따라 영향을 받음을 시사한다.
-
본 연구는 소형 거대 언어 모델(SLLM)을 활용하여 학술 논문의 초록에서 연구 문제와 그 해결 방안을 자동으로 태깅하는 방법을 제안하고, 이를 통해 사회문제-해결방안 데이터셋을 구축하는 것을 목표로 한다. 초록은 연구의 핵심 내용을 간결하게 전달하는 중요한 도구로, 이를 효과적으로 분석하는 자동화된 시스템은 연구자들이 필요한 정보를 신속하게 파악하고 분석하는 데 큰 도움을 줄 수 있다. 본 연구에서는 OpenAI의 gpt-4o-mini 모델과 수작업 태깅을 통한 태깅 데이터를 생성한 후, 'meta-llama/Meta-Llama-3.1-8B-Instruct' 모델을 미세 조정하여 성능을 비교하였다. 실험 결과, F1-Score와 Exact Match(EM) Score에서 SLLM 모델이 더욱 높은 성능을 기록하였으며, 패러프레이징 및 할루시네이션 현상이 줄어드는 등 정확성 또한 향상된 것을 확인하였다. 본 연구는 SLLM 기반 자동화 태깅 시스템이 학술 연구 활동의 효율성을 높이는 데 기여할 수 있을 것으로 기대한다.
-
표 일부분에 대한 해석은 대규모 언어 모델이 표의 내용을 인식할 수 있는 형태로 구성하여 해석을 생성하는 태스크다. 기존 연구들은 태스크에 맞는 데이터를 구축하거나 고성능의 LLM 모델을 미세 조정함으로써, 상황에 맞는 태스크 해결에 초점을 두고 있다. 하지만 파라미터 수가 많아진 LLM 모델을 미세 조정하기에 많은 자원과 시간이 소요된다. 따라서 한정된 자원으로도 유사한 결과를 낼 수 있도록 기존의 작은 파라미터를 갖는 모델을 통해 텍스트 생성에 기초적인 틀을 마련하고, LLM 모델의 문장 수정 방식을 통한 2단계 추론 방식을 제안한다. 이 방식을 통해 많은 자원을 이용하여 LLM모델의 미세 조정할 필요없이, 빠르고 효율적으로 표 일부에 대한 추론을 할 수 있다.
-
지식 편집은 거대 언어 모델에서 잘못되었거나 오래된 지식을 수정하고 새로운 지식을 주입하기 위한 기술이다. 지식 편집의 목적은 기존 모델의 성능을 유지하면서 특정 지식만을 효율적으로 변경하는 것이다. 그 중 Locate-Then-Edit 방법은 인과 매개 분석을 수행하여 모델에서 지식이 저장된 특정 위치를 탐색하고 일부 매개변수만을 편집함으로써 효율적인 지식 편집의 가능성을 보여준다. 하지만, 이와 같은 편집 방법은 동일한 subject에 대한 연속적인 지식 편집을 수행했을 때, 이전에 편집된 지식이 망각된다는 문제가 발생한다. 본 논문에서는 이러한 동일 subject에 대한 동시 및 연속 지식 편집에서 발생하는 문제점을 구체적으로 탐구한다.
-
초거대 언어모델 발전에 있어 데이터가 가장 기초적인다. 본 연구에서는 언어 자원 정비 관점에서 한국, 중국, 일본의 데이터 확보 방안과 각국의 데이터들이 AI 기술 발전에 어떻게 기여하고 있는지를 살펴보았다. 또한 세 국가의 언어 관련 공공기관들에는 어떤 기관들이 있는지 분석하는 한편 각국의 사례를 바탕으로 기관들이 AI 데이터 플랫폼을 구축, 개선하는 양상을 검토하고 비교하였다. 이러한 결과를 바탕으로 향후 인공지능 데이터 플랫폼 사업을 추진할 때 주의해야 할 문제점들을 확인하고 장기적인 관점에서 안정적인 한국어 인공지능 인프라 육성과 운영에 반영할 수 있는 발전 방향을 제시하였다.
-
오래전부터 텍스트 기반 게임은 여러 사람들의 인해서 다뤄져 왔다. 컴퓨터의 발견 이전에 책 기반 텍스트게임, 좀 더 예전으로 가면 텍스트는 아니지만 TRPG라는 사람과 사람들이 이야기하며 즐기는 게임 있으며 해당 분야에서 가장 유명한 Dungeon and Dragon이 있다. 컴퓨터의 보급 된 후에도 다음 게임들에 비해 자유로운 설계와 게임 제작 그에 비해 짧은 제작 속도로 많이 만들어졌으며 좋아하는 사람들이 있다. 그렇기에 LLM의 발전 속에 텍스트 생성으로 TEXT 기반 게임 만들려는 시도들이 있었다. Adventure GPT, CALYPSO [1], LLM Labyrinth, AI dungeon, Player-Driven Emergence in LLM-Driven Game Narrative [2]등 좋은 시도들이 있지만 대부분은 단일 agent에 의존한다. 이 논문에서는 multi agent를 활용해 보다 특정 장르의 정확한 텍스트를 생성하려고 한다.
-
언어 모델의 미세조정은 특히 교육 분야에서 중요하게 활용되며, 수학 문제 해결과 글쓰기 자동 평가 등에 쓰인다. 하지만 튜닝을 위한 학습 데이터 부족 시 편향성과 기존 지식 상실에 대한 문제가 발생할 수 있다. 이를 완화하기 위해 기존 지식을 유지하면서 새로운 작업을 배울 수 있도록 데이터를 혼합하는 전략이 필요하다. 본 연구에서는 고등학교 생활기록부 자동 작성을 대상으로 실험하여 이러한 저자원 학습과정에서의 편향성 문제와 지식 상실 문제를 해결하는 방법을 제안한다. 우리는 30개의 고등학교 생활기록부 학습데이터를 직접 구축해 제안한 방법의 효과를 검증했으며, 본 연구에서 제안한 생활기록부 강화 언어모델은 기존 모델이 수행했던 수리, 추론, 글쓰기 등의 능력이 저하되지 않으며 새로운 task를 습득한 것으로 확인됐다.
-
최근 언어모델내에서 출력에 관여하는 부분을 찾아 수정하여 새로운 지식을 추가하거나 변경하는 연구들이 발표되고 있다. 본 연구에서는 언어모델에서 출력한 고차원의 잠재 벡터 중 정답 선택에 영향을 주는 부분 벡터를 찾아, 그 부분 벡터들을 이용하여 과제의 성능을 향상시키는 방법을 제안한다. 부분 벡터 선택을 위해 원 벡터를 여러 개의 작은 차원의 부분 벡터로 분할하고, 학습 평가중에 정답을 잘 예측했던 부분 벡터들의 결과를 앙상블 모델로 합산하여 정답으로 추정했다. 네이버 영화 리뷰 말뭉치(NSMC)에 대해 감성 분석을 수행해 본 결과, 원벡터를 사용한 기존 방법으로는 90.84%, 제안한 방법으로는 91.11%의 정확도를 보여, 제안한 방법이 더 효과적임을 보였다.
-
최근 Vision-Language Model(VLM)을 활용한 이미지 캡셔닝 연구가 활발히 진행되고 있으나, 대부분의 VLM은 이미지를 한국어로 디테일한 설명, 생성된 한국어의 다양한 맞춤법 처리 성능이 미흡한 상황이다. 이러한 문제를 해결하기 위해, 본 연구에서는 VLM이 생성한 이미지 설명을 보정하는 유창성 개선 모듈(FIM, Fluency Improvement Module)을 제안한다. FIM 기법은 VLM이 생성한 초기 설명을 sLLM(smaller Large Language Model)을 활용하여 한국어 문법에 맞게 재작성함으로써 보다 정확하고 자연스러운 이미지 캡션을 제공한다. 제안된 FIM 기법은 IC2024 데이터셋에서 기존 방법에 비해 최대 57.11%의 성능 향상을 보이며, 다양한 이미지 캡셔닝 응용 분야에 적용 가능하고 효율적인 자원으로 효과적인 보정이 가능함을 확인하였다.
-
본 논문은 표 데이터를 효율적으로 처리하기 위한 주제-설명 구조 기반 표 요약 (Theme-Explanation Structure-based Table Summarization; Tabular-TX) 파이프라인을 제안한다. Tabular-TX는 표 데이터를 하이라이트 된 셀을 중심으로 전처리한 후, 부사구 형태의 주제 부분(Theme Part)과 서술절 형태의 설명 부분(Explanation Part)이 이어지는 구조로 요약 문장을 생성하는 방식이다. 이 과정에서 표의 구조적 특성과 비교 가능성을 고려하여 맞춤형 분석을 수행한다. 또한, In-Context Learning을 사용하여 미세 조정 없이도 LLM의 분석 능력을 최적화하며, 표 데이터의 구조적 복잡성을 효과적으로 처리한다. 제안하는 Tabular-TX를 적용해 표 기반 요약을 생성한 결과, 데이터셋 크기의 제한에도 불구하고 기존의 미세 조정 기반 방법에 비해 우수한 성능을 나타냈다. 실험 결과, Tabular-TX는 복잡한 표 데이터를 보다 효과적으로 처리할 수 있음을 확인했으며, 특히 자원이 제한된 환경에서 표 기반 질의응답과 요약 작업을 위해 사용할 수 있는 새로운 대안임을 입증하였다.
-
본 연구는 미세 조정과 프롬프팅이라는 두 가지 다른 접근 방식을 비교하고 통합하여 표의 일부분을 해석하는 문장을 생성하는 방법을 제시한다. 미세 조정은 표의 구조적 및 의미적 이해를 최적화하는 데 중점을 두었고, 프롬프팅은 대규모 언어 모델에 내재한 지식을 효율적으로 활용하는 방식으로 적용되었다. 실험 결과, 입력 데이터의 정보량과 형식에 따라 모델 성능이 최적화되는 설정을 확인할 수 있었으며, 두 접근법의 상호 보완적인 특성을 결합한 의미 기반의 앙상블을 통해 성능을 추가로 향상했다. 본 연구 결과는 한국어 표 데이터를 효과적으로 해석할 수 있는 다각적인 모델 활용 전략을 제시한다.
-
'표의 일부분에 대한 해석 생성' 태스크는 표에서 사용자가 지정한 특정 칸에 대한 자연스러운 설명을 생성하는 것을 목표로 한다. 본 연구에서는 해당 문제를 언어 모델을 활용해 해결하는 데 있어 Markdown, HTML, Pandas DataFrame, JSON의 네 가지 표 문자열 형식을 비교하여 가장 효율적인 방식을 밝히고자 하였다. 또한 목표 태스크를 위한 하위 태스크로 칸 위치 인식 (HPOS), 행 정보 인식 (HROW), 열 정보 인식 (HCOL), 표 구조 재배열 (CRCR) 네 가지를 설계하고, 각 하위 태스크를 위한 합성 데이터셋을 직접 구축하여 표 인식 태스크에 필요한 중요 능력에 대한 분석을 시도했다. 실험 결과, Pandas DataFrame을 활용한 전처리 기법은 기존 베이스라인 대비 19.6%의 성능 향상을 이끌어 냈으며, 입력 토큰 수를 최소화하여 처리 비용을 줄이는 부가 효과를 제공함을 입증하였다. 또한 강조된 칸의 위치 인식(HPOS)과 행 정보 인식(HROW)이 '표의 일부분에 대한 해석' 태스크 성능 향상에 중요한 요소임을 입증하였으며, 최종적으로 본 연구에서 제안한 여러 하위 태스크를 결합하는 전략의 유효성을 확인하였다.