1. 서론
최근 생성형 언어모델(Generative Language Models, GLMs)은 AI 기술의 비약적 발전과 함께 다양한 산업 분야에서 혁신을 주도하고 있다. 2022년 11월 OpenAI가 출시한 ChatGPT는 생성형 AI의 가능성을 전 세계에 알리는 계기가 되었으며 AI 기술의 대중화를 촉진하였다[1]. 또한, 맥킨지 글로벌연구소(McKinsey Global Institute) 보고서에 따르면, 생성형 AI는 세계 경제에 연간 2.6조~4.4조 달러의 가치를 창출할 수 있으며 업무 자동화를 통해 노동시간의 60~70% 절감이 가능할 것으로 전망했다[2]. 생성형 언어모델은 자연어 처리(Natural Language Processing, NLP) 작업에서 인간과 유사한 수준의 언어 생성 능력을 보이며 텍스트 생성, 번역, 요약 등 다양한 언어 기반 작업에서 뛰어난 성과를 발휘한다. 이러한 기술적 발전은 국방분야와 학계, 재계, 연구기관 등이 새로운 기회를 창출하고 글로벌 경제 및 산업 전반에 긍정적인 영향을 미치는 데 기여하고 있다[3].
그러나 생성형 언어모델(GLMs)은 혁신적인 기술임에도 불구하고 모델 개발 및 활용 과정에서 여러 한계와 문제점이 존재한다. 모델의 성능을 극대화하고 신뢰성을 확보하기 위해서는 충분한 양과 정확하고 신뢰할 수 있는 학습데이터가 필수적이다[4]. 낮은 품질의 학습데이터는 모델의 성능 저하를 초래할 뿐만 아니라 환각(hallucination) 현상을 유발하여 실제로 존재하지 않는 정보나 무관한 내용을 생성하는 오류를 발생시킬 위험이 있다[5]. 따라서 충분한 학습데이터의 양과 품질을 체계적으로 관리하고 정제된 데이터셋을 활용하는 전략이 필수적이다. 이에 본 연구는 생성형 언어모델의 성능에 영향을 미치는 학습데이터의 양과 품질에 대한 실증적 분석 및 검증을 통해 모델 성능과 신뢰성을 확보하기 위한 최적의 학습데이터 구축 전략과 방향을 제시한다.
2. 생성형 언어모델과 학습데이터
2.1 언어모델 기본원리와 학습 과정
언어모델(Language Model, LM)은 주어진 입력을 바탕으로 인간의 언어를 이해하고 처리하며 다양한 자연어 처리(NLP) 작업에 활용되는 딥러닝 기반 알고리즘이다. 모델은 특정 언어의 구조와 의미를 학습하고 생성할 수 있도록 훈련되며 대량의 텍스트 데이터를 분석하여 언어 패턴을 익히는 과정을 거친다[6].
딥러닝에서 사용되는 핵심 기술은 신경망(neural network)이며 인간의 뇌에서 뉴런이 정보를 처리하는 방식과 유사하게 동작한다.
(그림 1) 인간의 뇌와 신경망 정보처리 방식[7]
신경망은 다층 구조를 통해 데이터의 패턴을 점진적으로 학습하며 반복적인 학습을 거듭할수록 더 복잡한 의미와 관계를 인식할 수 있도록 최적화된다[8].
언어모델이 학습하는 데이터는 말뭉치(corpus)라고 불리는 대규모 텍스트 데이터 모음으로 구성되며 문학, 뉴스 기사, 대화 데이터 등 다양한 출처의 언어 자료가 포함된다. 이러한 데이터는 모델이 언어의 문법적 규칙과 의미적 관계를 학습할 수 있도록 돕는다[9].
언어모델의 발전 과정은 크게 확률적 접근법, 신경망 모델, 그리고 Transformer 기반 모델로 구분할 수 있다. 초기의 N-gram 모델은 연속된 단어들의 확률적 관계를 기반으로 동작하며 계산이 간단하다는 장점이 있었으나, 긴 문맥을 반영하는 데 한계를 보였다[10]. 이를 보완하기 위해 순환신경망(RNN, Recurrent Neural Network) 및 그 변형 모델인 LSTM(Long Short-Term Memory), GRU(Gated Recurrent Unit)가 도입되었으며 이들은 문맥 정보를 보다 효과적으로 처리할 수 있도록 설계되었다. 그러나 이러한 모델들도 장기 의존성 문제(long-term dependency issue) 및 병렬 연산의 어려움과 같은 한계를 극복하지는 못했다[11-14]. 이후 등장한 Transformer 모델은 기존 신경망 모델의 단점을 보완하며, 현재 NLP 기술의 핵심을 이루고 있다. Transformer는 Self-Attention Mechanism을 활용하여 문맥적 중요도를 효과적으로 학습할 수 있으며 병렬 연산이 가능하여 대규모 데이터를 효율적으로 처리하는 데 최적화되었다. 이러한 구조를 기반으로 개발된 GPT(Generative Pre-trained Transformer), BERT(Bidirectional Encoder Representations from Transformers) 등의 모델은 현대 자연어 처리 분야에서 가장 강력한 성능을 발휘하며, 특히 생성형 대규모 언어모델(GLLMs, Generative Large Language Models)의 핵심 기술로 자리 잡았다.
Transformer 기반 언어모델의 학습 과정은 크게 사전 훈련(pre-training)과 미세 조정(fine-tuning)의 두 단계로 구성된다. 먼저, 사전 훈련 단계에서는 방대한 양의 텍스트 데이터를 기반으로 모델이 언어의 기본적인 패턴과 구조를 학습한다. 이 과정은 비지도 학습(unsupervised learning)을 통해 이루어지며 모델은 단어와 문장의 관계, 문맥적 의미, 문법적인 특징 등을 익히게 된다. 대표적인 사전 훈련 방식으로는 자동회귀(auto-regressive) 방식과 마스킹 된 언어모델(masked language model) 방식이 있다. 전자는 기존 단어를 기반으로 다음 단어를 예측하는 방식(예: GPT 모델), 후자는 일부 단어를 가리고 해당 단어를 예측하는 방식(예: BERT 모델)으로 동작한다. 사전 훈련이 완료되면 모델은 특정한 작업에 최적화되지는 않았으나 일반적인 언어 패턴을 이해하는 능력을 갖추게 된다. 이후 진행되는 미세 조정 단계에서는 사전 훈련된 모델을 특정한 NLP 작업에 맞춰 조정하는 과정이 이루어진다. 이 단계에서는 특정 도메인(예: 의료, 법률, 금융 등)에서 높은 성능을 발휘할 수 있도록 해당 도메인의 데이터셋을 사용하여 추가 학습이 진행되며, 일반적으로 지도 학습(Supervised Learning)이 적용된다. 예를 들어, 질의응답(question answering), 기계 번역(machine translation), 감성 분석(sentiment analysis), 문서 요약(text summarization) 등의 작업을 수행하기 위해 해당 작업에 적합한 데이터셋을 활용하여 모델을 최적화한다[15].
결과적으로, 언어모델은 사전 훈련을 통해 언어의 일반적인 특성을 학습한 후, 미세 조정을 통해 특정 작업에 최적화되는 방식으로 발전한다. 이러한 학습 과정을 거친 모델은 보다 정교한 문맥 이해 능력을 가지게 되며, 특정 도메인에서 높은 정확도를 발휘하고 다양한 응용 분야에서 활용될 수 있도록 진화한다.
2.2 학습데이터와 언어모델 성능
학습데이터(training data)는 현실 세계에서 수집된 정형 또는 비정형 데이터를 기반으로 각종 지식과 정보를 라벨링(labelling)하여 모델이 이해하고 처리할 수 있는 형태로 가공한 데이터이다. 주로 음성, 이미지, 영상, 텍스트와 같은 비정형 데이터가 주요 대상이며 모델의 품질은 학습데이터 구축 과정에서 크게 좌우되는 특징을 갖는다. 학습데이터는 단순히 수집된 데이터의 집합이 아니라, 모델이 정확하고 신뢰성 있는 결과를 도출할 수 있도록 목적에 맞게 체계적으로 가공․정제된 데이터로 정의된다. 특히, 대용량 학습데이터 구축 과정에서는 초기 라벨링 품질의 사전 분류가 필수적이며, ChatGPT를 비롯한 최신 생성형 언어모델에서도 샘플링 오류를 최소화하기 위해 인간검토와 강화학습을 병행하고 있다. 학습데이터 구축과정은 원시데이터(raw data)의 수집에서 시작되며 이후 AI 학습 목적에 부합하도록 데이터를 선별하고 처리하는 과정을 거쳐 원천 데이터(source data)와 라벨링 데이터(labeled data)를 생성하게 된다. 이와 같은 일련의 과정을 통해 최종적으로 고품질의 학습데이터가 완성된다. 더 나아가, 자동화된 데이터 수집, 정제, 가공 기술이 지속적으로 발전함에 따라 학습데이터의 품질이 점진적으로 향상되는 방향으로 진화하고 있다.
학습데이터의 양과 품질은 모델의 학습 및 일반화 능력을 결정짓는 핵심 요인으로 모델의 성능을 극대화하기 위해서는 많은 양과 품질이 좋은 데이터를 사용할수록 모델의 성능은 최적화되고 다양한 상황에서 자연스럽고 정확한 텍스트를 생성할 수 있다. 반면, 데이터의 질이 낮으면 양이 많아도 성능이 저하되고 데이터가 적으면 모델의 일반화 능력이 떨어진다[16].
학습데이터의 양(많음, 적음)과 품질(높음, 낮음)을 조합한 2×2 모델을 기반으로 학습데이터가 언어모델의 성능에 미치는 영향과 특징 등은 다음과 같다. 먼저, 학습데이터의 양과 품질이 모두 높은 경우 언어모델의 성능 최적화를 위한 가장 이상적인 조건으로 모델의 일반화 능력, 신뢰성, 학습 안정성을 극대화할 수 있는 기반을 제공한다. 이러한 상태를 유지하기 위해서는 데이터의 노이즈 제거와 정제, 주제적 다양성 확보, 그리고 최신 정보의 반영이 필수적이다. 이러한 조건이 충족될 때 언어모델은 다양한 상황에서 신뢰할 수 있는 결과를 생성하며 응용 가능성을 극대화할 수 있다. 그러나, 이러한 상태를 구현하려면 데이터 수집 및 처리에서 높은 복잡성과 비용 등이 발생하며 이와 관련된 한계를 신중히 고려해야 한다.
둘째, 학습데이터의 양이 적더라도 품질이 높은 경우 제한된 자원으로도 안정적이고 신뢰성 있는 모델학습을 가능하게 한다는 장점이 있다. 그러나 데이터 다양성 부족과 모델 복잡도에 대한 적응력 부족이라는 한계점이 존재한다.
셋째, 학습데이터의 양이 많지만 품질이 낮은 경우 대규모 데이터의 잠재적 이점이 학습데이터의 품질저하로 인해 상쇄되는 결과를 초래할 수 있다. 이러한 상황에서는 데이터 품질 관리와 전처리 작업을 통해 데이터의 노이즈와 오류를 줄이고 효율적으로 학습할 수 있는 환경을 조성하는 것이 중요하다.
넷째, 학습데이터의 양과 품질이 모두 낮은 상태에서는 모델의 성능과 학습 효율성이 심각하게 저하될 수밖에 없다. 이러한 조건에서 모델의 성능을 개선하려면 데이터 수집과 정제, 증강 기술 등을 활용하여 학습 환경을 근본적으로 개선해야 한다.
(그림 2) 데이터의 양과 품질 기반「2×2 모델」분석
3. 실증적 분석 및 검증
3.1 카플란(Kaplan) 등의 연구 분석
학습데이터의 양이 증가함에 따라 언어모델의 성능이 향상된다는 점은 다양한 경험적 연구와 실험을 통해 입증 되어왔다. 이와 관련하여 상상에 그친 가설을 실제로 증명해 낸 대표적인 연구로 OpenAI의 "Scaling Laws for Neural Language Models"[17]를 들 수 있다. 해당 연구는 데이터셋 크기(토큰 수)와 모델 성능 손실(Loss) 간의 관계를 정량적으로 분석하였으며 데이터셋의 크기와 손실 간의 관계 그래프를 제시하고 있다.
(그림 3) 카플란의 손실 그래프[17]
연구에 따르면, 데이터셋 크기(D)가 증가할수록 손실(L)은 지수 함수적으로 감소하는 경향을 보인다. 이러한 관계는 학습데이터의 양이 모델 성능 개선에 핵심적인 역할을 한다는 점을 수학적으로 입증하는 결과로 연구에서는 이를 시각적인 그래프로 명확히 제시하였다. 이는 학습데이터의 양이 언어모델 최적화에 있어 필수적인 요소임을 강조하는 중요한 근거를 제공한다. 그러나 Kaplan 등이 제안한 이 함수는 데이터셋 크기(D)와 손실율 간의 관계만을 고려하고 있으며 품질에 따른 손실율 변화를 반영하지 못하는 한계를 지니고 있다. 이러한 한계를 보완하기 위해 본 연구는기존의 Kaplan 함수에 학습데이터의 품질 변수를 추가적으로 통합한 확장된 함수 모델을 제안하였다.
3.2 ‘데이터 품질’ 변수를 포함한 손실함수 정의
고품질 학습데이터는 모델이 정확하고 일반화 가능한 패턴을 학습할 수 있도록 돕지만 품질이 낮은 학습데이터는 학습 과정에서 잡음(noise)과 편향(bias)을 유발하여 성능을 저하시킬 수 있다. 이러한 관점에서 학습데이터의 품질 영향을 반영하기 위해 손실율(Loss)을 확률적 함수로 확장하였다. 이 확장된 함수에서는 학습데이터의 품질이 높을수록 손실율이 감소하는 반비례 관계를 나타내기 위해 (1 - QL)의 값을 도입하였다. 학습데이터의 양과 품질을 통합적으로 고려한 새로운 손실율 함수는 기존 Kaplan 등이 제안한 아래의 식 (1)의 데이터 양(D)과 손실율(L) 간의 관계 식을 기반으로 데이터 품질 변수 (1 - QL)를 곱하여 정의된다.
\(\begin{align}L(D)=\left(\frac{D}{5.4 \times 10^{13}}\right)^{-0.095}\end{align}\) (1)
데이터의 품질에 대한 손실값(QL)은 0에서 1 사이 값으로 설정되며 이는 수학적 단순성과 직관적 해석을 용이하게 한다. 확장된 손실율 함수는 이러한 품질 지표를 기반으로 데이터셋 크기와 손실율 간의 관계를 보다 정확히 모델링 할 수 있다. 그러나 QL = 1일 경우 (1−QL) = 0이 되어 최고 품질의 데이터 상태에서 학습데이터가 전혀 없는 경우에도 언어모델의 손실율이 무조건 0으로 계산되는 논리적 모순이 발생한다. 이는 손실율이 학습데이터의 양과 품질 모두에 종속적이어야 한다는 이론적 전제에 위배되며 현실 세계에서는 학습데이터의 품질을 100% 완벽한 상태(즉, QL = 1)로 유지하는 것이 사실상 불가능하다는 점도 고려해야 한다. 데이터는 불완전성과 잡음을 포함하며 이러한 특성은 자연스럽게 모델의 성능에 영향을 미친다. 이러한 이유로, 값이 1에 수렴하는 열린 함수 개념을 적용함으로써 현실성을 확보하고 논리적 오류를 방지하는 것이 필요하다. 이 문제를 해결하기 위해 학습데이터의 품질에 대한 변수의 상한값을 QL < 1 로 제한하는 방식을 제안한다. 이와 같은 제한은 손실율이 학습데이터의 양과 품질 모두에 의존적으로 계산되도록 보장하며 논리적 일관성을 유지한다. 또한, 현실적으로 고품질 학습데이터를 활용하되 100% 완벽한 상태가 아님을 가정하여 모델 학습의 타당성을 보완하는데 기여한다. 따라서 최종 고품질 학습데이터와 언어모델 성능 간의 함수는 다음과 같이 정의할 수 있다.
\(\begin{align}L(Q N, Q L)=\left(\frac{Q N}{5.4 \times 10^{13}}\right)^{-0.095} \times(1-Q L)\end{align}\) (2)
L(QN, QL) : 손실율/ QN : 데이터양/ QL : 데이터품질(0≤QL<1의값)
이를 통해 학습데이터의 양과 품질이 모델 성능에 미치는 영향을 보다 종합적이고 정량적으로 분석할 수 있다.
3.3 도출된 손실함수의 유효성 검증
본 연구는 실제 데이터 샘플을 활용한 실험이 아닌, 학습데이터의 양과 품질을 변수로 설정하여 손실율 변화를 분석하는 방식으로 진행되었다. 도출된 손실율 함수 L(QN, QL)의 유효성을 검증하기 위해 학습데이터 크기와 품질의 범위를 단계적으로 조정하며 손실율을 계산하였다. 학습데이터의 양은 10에서 1012까지 10배 단위로 증가하도록 설정하였는데, 이는 데이터셋 크기가 언어모델 성능에 지수 함수적으로 영향을 미친다는 기존 Kaplan 등의 연구 결과를 반영한 것이다. 이러한 설정은 데이터셋 크기와 성능 간 주요 패턴을 폭넓게 이해하는 동시에 계산 복잡도를 효율적으로 관리하기 위한 목적에서 결정되었다. 학습데이터의 품질은 0.0에서 1.0까지 0.1 단위로 설정되었으며 이는 품질 변화의 연속성을 적절히 반영하면서도 분석 결과의 해석을 명확하고 직관적으로 수행할 수 있도록 한 것이다. 이 간격은 학습데이터 품질의 미세한 변화가 손실율에 미치는 영향을 감지하기에 충분한 정밀성을 제공하면서 과도한 계산 부담과 노이즈 영향을 최소화할 수 있는 실용적인 접근 방식이라 판단되었다.
계산된 손실율 L(QN, QL)의 값은 소수점 둘째자리까지 반올림하여 기록하였으며 Google에서 제공하는 클라우드 기반 Python 프로그래밍 환경인 Google Colab을 활용하여 히트맵(Heatmap)을 생성하고 학습데이터의 양과 품질이 손실율에 미치는 영향을 정량적으로 평가하였다.
(그림 4) 모델 성능 손실율 히트맵(Heatmap)
또한, 학습데이터의 양과 품질이 언어모델 성능에 미치는 영향을 직관적으로 시각화하기 위해 성능 지표인 손실율(loss rate)을 학습데이터의 양과 품질의 조합에 따라 변하는 3D 표면 그래프로 표현하였다.
이러한 결과는 언어모델의 성능 최적화를 위해 학습데이터의 양적 확대와 질적 개선이 필수적임을 시사하며 고품질 학습데이터를 양적으로 확대하는 경우 (양: 많음, 품질: 높음) 모델 성능이 유의미하게 향상된다는 점을 실증적으로 뒷받침한다.
(그림 5) 모델 성능 손실율 3D 표면 그래프
4. 학습데이터 설계 전략 방향
앞선 연구 결과에 따라 학습데이터의 양과 품질을 기반으로 한 2×2 모델의 데이터 최적 분포는 아래의 그림과 같다.
(그림 6) 언어모델 데이터 최적 분포도
데이터 분포도를 바탕으로 한 최적의 학습데이터 설계 전략은 ❶ 영역 (학습데이터의 양과 품질이 모두 높은 구역)으로 이동하는 것이다. 이를 위해 각각의 영역에 적합한 개선 전략은 다음과 같다.
첫째, ❷ 영역(학습데이터 양 ↓, 품질 ↑)의 경우, 데이터 양의 부족이 문제이므로 데이터 수집을 확대하여 학습데이터의 품질을 높이는 것이 중요하다. 이를 위해 새로운 데이터 소스를 발굴하거나, 데이터 증강(Data Augmentation) 기법을 활용하여 기존 데이터를 변형하고 확장하는 방법이 효과적이다. 이렇게 데이터 양을 증가시키면 모델의 일반화 능력이 강화되면서 ❶ 영역으로 이동할 수 있다.
둘째, ❸ 영역(학습데이터 양 ↓, 품질 ↓)은 데이터의 양과 질 모두 부족한 상태로 가장 큰 개선이 필요한 영역이다. 이 영역에서는 데이터의 품질을 우선적으로 높이는 작업과 함께 데이터 수집 범위를 확대하여 양적 부족 문제를 동시에 해결해야 한다. 신뢰할 수 있는 데이터 출처를 확보하고 데이터 정제 과정을 통해 노이즈를 제거하며 특정 도메인에 적합한 데이터를 추가적으로 수집함으로써 양과 질을 동시에 개선할 수 있다. 이를 통해 ❶ 영역으로의 단계적 이동이 가능하다.
셋째, ❹ 영역(학습데이터 양 ↑, 품질 ↓)은 데이터 양은 충분하지만 품질이 낮아 모델 학습 과정에서 혼란을 초래하는 상태다. 이 경우 데이터 품질을 높이는 것이 우선 과제다. 데이터 정제 과정에서 오탈자, 중복 데이터, 비문 등을 제거하고 데이터의 품질을 평가하여 고품질 데이터를 선별해야 한다. 도메인 특화 데이터를 추가적으로 확보하여 모델 학습의 방향성을 개선할 수 있다. 이러한 품질 향상을 통해 ❶ 영역으로 이동할 수 있다.
결과적으로, 생성형 언어모델의 성능을 최적화하기 위해서는 ❶ 영역 (학습데이터 양과 품질이 모두 높은 상태)으로 이동하는 것이 가장 이상적이다. 이를 위해 각 영역에 적합한 개선 전략을 적용함으로써 데이터의 양과 품질을 균형 있게 관리해야 한다. 이러한 방향성을 바탕으로 데이터 관리를 체계적으로 수행하면 모델은 다양한 문맥에서 자연스럽고 정확한 텍스트를 생성하며 신뢰성과 일반화 능력을 갖춘 상태로 발전할 수 있다.
5. 결론
본 연구에서는 생성형 언어모델의 성능에 영향을 미치는 학습데이터의 양과 품질을 분석하고 실증적으로 검증함으로써 최적의 학습데이터 구축 전략을 제시하였다. 연구 결과, 학습데이터의 양적 확장만큼이나 데이터의 품질이 모델 성능과 신뢰성 확보에 중요한 역할을 한다는 점이 확인되었다.
스탠퍼드 대학교의 앤드류 응(Andrew Ng) 교수가 제안한 데이터 중심 AI(Data-Centric AI) 개념에서도 알 수 있듯이 AI 시스템의 성능을 결정짓는 핵심 요소는 더 나은 데이터의 수집과 정제이다. 학습데이터는 모델이 세상에 대한 지식을 습득하는 기반이며, 고품질 데이터는 모델이 편향을 줄이고 보다 정확한 결과를 도출하도록 돕는다. 그러나 여전히 모델 개발에 초점을 맞춘 연구가 대부분이며 학습데이터의 확보와 품질 관리에 대한 종합적인 접근이 부족한 것이 현실이다[18].
특히, 대규모 고품질 학습데이터 구축에는 막대한 자원과 비용이 소요되며 이러한 한계는 환각(hallucination) 현상과 같은 문제를 초래할 가능성이 크다. 따라서 AI 모델의 성능 최적화를 위해서는 데이터의 양과 질을 균형 있게 고려하는 전략이 필수적이며 체계적인 데이터 구축 전략이 필요하다. 앞으로의 연구는 학습데이터의 정제와 최적화 방안, 비용 효율적인 데이터 수집 방법, 그리고 모델의 일반화 성능을 높이기 위한 데이터 증강 기법 등에 초점을 맞출 필요가 있다.
이 연구가 학습데이터 중심의 AI 모델 성능 향상 전략에 대한 새로운 시사점을 제공하고, 향후 연구 및 실무에서 데이터 품질의 중요성을 더욱 강조하는 계기가 되기를 기대한다.
References
- 황종성, "대규모 언어모델 기반의 공공분야 초거대 AI 도입방향", IT & Future Strategy, 제3호, 2023.
- Lareina Yee, "The economic potential of generative AI: The next productivity frontier", McKinsey Global Institute, 2023.
- 최성호, "자연어 처리 기술동향 및 전망", KDB Report, 2023.
- 박영진, "인공지능 학습용 데이터 플랫폼 연구", 한국통신학회지(정보와통신), 제39권, 제11호, pp. 23-29, 2022.
- Brown, T. B., Mann, B., et al., "Language models are few-shot learners", Advances in Neural Information Processing Systems, Vol. 33, pp. 1877-1901, 2020.
- Wikidocs, "언어모델의 정의와 작동 원리", https://wikidocs.net/21668.
- Rosenblatt, F. "The perceptron: A probabilistic model for information storage and organization in the brain." Psychological Review, 65(6), 386–408, 1958. https://doi.org/10.1037/h0042519
- 이재성, "심층 신경망의 발전 과정과 이해", 한국통신학회지(정보와통신), 제33권, 제10호, pp.40-48, 2016.
- 박민준, "대규모 말뭉치를 통한 자연어 처리 모델의 성능향상 연구", 한국어처리학회논문지, 제27권, 제3호, pp. 112-125, 2020.
- Jurafsky, D., Martin, J. H., "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition" (2nd ed.), Pearson Prentice Hall, 2009.
- Hopfield, J. J., "Neural networks and physical systems with emergent collective computational abil-ities", Proceedings of the National Academy of Sciences of the United States of America, Vol. 79, No. 8, pp. 2554-2558, 1982.
- Elman, J. L., "Finding structure in time", Cognitive Science, Vol. 14, No. 2, pp. 179-211, 1990. https://doi.org/10.1016/0364-0213(90)90002-E
- Hochreiter, S., Schmidhuber, J., "Long short-term memory", Neural Computation, Vol. 9, No. 8, pp. 1735–1780, 1997. https://doi.org/10.1162/neco.1997.9.8.1735
- Cho, K., van Merriënboer, B., Gulcehre, C., et al., "Learning phrase representations using RNN encoder-decoder for statistical machine translation", arXiv preprint arXiv:1406.1078, 2014.
- Vaswani, A., Shazeer, N., et al., "Attention is all you need", Advances in Neural Information Processing Systems, Vol. 30, pp. 5998-6008, 2017.
- 장준희, 김예지, "AI 학습용 데이터 사업의 실효성 향상을 위한 정책방향", IT & Future Strategy, 제7호, 2020.
- Kaplan, J., McCandlish, S., Henighan, T., et al., "Scaling laws for neural language models", arXiv preprint arXiv:2001.08361, 2020.
- Ng, A., "Data-centric AI: A new approach to improving AI systems", IEEE Spectrum, 2022.