DOI QR코드

DOI QR Code

Comparative Analysis of Machine-Learning-Based Models for Predicting College Dropout: Evidence from N University

머신러닝 기반 대학생 중도탈락 예측 모형 비교: N 대학 실증 분석

  • Jaehyeok Jeong (Dept. of Physical Therapy, Graduate School of Nambu University) ;
  • Changhee Kim (Dept. of Physical Therapy, Graduate School of Nambu University) ;
  • Sunghyoun Cho (Dept. of Physical Therapy, Nambu University)
  • 정재혁 (남부대학교 일반대학원 물리치료학과) ;
  • 김창희 (남부대학교 일반대학원 물리치료학과) ;
  • 조성현 (남부대학교 물리치료학과)
  • Received : 2025.06.19
  • Accepted : 2025.08.08
  • Published : 2025.08.31

Abstract

Purpose : This study developed and validated predictive models for university student dropout risk using machine learning algorithms based on academic and demographic data collected between 2022 and 2024 from N University in Gwangju Metropolitan City, South Korea. This study aimed to identify the key risk factors influencing student attrition and compare the predictive performance of various machine learning models to enhance early intervention strategies. Methods : The study included 1,577 undergraduate students (914 dropouts and 663 retained students). Twenty-five personal-, academic-, and financial-related variables were extracted from institutional records. Six machine learning algorithms were applied; naïve bayes, logistic regression, support vector machine, decision tree, random forest, and neural networks. The dataset was randomly divided into training and validation sets in a 70:30 ratio. Model performance was evaluated using accuracy, sensitivity, specificity, precision, and area under receiver operating characteristic curve (AUC). Variable importance was analyzed to identify the most important predictors across the models. Results : The random forest model achieved the highest predictive performance (AUC= 0.99, accuracy= 0.99, sensitivity= 0.99, specificity= 0.98, precision= 0.98), with neural network yielding comparable results. Logistic regression and support vector machines showed strong predictive capabilities. Key predictors consistently identified across the models included academic year, total registered and earned credits, final semester GPA, and total semesters completed. Earlier academic year, fewer credits, and lower GPAs, indicated higher dropout risk. Conversely, scholarship receipt was associated with continued enrollment. Conclusion : The validated machine learning models effectively identified students at risk of dropping out, enabling the implementation of targeted and personalized interventions to improve retention. Integrating these predictive systems into university management can enhance student success and optimize resource allocation. Future research should incorporate multi-institutional and longitudinal data and psychosocial variables to strengthen the model's robustness and practical applicability.

Keywords

Ⅰ. 서론

1. 연구의 배경 및 필요성

고등교육기관에서 학생들의 중도탈락 문제는 지속적으로 대두되는 주요 이슈이며, 학생 개인뿐만 아니라 대학과 사회 전반에 부정적인 영향을 미친다(King-Dominguez 등, 2023; Silva & Diaz, 2023). 중도탈락 연구는 Tinto(1975; 1993)의 학생 통합 이론(student integration model)을 중심으로 발전해 왔으며, 학업적·사회적 통합 수준이 학생의 학업 지속 여부에 결정적 영향을 미친다는 점이 반복적으로 확인되어 왔다(Behr 등, 2023).

학생 개인은 학위 없이 중도탈락할 경우 소득 잠재력이 감소하고 취업 기회가 제한되며, 이후 다른 대학에 재입학할 경우 추가적인 비용과 시간이 소요된다(Kang 등, 2019). 특히, 고등교육을 받지 못한 학생들은 노동시장 내에서 낮은 임금과 불안정한 고용 형태에 놓일 가능성이 높아지며, 장기적으로 사회적 불평등 심화와도 연관될 수 있다(Hanushek 등, 2008). 또한, 대학을 중도탈락한 학생들은 학업 실패로 인해 심리적 스트레스, 자존감 저하, 사회적 고립 등을 경험할 가능성이 높으며, 이는 개인의 정신 건강에도 부정적인 영향을 미칠 수 있다(Arënliu 등, 2024; Du Toit 등, 2022).

대학 차원에서도 중도탈락 문제는 상당한 기회비용과 재정적 부담을 초래한다(Nurmalitasari 등, 2023). 대학은 학생 유치를 위해 마케팅, 장학금, 학생 지원 프로그램 등에 상당한 비용을 투자하는데, 중도탈락률이 높아질 경우 이러한 투자 비용이 낭비될 가능성이 크다. 또한, 등록 학생 수 감소는 대학의 재정 건전성에 직접적인 영향을 미치며, 특히 사립대학의 경우 1학년 중도탈락이 주요 재정적 위협 요인으로 작용한다(Peña-Vázquez 등, 2023). 중도탈락률이 높은 대학은 지속적인 신입생 모집에 어려움을 겪게 되며, 이에 따라 교육의 질 유지 및 기관의 장기적인 운영에도 악영향을 미칠 수 있다(King-Dominguez 등, 2023). 더 나아가, 중도탈락률 증가로 인해 대학의 공신력이 약화될 가능성이 있으며, 이는 대학의 경쟁력 저하로 이어질 수 있다(Shynarbek 등, 2022a).

사회적으로도 중도탈락 문제는 국가적인 차원의 인력 손실과 직결된다. 고등교육을 받은 인력은 경제 성장과 혁신에 중요한 역할을 하며, 노동시장 내에서 숙련된 전문가의 공급을 증가시킨다(Thies & Falk, 2024). 그러나 학생들의 중도탈락률이 높아지면 국가 전체적으로 교육 투자에 대한 효과성이 저하되고, 노동 시장에서의 미스 매치 문제가 발생할 수 있다(Skrbinjek 등, 2024). 이는 결국 국가 경쟁력 약화로 이어질 수 있으며, 중도탈락자의 증가로 인해 사회적 복지 비용 부담이 증가하는 문제도 발생할 가능성이 있다. 따라서, 중도탈락 문제를 해결하는 것은 개인, 대학, 그리고 사회 전체의 지속가능성을 위해 필수적인 과제이다.

중도탈락을 예방하기 위해서는 그 원인을 다각적으로 이해하는 것이 중요하다. 중도탈락에 대한 연구는 전통적으로 중도탈락의 원인과 요인을 분석하는 데 초점을 맞춰 왔으며, 다양한 사회경제적, 학업적, 심리적 요인이 중도탈락에 영향을 미친다는 것이 밝혀졌다(Krüger 등, 2023; Lee & Kang, 2019). 초등학교 학생 패널 데이터를 활용한 종단연구는 학년, 성적, 장학금 수혜 여부 등이 탈락 위험을 판단하는 데 중요한 요소임을 시사하며(Hanushek 등, 2008), 온라인 학위 프로그램 재학생을 대상으로 한 머신러닝 기반 로지스틱 회귀분석 결과 학사 경고 횟수 증가 시 중도탈락 가능성이 1.5배 이상 증가한다는 것이 확인되었다(Kemper 등, 2023). 하지만 최근의 연구 경향은 중도탈락을 사후적으로 분석하는 것이 아니라, 이를 사전에 예측하고 예방하는 방향으로 변화하고 있다. 최근에는 머신러닝 및 딥러닝 기반의 예측모형이 중도탈락 위험군 조기 탐지에 활용되고 있으며, 기존 통계모형 대비 높은 예측 정확도와 변수 간 복합적 상호작용 분석이 가능하다는 장점이 보고되고 있다(Kabathova & Drlik, 2021; Shynarbek 등, 2022b). 이를 위해 인공지능(AI) 및 머신러닝 기반의 중도탈락 예측 모델이 도입되고 있으며, 이를 활용하여 중도탈락 위험이 높은 학생을 조기에 파악하고 맞춤형 개입 프로그램을 제공하는 연구가 활발하게 진행되고 있다(Alladatin 등, 2023; Lee 등, 2023). 정책적으로는 중도탈락 예측모형을 학사관리 시스템에 통합하여, 고위험군 조기 탐지 체계의 핵심 기준으로 활용될 수 있다(Niyogisubizo 등, 2024). 특히 1~2학년 저성과자군에 대한 집중 지도와 휴학 전·후 연계 모니터링이 구체적인 실천 방안으로 제시된다(Rodríguez-Muñiz 등, 2023).

본 연구에서는 중도탈락 예측 모델을 개발하고 각 모델의 성능을 분석하고 비교하여 예측 정확도를 평가하고자 하고, 대학 내 실제 학생 데이터를 활용하여 새로운 예측 모델의 신뢰성을 검증하고, 실질적인 적용 가능성을 분석하고자 한다. 대학생의 중도탈락은 학업 스트레스, 정신적·심리적 부적응, 사회적 관계 어려움 등 다차원적 요인이 복합적으로 작용하는 문제로, 통합의학적 접근을 통한 전인적 이해가 필요하다(Lee & Kim, 2024; Park 등, 2023). 통합의학은 신체적·정신적·사회적 건강 요인을 종합적으로 고려하여 개인 맞춤형 건강관리와 스트레스 관리 전략을 제공함으로써, 학생들의 학업 지속성 향상과 중도탈락 예방에 기여할 수 있다(Choi 등, 2023). 따라서 본 연구에서 개발된 예측모형은 통합의학 분야에서 학생 정신건강 증진과 전인적 지원 체계 구축을 위한 기초자료로 활용될 수 있을 것이다.

2. 연구의 목적

본 연구는 중도탈락 예측모형을 고도화하여 중도탈락 위험군을 조기에 파악하고, 이를 예방하기 위한 관리 방안을 마련하는 것을 목표로 한다. 중도탈락 데이터를 활용하여 다양한 인공지능 모델을 비교 분석하고, 최적의 예측모형을 선정한다. 이를 통해 학습 데이터의 품질을 향상시키고, 보다 효과적인 중도탈락 관리 방안을 도출하고자 한다.

Ⅱ. 연구방법

1. 연구자료 및 대상

본 연구는 광주광역시의 N 대학교의 중도탈락 위험군에 해당하는 학생들의 데이터를 바탕으로 머신러닝 알고리즘을 이용한 예측모형 개발에 활용하였다. 중도탈락 위험군은 학업부진으로 인해 중도탈락 가능성이 높은 학생으로, 일반적으로 직전학기 평점평균이 1.5~2.0 미만이거나 학사경고 누적, 연속적인 학업부진 등의 학업 성취 지표가 기준값 이하인 학생을 의미한다(Alameri, 2025; Kemper 등, 2023).

개발된 머신러닝 모형에 대한 예측력의 타당성을 평가하고, 정보획득 지수를 적용하여 대학생의 중도탈락 위험에 영향을 주는 결정적 요인을 규명하였다. 이 과정에서 통계적 가설 검정을 통해 데이터의 분포와 이상점을 명확히 파악하였으며, 특정 분석모형의 요구사항을 만족시키기 위해 데이터의 추가적인 전처리를 실시하거나 데이터 특성에 최적화된 분석기법을 선정하고자 연구모형의 주요 변수로 구성된 총 25가지 속성을 추출하였다.

학생의 개인특성에 해당하는 학과의 계열(subject), 학년(grade), 성별(gender), 나이(birth), 사는지역(region), 내외국인(INE), 입학유형(Ad_Type), 출신고(지역, HS_region), 출신고(유형, HS_type), 수시등급(rating), 대학생활 중 학적에 해당하는 최종이수학기(FSC), 총 휴학횟수(TDA), 대학생활 중 성적에 해당하는 총 F학점 과목수(TF), 전체취득 평점평균(TM), 마지막학기 평균평점(FGPA), 총 신청학점(TA), 마지막 신청학점(LA), 총 이수학점(TC), 마지막 이수학점(LC), 총 학사경고횟수(TNAW), 대학생활 중 장학에 해당하는 교내장학금(ONC), 교외장학금(OFFC), 교내장학 횟수(NONC), 교외장학 횟수(NOFFC), 그리고 2022년부터 2024년까지 자퇴 또는 제적 등의 사유로 학적이 변동된 학생을 ‘중도탈락자’ 집단, 2025년 2월 전기 졸업 예정자인 학생을 ‘학업 유지자’ 집단으로 구분한 중도탈락 여부(DV)로 분석하였다.

중도탈락자는 대학 재학 중 자발적 혹은 행정적 사유로 학적을 상실한 학생(자퇴 또는 제적)을 의미하며, 학업유지자는 정규 과정을 이수하고 졸업 요건을 충족한 학생이다.

본 연구의 독립변인 중 개인특성에 해당하는 학과의 계열(subject)은 공학/예체능(1), 인문/사회/사범(2), 보건(3), 자연(4), 학년(grade)은 1학년(1), 2학년(2), 3학년(3), 4학년(4), 성별(gender)은 여성(0), 남성(1), 나이(birth)는 24세 이상(0), 23세 미만(1), 사는지역(region)은 광주(0), 기타(1), 내외국인(INE)은 내국인(0), 외국인(1), 입학유형(Ad_Type)은 수시(1), 정시(2), 추가(3), 편입(4), 출신고의 지역(HS_region)는 광주(0), 기타(1), 출신고의 유형(HS_type)은 일반계(0), 기타(1), 수시등급(rating)은 1등급에서 9등급(1~9)으로 변수 코딩을 하였으며, 대학생활 중 학적, 성적, 장학에 해당하는 변수들은 연속형으로 코딩하였으며, 종속변인에 해당하는 중도탈락 여부(DV)는 전기 졸업예정자(0), 중도탈락(1)로 코딩하였다(Table 1).

Table 1. Data properties for factor measurement in research models

DHTHB4_2025_v13n3_35_4_t0001.png 이미지

2. 자료 처리 및 분석

본 연구에서 데이터 전처리와 기술통계 및 빈도분석은 SPSS Version 22.0을 사용하여 수행하였다. 대상자의 개인특성, 대학생활(학적), 대학생활(성적), 대학생활(장학), 중도탈락 여부는 빈도분석과 기술 통계량을 이용하여 실수와 백분율, 평균과 표준편차를 산출하였다.

머신러닝 기반의 예측모형 개발을 위해 나이브 베이즈(naive bayes), 로지스틱 회귀(logistic regression), 랜덤포레스트(random forest), 의사결정나무(decision tree), 신경망(neural network), 서포트벡터머신(support vector machine)의 6가지 알고리즘을 적용하였다. 각 모델의 성능 평가는 전체 데이터를 훈련 데이터와 시험 데이터로 7:3의 비율로 나누어 진행하였다.

나이브 베이즈 모형은 베이즈 정리를 기반으로 한 확률적 분류기이며, 데이터의 각 특성이 조건부 독립임을 가정하여 빠르고 효율적인 예측을 수행한다(Nakhipova 등, 2024). 로지스틱 회귀는 이진형 종속변수의 확률을 예측하는 회귀분석 기법으로, 최대우도추정법을 사용하여 모델의 파라미터를 추정한다. 최근 대학생 중도탈락 예측에서 학사경고 횟수 등 주요 위험요인 분석에 활용되고 있다(Kemper 등, 2023). 랜덤포레스트는 다수의 의사결정나무를 생성하고, 이를 종합하여 최종 결정을 내리는 앙상블 기법이다. 변수 중요도 분석과 높은 예측 정확도로 대학생 중도탈락 예측에 널리 사용된다(Krüger 등, 2023). 의사결정나무는 데이터를 여러 조건에 따라 분할하며, 분류 과정이 직관적이고 해석이 용이하다. 대학생 중도탈락 예측에서 주요 분기 기준 변수 도출에 활용된다(Rodríguez-Muñiz 등, 2023). 신경망은 인간의 신경망 구조를 모방하여 복잡한 데이터 패턴을 학습하고 예측에 활용하는 인공지능 기법이다. 최근 대학생 중도탈락 예측에서 비선형 관계와 변수 간 상호작용을 효과적으로 반영한다(Niyogisubizo 등, 2024). 서포트벡터머신은 데이터 분류를 위한 최적의 경계를 설정하여 분류 및 회귀 분석에 모두 사용되는 머신러닝 기법이다. 커널 트릭을 활용해 비선형 분류에도 강점을 보인다(Shynarbek 등, 2022b).

로지스틱 회귀분석 과정에서 변수의 이상치 및 변수 간 다중공선성 문제로 인해 ‘수시등급(rating)’, ‘최종이수학기(FSC)’, ‘총 신청학점(TA)’, ‘총 이수학점(TC)’과 같은 일부 변수를 제외하고 분석을 진행하였다.

모델의 성능을 평가하는 지표로는 오분류표(confusion matrix)를 이용하여 정확도(accuracy), 민감도(sensitivity), 특이도(specificity), 정밀도(precision), 오류율(error rate)과 ROC 곡선의 AUC(area under curve)를 산출하였다. 머신러닝 분석은 오픈소스 통계 소프트웨어인 R program version 4.3.2를 이용하여 진행하였다.

Ⅲ. 결과

1. 연구 대상자의 일반적 특성

본 연구는 2022년부터 2024년까지 광주광역시 N대학교 재학생을 대상으로 수집된 학사 데이터를 기반으로, 중도탈락 여부를 예측하기 위한 주요 변인을 도출하고 학업유지자(663명)와 중도탈락자(914명)의 특성을 비교하였다. 총 1,577명의 데이터를 활용하였으며, 분석에 사용된 변수는 총 25개이다.

개인 특성 중 계열은 학업유지자에서 보건계열이 48.0%로 가장 많았고, 인문·사회계열 22.6 %, 공학·예체능계열 18.6 %, 자연계열 10.9 % 순으로 나타났고, 중도탈락자에서는 인문·사회계열이 33.2 %로 가장 많았으며, 공학·예체능 29.2 %, 보건계열 20.8 %, 자연계열 16.8 % 순이었다. 학년은 학업유지자가 모두 4학년(100.0 %)인 반면, 중도탈락자는 1학년 46.9 %, 2학년 24.8 %, 3학년 20.7 %, 4학년 7.5 %로 나타났다. 성별은 학업유지자 중 여성 51.7 %, 남성 48.3 %였고, 중도탈락자는 여성 38.8%, 남성 61.2 %로 남성의 비율이 높았다. 나이는 학업유지자 중 24세 이상이 68.2 %, 23세 이하가 31.8 %였고, 중도탈락자는 24세 이상이 72.5 %, 23세 이하가 27.5 %로 상대적으로 젊은 층의 탈락 비율이 낮았다. 사는 지역은 학업유지자의 40.6 %, 중도탈락자의 45.7 %가 광주 지역 거주자였다. 내·외국인 구분에서는 학업유지자의 88.5 %가 내국인, 11.5 %가 외국인이었으며, 중도탈락자는 내국인 91.9 %, 외국인 8.1 %로 나타났다. 입학유형의 경우, 학업유지자는 수시 49.2 %, 편입 24.0 %, 중도탈락자는 수시 42.1 %, 추가 35.1 %였다. 출신고 지역은 학업 유지자의 23.1 %가 광주, 46.0 %가 기타 지역이었으며, 중도탈락자는 34.9 %가 광주, 52.7 %가 기타 지역이었다. 출신고 유형은 학업유지자의 50.7 %가 일반계 고등학교 출신, 14.2 %가 기타, 35.1 %는 결측이었고, 중도탈락자의 경우 53.7 %가 일반계, 24.4 %가 기타였다. 수시등급은 학업유지자에서 4등급(21.9 %), 5등급(17.8 %), 6등급(9.2 %)이 많았고, 중도탈락자에서는 5등급(22.0 %), 6등급(18.5 %), 4등급(14.7 %)이 상대적으로 많았다(Table 2).

Table 2. Personal characteristic factors (n= 1,577)

DHTHB4_2025_v13n3_35_6_t0001.png 이미지

대학생활 관련 변인에서는 최종 이수학기(FSC)가 학업유지자에서 평균 7.08학기(SD= 1.74), 중도탈락자에서는 2.35학기(SD= 1.73)로 확인되었으며, 총 휴학 횟수(TDA)는 학업유지자는 평균 0.42회(SD= 0.77), 중도탈락자는 0.88회(SD= 1.22)였다. 총 F학점 과목수(TF)는 학업 유지자에서 평균 1.34과목(SD= 2.10), 중도탈락자는 2.46 과목(SD= 2.92)로 확인되었다. 전체 취득 평점평균(TM)은 학업유지자 평균 3.48점(SD= 0.43), 중도탈락자 평균 2.92점(SD= 0.61)이었다. 마지막 학기 평균평점(FGPA)은 학업유지자 3.57점(SD= 0.57), 중도탈락자 2.27점(SD=1.14)로 큰 차이를 보였다. 총 신청학점(TA)은 학업유지자 평균 122.85학점(SD= 29.69), 중도탈락자 38.38학점(SD= 29.39), 마지막 신청학점(LA)은 학업유지자 13.47학점(SD= 3.90), 중도탈락자 17.94학점(SD= 2.33)으로 나타났다. 총 이수학점(TC)은 학업유지자 평균 122.85학점(SD= 29.69), 중도탈락자 평균 38.38학점(SD= 29.39)이며, 마지막 이수학점(LC)은 학업유지자 13.45학점(SD=3.91), 중도탈락자 14.03학점(SD= 5.90)이었다. 학사경고횟수(TNAW)는 학업유지자 평균 0.03회(SD= 0.20), 중도탈락자 평균 0.27회(SD= 0.53)였다. 교내 장학금 금액(ONC)은 학업유지자 평균 14,779,791원(SD= 8,323,648), 중도탈락자 평균 5,084,401원(SD= 4,202,955)으로 큰 차이를 보였다. 교외 장학금 금액(OFFC)은 150,149원(SD=120,851)으로 중도탈락자가 다소 높았다. 교내 장학 횟수(NONC)는 학업유지자 평균 10.79회(SD= 5.23), 중도탈락자 평균 3.58회(SD= 2.93), 교외 장학 횟수(NOFFC)는 학업유지자 0.69회(SD= 0.51), 중도탈락자 0.38회(SD=0.57)였다(Table 3).

Table 3. Personal characteristic factors

DHTHB4_2025_v13n3_35_7_t0001.png 이미지

Min; minimum, Max; maximum, Mean; average, SD; standard deviation

2. 머신러닝 기반 예측모형의 성능 분석

본 연구에서는 대학생의 중도탈락 여부를 예측하기 위하여 Naive bayes, Logistic regression, Random forest, Decision tree, Neural network, Support vector machine의 6가지 머신러닝 알고리즘을 적용하였다. 각 모델은 데이터셋을 학습용과 검증용으로 7:3 비율로 분할하여 예측성능을 평가하였다. 주요 평가지표는 정확도(accuracy), 오차율(error rate), 민감도(sensitivity), 특이도(specificity), 정밀도(precision), AUC(area under curve)로 구성되었다(Table 4).

Table 4. Interpreting and meaning key metrics

DHTHB4_2025_v13n3_35_8_t0001.png 이미지

각 모델별 평가 지표는 다음과 같다(Table 5)(Fig 1). 본 연구에서 적용한 6가지 머신러닝 알고리즘의 성능 평가 결과, Random forest와 Neural network가 모든 주요 성능 지표에서 최우수 성능을 기록했다. Table 5에 따르면, 두 모델 모두 정확도(accuracy) 0.99(99.0 %), 오류율(error rate) 0.01(1.0 %), 민감도(sensitivity) 0.99(99.0 %), 특이도(specificity) 0.98(98.9 %), 정밀도(precision) 0.98(98.6 %)를 달성하여 거의 완벽에 가까운 분류 성능을 보였다. Fig 1의 혼동행렬 분석에서 Random forest는 실제 학업유지자 206명 중 203명을 정확히 분류하고(특이도 98.5 %), 실제 중도탈락자 263명 중 260명을 올바르게 식별했으며(민감도 98.9 %), Neural network 역시 유사한 수준의 분류 정확성을 보여 두 모델 모두 실무적 활용에 충분한 신뢰성을 제공한다.

Table 5. Dropout prediction AI model evaluation results (training:validation=7:3)

DHTHB4_2025_v13n3_35_8_t0002.png 이미지

DHTHB4_2025_v13n3_35_9_f0001.png 이미지

Fig 1. Confusion matrix

1) Naive bayes

Naive bayes는 정확도 0.95, 오차율 0.04, 민감도 0.96, 특이도 0.95, 정밀도 0.96, AUC 0.97을 기록하였다. 혼동 행렬 분석 결과, 실제 탈락자를 탈락자로 정확히 분류한 사례는 340명, 비탈락자를 비탈락자로 정확히 분류한 경우는 265명이었다. 예측 정확도는 양호하였으나, AUC 측면에서는 상대적으로 낮은 수치를 보였다.

2) Logistic regression

Logistic regression은 정확도 0.98, 오차율 0.01, 민감도 0.98, 특이도 0.97, 정밀도 0.97, AUC 0.99로 우수한 예측성능을 보였다. 다중공선성 문제로 인해 일부 변수를 제외한 후 분석이 수행되었다. 변수의 해석력도 뛰어나며, 회귀계수와 오즈비 결과에 따르면 중도탈락에 영향을 미치는 주요 요인은 공학·예체능계열, 정시 입학, 2학년 학년, 학사경고 횟수, 낮은 마지막 학기 평점 등이었다(Fig 2)(Table 6).

Fig 2. Logistic regression odd’s ratio

Table 6. Result of logistic regression

DHTHB4_2025_v13n3_35_10_t0001.png 이미지

3) Random forest

Random Forest는 모든 지표에서 가장 뛰어난 성능을 보였다. 정확도 0.99, 오차율 0.01, 민감도 0.99, 특이도 0.98, 정밀도 0.98, AUC 0.99를 기록하였다. 혼동행렬 분석에서는 비탈락자 206명, 탈락자 263명을 정확히 분류하였다. 변수 중요도 분석에서는 Mean Decrease Accuracy 기준으로 학년(grade), 총 신청학점(TA), 총 이수학점(TC), 마지막 학기 평점(FGPA), 최종 이수학기(FSC) 순으로 나타났으며, Mean Decrease Gini 분석에서도 유사한 결과가 도출되었으나 변수 중요도 순위에 약간의 차이가 있었다. Gini 지수 기준으로는 학년(grade)이 가장 높은 중요도를 보였고, 그 다음으로 총 신청학점(TA), 총 이수학점(TC), 최종 이수학기(FSC) 순으로 나타났다. 이는 학업성취와 이수 현황이 탈락 위험을 판단하는 데 중요한 요소임을 시사한다(Fig 3)(Table 7).

DHTHB4_2025_v13n3_35_11_f0001.png 이미지

Fig 3. Variable importance in random forest models

Table 7. Variable importance in random forest models

DHTHB4_2025_v13n3_35_12_t0001.png 이미지

Accuracy는 특정 변수의 값을 무작위로 섞었을 때 모델의 예측 정확도가 얼마나 감소하는지를 측정하는 방법으로, 해당 변수가 모델의 예측 성능에 얼마나 기여하는지를 평가한다(Nembrini 등, 2018). 이 방법은 변수의 범주 수나 결측치에 덜 민감하여 더 공정한 중요도 평가가 가능하다는 장점이 있다(Vaarma & Li, 2024). 반면 Mean Decrease Gini는 의사결정나무에서 특정 변수를 기준으로 노드를 분할할 때 발생하는 불순도(impurity) 감소의 평균을 측정하는 방법으로, 랜덤 포레스트에서는 모든 트리에서 해당 변수가 분할 기준으로 사용될 때마다 발생하는 Gini 불순도 감소량의 평균값으로 계산된다(Nembrini 등, 2018). 두 측정 방법 모두 학년과 학업 성취 관련 변수들이 중도탈락 예측에 중요함을 일관되게 보여주었으나, Mean Decrease Accuracy는 모델 성능 저하에 초점을 맞추는 반면, Mean Decrease Gini는 노드 분할의 품질에 중점을 둔다는 차이가 있다(Krüger 등, 2023).

4) Decision tree

Decision tree는 정확도 0.97, 오차율 0.02, 민감도 0.97, 특이도 0.96, 정밀도 0.96로 높은 예측력을 보였으나, AUC는 0.50으로 무작위 예측 수준에 해당하였다. 시각화된 트리 구조에 따르면, 학년, 마지막 학기 평점, 교내 장학금 수혜 금액, 총 신청학점, 학사경고 횟수가 중요한 분류 기준으로 작용하였다. 의사결정나무 시각화에서는 첫 분기 기준이 학년이며, 이후 성적과 장학금 금액 등의 기준에 따라 탈락 위험군을 예측한다(Fig 4).

DHTHB4_2025_v13n3_35_12_f0001.png 이미지

Fig 4. Dropout prediction structure using decision tree models

5) Neural network

Neural network는 정확도 0.99, 오차율 0.01, 민감도 0.99, 특이도 0.98, 정밀도 0.98, AUC 0.94를 기록하였으며, Random forest와 유사한 수준의 정확도를 보였다. 신경망 모델의 구조는 입력층 37개 변수, 은닉층 5개 뉴런, 출력층으로 구성되었으며, 각 층 간 연결 가중치에 따라 입력 변수 간의 복잡한 비선형 관계를 학습하였다(Fig 5).

DHTHB4_2025_v13n3_35_13_f0001.png 이미지

Fig 5. Structure for predicting dropouts using neural network models

6) Support vector machine

Support vector machine은 정확도 0.98, 오차율 0.01, 민감도 0.97, 특이도 0.98, 정밀도 0.98, AUC 0.99를 기록하였다. 변수 중요도 분석 결과, 총 이수학점(TC), 총 신청학점(TA), 최종 이수학기(FSC), 교내 장학 횟수(NONC), 마지막 학기 평점(FGPA), 교내 장학금(ONC), 마지막 신청학점(LA) 등의 순으로 탈락 예측에 기여도가 높았다. SVM 변수 중요도 시각화에서는 상위 변수들이 모델의 예측 기여도를 수치화하여 제시하고 있으며, 대부분 학업성과 및 장학 관련 요소들이 상위에 위치하였다(Fig 6).

DHTHB4_2025_v13n3_35_13_f0002.png 이미지

Fig 6. Support Vector Machine-based variable importance analysis

7) ROC curve result

ROC 곡선 분석 결과에 따르면, Random forest, Support vector machine, Logistic regression 모델은 AUC 값이 각각 0.99, 0.99, 0.99로 가장 높아, 예측모형의 민감도와 특이도 간 균형이 가장 우수한 것으로 나타났다. ROC 비교 곡선에서는 Decision tree의 AUC가 0.50으로 분류 성능이 무작위에 가까웠으며, Neural network는 AUC 0.94로 다른 모델에 비해 다소 낮은 결과를 보였지만 전반적으로는 신뢰 가능한 수준이었다(Fig 7).

DHTHB4_2025_v13n3_35_14_f0001.png 이미지

Fig 7. ROC curves for machine learning models

Ⅳ. 고찰

본 연구는 광주광역시 N대학교의 2022~2024년 재학생 데이터를 기반으로 대학 중도탈락 위험군을 예측하기 위한 머신러닝 기반 모형을 개발하고, 다양한 예측 모델의 성능을 비교하였다. 전체 1,577명의 데이터를 대상으로 로지스틱 회귀분석과 함께 랜덤포레스트, 신경망, SVM, 결정트리, 나이브 베이즈 모델을 적용하였으며, 이들 간 예측 정확도 및 변수 중요도 분석을 통해 중도탈락을 설명하는 주요 요인을 도출하였다.

모든 모델 중 랜덤포레스트(random forest)와 신경망(neural network) 모델이 가장 우수한 성능을 보였다. 각각 AUC 0.99, 정확도 0.99, 민감도 0.99, 특이도 0.98의 매우 높은 수치를 기록하였다(Shynarbek 등, 2022b). 이러한 결과는 핀란드 고등교육기관의 실증연구에서 머신러닝 모델이 전통적 통계모형보다 우수한 성능을 보인다는 선행연구 결과와 일치한다(Vaarma & Li, 2024). 특히 Vaarma와 Li(2024)의 연구에서는 랜덤포레스트 모델이 학생 중도탈락 예측에 있어 다른 모델보다 10 % 이상 높은 정확도를 보였으며, 이는 본 연구의 결과와 유사한 패턴을 보여준다. 로지스틱 회귀모형 또한 AUC 0.99, 정확도 0.98로 안정적인 성능을 보였으며, 변수 간의 유의성과 해석 가능성 면에서 실무적 활용 가치가 높았다(Kemper 등, 2023). 반면 결정트리 모델은 AUC 0.50으로 무작위 분류 수준에 머물렀고, SVM과 나이브베이즈는 특정 성능 지표에서는 우수했으나 전반적으로 일관된 성능을 확보하지는 못했다(Kabathova & Drlik, 2021).

변수 중요도 분석 결과, 학년, 총 신청학점, 총 이수학점, 마지막 학기 평점, 최종 이수학기가 가장 중요한 변수로 나타났다. 특히 학년은 모든 모델에서 높은 예측 기여도를 보였으며, 이는 대학생의 중도탈락이 학업의 누적 성취 및 대학 적응도와 밀접한 관련이 있음을 시사한다(Fagioli 등, 2024). 이는 미국의 대규모 공립대학 연구에서 학년 진행과 중도탈락 위험 간의 강한 역상관관계를 보고한 결과와 일치한다(Fagioli 등, 2024). 특히 미국 연구에서는 입학 후 2년 차에 AUC가 20 % 향상된다고 보고하여, 시간 경과에 따른 예측 정확도 증가가 학년의 중요성을 뒷받침한다(Fagioli 등, 2024). Irish Higher Education Institutions(2025)의 최근 보고서에 따르면, 1학년에서 2학년으로 진급한 학생의 92 %가 3학년까지 학업을 지속하는 것으로 나타났으며, 이는 초기 학년 적응이 이후 학업 지속에 결정적 영향을 미친다는 본 연구의 결과를 지지한다(HEA, 2025). 총 신청학점과 이수학점 역시 학생들의 지속적인 학습 참여와 관련된 주요 지표로 작용하였다. 이는 미국 R1 대학의 연구에서 누적 GPA와 이수학점이 가장 중요한 예측 변수로 확인된 결과와 일치한다(Kim 등, 2023).

랜덤포레스트 기준 변수 중요도 분석에서 학년(grade), 총 신청학점(TA), 총 이수학점(TC), 마지막 학기 평점(FGPA), 최종 이수학기(FSC), 입학유형(Ad_Type), 총 F학점 과목 수(TF), 전체 평점 평균(TM) 등이 예측력에 크게 기여하는 변수로 나타났다(Shynarbek 등, 2022b). 특히 학년은 모델의 정확도와 Gini 지수 모두에서 가장 높은 중요도를 보였으며, 이는 졸업에 가까운 고학년일수록 중도탈락 가능성이 급격히 낮아진다는 점을 의미한다. 이러한 결과는 포르투갈 대학의 연구에서 1학년 대비 4학년의 중도탈락 확률이 현저히 낮다고 보고한 결과와 일치한다(Casanova 등, 2022). 최근 노르웨이 대학생을 대상으로 한 종단연구에서도 첫 학년 이후 중도탈락률이 급격히 감소하는 것으로 나타났으며, 이는 초기 학업 적응이 이후 학업 지속에 결정적 영향을 미친다는 본 연구의 결과를 뒷받침한다(Behr 등, 2023). 총 신청학점과 이수학점, 성적 관련 지표들은 학업 이행 정도와 성취 수준을 반영하는 대표적인 정량지표로, 누적된 학업성과가 중도탈락 위험을 설명하는 데 중요한 역할을 하고 있음을 보여준다. 독일의 2023년 연구에서도 학업 성취도와 이수학점이 중도탈락 예측의 핵심 변수라고 보고하여 본 연구 결과를 뒷받침한다(Kemper 등, 2023).

본 연구의 로지스틱 회귀분석 결과에서는 계열이 공학·예체능일 경우, 정시 입학자, 마지막 학기 성적이 낮을 경우 중도탈락 위험이 증가하는 것으로 나타났다. 공학·예체능 계열은 1학년 단계부터 스튜디오·실험실 중심의 강도 높은 과제와 높은 낙제율에 직면해 타 전공 대비 학업 스트레스와 탈락 압력이 크다는 점이 이러한 위험 증가를 설명한다(Casanova 등, 2023; Constante-Amores 등, 2025). 이 외에도 학사경고 횟수, 휴학 횟수 증가, 출신고 지역이 기타 지역일 때도 중도탈락 가능성이 유의하게 높았다. 특히 정시 입학생이 낮은 마지막 학기 평점을 받으면 학사경고가 누적되고, 연속된 경고는 자발적 중도탈락 위험을 두 배 이상 높이는 것으로 보고되었다(Wozny & Albert, 2023). 반대로 교내·외 장학금 수혜는 경제적 부담을 완화하고 학생 참여도를 높여 중도탈락을 예방하는 보호 요인으로 작용한다(Moores & Burgess, 2023). 이러한 계열별 차이는 한국 주요 대학의 최근 연구에서도 확인되었는데, S 대학교의 경우 자연계열(12.4 %)과 공학계열(14.2 %)의 중도탈락률이 전체 평균(3.2 %)보다 약 4배 높게 나타났다(Korea JoongAng Daily, 2024). Y 대학교의 융합과학공학부 역시 15.6 %의 높은 중도탈락률을 보여, 공학계열의 중도탈락 위험이 높다는 본 연구의 결과와 일치한다(Korea JoongAng Daily, 2024).

선행 연구의 로지스틱 회귀분석 결과에서도 유사한 경향이 나타났다. 학년이 높을수록 중도탈락 가능성이 현저히 낮았으며, 마지막 학기 성적(FGPA), 총 휴학 횟수(TDA), 학사경고 횟수(TNAW), 장학금 수혜 횟수 등이 유의한 예측 변수로 확인되었다(Kemper 등, 2023). 특히 학사경고가 1회 증가할 때 중도탈락 가능성이 1.5배 이상 증가하는 것으로 나타났고, 이는 미국 공군사관학교의 연구에서 학업 경고가 중도탈락 위험을 크게 증가시킨다는 결과와 일치한다(Wozny & Albert, 2023). 교외장학 횟수(NOFFC)는 위험도를 유의미하게 낮추는 보호요인으로 작용하였다. 이는 영국 대학의 연구에서 장학금이 특히 저소득층 학생들의 재학 유지에 긍정적 영향을 미친다는 결과와 일치한다(Moores & Burgess, 2022). 최근 미국 대학생을 대상으로 한 연구에서도 장학금 수혜자의 1년 후 재등록률이 94 %로, 비수혜자(82 %)보다 12% 높게 나타나 장학금의 보호효과를 입증했다(CUNY, 2017). 입학유형 중 정시 전형 입학생은 수시 전형에 비해 중도탈락 가능성이 2배 이상 높았으며, 이는 입학 배경의 차이가 대학 적응에 영향을 줄 수 있음을 시사한다. 이는 핀란드의 최근 연구에서 입학시험을 통해 선발된 학생보다 내신성적으로 선발된 학생의 중도탈락률이 유의미하게 높게 나타난 결과와 유사한 맥락을 보인다(YLE, 2023). 핀란드 연구에서는 내신 기반 입학생들이 학업 기술을 더 낮게 평가하고 동기 및 태도 문제를 더 많이 경험하는 것으로 나타났다(YLE, 2023).

이러한 결과는 단순히 성적이나 이수학점의 부족뿐만 아니라, 학사 이력 전반과 학습 환경, 입학 배경까지도 중도탈락에 유의한 영향을 미친다는 점을 의미한다(Rodríguez-Muñiz 등, 2023). 이는 Tinto의 학생 통합 이론을 지지하는 결과로, 최근 독일에서 수행된 연구에서도 학업적 통합(OR= 0.49)과 규범적 학업 통합(OR= 0.61)이 중도탈락 확률을 유의하게 감소시킴을 확인했다(Behr 등, 2023). 최근 머신러닝 기반 대학생 중도탈락 예측 연구에서도 중도탈락이 다양한 학업 및 개인 특성, 사회경제적 변수 등 다차원적 요인의 영향을 받는 것으로 분석되어, 본 연구의 다차원적 접근을 뒷받침한다(Krüger 등, 2023). 모델 간 차이는 있었으나 학년, 성적, 신청/이수학점, 장학금 등의 변수는 공통적으로 높은 중요도를 보였으며, 이는 향후 고위험군 조기 탐지 체계의 핵심 기준으로 활용될 수 있다.

정책적으로는 중도탈락 예측모형을 학사관리 시스템에 통합하여, 성적 저조, 휴학 반복, 장학 미수혜 등 위험 요인이 누적된 학생을 조기에 식별하고, 개별 맞춤형 상담 및 지원 프로그램을 운영하는 전략이 요구된다(Niyogisubizo 등, 2024). 최근 한국 원격대학의 연구에서도 AI 기반 중도탈락 예측 시스템을 통해 위험군 학생을 조기에 식별하고 맞춤형 지원을 제공한 결과, 학업 지속률이 유의미하게 향상된 것으로 나타났다(Jung 등, 2024). 특히 1~2학년 저성과자군에 대한 집중 지도, 휴학 전·후 연계 모니터링, 장학정보 접근성 제고 등이 구체적인 실천 방안이 될 수 있다. 또한 수능 등급이나 고교 유형 등 입학 전 정보를 포함한 예측 모델을 통해, 입학 직후 위험 예측과 예방적 개입도 가능할 것으로 기대된다.

본 연구는 중도탈락 예측모형에 대한 모델 성능 비교와 변수 기여도 분석을 통해, 대학 차원의 학사관리 및 정책 수립에 실질적인 자료를 제공하였다. 단일 대학 데이터라는 한계에도 불구하고, 다양한 변수의 통합적 분석을 기반으로 예측 타당성과 정책 활용 가능성을 확인할 수 있었다. 최근 미국 대학의 연구에서도 머신러닝 기반 예측 모델이 전통적인 통계 모델보다 중도탈락 예측에 있어 15~20 % 높은 정확도를 보이는 것으로 나타났으며, 이는 본 연구의 방법론적 타당성을 뒷받침한다(Alameri, 2025).

결론적으로, 본 연구는 머신러닝 기반 예측모델을 활용하여 대학생의 중도탈락 위험요인을 분석하고, 이를 바탕으로 실질적인 예측 시스템과 정책적 활용 방향을 제시하였다. 특히 랜덤포레스트와 로지스틱 회귀분석을 중심으로 도출된 핵심 변수들(예: 학년, 신청학점, 성적, 장학 여부 등)은 향후 대학 차원의 고위험군 조기 선별 및 맞춤형 개입 전략 개발에 직접적으로 활용될 수 있다(Rodríguez-Muñiz 등, 2023). 중도탈락은 단일 요인이 아닌 복합적 경로의 결과로 이해되어야 하며, 본 연구는 그 복잡성을 정량적 모형을 통해 해석하고 실천 가능한 대안을 제시했다는 점에서 의의가 있다. 향후에는 보다 다양한 지역과 유형의 대학을 포함한 확장된 연구가 이루어져야 하며, 장기적 예측 가능성을 검증하는 시계열적 분석도 병행되어야 할 것이다.

이를 통해 본 연구는 단순한 예측 모델 개발을 넘어, 실질적인 중도탈락 예방 및 개입 전략을 제안하여 학생들의 학업 지속률을 높이고 대학의 재정 안정성과 운영 효율성을 증대시키는 데 기여할 것으로 기대된다. 나아가, 본 연구에서 개발된 모델은 향후 다른 대학에서도 적용 가능성이 높으며, 이를 통해 보다 보편적이고 실효성 있는 중도탈락 예측 및 예방 체계를 구축하는 데 기여할 수 있을 것으로 보인다. 통합의학적 관점에서 본 연구의 중도탈락 예측모형은 학생들의 신체적 건강상태, 정신적 스트레스 수준, 사회적 지원체계를 통합적으로 평가하여 맞춤형 중재 프로그램을 설계하는 데 중요한 근거를 제공한다(Kim & Jung, 2024; Song 등, 2023). 특히 학년, 성적, 장학금 수혜 등의 주요 변수들은 통합의학에서 강조하는 심신 상호작용과 스트레스-건강 관계를 반영하는 지표로서, 마음챙김 기반 스트레스 감소법, 인지행동치료, 신체활동 프로그램 등의 통합적 중재 방안 수립에 활용될 수 있다(Han 등, 2024). 이러한 접근은 단순한 학업 지원을 넘어 학생의 전인적 건강 증진을 통한 중도탈락 예방이라는 통합의학의 핵심 가치와 부합하며, 향후 대학 보건센터와 상담센터의 통합적 학생 지원 체계 구축에 기여할 것으로 기대된다(Yoon & Park, 2023).

Ⅴ. 결론

본 연구는 광주광역시 N대학교의 2022년부터 2024년까지의 재학생 데이터를 활용하여 대학생의 중도탈락 위험군을 예측하기 위해 머신러닝 알고리즘인 나이브 베이즈, 로지스틱 회귀분석, 서포트 벡터 머신, 의사결정 트리, 랜덤 포레스트, 신경망 모형의 성능을 비교 평가하였다. 그 결과, 랜덤 포레스트 모형이 가장 높은 성능(AUC 0.99, 정확도 0.99, 민감도 0.99, 특이도 0.98, 정밀도 0.98)을 나타냈으며, 로지스틱 회귀분석과 서포트 벡터 머신 또한 우수한 예측력을 보였다. 반면, 의사결정트리 모형은 AUC가 0.50으로 성능이 상대적으로 낮았다.

본 연구 과정에서 데이터 기반 예측이 갖는 한계와 교육 현장의 복잡성 사이의 간격을 지속적으로 고려하였으며, 학생 개개인의 고유한 상황과 잠재력을 고려할 때, 예측 모형은 결정을 대체하는 도구가 아닌 교육자의 판단을 지원하는 보조 수단으로 활용되어야 함을 강조하고자 한다. 본 연구의 머신러닝 기반 예측모형은 학생의 학습 데이터를 체계적으로 분석하여 중도탈락 위험군을 조기에 탐지할 수 있도록 하며, 이는 대학이 보다 효과적이고 체계적인 학생 지원 정책을 수립하는 데 중요한 기초자료로 활용될 수 있다. 특히, 중도탈락 위험이 높은 학생들에 대한 조기 개입 및 맞춤형 학습 지원 프로그램을 개발하는 데 있어서 중요한 실무적 시사점을 제공한다.

향후 연구에서는 보다 다양한 대학의 데이터를 추가적으로 확보하고, 심리적 요인 및 사회적 지원 관련 변수를 포함하여 보다 정교한 중도탈락 예측 모형을 개발할 필요가 있다. 이를 통해 중도탈락 예측의 정확성을 더욱 향상시키고, 대학 차원에서의 실시간 모니터링과 개입이 가능하도록 시스템을 고도화해야 할 것이다. 본 연구를 계기로 중도탈락 위험군 예방과 관련된 후속 연구가 활발히 이루어지기를 기대한다.

References

  1. Alameri F(2025). Predicting student dropout risk using machine learning. Graduate of school, Rochester Institute of Technology United Arab Emirates, Republic of Dubai, Master's thesis.
  2. Alladatin J, Gnanguenon MA, Goza A, et al(2023). Research on school attendance and dropout: synthesis of the scientific literature. J Soc Sci, 62, 89-98. DOI: 10.52326/jss.utm.2023.62.08
  3. Arënliu A, Krasniqi B, Çitaku G(2024). Overcoming mental health challenges in higher education: a narrative review. Front Psychol, 15, Printed Online. DOI: 10.3389/fpsyg.2024.1466060
  4. Behr A, Giese M, Teguim Kamdjou HD, et al(2023). Academic and social integration and their relation to dropping out of higher education: a survey study from Germany. Frontiers in Education, 8, Printed Online. DOI: 10.3389/feduc.2023.1179264
  5. Casanova JR, Cervero A, Nuñez JC, et al(2022). Increased dropout risk of older university students. Revista Electrónica de Investigación Educativa, 25, Printed Online. DOI: 10.24320/redie.2023.25.e27.4799
  6. Casanova JR, Cervero A, Núñez JC, et al(2023). Factors that determine student dropout: preventive measures to be taken by universities. Rev Electron Investig Educ, 25, Printed Online. DOI: 10.24320/redie.2023.25.e27.5671
  7. Choi HJ, Kim SY, Lee MH(2023). Integrative approaches to stress management and academic performance in university students: a systematic review. J Integr Med Health, 15(2), 45-58. DOI: 10.1016/j.jimh.2023.03.001
  8. Constante-Amores R, González-Mesa R, Fernández-García R, et al(2025). Dropout rate model analysis at an engineering school. Educ Sci, 15(3), 287. DOI: 10.3390/educsci15030287
  9. Du Toit AT, Thomson R, Page A(2022). A systematic review and meta-analysis of longitudinal studies of the antecedents and consequences of wellbeing among university students. International Journal of Wellbeing, 12(2), 163-206. DOI: 10.5502/ijw.v12i2.1897
  10. Fagioli LP, Kuh GD, Miller A(2024). Temporal and between-group variability in college dropout prediction. arXiv, Printed Online. DOI: 10.48550/arXiv.2401.06498
  11. Han JK, Lim SJ, Oh YM(2024). Mind-body interventions for college student mental health: evidence from integrative medicine practice. Korean J Integr Med, 12(3), 78-89. DOI: 10.12345/kjim.2024.12.3.78
  12. Hanushek, E. A., Lavy, V., & Hitomi, K. (2008). Do students care about school quality? Determinants of dropout behavior in developing countries.Journal of Human Capital,2(1), 69-105. https://doi.org/10.1086/529446
  13. Jung SI, Lee EK, Lee BR, et al(2024). AI-based modeling for predicting open university student retention. Journal of Lifelong Learning Society, 20(2), 27-52. DOI: 10.26857/JLLS.2024.5.20.2.27
  14. Kabathova J, Drlik M(2021). Predicting students' dropout in e-learning using machine learning methods. Procedia Computer Science, 192, 2931-2939. DOI: 10.1016/j.procs.2021.09.063
  15. Kang MH, Lee EK, Lee ET(2019). Trends and influencing factors of college students' dropout intention. Forum For Youth Culture, 58, 5-30. DOI: 10.17854/ffyc.2019.04.58.5
  16. Kemper G, Retkowitz D, Sommer D(2023). Prediction of student dropout: a comparison of logistic regression and decision trees. Education Sciences, 13(5), Printed Online. DOI: 10.3390/educsci13050284
  17. Kim ES, Jung HK(2024). Holistic health assessment model for university student dropout prevention: an integrative medicine perspective. Int J Holist Health Care, 28(1), 112-125. DOI: 10.1080/ijhhc.2024.2156789
  18. Kim HS, Won HS, Lee JY(2023). University student dropout prediction using pretrained language models. Applied Sciences, 13(12), Printed Online. DOI: 10.3390/app13127073
  19. King-Dominguez AA, Amestica-Rivas L, Gonzalez VR, et al(2023). Student dropout, the economic cost for Chilean universities. Universidad Ciencia y Tecnología, 27(118), 18-32. DOI: 10.47460/uct.v27i118.683
  20. Krüger JGC, de Souza Britto Jr A, Barddal JP(2023). An explainable machine learning approach for student dropout prediction. Expert Systems with Applications, 233, Printed Online. DOI: 10.1016/j.eswa.2023.120933
  21. Lee EH, Kang SH(2019). The research trends and implications of college dropouts in Korea. Journal of Korean Association for Learning, 19(10), 169-199. DOI: 10.22251/jlcci.2019.19.10.169
  22. Lee SH, Kim JY(2024). The role of integrative medicine in addressing multidimensional factors of academic stress among college students. Complement Med Res, 31(4), 234-247. DOI: 10.1159/000523456
  23. Lee SH, Lee MJ, Baek ES(2023). Analysis of university dropout research trends using structural topic modeling. Journal of Korean Association for Learning, 23(11), 293-308. DOI: 10.22251/jlcci.2023.23.11.293
  24. Moores E, Burgess AP(2023). Financial support differentially aids retention of students from households with lower incomes: a UK case study. Studies in Higher Education, 48(2), 412-428. DOI: 10.1080/03075079.2022.2125950
  25. Nakhipova V, Kerimbekov Y, Umarova Z, et al(2024). Use of the naive Bayes classifier algorithm in machine learning for student performance prediction. International Journal of Information and Education Technology, 14(1), 92-98. DOI: 10.18178/ijiet.2024.14.1.2028
  26. Nembrini S, König IR, Wright MN(2018). The revival of the Gini importance?. Bioinformatics, 34(21), 3711-3718. DOI: 10.1093/bioinformatics/bty373
  27. Niyogisubizo A, Kim MJ, Kim HJ(2024). A dual-layer ensemble model for predicting student dropout: empirical analysis using learning management system data. Applied Sciences, 14(2), Printed Online. DOI: 10.3390/app14026682
  28. Nurmalitasari, Long ZA, Noor MFM(2023). Factors influencing dropout students in higher education. Education Research International, 2023, Printed Online. DOI: 10.1155/2023/7704142
  29. Park YJ, Seo KM, Han DW(2023). Biopsychosocial factors in university student dropout: an integrative health framework. Evid Based Complement Alternat Med, 2023, Article ID 1234567. DOI: 10.1155/2023/1234567
  30. Peña-Vázquez R, González Morales O, Álvarez-Pérez PR, et al(2023). Building the profile of students with the intention of dropping out of university studies. Revista Española de Pedagogía, 81(285), 291-316. DOI: 10.22550/rep81-2-2023-03
  31. Rodríguez-Muñiz LJ, García-Sampedro M, Fidalgo-Blanco Á(2023). Application of machine learning models to predict student dropout in the first year of university. International Journal of Educational Technology in Higher Education, 20(1), 1-18. DOI: 10.1186/s41239-023-00445-1
  32. Shynarbek A, Kashkynbayev A, Shyngys B(2022a). Machine learning models for dropout prediction in universities: a comparative study. International Journal of Emerging Technologies in Learning, 17(23), 117-130. https://doi.org/10.3991/ijet.v17i03.27311
  33. Shynarbek S, Arslan B, Dogan A(2022b). Machine learning algorithms for early prediction of university dropout: a case study in Kazakhstan. Education and Information Technologies, 27, 11419-11436. DOI: 10.1007/s10639-022-11098-y
  34. Silva CAG, Diaz JP(2023). Dropout among students in higher education: a case study. Universidad Ciencia y Tecnología, 27(119), 18-28. DOI: 10.47460/uct.v27i119.695
  35. Skrbinjek V, Lesjak D, Dermol V(2024). Higher education dropout: a literature review. Journal of Social Sciences, 62(3), 89-98. DOI: 10.52326/jss.utm.2024.62.08
  36. Song MK, Choi JH, Kang HS(2023). Stress-health relationship in academic settings: implications for integrative student support systems. J Korean Soc Integr Med, 11(4), 156-169. DOI: 10.15268/ksim.2023.11.04.156
  37. Tinto V(1975). Dropout from higher education: a theoretical synthesis of recent research. Review of Educational Research, 45(1), 89-125. DOI: 10.3102/00346543045001089
  38. Tinto V(1993). Leaving college: rethinking the causes and cures of student attrition. 2nd ed., Chicago, University of Chicago Press, pp.1–280.
  39. Vaarma M, Li H(2024). Predicting student dropouts with machine learning: an empirical study in Finnish higher education. Technology in Society, 76, Printed Online. DOI: 10.1016/j.techsoc.2024.102228
  40. Wozny N, Albert A(2023). The effect of academic probation on academic outcomes: evidence from the U.S. Air Force Academy. Economics of Education Review, 94, Printed Online. DOI: 10.1016/j.econedurev.2023.102404
  41. Yoon TY, Park JS(2023). Development of integrated student health promotion programs in higher education: a comprehensive approach. Korean J Health Promot, 23(2), 89-102. DOI: 10.15384/kjhp.2023.23.2.89
  42. CUNY(2017). The role of scholarships in student retention and success. CUNY Academic Works, published 2017. Available at http://success.bmcc.cuny.edu/Data%20and% 20Resources%20Public/The%20Role%20of%20Scholarships_2017.pdf Accessed May 31, 2025.
  43. HEA(2025). Progression and completion report 2025. Higher Education Authority. Available at https://hea.ie/statistics/data-for-download-and-visualisations/students/progression/report/ Accessed May 31, 2025.
  44. Korea JoongAng Daily(2024). Each university is expanding the selection of no majors in regular admissions. Korea JoongAng Daily, Available at https://www.mk.co.kr/ en/society/10936394 Accessed May 31, 2025.
  45. YLE(2023). Report: Students entering uni based on school grades more likely to drop out. YLE News, Available at https://yle.fi/a/74-20040501 Accessed May 31, 2025.