DOI QR코드

DOI QR Code

Application of XAI Models to Determine Employment Factors in the Software Field : with focus on University and Vocational College Graduates

소프트웨어 분야 취업 결정 요인에 대한 XAI 모델 적용 연구 : 일반대학교와 전문대학 졸업자를 중심으로

  • 권준희 (경기대학교 AI컴퓨터공학부) ;
  • 김성림 (서일대학교 소프트웨어공학과)
  • Received : 2024.02.21
  • Accepted : 2024.03.15
  • Published : 2024.03.30

Abstract

The purpose of this study is to explain employment factors in the software field. For it, the Graduates Occupational Mobility Survey by the Korea employment information service is used. This paper proposes employment models in the software field using machine learning. Then, it explains employment factors of the models using explainable artificial intelligence. The models focus on both university graduates and vocational college graduates. Our works explain and interpret both black box model and glass box model. The SHAP and EBM explanation are used to interpret black box model and glass box model, respectively. The results describes that positive employment impact factors are major, vocational education and training, employment preparation setting semester, and intern experience in the employment models. This study provides a job preparation guide to universitiy and vocational college students that want to work in software field.

Keywords

Ⅰ. 서론

저성장, 저고용의 경제 상황에서 한국 경제는 만성적인 청년 실업이라는 문제에 직면하고 있어, 대학 졸업자들의 취업 준비 기간은 점점 길어지고 있다[1,2]. 4차 산업 혁명 시대가 도래하면서 소프트웨어 분야 인력 수요가 증가하고 있다. 좁은 취업 관문을 통과하기 위해 최근의 많은 대학 졸업자들은 소프트웨어 분야 취업에 높은 관심을 보이고 있다[3]. 2024년 현재 대학 졸업자는 1990년대 중반에 태어난 밀레니얼(Millennial) 세대와 2000년대 후반에 태어난 Z세대라고 하여 MZ세대에 해당한다. 이들은 취업 과정에 대해 스스로 이해할 수 있도록 합리적인 설명을 원한다는 특징이 있다[2,4]. 설명 가능한 인공지능(XAI: Explainable AI)은 가장 최신의 인공지능 기술 중 하나로, 인공지능의 분석 결과를 인간이 이해할 수 있는 수준에서 인과 관계를 분석하고 논리적인 근거를 제시한다[5]. 이에 따라 본 논문에서는 소프트웨어 분야 취업 결정 요인을 XAI 기술을 이용하여 설명한다.

본 논문은 이전의 연구들과 다음과 같은 점에서 차별화된다. 첫째, 대졸자들의 소프트웨어 분야로의 취업은 대학 유형에 따라 영향을 받을 수 있다는 점을 고려하여, 일반대학교와 전문대학으로 나누어 취업 요인을 설명한다. 둘째, XAI 모델 유형에 따라 설명 가능성이 달라질 수 있다는 점을 고려하여, 블랙박스(black box) 모델과 글래스박스(glass box) 모델을 모두 적용하여 취업 요인을 설명한다.

본 논문의 구성은 다음과 같다. 2장에서는 본 연구의 이론적 배경을 살펴본다. 3장과 4장에서는 일반대학교와 전문대학 졸업자를 대상으로 블랙박스와 글래스박스 모델을 이용하여 소프트웨어 분야 취업 모델을 개발하고, XAI 기반으로 각 모델들에 대한 취업 결정 요인을 설명한다. 마지막으로 5장에서 본 논문의 결론을 맺는다.

Ⅱ. 이론적 배경

2.1 설명 가능한 인공지능 : XAI 모델

설명 가능한 인공지능(XAI: Explainable AI)은 머신러닝 결과를 사람이 이해하고 신뢰할 수 있도록 설명할 수 있는 인공지능을 의미한다[6]. 머신러닝 모델은 크게 블랙박스 모델과 글래스박스 모델로 분류된다. 블랙박스 모델은 입력과 출력 사이의 관계가 내부적인 메커니즘으로 인해 외부에서는 파악하기가 어렵다. 반면, 글래스박스 모델은 모델의 내부 작동 메커니즘이 투명하게 드러나고, 외부에서 쉽게 관찰하고 이해할 수 있다. 블랙박스 모델은 일반적으로 더 높은 정확도(accuracy)를 제공하지만, 투명성(transparency)이 낮고 편향성(bias)을 감지하기 어렵다는 단점이 있다. 반면에 글래스박스 모델은 투명성이 높고 편향성을 감지하기 쉽지만, 정확도가 블랙박스 모델보다 낮을 수 있다는 단점이 있다. 블랙박스 모델과 글래스박스 모델은 그 특성이 서로 다르기 때문에, XAI는 모델 특성에 따라 서로 다른 방법으로 머신러닝 결과를 설명한다[7].

블랙박스 모델을 설명하기 위해서는 모델 불특정 설명 방법(Model-Agnostic Method)이 사용된다. 모델 불특정 설명 방법은 모델 내부의 특성을 이용하지 않고, 모델의 입력과 출력을 통해 해당 모델을 설명한다. 즉, 어떠한 머신러닝 파이프라인에 대해서도 설명을 생성할 수 있으며, 그 파이프라인이 얼마나 불투명하든 상관없다. 블랙박스 모델을 설명하기 위한 XAI 기술 중 가장 대표적인 기술 중 하나로는 SHAP(SHapley Additive exPlanations)를 들 수 있다[8].

SHAP는 게임 이론을 바탕으로 하는 Shapley Values를 기반으로 예측 값에 대해 각 변수의 기여도를 계산하여 예측에 대한 설명을 제공한다. SHAP는 다른 방법론과 달리 견고한 이론적 기반을 가지고 가중치를 측정하기 때문에 도출되는 값에 대한 높은 신뢰도를 가지고 있으며, SHAP 값에 따라 각 특징의 영향력을 해석할 수 있다[9,10].

글래스박스 모델은 설명 가능성이 높은 모델이다. 부스팅(boosting) 모델과 딥러닝(deep-learning) 모델 등은 높은 예측 성능으로 최근 많이 사용되는 대표적인 머신러닝 모델이다. 그러나, 해당 머신러닝 모델들은 성능은 높지만 내부적으로 어떤 과정을 거쳐서 결과가 나타났는지에 대한 설명이 어려운 블랙박스 모델이다. 이에 비해, 선형 회귀(linear regression), 결정 트리(decision tree) 등은 설명이 쉬운 글래스박스 모델에 해당하는데, 쉬운 설명력에 비해 예측 성능이 좋지 않아 많이 활용되지 못한다. 이러한 문제점을 고려하여, 글래스박스 모델로 최근 등장한 가장 대표적인 모델로는 EBM(Explainable Boosting Machine)을 들 수 있다[7].

EBM은 높은 성능을 보이는 부스팅 모델 수준의 예측 정확도를 가지면서도, 설명 가능성이 높은 글래스박스 모델이다. EBM은 변수간 가산성을 유지하면서 비선형 관계를 모델링하는 일반화된 가법 모델(Generalized Additive Model)을 확장하여 사용함으로써 개별 변수 및 변수간 상호 작용 기여도를 확인할 수 있다. EBM은 개별 입력 변수만을 고려한 1단계 학습과 입력 변수간 상호 작용을 고려한 2단계 학습을 거친 후, 최종 단계에서 1개의 표에 모든 값들을 저장하고, 해당 표를 기반으로 출력 변수를 예측한다[11].

2.2 대졸자 취업 결정 요인

대졸자 취업 요인을 분석하는데 많이 활용되는 자료로는 대졸자 직업 이동 경로 조사(GOMS, Graduates Occupational Mobility Survey)가 있다. GOMS는 매년 전문대학 이상의 대학 졸업자 교육, 취업 경험, 직업 및 임금, 노동 시장 이동 등을 조사하는 데이터이다. 전문대학, 일반대학교, 교육대학교 졸업자 중 약 4%인 1만 8천명을 대상으로 졸업년도 다음 해 9월부터 3개월간 조사하여, 2005년부터 2019년까지의 데이터를 구축하였다. GOMS는 대학 졸업자의 경력 개발과 직업 이동을 추적하는 신뢰성 있는 데이터로, 교육과 노동 시장의 관계를 분석해 고학력 청년 실업 문제 해결을 위한 정책 수립에 기초 자료로 활용된다[12]. GOMS 자료를 이용한 취업 요인 분석에 대한 연구들은 다음과 같다.

문찬주 외[13]에서는 일반대학교 졸업자를 대상으로, 대학생의 취업 준비 시작 시기가 학업 성취와 노동 시장 성과에 미치는 영향을 분석하였다. 분석 방법으로는 통상최소자승회귀분석(ordinary least squares)과 로지스틱 회귀 모델(logistic regression)을 사용하였다. 연구 결과, 조기 취업 준비가 학업 성취에는 긍정적이고, 임금에는 큰 차이가 없었다.

황정원․길혜지[1]에서는 취업을 위한 청년고용정책을 중소기업 청년인턴제, 공공기관 청년인턴제, 취업성공 패키지, 내일배움카드제 등 네 가지 유형으로 분류하여 경향점수매칭(propensity score matching) 방법을 사용하여 분석하였다. 분석 결과, 이 정책들에 참여한 일반대학교 졸업자들은 참여하지 않은 그룹에 비해 취업률이 통계적으로 유의미하게 높았다. 그러나 취업의 질 측면에서는 취업성공 패키지를 제외하고는 참여한 집단과 참여하지 않은 집단 사이에 유의한 차이가 없었다.

김민선[14]에서는 전문대학 졸업자의 첫 직장 취업 성과에 대한 영향 요인을 로지스틱 회귀 모델을 사용하여 분석하였다. 연구 결과, 나이, 전공 계열, 직장 체험 프로그램 등의 요소가 통계적으로 유의미한 영향을 끼치는 것으로 나타났다.

김희준 외[15]에서는 로지스틱 회귀 모델을 사용하여 일반대학교 졸업자의 첫 일자리의 전공 일치 여부에 영향을 주는 요인을 분석하였다. 연구 결과, 전공 계열, 부모님 학력, 부모님 자산 등은 단순 취업 유무 뿐만 아니라 첫 일자리 전공 일치에도 영향을 미치고 있었다.

권준희․김성림[3]에서는 부스팅 모델을 이용한 머신러닝과 SHAP를 활용한 설명 가능한 소프트웨어 분야 일반대학교 졸업자 취업 모델을 제안하였다. 이 모델은 가장 최근의 GOMS 데이터를 기반으로 하여, 소프트웨어 분야의 직업에 상용근로자이면서 정규직으로 취업한 경우 종속변수는 1의 값, 그렇지 않으면 0의 값을 가지는 이진 분류(classification) 모델이다. 독립 변수로는 전공, 직업교육훈련 횟수, 인턴경험, 졸업유예기간, 휴학기간, 취업목표설정시기, 취업준비시작시기를 대상으로 하였다. 해당 연구는 소프트웨어 분야 대졸자 취업 모델을 머신 러닝을 이용하여 개발하고, XAI 기술을 이용하여 취업 요인을 설명한 가장 최근의 연구이다. 그러나, 블랙박스 모델과 일반대학교로 한정하여 분석하였다는 한계점을 가진다. 이러한 문제점을 해결하기 위해, 본 논문은 권준희․김성림[3]의 연구를 확장하였으며, 3장부터 해당 연구를 ‘기존 연구’로 지칭하여 기술한다.

Ⅲ. 블랙박스와 글래스박스 모델을 이용한 취업 모델

3.1 분석 자료 및 변수 구성

본 연구에서는 기존 연구에서 사용된 데이터인 한국고용정보연구원에서 가장 최신 자료로 제공하는 2020년 GOMS의 데이터를 사용한다. 본 논문은 2~3년제 전문대학과 4년제 일반대학 졸업자 중 청년층을 대상으로 취업 영향 요인 설명을 목표로 한다. 이에 따라, 40세 이상, 교육대학 졸업자는 제외하면 분석 대상이 된 전문대학 졸업자의 수는 3,806명, 일반대학교 졸업자의 수는 13,917명이다.

본 연구에서는 종속 변수로 기존 연구의 종속 변수를 그대로 사용하고, 독립 변수는 <표 1>과 같다. 독립 변수는 기존 연구에서의 독립 변수 중 일부를 수정하여 사용한다.

<표 1> 독립 변수

기존 연구의 독립 변수와의 차이점은 다음과 같다. 첫째, 졸업유예기간 변수를 삭제하였다. 이는 분석 대상이 된 전문대학 데이터에서 취업을 목적으로 한 졸업 유예자의 수가 전체 데이터 중 9명으로 매우 작고, 일반대학교 데이터에 대한 기존 연구의 결과에서 해당 변수의 영향 정도가 거의 없는 것으로 나타났기 때문이다. 둘째, 직업교육훈련 변수의 경우에는 기존 연구와는 다르게 훈련 여부만을 구분하는 것으로 변경하였다. 이는 기존 연구 결과에서 훈련 횟수값의 차이와 관계없이 횟수가 1이상인지 여부가 중요 요소로 나타났기 때문이다. 해당 변수는, 직업교육훈련을 받은 경우는 1 값을, 그 이외는 0 값을 부여한다.

셋째, 진로 취업 교과목 이수와 직장 체험 프로그램 변수를 추가하였다. 해당 변수는 대학 재학 중 프로그램에서 일정 기간 이상 경험이 가능한 취업 프로그램으로 해당 프로그램 경험이 취업에 영향을 미치는지를 살펴보기 위해 추가하였다. 해당 변수들은, 해당 프로그램에 참여한 경우 1 값을, 그 이외는 0 값을 부여한다.

3.2 취업 모델 : 일반대학교와 전문대학

본 논문에서는 소프트웨어 분야 취업 영향 요인을 설명하기 위해 머신 러닝을 사용하여 취업 모델을 개발한다. 취업 모델은 일반대학교와 전문대학 데이터로 나누어, 각 데이터에 대해 동일한 변수와 동일한 머신 러닝모델을 사용하여 개발한다. 이 때, 머신 러닝 모델 중 블랙박스 모델로는 LightGBM과 CatBoost 부스팅 모델을 사용하고, 글래스박스 모델로는 EBM 모델을 사용한다. 취업 모델은 파이썬, 모델 라이브러리, 사이킷런(sckit-learn)을 사용하여 구현했다.

취업 모델을 구현하는데 있어, 전체 데이터 중 훈련 데이터의 비율은 80%로 설정하고, 하이퍼파라미터는 다음과 같이 설정하였다. 첫째, 일반대학교 모델에서 각 모델별 하이퍼파라미터는 다음과 같다. lightGBM 모델에서는 learning_rate 값을 0.2, max_depth 값을 –1, n_estimators 값을 40, num_leaves 값을 31, 그 외는 기본 값으로 설정하였고, catBoost 모델과 EBM 모델은 기본값을 그대로 사용하였다. 둘째, 전문대학 모델에서 각 모델별 하이퍼파라미터는 다음과 같다. lightGBM 모델에서는 learning_rate 값을 0.1, max_depth 값을 8, n_estimators 값을 100, num_leaves값을 40으로 하였고, catBoost 모델에서는 depth 값을 7, iterations값을 1000, learning_rate 값을 0.1로 설정하였고, EBM 모델은 interactions 값을 10, max_bins 값을 128, max_interaction_bins 값을 10, max_rounds 값을 5000으로, 그 외는 기본값을 사용하였다.

<표 2>는 일반대학교 모델 성능 평가 결과이다. 정확도(accuracy), 정밀도(precision), 특이도(specificity)는 EBM모델이 가장 높고, CatBoost 모델이 가장 낮다. 민감도, F1-점수(F1-score), 균형 정확도(balanced accuracy)는 LightGBM 모델이 가장 높고 EBM 모델이 가장 낮다.

<표 2> 모델별 성능 평가 결과 (일반대학교)

<표 3>은 전문대학 모델 성능 평가 결과이다. 정확도와 정밀도는 EBM 모델이 가장 높고, LightGBM 모델이 가장 낮다. 민감도, F1-점수, 균형 정확도는 CatBoost 모델이 가장 높고 LightGBM 모델이 가장 낮다. 특이도는 EBM 모델이 가장 높고 CatBoost 모델이 가장 낮다.

<표 3> 모델별 성능 평가 결과 (전문대학)

IV. 블랙박스와 글래스박스 모델을 이용한 XAI 기반 취업 결정 요인

본 연구에서는 3장에서 개발된 취업 모델을 전체 변수와 개별 변수로 분류하여 취업 요인을 설명한다. 첫째, 블랙박스 모델을 설명하기 위해서는 SHAP를 이용하여 개발된 모델들의 취업 요인을 설명한다. SHAP 값 계산과 시각화는 파이썬의 SHAP 라이브러리를 이용하여 구현하였다. 둘째, 글래스박스 모델을 설명하기 위해서는 EBM 의 설명 기능을 이용하여 취업 요인을 설명한다. EBM 설명 시각화는 파이썬의 EBM 라이브러리를 이용하여 구현하였다.

4.1 전체 변수 설명

<그림 1>과 <그림 2>는 블랙박스 모델과 글래스박스 모델에 대한 전체 변수의 중요도를 점수별로 순서화하여 막대 그래프 형태로 보여준다. 즉, 중요한 변수일수록 막대 그래프의 길이가 길게 나타나고 상위에 위치한다.

<그림 1> 블랙박스 모델 설명 : 전체 변수

<그림 2> 글래스박스 모델 설명 : 전체 변수

<그림 1>과 <그림 2>로부터 다음과 같은 것을 알 수 있다. 일반대학교에서 중요 변수는 다음과 같다. <그림 1>에서 2개 모델의 변수를 평균 중요 순위별로 살펴보면 전공, 취업목표설정시기(학기), 진로취업교과목이수, 직업교육훈련과 취업준비시작시기(학기), 인턴경험, 휴학기간(학기), 직장체험프로그램 순이다. <그림 2>는 전공, 취업준비시작시기(학기), 직업교육훈련, 취업목표설정시기(학기), 인턴경험, 진로취업교과목이수, 직장체험프로그램, 휴학기간(학기) 등의 순이다.

전문대학에서 중요 변수는 다음과 같다. <그림 1>에서 2개 모델의 변수를 평균 중요 순위별로 살펴보면 전공, 인턴경험, 취업준비시작시기와 직장체험프로그램, 휴학기간과 진로취업교과목이수, 취업목표설정시기, 직업 교육훈련 등의 순이다. <그림 2>에서는 전공, 인턴경험&전공, 취업목표설정시기(학기), 취업목표설정시기(학기)&전공 등의 순이다.

일반대학교와 전문대학에 대한 블랙박스 모델과 글래스 모델 모두에서 '전공' 변수는 공통적으로 가장 중요한 변수로 나타난다. 또한, 해당 점수도 매우 높아 소프트웨어 분야 취업에 '전공'변수는 모델 종류와 대학교 유형과 관계없이 가장 중요한 영향 요소인 것으로 나타난다.

'전공' 변수는 일반대학교보다 전문대학에서 더 중요한 영향 변수로 나타난다. 블랙박스 모델과 글래스박스 모델 모두에서 전문대학의 '전공'변수의 점수가 일반대학의 '전공' 변수 점수보다 모두 높은 것을 확인할 수 있다. <그림 2>는 <그림 1>과는 다르게 변수들간 상호 작용도 고려하여 중요도가 나타나고 있다. <그림 2>에서 (b)는 (a)와 다르게 '전공' 변수와 상호 작용이 일어날 때 순위가 높아지는 것을 확인할 수 있다. 이를 통해 볼 때, 블랙박스 모델과 글래스박스 모델 공통적으로 전문대학에서의 '전공'변수가 일반대학교에서보다 더 중요한 영향 변수인 것으로 설명할 수 있다.

4.2 개별 변수 설명

<그림 3>부터 <그림 18>은 블랙박스 모델과 글래스 박스 모델에 대한 개별 변수 영향을 보여준다.

<그림 3>과 <그림 4>로부터 ‘전공’ 변수는 모든 모델에서 유사 전공 변수값 1과 소프트웨어 전공 변수값 2일때, 대부분 양의 점수값을 가져 취업에 긍정적인 영향 요소임을 알 수 있다. 또한, 소프트웨어 전공인 경우 다른 전공과 비교하여, 모두 매우 높은 점수값을 보이며 그 차이도 매우 큰 것을 볼 수 있다. 특히 전문대학의 경우 일반대학교와 비교할 때 이러한 경향이 더 크게 나타나는데, 모든 모델에서 전문대학의 경우 일반대학교에 비해 유사 전공과 소프트웨어 전공의 최대 점수값이 더 높다.

<그림 3> 블랙박스 모델 설명 : 전공

<그림 4> 글래스박스 모델 설명 : 전공

<그림 5>와 <그림 6>은 ‘직업교육훈련’ 변수를 설명한다. 모든 모델에서 직업교육훈련을 수행한 경우 모두 양의 점수값을 가지고 최대값도 커서 취업에 긍정적으로 미치는 영향이 큰 것을 알 수 있다. 블랙박스 모델에서는, 일반대학교의 경우 SHAP 최대값이 3 이상이고 전문대학의 경우 2.5 이상으로 나타난다. 글래스박스 모델에서는 일반대학교의 경우 최대 점수가 약 2인데 비해, 전 문대학의 경우 약 1.5로 나타난다. 이를 통해, 직업교육 훈련을 수행한 경우 취업에 긍정적인 영향을 미치는 정도가 비교적 크며, 일반대학교가 전문대학보다 해당 변수의 영향이 더 크다. 직업교육 훈련을 수행하지 않은 경우에는, 모든 모델에서 공통적으로 최소값이 거의 0으로 취업에 부정적인 영향은 거의 미치지 않는다.

<그림 5> 블랙박스 모델 설명 : 직업교육훈련

<그림 6> 글래스박스 모델 설명 : 직업교육훈련

<그림 7>과 <그림 8>은 ‘인턴경험’ 변수를 설명한다. 모든 모델에서 소프트웨어 분야 인턴 경험 2값일 때 모두 양의 점수값을 가지고 최대값도 비교적 커서 취업에 긍정적인 영향을 주는 것을 알 수 있다. 블랙박스 모델과 글래스박스 모델간 서로 다른 부분도 관찰된다. 전문대학의 경우, <그림 8>에서 소프트웨어 분야 인턴 경험값일 때 에러 막대(error bar)의 크기가 매우 크게 나타난다. 에러 막대의 크기가 크다는 것은 약간의 데이터 변화에도 결과가 달라질 수 있다는 의미로 결과의 불확실성이 크다는 것을 뜻한다[16]. 이는 해당 값을 가지는 졸업 생수가 매우 작기 때문으로 추정된다.

<그림 7> 블랙박스 모델 설명 : 인턴경험

<그림 8> 글래스박스 모델 설명 : 인턴경험

<그림 9>와 <그림 10>은 ‘휴학기간(학기)‘ 변수를 설명한다. 전문대학의 경우, 모든 모델에서 휴학이 취업에 부정적인 영향을 미친다. 즉, 블랙박스 모델에서는 휴학하는 경우 SHAP값이 모두 음의 값을 가지며, 글래스박스 모델인 경우 1학기를 제외하고는 모두 음의 값을 가지는데 1학기의 경우에도 점수값이 높지 않다. 일반대학교의 경우는, 모든 모델에서 휴학이 취업에 긍정적인 영향과 부정적인 영향을 비슷한 정도로 주고 있는 것으로 나타난다.

<그림 9> 블랙박스 모델 설명 : 휴학기간(학기)

<그림 10> 글래스박스 모델 설명 : 휴학기간(학기)

<그림 11>과 <그림 12>는 ‘취업목표설정시기(학기)‘ 변수를 설명한다. 해당 변수에 대해서는 모델별로 다소 다른 결과를 보인다. 첫째, 블랙박스 모델의 경우, 일반 대학교에서는 6학기 이후부터 목표를 설정하는 경우 0이하의 그래프 길이가 0 이상의 그래프 길이보다 긴 경향을 보여 취업목표시기가 늦어질수록 취업에 부정적인 영향을 미치지만, 전문대학에서는 설정시기별로 취업에 긍정적인 영향과 부정적인 영향을 비슷한 정도로 주고 있는 것으로 나타난다. 둘째, 글래스박스 모델의 경우, 일반대학교에서는 9학기 이상 시기에 목표를 설정하는 경우 취업에 긍정적 영향을 줄 수 있는 것으로 나타나지만, 에러 막대의 크기가 크고 최대 점수도 크지 않아 그 영향이 크지 않다. 전문대학에서는 4학기 이상 시기에 목표를 설정하는 경우 취업에 부정적인 영향을 주는 것으로 나타난다.

<그림 11> 블랙박스 모델 설명 : 취업목표설정시기(학기)

<그림 12> 글래스박스 모델 설명 : 취업목표설정시기(학기)

<그림 13>과 <그림 14>는 ‘취업준비시작시기(학기)‘ 변수를 설명한다. 일반대학교의 경우, 블랙박스 모델에서는 6~8학기에 준비를 시작하는 경우 대부분의 데이터가 SHAP값이 0 이상이고 SHAP의 최대값이 크며, 글래스 박스 모델에서는 6~9학기에 시작하는 경우 양의 점수값을 가져 모든 모델에서 공통적으로 6~8학기에 준비를 시작하는 경우 취업에 긍정적인 영향을 미치는 것으로 나타난다. 전문대학의 경우, 블랙박스 모델에서는 6학기에 준비를 시작한 경우 0 이상의 그래프 길이가 0 이하의 그래프 길이보다 길고 SHAP 최대값도 크게 나타나 긍정적 영향을 주며, 글래스박스 모델에서는 5~7학기에 준비를 시작한 경우 양의 점수값을 가지고 긍정적 영향이 크게 나타나는데 이 중 6학기에 시작한 경우가 에러 막대의 길이가 크지 않으면서도 가장 높은 점수값을 가져 블랙박스 모델과 유사한 결과를 보인다.

<그림 13> 블랙박스 모델 설명 : 취업준비시작시기(학기)

<그림 14> 글래스박스 모델 설명 : 취업준비시작시기(학기)

<그림 15>와 <그림 16>은 ‘진로취업교과목이수’ 변수를 설명한다. 첫째, 블랙박스 모델에서는 일반대학교와 전문대학 모두에서, 이수한 경우가 이수하지 않은 경우보다 SHAP 최소값과 최대값이 더 작아 취업에 부정적인 영향을 미친다. 둘째, 글래스박스 모델에서도 일반대학교와 전문대학 모두에서, 음의 점수값을 가져 취업에 부정적인 영향을 미친다. 또한, 전문대학의 경우 에러 막대의 길이가 크게 나타나 변수의 영향력이 불확실하다.

<그림 15> 블랙박스 모델 설명 : 진로취업교과목이수

<그림 16> 글래스박스 모델 설명 : 진로취업교과목이수

<그림 17>과 <그림 18>은 ‘직장체험프로그램‘ 변수를 설명한다. 첫째, 일반대학교의 경우, 블랙박스 모델 중 LightGBM 모델에서는 체험한 경우가 체험하지 않은 경우보다 SHAP 최대값이 크지만 SHAP 최소값도 더 작은 결과를 보여 취업에 긍정적인 영향과 부정적인 영향을 모두 준다. 이에 비해, 블랙박스 모델 중 CatBoost 모델과 글래스박스 모델에서는 체험한 경우 양의 점수값을 가져 취업에 긍정적인 영향을 주는 것으로 나타난다. 둘째, 전문대학의 경우, 블랙박스 모델에서는 체험한 경우가 체험하지 않은 경우보다 SHAP 최대값이 크지만, SHAP 최소값도 작아 긍정적인 영향과 부정적인 영향을 모두 준다. 이에 비해, 글래스박스 모델에서는 체험한 경우 긍정적인 영향을 보이지만 에러 막대의 크기가 커서 해당 변수의 영향력이 다소 불확실하다.

<그림 17> 블랙박스 모델 설명 : 직장체험프로그램

<그림 18> 글래스박스 모델 설명 : 직장체험프로그램

Ⅴ. 결론

본 논문에서는 한국고용정보연구원에서 제공하는 GOMS 데이터를 사용하여, 일반대학교와 전문대학으로 나누어 소프트웨어 분야 취업 영향 요인을 XAI 기술을 이용하여 분석하였다. 또한, 다양한 관점의 분석을 위해 XAI의 블랙박스 모델과 글래스박스 모델을 모두 적용하여 설명 모델별로 영향 요인을 나누어 설명하였다. 대학 유형과 설명 모델에 따라 분석된 결과는 다음과 같이 요약된다.

취업 모델별 성능 평가 결과는 다음과 같다. 글래스박스 모델인 EBM 모델은 일반대학교와 전문대학 취업 모델 모두에서 정확도, 정밀도, 특이도가 가장 높았다. 민감도, F1-점수, 균형정확도는 일반대학교 취업 모델에서는 LightGBM 모델이 가장 높았고, 전문대학 취업 모델에서는 CatBoost 모델이 가장 높았다. 블랙박스 모델인 LightGBM 모델과 CatBoost 모델은 각각 일반대학교 취업 모델과 전문대학 취업 모델에서 성능 평가 지표 결과가 고루 가장 우수하지만, 다른 대학 유형 취업 모델에서는 가장 나쁜 결과를 보였다. 이에 비해 글래스박스 모델인 EBM 모델은 일반대학교와 전문대학 취업 모델 모두에서 고루 우수한 결과를 보였다.

취업에 영향을 미치는 중요 변수는 설명 모델과 대학 유형별로 서로 다르게 나타나는데, 중요 변수를 2개씩만 중요 순서대로 요약하면 다음과 같다. 일반대학교의 경우, 블랙박스 모델에서는 ‘전공’과 ‘취업목표설정시기(학기)’ 변수가 중요하고, 글래스박스 모델에서는 ‘전공’과 ‘취업준비시작시기(학기)’ 변수가 중요하다. 전문대학의 경우, 블랙박스 모델에서는 ‘전공’과 ‘인턴경험’ 변수가 중요하고, 글래스박스 모델에서는 ‘전공’, ‘인턴경험&전공’ 변수가 중요하다. '전공' 변수는 모든 모델과 대학 유형에서 공통적으로 가장 중요한 변수로 나타나고 해당 점수도 매우 높다. 특히, '전공' 변수는 모든 모델에서 일반대학교보다 전문대학에서 더 중요한 변수로 큰 영향을 미치는 것으로 나타났다.

‘전공’, ‘직업교육훈련’, ‘취업준비시작시기(학기)’, ‘인턴경험’ 변수는 블랙박스와 글래스박스 모델 모두에서 취업에 긍정적인 영향을 미치는 변수의 값이 거의 동일하게 나타났다. 첫째, 일반대학교와 전문대학 모두에서 소프트웨어 분야를 전공할수록, 직업 교육 훈련을 받을 수록 취업에 매우 긍정적으로 작용한다. 둘째, 취업준비 시작시기가 일반대학교의 경우는 6~8학기일 때, 전문대학의 경우는 6학기일 때 취업에 다소 긍정적인 영향을 미친다. 셋째, 일반대학교에서는 소프트웨어 분야 인턴을 경험할수록 취업에 미치는 긍정적인 영향이 매우 큰 것으로 나타난다. 그러나, 전문대학에서는 소프트웨어 분야 인턴 경험이 취업에 긍정적인 영향을 미치기는 하지만, 인턴을 경험한 졸업생 수가 매우 작아 영향력이 불확실하다.

‘휴학기간(학기)’, ‘취업목표설정시기(학기)’, ‘진로취업 교과목이수’, ‘직장체험프로그램’, 변수에 대해서는 다음과 같다. 첫째, ‘휴학기간(학기)’ 변수에 대해서는, 블랙박스와 글래스박스 모델 모두에서 동일한 설명을 한다. 즉, 전문대학의 경우 휴학이 취업에 부정적인 영향을 미치고, 일반대학교에서는 큰 영향이 없다. 둘째, ‘취업목표설정시기(학기)’와 ‘직장체험프로그램’ 변수에 대해서는 블랙박스와 글래스박스 모델, 일반대학교와 전문대학간 서로 다른 설명을 한다. 즉, 취업 목표 시기가 늦어질수록 취업에 부정적인 영향을 미치고, 직장 체험 경험이 취업에 긍정적인 영향을 줄 수 있지만, 대학 유형과 설명 모델에 따라 그렇지 않은 경우도 있다. 셋째, 진로 취업 교과목을 이수하는 것은 일반대학교와 전문대학 모두에서 설명 모델과 관계없이 취업에 긍정적인 영향을 미치지 못하는 것으로 설명한다.

본 논문은 관련 연구 중 가장 최근의 기존 연구를 기반으로 이를 확장하여 연구하였다. 기존 연구 결과와 비교할 때, 본 연구 결과는 다음과 같은 차이점을 보인다. 첫째, 일반대학교에 한정한 기존 연구와는 다르게, 본 연구에서는 일반대학교와 전문대학으로 분류하여 대학 유형별로 취업 요인을 분석하였다. 둘째, 블랙박스 모델에 한정한 기존 연구와는 다르게, 본 연구에서는 블랙박스 모델과 글래스박스 모델을 모두 적용하여 XAI 모델 유형에 따라 설명 가능성이 달라질 수 있는 점을 반영하였다.

본 연구는 다음과 같은 시사점을 가진다. 첫째, 연구 결과를 활용함으로써, 소프트웨어 분야 취업을 희망하는 대학교 재학생과 졸업생이 취업 요인을 이해할 수 있다. 이 때, 일반대학교와 전문대학에 따른 취업 요인의 공통점과 차이점을 이해함으로써 대학 유형에 따른 효과적인 취업 준비에 도움이 될 수 있다. 둘째, 최신 인공지능 기술 중 하나인 XAI 기술을 활용한 사례를 제시한다. 이때, 블랙박스 모델과 글래스박스 모델 모두를 적용한 사례를 제시함으로써 XAI 모델 유형에 따른 서로 다른 특성을 이해할 수 있는 사례로 활용될 수 있다.

향후 연구에서는 본 논문에서 사용된 데이터 이외의 소프트웨어 취업과 관련된 데이터를 추가 분석하여 본 연구 결과를 확장하는 것이 필요하다. 본 연구에서 사용된 데이터는 가장 신뢰성 있는 대졸자 대상 취업 데이터 중 하나이기는 하지만, 소프트웨어 취업을 중심으로 구축된 데이터가 아니라는 한계점이 있다. 앞으로의 연구에서는 데이터를 추가 수집하고 최신 디지털 기술을 추가하여 연구를 심화하고자 한다.

References

  1. 황정원.길혜지, "청년고용정책이 대졸 청년층 취업에 미치는 효과 분석," 직업능력개발연구, 제24권, 제2호, 2021, pp.67~94.
  2. 김효정.오새내, "데이터마이닝을 이용한 대학생들의 취업 로드맵에 관한 기초 연구," 디지털산업정보학회 논문지, 제19권, 제1호, 2023, pp.129-138.
  3. 권준희.김성림, "부스팅 기계 학습과 SHAP를 이용한 설명 가능한 소프트웨어 분야 대졸자 취업 모델 개발," 디지털산업정보학회 논문지, 제19 권, 제3호, 2023, pp.177-192.
  4. 송선혜.유한구, "대학 취업률 경로 분류와 취업률 결정 요인-대학 진로.취업 지원 현황을 중심으로," 직업능력개발연구, 제23권, 제2호, 2020, pp114-138.
  5. 최재식, "설명가능 인공지능 연구동향," 정보과학회지, 제37권, 제7호, 2019, pp.8-14.
  6. Alejandro Barredo Arrieta, Natalia D'iaz-Rodr'iguez, and Javier Del Ser, "Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opp ortunities and Challenges toward Responsible AI," Information Fusion, Vol.58, 2020, pp.82-115.
  7. Arun Rai, "Explainable AI: From black box to glass box," Journal of the Academy of Marketing Science, Vol.48, 2020, pp.137-141.
  8. Pantelis Linardatos, Vasilis Papastefanopoulos, and Sotiris Kotsiantis, "Explainable AI: A Review of Machine Learning Interpretability Methods," En tropy, Vol.23, No.1, 2021.
  9. Scott M. Lundberg and Su-In Lee, "A Unified Approach to Interpreting Model Predictions," Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017, pp.4768-4777.
  10. 김홍비.심산신, "악성 사이트 탐지를 위한 설명가능한 인공지능(XAI) 기반 기계학습 특징 선별에 관한 연구," 2022년도 한국통신학회 추계종합학술발표회 논문집, 2022, pp.411-412.
  11. Harsha Nori, Samuel Jenkins, Paul Koch, and Rich Caruana, "InterpretML: A Unified Framework for Machine Learning Interpretability," ArXiv, abs/1909.09223, 2019.
  12. 한국고용정보원,"대졸자직업이동경로조사(GOMS)," https://survey.keis.or.kr/goms/goms01.jsp, 2024.02.18.
  13. 문찬주.양찬주.나윤진.남인혜, "대학생의 취업 준비 시작 시기에 따른 학업성취 및 노동시장 이행 성과 분석," 교육재정연구, 제27권, 제3호, 2018, pp.27-56.
  14. 김민선, "전문대학 졸업자의 첫 직장 취업성과에 대한 영향요인 분석," 지방교육경영, 제26권, 제3호, 2023, pp.29-54.
  15. 김희준.김대성.김승재.김진범.윤상후, "PSM기반 대졸취업자의 전공관련 취업 결정 요인에 관한 연구," 한국자료분석학회, 제21권, 제4호, 2019, pp.1827~1839.
  16. InterpretML, "What the FAQ," https://interpret.ml/docs/faq.html, 2024.02.18.