DOI QR코드

DOI QR Code

Analysis of Current Situation of University Student Loans Based on Bigdata

빅데이터 기반 대학생 학자금 대출 현황 분석

  • 김정준 (한국산업기술대학교 컴퓨터공학과) ;
  • 장성준 (여주대학교 소프트웨어융합과) ;
  • 이용수 (여주대학교 소프트웨어융합과)
  • Received : 2019.07.10
  • Accepted : 2019.10.04
  • Published : 2019.10.31

Abstract

Before the scholarship loan system was implemented at the Korea Scholarship Foundation, the government's role was strengthened by the direct lending of student funds to banks and other financial institutions. However, the low repayment performance of student loans has raised concerns over the future of student loans and the government's financial burden. Moreover, since student loans are repaid even after graduating from college to support low-income families, it is highly unlikely that the repayment rate of student loans will improve unless the employment rate and income level of the borrower improve. In this paper, the final visualization graph is presented of the repayment amount of the student loan through the collection, storage, processing and analysis phase in the Big Data-based system. This could be the basis for visually checking the amount of student loans to come up with various ways to reduce the burden on the current student loan system.

한국장학재단에서 학자금 대출제도가 시행되기 전에는 은행 등 금융회사를 통해 학자금 대출제도가 시행되고 있었지만, 한국장학재단 설립된 이후는 재단이 직접 학자금을 대출함으로써 정부의 역할은 강화되었다. 하지만, 학자금 대출의 상환실적이 저조하여 향후 학자금 대출의 상당한 부실과 정부의 재정적 부담이 우려되고 있다. 더구나 학자금 대출은 저소득층 지원을 위하여 대학을 졸업한 이후에도 상환이 이루어지기 때문에 채무자의 향후 취업률과 소득수준이 개선되지 않는 한 학자금 대출의 상환율이 개선될 가능성은 매우 희박하다. 본 논문에서는 빅데이터 기반 시스템에서 수집, 저장, 처리, 분석 단계를 거쳐 학자금 대출의 상환 금액을 최종 시각화 그래프를 표현하였다. 이는 학자금 대출에 대한 금액을 눈으로 확인하여 현재 학자금 대출제도에 대한 부담을 줄일 방안을 다양하게 생각해 낼 수 있는 근거자료가 될 수 있다.

Keywords

Ⅰ. 서론

학자금 대출을 이용한 대학생들은 졸업할 경우 큰 금액의 빚을 지고 사회생활을 시작해야 하는 부담이 있다. 이에 본 논문에서는 학자금 대출 현황을 분석하여 대학생들을 대상으로 부담을 줄일 방안을 모색한다. 학자금대출 현황 데이터는 공공 데이터 포털(www.data.go.kr)에서 수집하였다.

수집한 데이터는 일반 상환과 취업 후 상환이 있으며 세부적인 기준으로 대학소재지와 주민등록상 거주지로 나뉜다. Hive를 사용한 처리 과정을 수행하기 위해 윈도우에 있는 csv파일을 리눅스로 이동시킨 후 하둡 공간 내부로 복사하였다. 처리 과정을 통해 필요한 데이터 컬럼만 골라내 테이블을 구성, 새로운 파일로 저장하였다[1].

다음 단계는 상세한 분석 및 표현 작업을 위해 Windows 환경에서 R Studio를 사용하였다. 위에서 말한 일반 상환과 취업 후 상환으로 나뉘어 있는 두 가지 데이터를 통합하는 작업을 비롯하여 필요한 데이터로 정제하는 작업들을 다수 거친 후, 쉽게 알아볼 수 있도록 그래프를 통한 도식화를 진행하여 결과물을 도출하였다[2].

Ⅱ. 관련 연구

1. 공공 데이터 포털

학자금대출 현황 데이터는 공공 데이터 포털(www.data.go.kr)에서 수집하였다. 공공 데이터 포털은 국가기관, 지방자치단체, 공공기관 등이 법령 등에서 정하는 목적을 위하여 생성 또는 취득하여 관리하고 있다.

데이터베이스, 전자화된 파일 등 광(光) 또는 전자적 방식으로 처리된 공공 데이터를 민간에 제공함으로써, 민간 활용을 통한 신규 비즈니스와 일자리 창출, 국민편익을 향상하기 위한 사이트이다[3-4].

2. Hortonwork Sandbox

빅데이터의 처리과정은 대체적으로 수집, 저장, 처리, 분석 및 시각화 5단계로 구성되며, 각 단계 마다 오픈 소스로 이루어진 파일을 다운로드 받아 사용하고자 하는 PC의 환경에 맞추어 설치가 진행된다. 하지만, 기본적인 컴파일 단계나 환경설정의 어려움을 느끼는 사용자를 위해 Hortonwork에서 제공하는 Sandbox를 사용하면 편리하게 빅데이터의 처리과정 중 수집, 저장, 처리 단계를 이용할 수 있다[5].

본 논문에서 활용한 Hortonwork SandBox의 버전은 2.1이며, 수집에 필요한 스쿱(Sqoop), 플룸(Flume), 저장에 필요한 하둡(Hadoop), 처리에 필요한 피그, 하이브(Pig, Hive) 등 다양한 오픈소스 도구를 하나로 묶어 실행만 하면 손쉽게 빅데이터 플랫폼을 사용할 수 있다[6-7].

3. R Studio

분석에 사용한 프로그램은 R Studio를 사용하였으며, R은 오픈소스로 이루어져 무료로 사용이 가능하고, 다양한 라이브러리를 지원하기 때문에 대규모 데이터의 분석 결과를 직관적으로 이해할 수 있는 시각화 기능이 뛰어나다[8].

다양한 운영체제(윈도우, 유닉스, 리눅스, 맥 등)에서 구동이 가능해 접근성이 편리하며, 빅데이터 플랫폼에서 제공하는 다양한 도구들과 연동하여 데이터를 손쉽게 불러오고, 현재 많이 사용되는 정형 데이터베이스 중 하나인 MySQL과 연동을 통한 데이터 분석 및 시각화가 가능하기 때문에 본 논문에서 분석 프로그램으로 R Studio를 사용하였다[9].

Ⅲ. 대학생 학자금 대출 현황 분석

본 논문에서 제공하는 학자금 대출 현황 분석 프로세스는 다음과 진행된다.

‘수집’은 공공 데이터 포털(www.data.go.kr)에서 수집되며, ‘저장’은 수집된 데이터를 Mount를 통해 Sandbox 내의 하둡에 저장되고, ‘처리’는 Sandbox 내부의 Hive를 이용하여 처리하였다. 마지막 ‘분석’은 R studio를 이용하여 최종 결과물 데이터를 보다 쉽게 이해할 수 있도록 그래프로 도식화하였다.

1. 데이터 수집

본 논문에서 분석하고자 하는 학자금 대출 현황의 데이터는 공공 데이터 포털에서 조회후 다운로드하여 수집하였다. 수집된 데이터는 2015년에 업로드된 학자금 대출 통계정보이며, URL은 다음과 같다.

https://www.data.go.kr/dataset/fileDownload.do?atchFileId=FILE_000000001389858&fileDetailSn=1

수집한 데이터는 주민등록상 거주지(일반 상환, 취업 후 상환), 대학소재지(일반 상환, 취업 후 상환) 4가지의 csv 파일을 이용하였다.

2. 데이터 저장

데이터 저장은 SandBox 내부의 HDFS를 이용하였으며, 윈도우에서 수동으로 다운로드하여 수집한 데이터를 SandBox로 연결하기 위한 작업은 그림 1과 같다

OTNBBE_2019_v19n5_229_f0001.png 이미지

그림 1. Sandbox 공유 폴더 마운트

Fig. 1. Mount Sandbox Shared Folders

윈도우에 수집한 데이터가 있는 data 디렉토리와 Sandbox 내의 /mnt/share 디렉토리를 마운트하여 데이터를 HDFS로 전달할 작업을 진행하였다.

저장 후 ls 명령어로 확인하였으며 저장된 파일은 house location job/nor.csv(주민등록상 거주지 취업 후 상환, 일반 상환), university_location_job/nor.csv(대학소재지 취업 후 상환, 일반 상환)으로 구분된다.

리눅스 내에 파일 이동이 완료된 후 분산 저장하기 위해서는 하둡으로 파일을 업로드 필요가 있다. 업로드 하는 명령어는 그림 2의 ‘hadoop fs –put 파일명 /업로드할 위치’의 명령어를 통해 ‘hadoop fs –put house location job.csv /hadoop_data’ 명령어로 HDFS 내로 파일을 업로드 하였다.

OTNBBE_2019_v19n5_229_f0002.png 이미지

그림 2. 리눅스에서 하둡으로 파일 이동

Fig. 2. Move files from Linux to Hadoop

업로드 후 리눅스 명령어와 유사하게 ‘hadoop fs –ls /hadoop_data’ 명령어를 통해 확인해보면 파일이 업로드된 것을 확인할 수 있으며, 나머지 3개의 파일도 동일하게 HDFS 내로 업로드 한다.

3. 데이터 처리

데이터 처리에는 Hive를 사용하였으며, Hive는 SQL과 유사한 문법과 형태를 가지고 있기 때문에 편리하게 사용할 수 있다.

우선 그림3과 같이 Hive를 실행하여 프롬프트가 활성화된 것을 확인한 후 HDFS에 저장된 데이터를 로드하기 위한 테이블 생성을 그림 3과 같이 한다.

OTNBBE_2019_v19n5_229_f0003.png 이미지

그림 3. 하이브에서 테이블 생성

Fig. 3. Create Table in Hive

생성하는 테이블 명은 house_nor이며, 2011년부터 2015년까지의 정수형 데이터를 저장하기 때문에 그림 3과 같이 생성하고, csv형식의 데이터는 데이터의 구분이 ‘,’ 콤마를 이용하여 구분하기 때문에 ROW FORMAT DELIMITED FIELDS TERMINATED BY 구문을 통해 콤마를 기준으로 데이터를 구분한다는 옵션을 준다.

OTNBBE_2019_v19n5_229_f0004.png 이미지

그림 4. HDFS 데이터를 Hive로 입력

Fig. 4. Enter HDFS data as Hive

그림 3을 통해 생성되는 house_nor 테이블에 테이터를 입력하는 명령어는 “load data inpath ‘/hadoop/data/house location nor.csv’ into table house_nor;”와 같다.

데이터 저장 단계에서 진행하여 HDFS 내에 있는 /hadoop_data/house_location_nor.csv 파일을 Hive에서 생성한 house_nor 테이블로 저장하고, 저장된 테이블을 select 한 결과는 그림 5와 같다.

OTNBBE_2019_v19n5_229_f0005.png 이미지

그림 5. 하이브에 저장된 데이터를 Select 결과

Fig. 5. The result of selecting the data stored in the Hive

그림 5는 house_nor 테이블에 저장되어있는 데이터를 Select 쿼리를 이용한 결과이다. 경북, 경남 등 대한민국 각 지역에서 학자금 대출 상환금액과 개인에게 제공해준 금액을 확인할 수 있다.

전체 데이터가 저장되어 있는 house_nor 테이블에서 년도마다 학자금 대출 금액의 총액을 저장할 수 있는 테이블(house_location_nor)을 새로 생성한다. 처음에 생성한 house_nor 테이블과 유사하게 ‘,’ 콤마를 기준으로 데이터를 구분하기 때문에 “ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’;” 옵션을 지정한다.

OTNBBE_2019_v19n5_229_f0006.png 이미지

그림 6. 원하는 데이터만 다른 테이블로 저장

Fig. 6. Save only the desired data to a different table

그림 7은 최종 정제된 데이터를 R Studio에서 분석을 하기 위해서 리눅스 로컬로 데이터를 이동하는 명령어이다. 그림 7 과정을 통해 최종 정제된 데이터를 오픈하여 확인해본 결과는 그림 8과 같으며, 처리 과정을 4번 반복하여 4개의 최종 정제된 파일을 얻을 수 있다.

OTNBBE_2019_v19n5_229_f0007.png 이미지

그림 7. 새로 정제한 테이블 데이터를 리눅스로 이동

Fig. 7. Move newly purged table data to Linux

OTNBBE_2019_v19n5_229_f0008.png 이미지

그림 8. 최종 정제된 데이터

Fig. 8. Final Refined Data

4. 분석 및 시각화

분석 및 시각화 단계에서는 R 프로그래밍을 이용하고, 분석 전 최종 정제된 파일 4가지(주민등록상 거주지 취업 후 상환, 일반 상환, 대학소재지 취업 후 상환, 일반 상환)를 주민등록상, 대학소재지로 묶어 2개의 데이터프레임으로 만든 코드는 그림 9와 같다.

OTNBBE_2019_v19n5_229_f0009.png 이미지

그림 9. 대학소재지 데이터프레임 코드

Fig. 9. Code of data frames at university site

1) university_location_job/nor 변수에 최종 정제된 대학소재지 취업 후 상환, 일반 상환 두 파일을 변수에 저장한다. 2) university_location 변수에 취업 후 상환, 일반 상환 두 테이블을 통합한다. 통합하면 문자열은 덧셈을 할 수 없으므로, 문자열로 구성된 1열의 값이 이상해진다. 3) 이상해진 1열의 컬럼을 수정하기 위해 university_location의 첫 번째 열에 기존에 존재하던 데이터프레임의 1열을 다시 덮어 씌어 준다. 4) 통합된 데이터프레임을 university_location_test.csv로 다시 파일을 추출한다.

위 데이터프레임 생성 과정을 동일하게 주민등록상 거주지 취업 후 상환, 일반 상환 두 파일에도 적용하여 하나의 데이터프레임으로 만들고, 확인한 결과는 다음 그림 10 및 그림 11과 같다.

OTNBBE_2019_v19n5_229_f0010.png 이미지

그림 10. 대학소재지 통합 상환 파일

Fig. 10. University Location Integrated Payback File

OTNBBE_2019_v19n5_229_f0011.png 이미지

그림 11. 주민등록상 통합 상환 파일

Fig. 11. Integrated repayment file for resident registration

대학소재지 및 주민등록지 통합 상환 파일을 이용하여 막대그래프을 이용하여 연도별 통합 금액을 확인하였으며, 코드는 그림 12와 같다.

OTNBBE_2019_v19n5_229_f0012.png 이미지

그림 12. 주민등록지 기준 금액 코드

Fig. 12. code of the amount based on the resident registration site

1) 그림 11에서 제공되는 데이터(house_location)를 house_location 변수에 저장한다. 2) 1열에 “_”을 기준으로 컬럼을 나눈 데이터프레임을 house_location_ver_1 변수에 저장한다. 3) 2)에서 나눈 데이터프레임을 1)의 열을 제외한 학자금 통환 금액과 합쳐 하나의 데이터프레임을 house_location_ver_2로 저장한다. 4) house location bar 변수에 3)에서 작업한 최상단 1, 2행의 Total은 그래프에 표현하지 않으므로 삭제한다. 5) house_location_bar 변수에 ‘지역_Person’으로 된 행을 삭제한다. 6) R Studio에서 제공하는 기본 barplot 그래프를 이용하여 년도 별로 색을 지정하며, 제목과 x축, y축의 이름을 정하고, y축에서 출력되는 값의 범위를 정한다. 7) 출력된 그래프의 색에 맞추어 그래프 오른쪽 상단에 범례를 표시한다.

그림 13은 주민등록지 기준으로 학자금 상환 금액을 나타냈으며, 여덟 번째 부분인 경기도에서 학자금을 모든 지역에서 최고로 많이 상환했으며, 첫 번째 부분인 서울이 두 번째로 상환 금액이 많았다. 상환 금액이 낮은 지역은 울산, 제주, 세종으로 확인할 수 있다.

OTNBBE_2019_v19n5_229_f0013.png 이미지

그림 13. 주민등록지 기준 금액 막대그래프 표현

Fig. 13. Bargraph of the amount based on the resident registration site

그림 12의 코드를 이용하여 이제 대학소재지 기준 통합 상환 금액을 막대 그래프로 표현한다. 코드 자체는 동일하며 그림 12의 1) 설명에서 이야기했던 데이터만 대학소재지 통합 상환 파일로 대처하면 똑같이 구성되기 때문에 코드는 생략하였다. 결과는 그림 14와 같다.

OTNBBE_2019_v19n5_229_f0014.png 이미지

그림 14. 대학소재지 기준 금액 막대 그래프 표현

Fig. 14. Bargraph of the amount based on University Location

그림 14는 대학소재지 기준 통합 상환 금액을 막대 그래프로 표현하였으며, 주민등록지 기준과 다르게 첫 번째로 가장 많은 금액을 상환한 지역은 서울이며, 두 번째가 경기도로 나타났다. 하지만, 낮은 지역은 주민등록지 기준과 동일하게 울산, 제주, 세종이 낮게 표현되었다. 그림 15는 최근 5년간 주민등록지 기준 지역별 금액을 원형 그래프로 표현할 때 사용한 코드이다. 위 코드는 그림 12에서 진행한 코드에서 이어서 진행한다.

OTNBBE_2019_v19n5_229_f0015.png 이미지

그림 15. 최근 5년간 주민등록지 기준 금액 코드

Fig. 15. Code for the amount based on the resident registration site for the last five years

1) house_location에 지역별 최근 5년 평균 금액을 가지는 컬럼을 추가하여 house location pie sample 1에 저장한다. 2) house_location_pie_sample_2 변수에 최상단 1, 2행의 Total은 그래프에 표현하지 않으므로 삭제한다. 3) house_location_pie_sample_3 변수에 ‘지역_Person’으로 된 행을 삭제한다. 4) R Studio에 기본 내장되어 있는 원형 그래프를 그릴 수 있는 pie를 이용하여 지역별로 색을 다르게 지정하여 표현한다. 5) 출력된 원형 그래프의 우측 상단에 범례를 지정한다.

그림 16은 주민등록지 기준 5년의 평균 상환 금액을 원형 그래프로 표현한 결과이다. 경기도 지역의 평균 상환 금액이 최고로 높았고, 두 번째로 서울이 높은 결과를 확인할 수 있다.

OTNBBE_2019_v19n5_229_f0016.png 이미지

그림 16. 주민등록지 기준 평균 금액 원형 그래프 표현

Fig. 16. Average amount based on resident registration paper circular graph representation

그림 15의 코드를 이용하여 이제 대학소재지 기준 통합 상환 금액을 원형 그래프로 표현한다. 코드 자체는 동일하기 때문에 생략하였다. 그림 17은 대학소재지 기준 5년 치의 평균 상환 금액을 원형 그래프로 표현하였으며, 주민등록지 기준과 유사하게 서울과 경기도에서 높은 상환 금액을 확인할 수 있다.

OTNBBE_2019_v19n5_229_f0017.png 이미지

그림 17. 대학소재지 기준 평균 금액 원형 그래프 표현

Fig. 17. Average amount of money based on university site circular graph representation

하지만 충남 지역에서 대학소재지가 주민등록지 기준보다 더 높게 나왔으며, 인천지역은 감소하였다.

Ⅳ. 결론

대학생의 등록금 및 생활비가 포함된 학자금 대출 현황을 볼 수 있다. 학자금 대출을 받는 유형은 일반 상환과 취업 후 상환 두 가지로 분류된다. 두 유형을 합쳐 지역별 학자금 대출 현황을 분석하였다. 지역별로 분석할 경우 주민등록상 거주지와 대학소재지 현황으로 분리하여 분석하였다.

주민등록상 거주지에서는 경기 서울 인천 부산 순으로 학자금 대출을 많이 받고 있으며, 대학소재지에서는 서울 경기 충남 경북 순으로 학자금 대출을 많이 받고 있었다. 대학생들이 졸업하게 되면 상당한 금액의 빚을 지고 사회생활을 시작해야 한다. 이러한 부담을 줄이기 위해 정부의 지원이 조금이나마 더 필요하다고 생각한다.

주민등록상 거주지에서의 지역별 학자금 대출 비율에 따라 대학생들을 대상으로 하는 지역의 동사무소, 시청, 공공기관 등에서 근로 장학생 기회 제공 등 다른 다양한 혜택을 지원의 기대효과를 낼 수 있는 근거자료가 될 수 있다.

대학 소재지에서의 지역별 학자금 대출 비율에 따라 대학생들을 대상으로 학교 주변 보증금 지원, 월세 인하 등의 혜택을 줄 수 있다. 지역 순위에 따라 근로 장학생 추가 채용, 기숙사 입주 비용 인하 등의 지원 및 기대효과를 낼 수 있는 근거자료가 될 수 있다.

References

  1. Ashish Thusoo, Joydeep Sen Sarma, Namit Jain, Zheng Shao, Prasad Chakka, Suresh Anthony, Hao Liu, Pete Wyckoff, Raghotham Murthym, "Hive: a warehousing solution over a map-reduce framework", Proceedings of the VLDB Endowment, Vol. 2, No. 2, pp. 1626-1629, Aug 2009. DOI: https://doi.org/10.14778/1687553.1687609
  2. Yeoung-Eun Yang, "The Study of repayment burdens of student loan program guaranteed by government and Income Contingent Loan by University Type and Income Level", Department of Education The Graduate School of Ewha Womans University, pp. 1-107, Jan 2011.
  3. Man-Jai Lee, "Big Data and the Utilization of Public Data", Internet and information Security, Vol. 2, No. 2, pp. 47-64, Nov 2011.
  4. Hyo-Jin Song, Sung-Soo Hwang, "Seeking Strategies for Local Goverments to Prepare for Public Data Act", The Korean Association for Regional Information Society, Vol. 17, No. 2, pp. 1-28, June 2014.
  5. Jeong-Joon Kim, Kwang-Jin Kwak, Don-Hee Lee, Yong-Soo Lee, "Study of Trust Bigdata Platform," Journal of The Institute of Internet, Broadcasting and Communication, Vol. 16, No. 6, pp. 225-230, Dec, 2016. DOI: https://doi.org/10.7236/JIIBC.2016.16.6.225
  6. HortonWorks Data Platform (HDP) Support, https://ko.hortonworks.com/services/support/enterprise/
  7. HortonWorks HDP 2.1 Introduction Component, https://ko.hortonworks.com/licenses/
  8. Hadley Wickham, "Advanced R", http://adv-r.had.co.nz/
  9. Jeffrey S. Racine, "R Studio: A Platform-Independent IDE for R and Sweave", Journal of Applied Econometrics, Vol. 27, No. 1, pp. 167-172, Oct 2011. DOI: https://doi.org/10.1002/jae.1278