1. 서론
보이스피싱은 2018년 34,132건 2019년 37,667건 2020년 31,681건 2021년 30,982건으로 코로나 팬데믹의 시기에서도 3만 건이 발생하는 사이버 범죄이다[1]. 오늘날 보이스피싱으로 피해가 점점 심각해지고 그 피해액이 점점 증가함에 따라 개인의 문제가 아닌 사회적 문제로 대두되기 시작했다. 또한, 보이스피싱의 수법은 공문위조, 개인정보를 이용한 사회공학적 방법 활용, 악성 앱 설치와 같이 데이터 및 모바일, 인간의 심리를 활용하여 교묘하게 행해지고 있다. 특히, 정보통신 기술의 발달로 누구나 인터넷과 스마트폰을 활용하고 수많은 ATM가 설치된 한국에서 보이스피싱 발생률이 높다[2]. 사이버 범죄에 속하는 보이스피싱은 시간이 흐를수록 그 범죄수법이 사이버 방식에 특화되고 고도화할수록 범인 검거는 어려워질 것이다. 또한, 보이스피싱 범죄에는 화폐의 유통이 심해지는 시기에 급격하게 발생하는 계절성이 존재하여 시계열 자료 분석에 있어 난해한 요소가 있다.
본 연구는 보이스피싱 발생 추이를 보이스피싱의 발생 건수의 계절성을 화폐의 이동이 심해지는 것으로 판단해 X-12 계절성 조정 방법론을 이용하였으며, 과거의 경험·지식에 의존하여 시계열 자료를 예측하는 기법인 ARIMA 모형으로 예측했다.
2. 관련 연구
정웅(2020)[3]에 의하면, 보이스피싱 발생은 2006년 이후 약 3년 주기로 증가하며, 보이스피싱 수사팀 수사관 연간 적정 수사량 7.42건이 나왔다. 이승용·이주락(2020)[4]은 보이스피싱 범죄 유형을 바탕으로 빅데이터와 FDS를 이용하여 피해자의 통화내역, 대포통장 계좌 거래내역 분석/탐지를 통해 이상금융 거래정보로 실시간 보이스피싱 예측 시스템의 모형을 고안했다. 조호대(2012)[5]에 의하면, 보이스피싱의 범죄수법이 발달하고 전문화되면서 범죄 근절이 어려워지면서 국가기관의 신뢰가 저해되기에 금융·통신·f수사 분야에서 문제점에 대한 대응책을 제시했다.
보이스피싱에 관련된 선행연구[3-5]를 검토하면, 보이스피싱 범죄의 특징인 화폐의 이동이 심해지는 시기에 급증하는 현상에 초점을 맞춘 연구가 드물며, 보이스피싱 발생 건수 예측에 관한 연구가 많지 않다. 개인정보 유출에 의해 발생하는 보이스피싱 범죄를 분석하기 위해서는 개인정보 보안을 강화하는 것도 중요하나, 범죄 실태를 파악하기 위해서는 보이스피싱 범죄에 내재 된 화폐의 이동이 심화되어 발생하는 계절성을 고려하며 분석해야 한다. 더불어 본 연구에서 진행한 예측 연구는 보이스피싱이란 범죄 실태를 파악할 수 있을 뿐만 아니라 예측 결과를 토대로 정책 결정 지표로 이용할 수 있다.
따라서 본 연구에서는 보이스피싱 범죄 발생에 존재하는 계절성을 X-12 계절성 조정 방법론으로 계절성을 조정하고, ARIMA 모형을 통해 범죄 실태를 파악하며 정책 의사결정 지표가 될 수 있는 발생 건수를 예측하였다.
3. 보이스피싱 발생 예측
3.1 ARIMA
ARIMA는 과거 경험 및 지식에 의존하여 미래를 예측하는 기법으로 비정상적인 시계열을 분석할 때 주로 이용하는 기법이다. 예컨대 인간 사회에 존재하는 대다수의 시계열 자료는 비정상적인 시계열 자료로 ARIMA 모형에서 I(차분, d=n, differencing)를 통해 정상성을 갖는 시계열 자료로 조정하고 AR(Auto regressive)과 MA(Moving Average)를 통해 시계열 자료를 분석 및 예측한다[6].
Peng Chen·Hongyong·Yuan·Xueming Shu(2008)[7]에 의하면, ARIMA 모형이 사회 문제, 마케팅 등의 예측에 적합함에 초점을 맞춰 SES와 HES 모형보다 단기 중국 범죄 발생 예측 결과에서 RMSE와 MAPE 비율에 있어 우수함을 보였다. Haneen Alabdulrazzaq의 논문[8]에서는 코로나 발생 추이 예측에 주로 쓰이는 ARIMA 모형을 이용해 2020년 쿠웨이트 코로나 발생 자료를 토대로 예측해 상관관계(Correlation) 예측과 실제 값의 합이 0.996으로 95% 이내의 예측 정확도를 보였다. 김재문·장성호·김성수(2017)[9]에 의하면, 시계열 자료의 계절적 변동에 초점을 맞춰 고령 운전자의 교통사고 자료를 ARIMA 모형에 대입하여 MAE 227.95, MAPE 2.03%로 높은 신뢰도의 예측 결과를 냈다. 위 세 연구의[7-9] 공통점으로는 시간이 지남에 따라 누적된 특정 데이터와 그 안에서의 계절적 변동을 ARIMA 모형을 통해 미래에 대해 예측했다는 것이다. 다시 말해 ARIMA 모형은 누적된 특정 데이터를 분석하는 특징이 있다는 것으로 사회 문제와 관련된 시계열 자료를 분석하는 데에 있어 적합한 모형이라는 것을 확인할 수 있다.
보이스피싱은 조직적인 범죄 형태로 발생한다. 즉, 보이스피싱 조직 내에 조직원을 통하여 개별적으로 진행되며 범죄조직이 검거되지 않는 이상 보이스피싱의 발생 건수는 과거와 비슷한 추세를 보일 것이고, 범죄조직이 증가한다면 보이스피싱 발생 건수는 증가하게 될 것이다. 따라서, 보이스피싱 발생은 과거의 경험(범죄조직의 범행 횟수)에 의존하여 발생하므로 ARIMA[10]를 이용한 보이스피싱 발생 건수 분석은 과거 발생 건수 대비, 미래 발생 건수를 예측할 수 있고 이로써 보이스피싱 범죄 현황을 살펴볼 수 있다.
ARIMA(p, d, q)의 p, d, q의 수식은 다음과 같다.
yt = δ + θ1yt-1 + θ2yt-2 + ⋯ + θpyt-p + et (1)
1차차분(d=1)∇yt = yt - yt-1 (2)
2차차분(d=2)∇2yt = ∇yt∇yt-1 = (yt - yt-1) - (yt-1 - yt-1) (3)
yt = c + θ1εt-1 + θ2εt-2 + ⋯ + θqεt-q + εt (4)
3.2 X-12 계절성 조정
X-12 계절성 조정은 1996년 미국 상무부 센서국에 의해 고안된 것으로 이동평균을 기본 토대로 하는 계절성 조정 아이디어이다[11]. 기존 ARIMA 모형의 MA의 식 중에서 이동평균의 항수인 2k+1의 크기를 통하여 평활의 정도를 측정하고 이것을 토대로 추세(Trend), 계절요인, 순환변동 계열이 생성된 것으로 계절성을 가늠해 조정하는 아이디어를 바탕으로 한다[11].
X-12는 이전 모형인 X-11의 문제점인 간혹 시계열의 전 범위를 이동평균하는 것이 아닌, 전방 또는 후방만을 이동평균하는 것을 개선하여 시계열 전범위에서 계절성을 조정할 수 있게끔 하였고 이동평균 방법에 모형접근을 추가해 REGARIMA 모형으로써 사전조정과 예측모형 선택을 할 수 있게 만들었다[12]. X-12 계절성 조정의 모형접근법은 다음과 같다.

(그림 1) X-12 모형접근법[12]
X-12에 이용된 식은 다음과 같으며 X-12가 적용된 ARIMA는 X-12-ARIMA가 되고 일반항은 다음과 같다[11].
\(\begin{align}\begin{array}{l}\phi_{p}(B) \Phi_{P}\left(B^{s}\right)(1-B)^{d}\left(1-B^{s}\right)^{D}\left(y_{t}-\sum_{l} \beta_{i} x\right) \\ =\theta_{q}(B) \Theta_{Q}\left(B^{s}\right) a_{t}\end{array}\end{align}\) (5)
일반항을 이용한 회귀식은 다음과 같다.
\(\begin{align}y_{t}=\sum_{i} \beta_{i} x_{i t}+Z_{t}\end{align}\) (6)
위 회귀식을 X-12-ARIMA의 (p, d ,q)(P, D, Q)의 수식으로 나타내면 다음과 같다[11].
ϕp(B)ΦP(BS)(1 - B)d(1 - BS)DZt = θq(B)ΘQ(BS)⍺t (7)
위의 식을 보면 알 수 있듯이 X-12-ARIMA 모형은 ARIMA 모형에서 더미변수 xit가 추가된 형태이다[11]. 즉, 이것은 가변항의 특이항(additive outlier), 일시적인 구조변화(temporary remp)를 포착할 수 있는 기능을 한다[12].
X-12 계절성 조정 방법론의 진단은 Q-stat와 M-stat의 값을 토대로 한다. X-12를 적용한 시계열 자료에서 Q-stat의 값이 1보다 크면 추가 계절성 조정법이 필요 없음을 의미하고, M-stat는 0∼3 사이의 값을 가질 때 계절 조정이 잘 되었다고 본다. X-12 계절성 조정 방법론은 사람들의 소비활동 혹은 일국의 산업활동 동향에 있어 발생하는 계절성을 반영할 수 있다. 이것이 가능한 데에는 X-12 계절성 조정 방법론이 요일 효과, 명절 효과, 특이치 효과 등 화폐의 이동으로 발생하는 계절성을 조정할 수 있기 때문이다. 다시 말해 개인 혹은 일국의 화폐 이동이 심해지는 시기에 급격하게 발생하는 보이스피싱 계절성 조정에 있어 X-12가 적합하다[11].
3.3 ARIMA를 활용한 보이스피싱 발생 예측
경찰청에서 제공하는 ‘18∼‘21년 월별 보이스피싱 발생 건수[1]의 계절성을 X-12를 통해 계절성을 조정하고 X-12-ARIMA를 통해 1개년을 예측하였다. (그림 2)의 ‘18∼‘21년도의 보이스피싱 발생 현황을 보면 집계 기간 1, 3, 4분기에서 보이스피싱이 급증하는 현상을 발견할 수 있다. 이는 보이스피싱이란 범죄에서 계절성이 존재할 수 있다는 것을 의미하며, ‘18∼‘21년도에 발생한 보이스피싱을 계절성(Seasonality) 그래프로 변환하여 계절성을 확인하는 것이 필요하다.

(그림 2) ‘18∼‘21 보이스피싱 발생
‘18∼‘21년까지 발생한 보이스피싱을 계절성 그래프로 변환하면 (그림 3)과 같다. (그림 3) 하단 원계열의 계절성 그래프에서 월 평균을 의미하는 Means by Season을 보면 강한 계절성이 존재한다는 것을 확인할 수 있다. 이러한 화폐의 이동에 의해 발생하는 계절성을 조정하기 위해 원계열에 X-12를 적용하면, (그림 3) 상단 그래프(D_STATIC_SA by Season)가 나온다. (그림 3) 상단 X-12를 조정한 계열은 원계열 보다 계절성이 확연하게 사라진 것을 확인하였다. 계절성 그래프로만 판단하면 원계열보다 X-12를 이용해서 보이스피싱 예측을 진행하는 것이 적절하나, 앞서 언급한 바와 같이 X-12 계절성 조정의 진단은 상관도표(Correlogram) 분석으로 X-12 적용 계열을 진단한 다음 보이스피싱 예측에 사용할 계열을 선정해야 할 것으로 보인다.

(그림 3) 계절성 여부 확인
X-12의 진단을 위해 (그림 4)의 상관 분석의 각 시차(lag)에서 Q-Stat의 값이 1보다 큰 것을 확인할 수 있다. 이것은 원계열에서 X-12 계절성 조정이 잘 적용되었음을 의미한다. 그러나 자기상관(Auto Correlation)과 부분상관(Partial Correlation)의 값이 서서히 감소하고 있어 X-12 적용 계열이 비정상 시계열 가능성도 고려해야 한다.

(그림 4) X-12 계열 상관도표
X-12 적용 계열이 정상인지 비정상 시계열인지 확인하기 위해서는 계량적으로 ADF(Augmented Dickey-Fuller) 테스트와 단위근 검사를 해야 한다. X-12 적용 계열의 ADF 테스트와 단위근 검사 결과는 (그림 5)와 같다. 단위근 검사 결과에서 X-12 적용 계열은 P값이 5% 이상으로 단위근을 갖는 비정상 시계열인 것으로 나왔다. 그러나 (그림 6)의 1차 차분(d=1)을 한 계열의 ADF 테스트와 단위근 검사를 한 결과에서는 P값이 0.0001보다 작아 정상적인 시계열이 되었다는 것을 확인할 수 있다.

(그림 5) 원계열 ADF 테스트 및 단위근 검사

(그림 6) 1차 차분 ADF 테스트 및 단위근 검사
ADF 테스트와 단위근 검정 결과에 따라 X-12 적용 계열을 1차 차분(d=1)을 하게 되면 (그림 7)과 같다. 1차 차분을 한 X-12 적용 계열의 상관관계 분석 결과에 의하면 시차 2를 제외하면 P값이 5%보다 작아 통계적으로 유의하고 Q-Stat의 값도 1보다 크기 때문에 X-12 적용이 잘 되었다고 판단할 수 있다. 자기상관과 부분상관의 값이 서서히 감소하는 것이 아니고, ADF 테스트 상에서 1차 차분을 하면 시계열의 비정상성을 없앨 수 있다는 결과를 얻었으므로 X-12 적용 계열의 1차 차분(d=1)은 정상 시계열이라고 판단 가능하다. 따라서 보이스피싱 예측 연구에 X-12 적용 계열을 이용하는 것이 적절하다.

(그림 7) d=1 상관도표
X-12 계절성 조정법과 ARIMA를 이용하여 확인된 적절한 모형은 (그림 8)의 X-12-ARIMA(1, 1, 0)로 판단되었다. X-12-ARIMA(1, ,1 0) 모형의 P값이 5% 보다 작아 통계적으로 유의하고, t-통계가 82.24364로 대립가설을 채택할 확률이 높다. 또한, 설명력인 R값은 0.544050, 수정된 R값은 0.534138로 X-12 계열과 ARIMA 모형과의 연관성이 높으며, ARIMA 모형 진단법인 AIC(Akaike Info Criterion)와 SC(Schwarz Criterion)의 값이 각각 13으로 최적합 모형으로 판단된다. 즉, ‘18∼‘21년에 발생한 보이스피싱 발생 예측에 적합한 모형이 X-12-ARIMA라고 판단할 수 있다.

(그림 8) X-12-ARIMA(1, 1, 0)
X-12-ARIMA(1, 1, 0)으로 2022년 보이스피싱을 예측한 결과는 (그림 9)와 같다. 예측 결과에 의하면 보이스피싱 예측값의 MAE(Means Absolute Error)는 181.2964으로 다소 높은 값이라고 할 수 있으나. MAPE(Means Abs. Percent Error)는 6.64대로 예측값에 오차 비율은 적은 편이다.

(그림 9) X-12-ARIMA 1개년 예측
(그림 9)에 예측된 결과를 X-12 조정 계열과 예측값을 조정하여 95%의 신뢰상한으로 Error Bar 그래프로 변환하면, (그림 10)과 같다. 95% 신뢰상한도의 Error Bar를 통해 X-12-ARIMA(1, 1, 0)의 예측 결과를 진단하면, 예측 결과 값이 95% 신뢰 상한선 내에 분포되어 있는 것을 확인할 수 있고 이는 곧 X-12-ARIMA(1, 1, 0)의 예측값이 5% 이내의 통계적 유의성을 갖고 있다고 판단할 수 있겠다.

(그림 10) 예측 결과 95% 신뢰상한 검증
<표1> ‘22년 월별 보이스피싱 발생 건수[13]

2022년 1분기 파이낸셜 뉴스에서 제공한 보이스피싱 발생 건수와 X-12-ARIMA 모형의 예측 결과를 비교하면, X-12-ARIMA 모형이 실제 값과 유사하게 최대 90%의 정확도로 예측한 것을 확인하였다. <표 2>의 예측값에서 오차의 비중을 의미하는 MAPE(Means Abs. Percent Error)가 6.647685%인 것을 고려하여 예측값과 실제 발생 건수가 상이하게 나온 데에는 보이스피싱 신고 중 허위신고 즉, 허수의 신고량 누적과 범죄조직 수의 변화, 보이스피싱 사기 방법의 변화 등을 예상할 수 있다.
<표2> ‘22년 월별 보이스피싱 발생 시뮬레이션 결과

X-12 계절성 조정과 ARIMA를 이용한 보이스피싱 1개년 예측은 2022년 총 27,085.95건의 사건이 발생할 것으로 예측 결과가 나왔다. 이것은 2018년부터 보이스피싱이 감소한 추세에 의해 보이스피싱 예측 발생 건수가 낮게 나온 것이라 하겠다. 그러나 2021년 보이스피싱 발생 건수가 30,982건이라는 것을 고려한다면, 보이스피싱이 급격하게 줄어든다고 할 수 없다. 보이스피싱의 발생 건수는 예년에 비해 줄어든다고 할 수 있으나, 보이스피싱 수법이 진화되고 있어서 피해액은 점점 증가하는 추세이다. 이제는 정량적 발생 수치보다는 보이스피싱의 수법에 대한 대응책과 예금 인출 과정에서의 보이스피싱을 인식하여 사고를 막는 것이 중요하다.
5. 결론
본 연구는 2018∼2021년 발생한 보이스피싱을 X-12 계절성 조정과 ARIMA를 통해 1개년을 예측한 결과, X-12-ARIMA(1, 1, 0)이 가장 적합한 모형이고 보이스피싱의 발생 건수가 27,085.95건으로 최근 5년 보다 적은 건수가 발생할 것으로 예측되었다. 이러한 결과는 상기에서 언급한 보이스피싱 범죄 유형의 변화에 따른 범죄 수법의 진화라고 판단된다.
X-12-ARIMA를 통하여 2022년 보이스피싱 발생의 예측 결과 4월까지의 실제 발생 건수와 비교하였을 때 최대 90% 수준의 정확도를 보였다. 이러한 예측 결과에 따라 보이스피싱의 발생 건수는 감소하지만 그럼에도 개인정보의 유출로 발생하는 보이스피싱 범죄의 방법이 발전하는 상황인 것과 예측 결과에 따라 보이스피싱이 지속적으로 발생하는 상황임을 고려하면 보이스피싱에 대한 지속적인 대응은 필수적이다.
2011년부터 2021년 동안 보이스피싱으로 인한 피해 규모는 3.2조로 정부 자금이나 개인 자금이 범죄 수익으로 빠지고 있다[14]. 보이스피싱에 대한 연구의 일환인 이 연구 결과를 통해서 보이스피싱 범죄 건수의 실태와 미래의 추세를 확인해 범죄 수익성을 차단시켜 보이스피싱 범죄를 줄이는 데 활용되기를 바란다.
본 연구의 연구한계는 보이스피싱 발생에 있어 영향을 주는 변수를 포함하지 못한 것이다. 예컨대 보이스피싱 발생에 영향을 주는 변수를 연구에 포함해 ARCH나 GARCH 모형으로 보이스피싱 발생 추세에 충격을 줌으로 사회 현상을 반영한 예측 연구를 진행할 수 있으나, 보이스피싱 발생에 영향을 주는 변수를 찾는 연구가 선행되어야 한다. 추후 연구에는 이런 보이스피싱에 영향을 주는 변수를 먼저 파악한 후, 사회 현상을 반영할 수 있는 연구로 보완하고자 한다.
References
- 공공데이터포털, "경찰청_보이스피싱 월별 현황", 2022.
- 김민정, 김은미. "보이스피싱 피해 경험 및 영향요인 분석". 소비자문제연구, 52(1), pp.53-72, 2021. https://doi.org/10.15723/JCPS.52.1.202104.53
- 정웅, "보이스피싱 범죄추세와 수사 대응체제의 발전방향", 한국공안행정학회보, 29(4), pp.461-484, 2020.
- 이승용, 이주락, "빅데이터와 FDS를 활용한 보이스피싱 피해 예측 방법 연구". 시큐리티연구, 62, pp.185-204, 2020.
- 조호대, "보이스피싱 발생 및 대응방안", 한국콘텐츠학회 논문지, 12(7), pp.176-182, 2012.
- R, Carter Hill, William E, Griffths, Guay c, Lim, "Principles of Econometrics", 5th Edition. Wiley, 2018.
- P. Chen, H. Yuan and X. Shu, "Forecasting Crime Using the ARIMA Model", Fifth International Conference on Fuzzy Systems and Knowledge Discovery, Volume 5, pp.627-630, 2008.
- Haneen Alabdulrazzaq, Mohammed N. Alenezi, Yasmeen Rawajfih, Bareeq A. Alghannam, Abeer A. Al-Hassan and Fawaz S. Al-Anzi, "On the accuracy of ARIMA based prediction of COVID-19 spread", Results in Physics, Volume 27, pp.2-27, 2021.
- 김재문, 장성호, 김성수, "계절 ARIMA 모형을 이용한 고령 운전자의 안전운전 불이행에 의한 교통사고 건수 예측분석", 산업경영시스템학회지, 40(1) , pp.65-78, 2017.
- 정동빈, "시계열 애널리스트를 위한 Eviews솔루션, 황소걸음아카데미", 2015.
- 박원란, "X-12-ARIMA를 이용한 요일효과 연구. 통계분석연구", 5(1), pp.19-43, 2000.
- David F. Findley and Catherine C, Hood "X-12-ARIMA and its Application to Some I talian Indicator Series", U.S. Bureau of the Census, 1999, pp.2-18.
- https://www.fnnews.com/news/202205261203594399 (검색일: 2022.05.26.).
- https://zdnet.co.kr/view/?no=20210908140053 (검색일: 2021.09.08.).