DOI QR코드

DOI QR Code

Analyzing Time Series Data for Financial Instruments with Double Volatility Using ARIMA Models

ARIMA 모델을 활용한 이중 변동성의 금융 상품 시계열 데이터 분석

  • 최재현 (중부대학교 경영학전공) ;
  • 민현구 (중부대학교 경영학전공)
  • Received : 2025.02.17
  • Accepted : 2025.03.04
  • Published : 2025.03.31

Abstract

This study utilizes the ARIAMA model to predict the stock prices of ETFs with double volatility and then compares them with the stock prices of regular companies with single volatility to verify the model's suitability. The patterns and volatility of TIGER US S&P500 ETF data were analyzed. The ARIMA(1,2,3) model was found to be the most effective model to predict stock prices. In addition, an ARIMA(0,1,0) model was derived for SK Hynix stock price data, and both models were analyzed using Ljung-Box and AIC tests. The results showed that there was no significant difference in the Ljung-Box test, and the AIC value (13854.99) of the ETF product was lower than that of the general company (19342.18), confirming the appropriateness of the ARIMA model considering double volatility. This study confirms the practicality of the ARIMA model and its applicability in analyzing financial data, and suggests that time series analysis can contribute to the development of investment strategies.

본 연구는 ARIAMA 모델을 활용하여 이중적인 변동성을 고려한 ETF 주가를 예측 후 단일 변동성을 가진 일반 기업과 비교를 통해 모델의 적합성을 확인하였다. TIGER 미국 S&P500 ETF 데이터의 패턴과 변동성을 분석하였다. 분석 결과 ARIMA(1,2,3) 모델이 가장 효과적인 모델로 이를 통해 주가를 예측하였다. 또한, SK 하이닉스 주가 데이터를 대상으로 ARIMA(0,1,0) 모델을 도출 후 두 모델을 Ljung-Box 및 AIC 검정 분석하였다. 분석 결과, Ljung-Box 검정에서 유의한 차이는 없었으며 ETF 상품의 AIC값(13854.99)이 일반 기업의 결과(19342.18)보다 더 낮아 이중 변동성을 고려한 ARIMA 모델의 적합성을 확인하였다. 본 연구는 ARIMA 모델의 실용성과 금융 데이터 분석에서의 활용 가능성을 확인하며, 시계열 분석이 투자 전략 수립에 기여할 수 있음을 의미한다.

Keywords

1. 서론

데이터 수집과 저장 기술의 발달로 인해, 현대 사회는 방대한 양의 데이터를 축적하게 되었다. 그러나 이와 같은 데이터의 양적 증가에도 불구하고, 실제로 활용 가능한 유용한 지식의 부족이 문제로 대두되고 있다.

데이터는 21세기의 원유로 불릴 만큼 중요한 자원으로 자리 잡았으며, 특히 금융 데이터 분석에서는 시계열 데이터의 복잡성을 모델링하고 유의미한 패턴을 도출하는 연구가 활발하다. 이러한 연구는 전통적 통계 기법뿐만 아니라 머신러닝과 데이터마이닝 기법의 도입으로 더욱 정교해지고 있다[1].

금융 시계열 분석은 주식 시장의 복잡한 패턴을 이해하고 예측하는 데 필수적인 도구로 자리 잡고 있다[2]. 주식 시장은 높은 변동성과 예측 불가능성을 특징으로 하며, 이러한 특성을 고려한 시계열 분석은 투자자와 연구자 모두에게 중요한 과제가 되고 있다. 특히, ARIMA(Autoregressive Integrated Moving Average) 모델은 선형적이고 계절적인 데이터의 특성을 효과적으로 반영할 수 있는 시계열 분석 기법으로 주목받고 있다[3].

금융 시계열 분석에 관한 기존 국내 연구들은 개별 주식이나 특정 산업에 대한 분석에 집중되어 있으며, 산업 간 상호작용과 거시경제적 요인의 영향을 종합적으로 고려한 연구는 부족한 실정이다. 또한, 복수의 산업을 초점으로 한 심층 분석 연구를 확인 할 수 없었다. 그러나 Levin(2022)[4]은 산업 간 관계를 고려한 연구가 금융 시장의 변동성을 보다 정확히 파악하는 데 필수적임을 제시하였다. 따라서 금융 시장의 복합적인 구조를 더욱 정밀하게 분석하기 위해서는 개별 주식뿐만 아니라 다양한 자산이 포함된 포트폴리오 기반 투자 상품에 대한 연구도 필요하다.

이에 본 연구는 ARIMA 모델을 활용하여 복수의 기업들로 이루어진 ETF의 시계열 데이터를 분석하고, ETF 상품 자체적인 변동성과 증권시장에서의 실시간적인 변동성을 모두 반영한 이중 변동성을 고려하여 주가를 예측하고자 한다. 나아가, 일반적인 기업의 주가 데이터와 이중 변동성을 고려한 예측 모델 간 적합성 비교 분석을 통해 AIRMA 모델의 활용 가능성을 제시한다는 데 의의를 두고 분석하였다. 본 연구는 ETF 변동성 예측 모델의 정교화를 위한 기초 자료를 제공하고, 투자 전략 수립에 있어 ETF와 개별 주식 간의 차이를 이해하는 데 기여할 것이다.

2. 이론적 배경

2.1 자기회귀 누적이동평균모형(ARIMA)

ARIMA(Autoregressive Integrated Moving Average) 모델은 시계열 데이터를 분석하고 예측하기 위한 대표적인 통계적 기법으로, 정상성을 만족하지 않는 데이터를 처리할 수 있는 유연성을 갖춘 모델이다. ARIMA는 자기회귀(AR), 차분(I), 이동평균(MA)의 세 가지 구성 요소를 결합하여 데이터를 설명하며, 이를 통해 시계열 데이터의 패턴을 이해하고 미래를 예측할 수 있다[5].

ARIMA 모델은 다음과 같은 수식으로 표현된다[6]. xt = c + ϕ1xt-1 + ⋯ + ϕpxt-p + ϵt + θ1ϵt-1 + ⋯ + θqϵt-q 여기서 c는 상수항, ϕi​는 자기회귀계수, θi​는 이동 평균계수를 의미한다. 즉, 차분을 통해 정상성을 확보한 데이터에 ARMA 모델을 적용하여 미래값을 예측한다[7].

ARIMA 모델은 정상성과 비정상성을 모두 처리할 수 있는 유연성을 갖춘 시계열 분석 기법으로, 이 모델은 데이터를 정상화하고, 차수를 설정하며, 모델을 적합시키고 검증하는 체계적인 과정을 통해 최적의 결과를 도출한다[8].

ARIMA 모델을 데이터에 적용하기 위해서는 먼저 데이터가 정상성을 만족하는지 확인해야 한다. 데이터를 시계열 형태로 변환한 후, 단위근 검정을 수행하여 데이터가 비정상성을 가지는지 판단한다. 비정상 데이터는 차분을 통해 정상화하며, 차분 횟수(d)는 데이터가 정상성을 만족할 때까지 결정된다[9].

2.2 상장지수펀드(ETF)

상장지수펀드(ETF)는 ‘Exchange Traded Funds’의 약자로, 시장대표지수와 같은 특정한 기초 자산의 움직임을 추종하도록 설계된 인덱스펀드로써, 거래소에 상장되어 실시간으로 거래가 가능한 주식의 특성이 있는 펀드를 말한다[10]. 즉, 인덱스펀드가 현금을 납입하며 판매사를 통해 거래되는 반면, 상장지수펀드(ETF)는 주식을 직접 납입하며 거래소에 상장되어 주식처럼 거래된다는 점이 차이점이다.

ETF는 일반적인 인덱스펀드와 비교했을 때 여러가지 차이점을 가진다. 먼저, 유동성 측면에서 ETF는 주식처럼 실시간으로 거래가 가능하다는 점이 특징이다[11]. 일반적인 인덱스펀드는 하루 한 번, 시장이 마감된 후에만 가격이 결정되지만, ETF는 거래소에서 투자자들 간의 매매를 통해 지속적으로 가격이 변동한다.

이러한 특성으로 인해 ETF는 개별 종목의 변동성과 시장 전체의 흐름을 동시에 반영하는 이중 변동성의 특성을 가진다. ETF는 개별 주식을 포함하는 포트폴리오 형태의 금융 상품으로, 개별 종목들의 움직임에 의해 영향을 받는 동시에 시장 전체의 변동성과도 밀접한 관계를 맺는다. 즉, 개별 종목의 변동성이 커질수록 ETF의 변동성도 증가할 가능성이 높으며, 반대로 ETF 시장에서의 유동성 변화나 대규모 매매가 개별 종목의 가격에도 영향을 미칠 수 있다. 따라서 ETF의 변동성을 분석할 때는 개별 종목의 변동성과 ETF 자체의 가격 변동 간의 상호작용을 함께 고려하는 접근이 필요하다.

2.3 변동성 및 이중 변동성

Akhila et al.[12]에 따르면, 변동성은 금융 자산의 가격이 시간에 따라 변동하는 정도를 나타내는 통계적 개념으로, 투자 위험을 평가하는 중요한 지표이다. 변동성이 높을수록 가격 변동 폭이 크고 불확실성이 증가하며, 변동성이 낮을수록 가격이 상대적으로 안정적인 상태를 의미한다.

또한, 이중 변동성은 변동성이 단순히 자신의 과거 변동성에 의해서만 결정되는 것이 아니라, 외부 요인의 변동성에도 영향을 받는 현상을 의미한다. 즉, 특정 자산의 변동성이 외부 변수의 변동성과 상호작용하며 변화하는 것을 뜻한다[13].

본 연구에서 변동성은 금융 자산의 가격 변동성을 나타내는 개념으로 정의한다. 변동성이 높을수록 가격 변동 폭이 크고 불확실성이 증가하며, 변동성이 낮을수록 가격이 상대적으로 안정적인 상태를 의미한다.

또한, 이중 변동성에 대한 기존 정의를 부분적으로 채택하여, 특정 자산의 변동성이 자신의 과거 변동성과 외부 요인의 변동성에 의해 영향을 받는 현상으로 정의한다. 그러나 본 연구에서는 기존 연구와 달리, ETF의 변동성이 단순히 벤치마크 지수의 변동성에 의해 결정되는 것이 아니라, ETF를 구성하는 개별 종목들의 변동성과도 밀접하게 연관되어 있다는 점을 고려한다. 즉, 본 연구에서의 이중 변동성이란 ETF의 가격 변동성과 이를 구성하는 종목들의 변동성이 동시에 발생하고 상호작용하는 현상을 의미한다.

3. 선행 연구

본 연구는 금융 시계열 분석, ARIMA 모델에 관한 연구와 ETF, 이중 변동성에 관한 연구 내용을 살펴보았다.

정종진·김지연[14]은 주가 예측 모델로 LSTM(Long Short-Term Memory)을 적용할 때 성능 향상을 위한 최적의 학습방법을 분석하였다. 기존의 주가예측 연구들은 지식 기반 시스템, 전통적 통계 기법, 그리고 머신러닝을 활용해왔으나, 해당 연구에서는 딥러닝 기법인 LSTM을 활용하여 모델의 성능을 최적화하는 방법을 탐색하였다.

KOSPI200 주가지수 옵션의 거래승수 변경이 거래량과 투자자별 비중에 미친 영향을 분석한 김광용·김진수[15]의 연구는 정책 변화가 시장 구조와 투자자 행태에 미치는 실질적 효과를 실증적으로 평가했다. 해당 연구는 2012년 거래승수 인상과 2017년 거래승수 인하를 중심으로, 이 변화가 거래량과 투자자 비중에 미친 영향을 개입분석 모형으로 분석하였다. ARIMA 기반의 시계열 분석과 개입분석 모형을 활용해 거래승수 변경이 시장에 미친 단기적 충격과 장기적 영향을 구분했으며, 단위근 검정과 AIC, SBC 기준을 통해 모델의 타당성을 확보하였다. 기존 연구와 달리, 거래승수 인상뿐 아니라 인하 정책의 효과까지 포함해 분석한 점에서 차별성을 갖추고 있으며, 이를 통해 파생상품시장 규제 정책의 실효성을 평가하고 향후 정책 설계에 중요한 시사점을 제공하였다.

금융시계열 자료의 변동성과 비선형적 특성을 분석하기 위해 ARIMA와 GARCH 모형의 예측력을 비교한 임성식[16]의 연구는 금융 데이터 분석에 적합한 새로운 접근법을 제시한다. 기존의 ARIMA 모형은 정상성을 가정하며 평균의 움직임에 초점을 맞추지만, 금융 데이터의 중요한 특성인 변동성과 조건부 분산을 충분히 반영하지 못하는 한계가 있다. 이를 보완하기 위해 도입된 GARCH 모형은 과거의 변동성을 조건부 분산으로 모델링하여 금융시계열 자료의 비선형적 특성을 효과적으로 분석한다.

Xue[17]의 연구는 ARIMA 모델을 활용하여 홍콩증권거래소에 상장된 CK Hutchison Holdings의 주가를 예측하였다. 해당 연구에서는 2019년 2월 8일부터 2023년 2월 7일까지의 일별 종가 데이터를 수집하여 분석하였으며, SPSS를 이용하여 분석하였다. 분석 과정은 시계열 데이터의 정상성 검정 및 차분 처리, ACF 및 PACF 분석을 통한 모델 차수(p, d, q) 결정, 잔차 분석을 통한 모델 검증, 최적 모델을 활용한 주가 예측의 네 단계로 구성되었다. 연구 결과, ARIMA(0,2,1) 모델이 가장 적합한 것으로 도출되었으며, 향후 7일간의 주가를 예측한 결과 오차율(error rate)이 최대 3%를 넘지 않는 높은 정확도를 보였다. 특히, 주가는 48.55에서 48.51까지 완만하게 하락할 것으로 예측되었으며, 실제 가격과 비교했을 때 유의미한 차이가 없었다. 이를 통해 ARIMA 모델이 홍콩 주식시장에서도 단기 주가 예측에 효과적으로 적용될 수 있음을 입증하였으며, 투자자들에게 단기적인 주식시장 변화에 대한 유용한 정보 제공이 가능함을 시사하였다.

ARIMA 모델을 활용하여 미국의 국내총생산(GDP)을 예측하는 것을 목표로 한 Sultan[18]의 연구는 1929년부터 2022년까지 연간 GDP 데이터를 연방준비은행에서 수집하여 분석하였으며, EViews 소프트웨어를 이용해 시계열 모델링을 수행하였다. 연구 과정은 데이터의 정상성 검정을 위해 ADF(Augmented Dickey-Fuller) 단위근 검정을 실시하고, 차분을 통해 시계열을 정상화한 후, ACF 및 PACF 분석을 통해 ARIMA(p,d,q) 모델의 차수를 결정하는 단계로 진행되었다. 분석 결과, ARIMA(1,1,1) 모델이 가장 적합한 것으로 도출되었으며, 2022년 GDP 예측값은 0.10436으로 실제 값(0.8818)과 비교했을 때 상대 오차가 1.617%로 매우 낮은 수준을 보였다. 이는 ARIMA(1,1,1) 모델이 GDP 시계열 데이터의 예측에 효과적으로 적용될 수 있음을 시사하며, 모델의 예측력이 높은 정확도를 가지고 있음을 입증하였다. 또한, 연구에서는 향후 5년간(2023∼2027년)의 GDP를 예측하였으며, 2027년에는 GDP가 18,562억 달러에 이를 것으로 전망하였다. 본 연구는 미국 경제의 거시적 변화에 대한 ARIMA 모델의 적용 가능성을 제시하며, 정책 입안자들에게 향후 경제 동향을 예측하는 데 유용한 도구가 될 수 있음을 시사하였다.

Akhila et al.[12]은 인도 주식 상장지수펀드(ETF)와 기초 벤치마크 지수 간의 변동성 전이(volatility spillover) 및 이중 변동성(double variability)을 분석하기 위해 GARCH(1,1) 모델을 적용하였다. ADF 단위근 검정을 통해 시계열 데이터의 정상성을 확인한 후, ETF의 일일 수익률과 기초 벤치마크 지수 간의 변동성 전이 패턴을 실증적으로 분석하였다. 연구 결과, ETF와 기초 벤치마크 지수 간의 변동성 전이가 모든 인도 주식 ETF에서 유의미하게 관찰되었으며, 특히 내부시장 충격(internal market shocks)이 ETF 포트폴리오의 변동성을 증폭시키는 역할을 하는 것으로 나타났다. 또한, ETF 변동성이 개별 종목의 과거 변동성과 시장 전체 변동성의 영향을 동시에 받는 이중 변동성 특성을 보이며, 높은 변동성 기간이 지속될 가능성이 크다는 점이 확인되었다. 이러한 결과는 ETF가 시장 내 변동성 확산의 주요 매개체가 될 수 있으며, ETF 변동성을 분석할 때 기초 지수와의 관계뿐만 아니라 개별 종목의 변동성과의 상호작용을 고려해야 함을 시사한다.

시계열 데이터를 분석하는 방법에는 다양한 방법이 존재하는데 LSTM과 ARIMA가 대표적이다. LSTM은 순환 신경망을 기반으로 한 모델로, 데이터의 패턴을 학습하고 비선형적인 시계열 데이터를 분석하는데 최적화된 도구이다[19]. 또한, 하이퍼파라미터 튜닝을 통해 초기 설정을 조정함으로써 모델의 성능을 극대화할 수 있다. 반면, ARIMA는 시계열 데이터의 자기회귀 및 이동평균을 활용한 통계적 모델로, 선형적인 데이터 예측에 강점을 가지며 연산 속도가 빠르다는 장점이 있다[8].

따라서 두 모델의 강점을 비교한 결과, 주가 데이터와 같이 선형적인 성격을 지닌 시계열 데이터에는 ARIMA를 활용하는 것이 보다 적절하다고 판단하였다.

ARIMA 모델은 비정상 시계열 데이터를 정상화한 후 과거 패턴을 분석하여 미래값을 예측하는 모델로, 금융 및 경제 데이터 분석에서 널리 활용된다[20]. 앞서 살펴본 선행 연구들은 주식, 국가의 GDP 등 금융과 경제 분야에서 ARIMA 모델이 활용되었다.

선행 연구를 살펴본 결과, 예측성을 인정받은 ARIMA 모델을 활용하여 다양한 산업에 투자하는 ETF 상품군의 변동을 관찰함으로써 ETF 자체의 변동성과 주식 시장의 실시간적인 변동성을 모두 고려한 이중적인 변동성을 예측해 보는 연구를 하고자 한다.

4. 연구 모형 및 분석

4.1 데이터

본 연구의 분석 데이터 수집은 2020년 8월 KOSPI에 상장된 TIGER 미국 S&P500 ETF 종목으로 해당 데이터는 공공데이터포털 금융위원회 KRX상장종목정보[21]와 금융위원회 주식시세정보[22]의 API를 통해 추출하였고 2021년 8월부터 2024년 10월까지의 데이터를 다루었다. 또한, 실증분석을 위해 파이썬 3.12.7 버전과 statsmodels.tsa.arima.model의 ARIMA, pmdarima.arima의 auto_arima 등 라이브러리를 활용하였다. 인터프리터로는 주피터 노트북(jupyter notebook) 7.2.2 버전을 사용하였다.

TIGER 미국 S&P500 ETF 종목을 연구 대상으로 선정한 이유는 국내 증시 ETF는 주가지수만을 추종하거나 단일의 기업 혹은 산업에 투자 비중을 높게 설정하여 특정 기업 또는 산업의 향방에 따라 ETF 상품이 영향을 받는 것을 피하고자 배제하였다. 그리고 테마주로 구성된 ETF 또한 특정 이해관계에 따라 변동성이 좌우됨에 따라 이중 변동성 예측에 적합하지 않다[23]. 따라서 본 연구에서는 시장 전반의 흐름을 반영하며 다양한 종목으로 구성된 글로벌 ETF 중 하나인 TIGER 미국 S&P500 ETF를 연구 대상으로 선정하였으며 주가 데이터 및 그래프는 종가를 기준으로 수집하였으나 거래량은 고려하지 않았다.

4.2 ARIMA 모델 구축 및 분석

4.2.1 시계열 데이터 정상성 확인

공공데이터 포털에서 TIGER 미국 S&P500 ETF 종목코드(360750)와 시세 정보를 추출하여 그래프로 나타낸 결과는 (그림 3)과 같다.

시계열 데이터가 정상성을 만족하려면 일정 조건을 모두 만족해야 한다. 모든 시점에 대해 일정한 평균을 가져야 하고, 분산 또한 시점에 의존하지 않고 일정해야 한다. 그리고 공분산도 단지 시차에만 의존, 실제 특정 시점에는 의존하지 않아야 한다. 하지만 해당 그래프를 보면 전체적으로 확실한 추세가 존재한다. 즉, 데이터가 모든 시점에 대해 일정한 평균을 가지지 않는 것을 확인할 수 있다. 따라서 (그림 1)의 시계열 데이터는 정상성을 만족시키지 못한다고 판단할 수 있다.

SOBTCQ_2025_v25n1_185_5_f0001.png 이미지

(그림 1) TIGER 미국 S&P500 ETF 시세 정보

AR, MA, ARMA 모형을 확인하기 위하여 자기상관함수(ACF) 그래프와 부분자기상관함수(PACF) 그래프를 작성하였고 그 결과는 (그림 2)와 같다.

SOBTCQ_2025_v25n1_185_5_f0002.png 이미지

(그림 2) 자기상관함수(ACF)와 부분자기상관함수(PACF)

그래프 도출 결과 ACF 그래프의 경우 급격히 0으로 절단되는 모습을 보이지 않아 자기 상관하는 모습을 보이고 있다. 반면 PACF 그래프의 경우 3기 이후 급격히 0에 수렴하는 결과를 보여주고 있는 것을 확인할 수 있다. PACF를 참고하는 모형은 AR 모형이고 그래프는 2기 이후로는 0에 수렴하므로 AR(2) 모형의 가능성을 생각해 볼 수 있다.

그래프를 통해 시계열 데이터가 정상성을 만족하지 못한다고 정의했지만, 그래프를 통한 시각적 분석만으로 정상성 여부를 확정할 수는 없다. 그래프에서 명확한 추세가 보인다고 하더라도, 그 추세가 통계적으로 유의미한지 또는 정상성 여부를 위배하는지 확신할 수 없기 때문이다. 추세가 존재해 보이지만, 그 추세가 데이터 내에서 미미한 영향을 줄 수도 있으므로 데이터의 정상성을 통계적으로 검증하기 위해 ADF검정을 실시하였다. 해당 검정은 다음과 같은 귀무가설과 대립가설을 가진다.

귀무가설(​H0): 시계열 데이터가 정상성을 만족하지 않는다.

대립가설(H1​): 시계열 데이터가 정상성을 만족한다.

<표 1>은 ADF 검정을 실시하고 도출한 결과이다.

<표 1> ADF 검정 결과

SOBTCQ_2025_v25n1_185_6_t0001.png 이미지

<표 1>은 t-분포를 따르고 검정통계량은 0.9605, p-value는 0.9938인 것을 확인할 수 있다. 따라서 시계열 데이터가 정상성을 만족하지 않는다는 귀무가설을 기각하지 못하므로 TIGER 미국 S&P500 ETF 시계열 데이터는 정상성을 따르지 않는다.

4.2.2 시계열 데이터의 정상 데이터 변환

정상 과정을 따르지 않는 시계열 데이터를 정상 과정을 따르도록 차분하여 정상 과정을 따르는지 살펴 보았다. 1차 차분 후의 시계열 데이터를 그래프로 나타낸 것과 차분 전의 데이터는 (그림 3)와 같다.

SOBTCQ_2025_v25n1_185_6_f0001.png 이미지

(그림 3) 1차 차분 전후 시계열 데이터 비교

1차 차분 후의 ACF와 PACF를 통해 차분 후의 데이터가 정상 과정을 따르는지 확인하였으며, 결과는 (그림 4)와 같다.

SOBTCQ_2025_v25n1_185_6_f0002.png 이미지

(그림 4) 1차 차분 후 ACF와 PACF

1차 차분 후 두 함수 모두 급속히 0으로 절단되고 있어 1차 차분 후 시계열 데이터는 ARMA 모형을 보이는 것을 보이는 것으로 확인할 수 있다.

차분댄 시계열 데이터가 정상성을 만족하는지 확인하기 위해 ADF 검정을 다시 한번 실시하였다. 검정 시 설정한 귀무가설과 대립가설은 <표 1>에 대한 가설과 동일하다.

검정 결과는 <표 2>와 같이 도출되었다.

<표 2> 1차 차분 후 ADF 검정 결과

SOBTCQ_2025_v25n1_185_6_t0002.png 이미지

해당 결과값은 차분 전 검정과 동일하게 t-분포를 따르고 검정통계량은 -33.9385, p-value는 0.00으로 시계열 데이터가 정상성을 만족하지 않는다는 귀무가설을 기각한다. 따라서 1차 차분된 시계열 데이터는 정상 과정을 만족하였다. 따라서, 정상성을 만족하는 것을 확인 후 적절한 ARIMA모형을 선정하였다. 어떤 모형이 적절한 ARIMA 모형인지를 파악하기 위해 여러 개의 모델 중에서 Ljung-Box 검정을 통해 잔차항이 백색잡음인 모형 중 AIC가 가장 적은 모형이 적절한 모형이라고 할 수 있다.

본 연구에서는 ARIMA(p,d,q)에 필요한 p, d, q값에서 시차를 나타내는 p, q는 0, 1, 2, 3을 고려하고 차분을 나타내는 d는 1, 2, 3까지의 모형을 고려하였다. 총 48개의 모형 중 Ljung-Box 검정을 통해 AIC 값이 최소인 모형을 선정한 결과 ARIMA(1,2,3) 모형이 선정되었다. 2차 차분된 시계열 데이터는 Ljung-Box 검정을 통해 신뢰구간 95%에서 잔차가 독립적임을 확인할 수 있었으며, 이는 정상성을 만족할 가능성이 높음을 시사한다. 또한, <표 3>과 같이 모델의 적합도를 평가하는 AIC 값은 13,854.99로 도출되었다.

<표 3> 2차 차분 후 Ljung-Box 검정 결과 및 AIC값

SOBTCQ_2025_v25n1_185_7_t0001.png 이미지

분석 대상 시계열 데이터와 ARIMA(1,2,3) 모형으로 추정한 데이터를 그래프로 나타낸 결과 (그림 5)와 같이 도출되었다.

SOBTCQ_2025_v25n1_185_7_f0001.png 이미지

(그림 5) 시계열 데이터와 ARIMA(1,2,3) 모형으로 추정한 100일 후의 주가 예측

푸른색 실선은 관측된 실제 데이터를 나타낸다. 데이터는 2021년부터 2024년 10월까지 점진적으로 증가하는 추세를 보여주고 있다. 붉은색 실선은 ARIMA 모델을 통해 예측된 값이다. 2024년 말 이후부터 예측 구간으로 들어가며, 데이터의 추세를 기반으로 상승세를 유지하는 결과로 나타났다. 관측 데이터는 장기적으로 우상향하는 패턴을 보이며, 이는 시간에 따라 점진적으로 증가하는 추세를 나타낸다.

ARIMA(1,2,3) 모델은 이와 같은 비정상적 증가 추세를 반영하여, 예측 구간에서도 상승세가 지속될 것으로 판단하였다. 특히 예측 결과는 계단식 상승 형태를 보이며, 이는 모델의 차분 적용 및 단기적 오차를 고려한 특성을 보여준다.

4.3 비교 분석

KOSPI에 상장된 종목인 SK 하이닉스와 본 연구의 분석 대상인 TIGER 미국 S&P500 ETF 종목을 비교 분석하였다. SK 하이닉스를 선정한 이유는 단일 산업에 종사하는 기업이자 연구 대상 데이터와 같은 증시에 상장된 기업이라는 기준에 부합하여 해당 기업을 비교 대상으로 선정하였다. 비교 대상인 SK 하이닉스의 2020년 8월부터 2025년 1월 데이터를 대상으로 본 연구와 동일한 과정을 거쳐 그래프를 도출하였다.

SK 하이닉스의 예측 그래프는 (그림 6)과 같으며 해당 데이터에 최적 ARIMA 모형은 ARIMA(0,1,0)로 해당 그래프는 ARIAM(0,1,0) 모형을 기반으로 도출했다.

SOBTCQ_2025_v25n1_185_7_f0002.png 이미지

(그림 6) SK 하이닉스 데이터와 ARIMA(0, 1, 0) 모형으로 추정한 100일 후의 주가 예측

위 모형과 연구 대상이 되는 모형의 신뢰성을 비교하기 위해 본 연구에서는 Ljung-Box와 AIC 검정을 채택하여 진행하였다. SK 하이닉스 주가 데이터의 최적 ARIMA모델을 Ljung-Box와 AIC 검정을 진행한 결과는 <표 4>와 같다.

<표 4> SK 하이닉스 Ljung-Box 검정 결과

SOBTCQ_2025_v25n1_185_8_t0001.png 이미지

검정 결과, TIGER 미국 S&P500 ETF의 p-value는 0.95로 유의수준 0.05보다 커서, 잔차가 유의미한 자기상관을 가진다고 결론 내릴 충분한 증거가 없었다. SK 하이닉스의 경우에도 p-value가 0.54로 0.05 보다 커서, 잔차가 독립적이지 않을 가능성을 완전히 배제할 수는 없었으나, 유의미한 자기상관이 있다고 보기는 어렵다. 두 모델 모두 p-value가 유의수준 0.05를 상회하므로 Ljung-Box 검정을 통한 p-value를 근거로 두 모델 간의 적합성을 비교하는 것은 무의미한 것으로 관찰되었다.

하지만 AIC 검정 결과 TIGER 미국 S&P500 ETF의 AIC 값은 13854.99, SK 하이닉스는 19342.18로 나타났다. AIC 값을 비교한 결과, TIGER 미국 S&P500 ETF의 모델이 SK 하이닉스 모델보다 상대적으로 더 적합한 것으로 평가되었다. 따라서 본 연구에서는 ARIMA 모델을 이중 변동성을 가진 ETF 상품에 ARIMA 모델을 적용하는 것이 개별 주식보다 상대적으로 더 적합하다는 것을 확인하였다.

5. 결론

본 연구는 ETF 상품의 예측에 있어 ARIMA 모델의 실무적 적합성을 검토하였다. 분석 결과, ARIMA 모델은 ETF의 시계열적 특성을 반영할 뿐만 아니라, 금융 시장의 주가 변동을 동반한 이중 변동성을 고려한 예측에도 유용한 도구로 작용함을 확인할 수 있었다. 황선욱 et al.[24]의 금융업 하나만을 대상으로 금융업내 예금과 대출금의 변동성을 중심으로 승법계절 ARIMA 및 전이함수모형을 활용하여 거시경제적 충격이 은행 산업에 미친 영향을 분석하였다. 반면, 본 연구는 특정 산업에 국한되지 않고 ETF와 개별기업의 주가 변동성을 비교하며, 이중 변동성을 고려한 ARIMA 모델의 적합성을 검증하였다. 이에 따라, 황선욱 et al.[24]의 연구는 정책 변화가 금융기관의 예대율에 미친 거시적 영향을 분석하였다면 본 연구는 금융상품(ETF)의 개별 변동성을 분석하여 투자 전략 수립에 활용될 수 있는 결과를 도출하였다.

본 연구는 금융 시계열 데이터 분석에 있어 유의미한 결과를 도출하였으나, 몇 가지 한계점을 가진다.

첫째, 본 연구에서 사용된 ARIMA 모델은 정상성을 가정한 시계열 데이터를 분석하는 데 적합하지만, 금융 데이터의 비선형적 특성과 높은 변동성을 충분히 반영하지 못하는 한계가 있다. 따라서 향후 연구에서는 GARCH, SARIMA, LSTM 모델을 도입하여 데이터의 비선형적 특성을 더욱 효과적으로 반영할 필요가 있다. 둘째, 본 연구는 TIGER 미국 S&P500 ETF와 비교 대상 데이터에 국한되어 있어 분석 대상의 다양성이 부족하다. 다양한 ETF 상품, 다른 금융시장 데이터 및 외부 경제적 요인을 포함하여 다변량 시계열 분석(ARIMAX)을 수행함으로써 연구 결과의 일반화 가능성을 높일 수 있을 것이다. 셋째, 본 연구는 주가 데이터 중 종가만을 기준으로 진행하여 각 일자의 낙폭이나 거래량에 따른 변동성은 고려되지 않았다. 입력 변수에 변동성 관련 지표(ATR, HV) 또는 거래량 관련 지표(OBV, VWAP)를 추가한 다변량 시계열 분석을 수행하여 연구 결과의 일반화 가능성을 높일 수 있을 것이다. 넷째, 전쟁, 정치, 질병 등 우발적인 외부 요인으로 인한 변동을 반영하지 못한 한계가 있다. 글로벌 경제 지표, 정책 변화, 또는 산업별 데이터를 분석에 통합함으로써 금융 시장의 복잡성을 잘 반영할 수 있을 것이다. 이는 ETF 상품의 구조적 특성과 투자 전략 수립에 대한 정교한 이해를 제공할 것이다.

References

  1. 강경훈, "금융 분야 데이터 거래 생태계 활성화 방안." 금융연구 working paper 2024.1 pp.1-83. 2024.
  2. 신우철, "Machine Learning 모형을 이용한 금융시계열 예측 성과 분석", 국내박사학위논문 부산대학교 대학원, 부산, 2022.
  3. 김동하. "ARMA모형을 이용한 소비자 심리지수 분석과 예측에 관한 연구." 디지털산업정보학회 논문지 제18권, 제3호, pp. 75-82. 2022. https://doi.org/10.17662/KSDIM.2022.18.3.075
  4. Levin M. 'Network Contagion of COVID-19 on US Industries'. Research Square, 2022.
  5. R. J. Hyndman and G. Athannasopoulos, 'Fore casting: Principles and Practice', 2nd edition, OTexts: Melbourne, Australia, 2018.
  6. G. E. Box, G. M. Jenkins, G. C. Reinsel, Time series analysis: forecasting and control, John Wiley & Sons, 734. 2011.
  7. 정호성, "파이썬을 이용한 경제 및 데이터분석', 자유아카데미, 2023.
  8. G. E. P. Box, G. M. Jenkins and G. C. Reinsel, 'Time Series Analysis Forecasting and Control', 3rd ed., Holden-Day, SanFransisco, 1994.
  9. R. H. Shumway, D. S. Stoffer, 'ARIMA Models. In: Time Series Analysis and Its Applications', Springer Texts in Statistics. Springer, Cham., 2017.
  10. 최병호, 김시청, 한재훈. "상장지수펀드의 주식보유비중과 변동성에 관한 검정", 한국증권학 회지, 제51권, 제3호, pp. 245-280, 2022.
  11. 허창수, 강형철, 엄경식, "한국 상장지수펀드(ETF) 의 가격효율성." 금융연구, 제26권, 제1호, pp.42-76, 2012.
  12. T. V. Akhila, T. C. Arun, and M. Dharmalingam, "Persistence of Volatility Spillovers in Indian Equity Exchange Traded Funds", The International Journal of Management, pp. 89, 2018.
  13. S. Fatima, C. Gan and B. Hu, "Volatility Spillovers between Stock Market and Hedge Funds: Evidence from Asia Pacific Region", Journal of Risk and Financial Management, Vol. 15, No. 9, p.409, 2022.
  14. 정종진, 김지연. "LSTM을 이용한 주가예측 모델의 학습방법에 따른 성능분석." 디지털융복합연구, 제18권. 제11호, pp. 259-266, 2020.
  15. 김광용, 김진수, "KOSPI200 주가지수 옵션의 거래승수 변경이 거래량과 투자자별 비중에 미치는개입효과.", 금융공학연구, 제17권, 제3호, pp.73-98, 2018. https://doi.org/10.35527/KFEDOI.2018.17.3.004
  16. 임성식, "금융시계열자료 분석을 위한 모형비교", 産業技術硏究所論文集, 제31권, pp. 138-148, 2013.
  17. Q. Xue, "Stock Price Forecasting Based on ARIMA Model an Example of Cheung Kong Hutchison Industrial Co. Highlights in Business", Economics and Management, Vol. 10, pp. 425–430, 2023. https://doi.org/10.54097/hbem.v10i.8134
  18. Maysoon A. Sultan, "Forecasting the GDP in the United States by Using ARIMA Model", Canadian Journal of Business and Information Studies, Vol. 5, No. 3, pp. 63–69. 2023. https://doi.org/10.34104/cjbis.023.063069
  19. 강민구, 홍준기, 김순태. "디지털 자산 가격 예측을위한 딥러닝 기반 시계열 예측 방법 비교 연구." 한국산학기술학회논문지, 제25권, 제9호, pp.366-373, 2024.
  20. G.M Ljung and G. E. P. Box, "On aMeasure of Lag of fit in Time Series Models", Biometrica, Vol. 65, No. 2, pp. 297-303, 1978. https://doi.org/10.1093/biomet/65.2.297
  21. https://www.data.go.kr/tcs/dss/selectApiDataDetailView.do?publicDataPk=15094775
  22. https://www.data.go.kr/tcs/dss/selectApiDataDetailView.do?publicDataPk=15094808
  23. 최병호, 김시청, 한재훈,. "상장지수펀드의 주식소유비중과 변동성에 관한 검정", 한국경영학회융합학술대회, 서울, 2021.
  24. 황선욱, 김성환, 김용환, 박성곤, 이준경, "예ㆍ대출금을 중심으로 한 은행산업 시계열 분석." 시계열 분석 사례집, 제7권 pp. 360-399, 2001.