DOI QR코드

DOI QR Code

Prediction Technique of Energy Consumption based on Reinforcement Learning in Microgrids

마이크로그리드에서 강화학습 기반 에너지 사용량 예측 기법

  • 선영규 (광운대학교 전자융합공학과) ;
  • 이지영 (광운대학교 전자융합공학과) ;
  • 김수현 (광운대학교 전자융합공학과) ;
  • 김수환 ((주)그리드위즈) ;
  • 이흥재 (광운대학교 전기공학과) ;
  • 김진영 (광운대학교 전자융합공학과)
  • Received : 2021.04.22
  • Accepted : 2021.06.04
  • Published : 2021.06.30

Abstract

This paper analyzes the artificial intelligence-based approach for short-term energy consumption prediction. In this paper, we employ the reinforcement learning algorithms to improve the limitation of the supervised learning algorithms which usually utilize to the short-term energy consumption prediction technologies. The supervised learning algorithm-based approaches have high complexity because the approaches require contextual information as well as energy consumption data for sufficient performance. We propose a deep reinforcement learning algorithm based on multi-agent to predict energy consumption only with energy consumption data for improving the complexity of data and learning models. The proposed scheme is simulated using public energy consumption data and confirmed the performance. The proposed scheme can predict a similar value to the actual value except for the outlier data.

본 논문은 단기 에너지 사용량 예측을 위해 인공지능 기반의 접근법에 대해 분석한다. 본 논문에서는 단기 에너지 사용량 예측 기술에 자주 활용되는 지도학습 알고리즘의 한계를 개선하기 위해 강화학습 알고리즘을 활용한다. 지도학습 알고리즘 기반의 접근법은 충분한 성능을 위해 에너지 사용량 데이터뿐만 아니라 contextual information이 필요하여 높은 복잡성을 가진다. 데이터와 학습모델의 복잡성을 개선하기 위해 다중 에이전트 기반의 심층 강화학습 알고리즘을 제안하여 에너지 사용량 데이터로만 에너지 사용량을 예측한다. 공개된 에너지 사용량 데이터를 통해 시뮬레이션을 진행하여 제안한 에너지 사용량 예측 기법의 성능을 확인한다. 제안한 기법은 이상점의 특징을 가지는 데이터를 제외하고 실제값과 유사한 값을 예측하는 것을 보여준다.

Keywords

Ⅰ. 서론

최근, 마이크로그리드는 에너지의 수요와 공급 측면에서 등장하는 문제를 해결할 수 있는 미래의 로컬 에너지시스템으로 주목받고 있다. 마이크로그리드에서 에너지관리 시스템의 주요 목적은 에너지 발전량와 예상되는 에너지 수요량을 고려하여 에너지를 효율적으로 제어하는 것이다[1, 2, 3]. 마이크로그리드에서 에너지 수요량을 정확히 파악하기 위해서는 좋은 성능을 가지는 에너지 사용량 예측 기술이 요구된다. 에너지 사용량 예측 기술은 3개로 분류되고 장기 예측, 중기 예측, 단기 예측이 있다 [4, 5]. 마이크로그리드에서 실시간 에너지 관리를 위해서 단기 예측 기술은 필수적이다.

단기 에너지 사용량 예측 기술에 관해 많은 연구가 진행되고 있고 3개의 주요한 접근법이 있다. 확률 통계적 접근법, 공학적 접근법, 인공지능 기반 접근법이 있다[6]. 확률통계적 접근법은 단순히 관련된 입력변수에 의존되며 실제 환경 적용 시 몇몇의 결함이 나타난다. 가장 큰 결함은 정확성과 유연성의 부족이다[7]. 흔히 화이트 박스라고 불리는 공학적 접근법은 복잡한 물리적 함수와 과학적 법칙을 따른다. 또한, 공학적 접근법은 에너지 사용량 패턴과 공학적 계산을 위한 많은 수의 매개변수를 추측하기 위해 많은 물리적 수식을 세우고 푸는 것이 요구된다. 이러한 특징들로 인해, 공학적 접근법 기반의 정확한 에너지 사용량 예측은 시간이 많이 소요되고 어렵다. 더욱이, 공학적 접근법은 실제 환경 적용에 한계를 가지고 있다[8]. 데이터 주도의 방식으로 불리는 인공지능 기반 접근법은 과거의 데이터로부터 에너지 사용량 패턴을 학습할 수 있다. 인공지능 기반 접근법은 주어진 입력과 출력 사이의 비선형적 관계를 일반화할 수 있어서 확률 통계학적 접근법과 공학적 접근법보다 더욱 유연 적이며 효율적이다[9].

본 논문은 이미지 분류[10], 통신 시스템[11], 관제 및 관리 시스템[12], 예측 시스템[13] 등 다양한 분야에서 널리 활용되고 있는 인공지능 기반의 접근법에 중점을 둔다. 하루 단위의 에너지 사용량을 예측하기 위해 deep residual neural network를 이용하였다[14]. 단기 에너지 사용 예측을 위해 인공지능 알고리즘인 multi-layer bi-directional long-short term memory(M-BDLSTM) 과 convolutional neural network(CNN)을 융합한 기법이 제안되었다[15]. 강화학습 알고리즘 중 하나인 policy gradient 알고리즘의 잠재성이 빌딩의 에너지사용 예측 측면에서 분석되었다[16]. 전력수요예측의 정확성을 개선하기 위해, 심층 강화학습 알고리즘인 deep Q-network을 활용하여 과거의 데이터 중 전력수요가 가장 유사한 날을 선택하여 전력수요를 예측하는 기법이 제안되었다[17].

앞서 언급한 연구들은 에너지 사용량 예측을 위해 날씨, 온도, 날짜, 습도 등의 contextual information뿐만 아니라 과거의 에너지 사용량 데이터를 이용한다. Contextual information을 얻는 과정은 추가적인 비용이 필요할 수도 있으며 전체 시스템의 복잡성을 증가시킬 수 있다. 본 논문에서는 과거의 에너지 사용량 데이터만을 이용한 에너지 사용량 예측을 위해 강화학습 기반의 접근법에 대해 분석한다. Contextual information 없이 에너지 사용량 데이터만을 이용하여 에너지 사용량을 예측을 위해 지도학습 기반의 접근법은 예측 성능과 복잡도 측면에서 한계가 존재할 수 있다. 강화학습의 기반의 접근법은 에이전트와 환경과의 상호작용을 통해 최대의 보상을 받을 수 있는 행동을 선택하므로 지도학습기반의 접근법보다 예측 성능과 복잡도를 개선시킬 수 있다. 에너지 사용량과 같은 시퀀스 데이터는 시간 정보를 가진 특징으로 인해 지도학습 기반의 접근법에서는 순차적으로 처리해야 되어 복잡도에 따라 시간 소요가 증가하지만 본 논문에서 제안하는 다중 에이전트 기반의 강화학습 알고리즘은 병렬적 처리가 가능하여 데이터 처리의 소요 시간을 감소시킬 수 있다. 또한, 주로 제어 분야에서 활용되는 강화학습 알고리즘을 활용 및 분석함으로써 예측 분야에서의 강화학습 알고리즘의 활용성을 제시할 수 있다.

본 논문의 구성은 다음과 같다. Ⅱ장에서는 에너지 사용량 예측 모델에 대해 살펴보고 Ⅲ장에서는 제안하는 강화학습 기반의 접근법을 설명한다. Ⅳ장에서는 제안한 에너지 사용량 예측 기법의 시뮬레이션을 통한 성능을 분석한다. 마지막으로, V장에서 결론을 통해 마무리 짓는다.

Ⅱ. 에너지 사용량 예측

에너지 사용량은 시간, 날짜, 날씨, 사용자의 정보, 미터기의 정보, 경제적 상황 등 다양한 특징과 연관이 되어있을 수 있으며 수식 1과 같이 표현할 수 있다.

\(E C=f(t, c, d, w, u, m, e, o)\)        (1)

여기서, EC는 에너지 사용량, f(∙)는 비선형함수, t는 시간 정보, c는 날짜 정보, d는 요일 정보, w는 날씨 정보, u는 사용자 정보, m는 미터기 정보, e는 경제 상황 정보, o는 이외의 정보들을 나타낸다. 에너지 사용량 예측을 위해 에너지 사용량과 관련한 정보 간의 관계식을 찾는 것이 요구되지만, 많은 변수 간의 관계를 표현할 수 있는 비선형적 관계식을 찾는 것은 어렵다. 그래서, 인공지능 기반의 접근법을 통해 과거의 데이터를 이용하여 관계식을 추정한다. 관계식의 추정 방법은 그림 1에 나타난다.

OTNBBE_2021_v21n3_175_f0001.png 이미지

그림 1. 에너지 사용량 예측을 위한 인공지능 기반 접근법.

Fig. 1. AI-based approach to predict energy consumption.

먼저, 추정한 관계식 \(\hat{f}(\theta, h)\)를 정의한다. 여기서, θ는 추정 변수, h는 과거의 데이터를 나타낸다. 목표값 EC와 추정값 \(\hat{f}(\theta, h)\)의 차이를 오류로 정의하고 오류를 최소화하기 위해 목적함수를 정의한다. 모든 과거의 데이터에 대해서 목적함수의 값이 최소화되는 추정 변수를 구한다. 인공지능 기반의 접근법에서 이 과정을 학습이라고 말한다.

\(\text { error }=\hat{f}(\theta, h)-E C,\)        (2)

\(\text { objectfunction }=L(\theta)=\frac{1}{2} \sum_{n=1}^{N} \text { error }^{2}, \)        (3)

\(\underset{\theta}{\arg \min } L(\theta) \text { for all data, }\)        (4)

여기서, N은 과거의 데이터의 개수를 나타낸다. 학습과 정을 통해 도출된 추정 관계식 \(\hat{f}(\theta, h)\)으로 새로 입력되 는 에너지 사용량 데이터에 대해 다음의 에너지 사용량 \(\hat{f}(\theta, h)\) 을 예측할 수 있다. 본 논문에서는 추정 관계식을 강화학습 알고리즘으로 구현한다.

Ⅲ. 강화학습 기반 에너지 사용량 예측 모델

인공지능 알고리즘은 지도학습, 비지도학습, 강화학습 알고리즘으로 구분할 수 있다. 지도학습 알고리즘은 정답이 주어진 데이터로 학습을 통해 새로운 데이터에 대한 값 또는 그룹을 예측하고 비지도학습 알고리즘은 정답이 없는 데이터의 학습을 통해 데이터 간의 관계를 찾거나 데이터 간의 그룹화한다[18]. 강화학습 알고리즘은 어떤 임의의 존재가 주어진 환경 내에서 어떻게 행동해야 하는지에 대해 학습한다[19]. 본 논문에서는 에너지 사용량 예측을 위해 기존에 자주 사용되는 지도학습 알고리즘이 아닌 강화학습 알고리즘을 이용한다.

1. 강화학습

강화학습은 환경과 에인전트의 상호작용을 통해 주어진 상태에서 에이전트가 최대의 보상을 받을 수 있는 행동을 선택할 수 있도록 에이전트를 학습시키는 알고리즘으로 그림 2는 강화학습의 개념도를 나타낸다[19].

OTNBBE_2021_v21n3_175_f0002.png 이미지

그림 2. 강화학습의 개념.

Fig. 2. Concept of reinforcement learning.

에이전트를 학습시키는 과정은 환경으로부터 주어지는 상태에서 에이전트가 취하는 행동의 가치를 평가하는 가치함수(value function) 중심의 방법과 상태에 따라 행동을 선택하는 전략인 정책(policy) 중심의 방법으로 나눌 수 있다. 가치함수 중심의 방법은 정책 중심의 방법보다 데이터를 더 효율적으로 활용할 수 있어서 본 논문에서는 가치함수 중심의 방법을 이용한다. 가치함수는 수식 5와 같이 표현할 수 있다[19].

\(Q(s, a)=r(s, a)+\gamma \max _{a} Q\left(s^{\prime}, a\right),\)       (5)

여기서, s는 현재 상태, a는 행동, s′는 다음 상태, r(s,a)는 상태 s에서 행동 a를 취할 때의 보상, Q(s,a)는 s에서 행동 a를 취할 때의 가치, γ는 할인율이다.

가치함수는 벨만 방정식을 통해 구할 수 있지만, 많은 상태와 행동이 존재하는 문제에 대해서 벨만 방정식을 통해 가치함수를 구하는 것은 어려울 수 있다. 이를 해결하기 위해 가치함수인 Q 함수를 심층신경망으로 근사시키고 상태, 행동, 보상 등을 저장하여 학습에 이용하는 replay memory가 적용된 deep Q-network(DQN)가 제안되었다[20]. DQN에서 Q 함수는 수식 6과 같이 표현할 수 있다.

\(Q(s, a ; \theta)=r(s, a)+\gamma \max Q\left(s^{\prime}, a ; \theta\right)\)        (6)

여기서, s는 현재 상태, a는 행동, s′는 다음 상태, θ는 심층신경망의 가중치, r(s,a)는 상태 s에서 행동 a를 취할 때의 보상, Q(s,a)는 s에서 행동 a를 취할 때의 가치, γ는 할인율이다. 심층신경망으로 근사한 Q 함수를 학습시키기 위한 비용함수는 수식 7과 같이 표현할 수 있다.

\(\operatorname{Cos} t=\left[Q(s, a ; \theta)-\left(r(s, a)+\gamma \max _{a} Q\left(s^{\prime}, a ; \theta\right)\right]^{2}\right.\)       (7)

DQN은 에이전트가 매 순간 그때까지 학습된 Q 함수를 통해 최적의 행동을 취하고 이때의 상태, 행동, 보상, 다음 상태를 replay memory에 저장한다. 에이전트의 행동을 통해 replay memory에 Q 함수를 학습시키기 위한 데이터가 저장되고 replay memory에 저장된 데이터를 무작위로 선택하여 Q 함수를 학습시킨다. 에이전트의 행동과 Q 함수의 학습 과정의 반복을 통해 에이전트는 주어진 상태에 대한 최적의 행동을 선택할 수 있다.

2. 제안된 기법

본 논문은 여러 개의 에이전트를 가지는 DQN를 활용한 에너지 사용량 예측 기법을 제안한다. 그림 3은 제안하는 다중 에이전트 기반의 DQN을 이용한 에너지 사용량 예측 기법의 구조도를 나타낸다. 제안하는 DQN 구조에서 상태는 현재를 기준으로 몇 단계 이전의 에너지 사용량, 행동은 다음의 에너지 사용량 예측치, 보상은 잘못된 예측에 대한 패널티를 크게 설정하기 위해 수식 8과같이 정의한다.

\(r=-0.02\left(E_{\text {target }}-a\right)^{2}+1\)       (8)

OTNBBE_2021_v21n3_175_f0003.png 이미지

그림 3. 다중 에이전트 가지는 DQN 기반 에너지 사용량 예측 기법.

Fig. 3. Energy consumption prediction scheme based on DQN with multi-agent.

여기서, r은 보상, Etarget은 관측된 에너지 사용량 데이터 중 현재 상태에서의 다음 에너지 사용량, a는 행동을 나타낸다. 에너지 사용량의 각 자릿수의 값이 에이전트로 할당되고 각각의 에이전트는 할당된 상태에 따라 0에서 9까지의 총 10개의 행동 중 하나를 선택하여 보상을 받는다. 제안한 기법은 학습단계와 실행단계로 나누어진다. 학습단계는 올바른 에너지 사용량 예측을 위해 과거의 에너지 사용량 데이터를 활용하여 DQN의 Q 함수를 반복적 과정을 통해 학습시키는 과정이다. 학습 단계는 다음과 같이 서술한다. DQN의 환경으로부터 관측되는 에너지 사용량을 통해 현재의 상태가 각각의 에이전트로 전달된다. 각각의 에이전트는 환경으로부터 전달받은 현재 상태에서 가치함수가 최대가 되는 행동을 선택하고 선택된 행동에 따라 결정되는 다음 상태, 행동, 보상 정보가 replay memory로 전달된다. Replay memory에는 현재의 상태, 행동, 보상, 다음 상태가 하나의 데이터셋으로 저장된다. Replay memory에 저장된 데이터셋의 수가 미리 정해진 값 이상이 되면 replay memory에서 데이터셋을 무작위로 정해진 개수만큼 추출하여 심층신경망으로 구현된 Q 함수를 학습시킨다. 설정된 반복 횟수만큼 위의 과정이 반복된다. 실행단계는 학습이 완료된 에이전트를 이용하여 새로 관측되는 에너지 사용량 값을 입력하여 에너지 사용량 예측값을 도출하는 과정이다. 본 논문의 제안 기법의 다중 에이전트 기반 DQN의 Q 함수를 구현하는 심층신경망으로는 LSTM(long-short term memory)를 이용한다. LSTM은 긴 시간 동안의 정보를 기억하기 위해 제안된 신경망 구조로 시간적 순서의 영향이 큰 시퀀스 데이터를 사용하는 모델에 적절할 수 있다[21].

Ⅳ. 시뮬레이션 및 결과

1. 데이터셋

본 논문에서 제안한 기법의 성능확인을 위한 시뮬레이션을 위해 UMass Trace Repository에서 제공하는 거주지역의 에너지 사용량 데이터를 이용한다[22]. 제공되는 데이터는 1분 단위로 에너지 사용량이 기록되어 있으며 1년간의 데이터를 제공한다. 제공되는 데이터 중 362일의 데이터는 학습 및 파라미터 검증을 위해 사용하고 3 일의 데이터를 학습된 모델의 성능을 확인하기 위해 사용한다.

2. 성능분석

제안한 기법의 성능분석을 위해 테스트 데이터와 예측데이터의 평균 제곱 오차(mean square error), 평균 절대 오차(mean absolute error), 평균 절대 비 오차 (mean absolute percentage error)를 이용하고 다음과 같은 수식으로 표현할 수 있다.

\(M S E=\frac{1}{N} \sum_{n=1}^{N}\left(E C_{n}-\widehat{E C}_{n}\right)^{2}\)         (9)

\(M A E=\frac{1}{N} \sum_{n=1}^{N}\left|E C_{n}-\widehat{E C}_{n}\right|\)          (10)

\(M A P E=\frac{1}{N} \sum_{n=1}^{N}\left|\frac{E C_{n}-\widehat{E C}_{n}}{\widehat{E C}_{n}}\right|\)         (11)

여기서, N은 테스트 데이터의 수, ECn는 n번째 에너지 사용량, \(\widehat{e c}_{n}\)는 예측한 n번째 에너지 사용량을 나타낸다.

표 1은 제안한 기법을 테스트 데이터로 시뮬레이션을 진행한 결과를 성능지표에 따라 보여준다.

표 1. 제안한 기법의 성능지표와 결과.

Table 1. Performance metrics and results of the proposed scheme.

OTNBBE_2021_v21n3_175_t0001.png 이미지

그림 4와 그림 5는 테스트를 위해 사용한 데이터의 일부분과 그에 대응하는 예측값를 보여준다. 이상점 (outlier)의 특징을 가지는 데이터를 제외하고 제안한 기법의 결과는 실제값과 근사한 값을 가지는 것을 확인할 수 있다. 제안한 기법이 에너지 사용량의 경향을 예측할 수 있는 것으로 분석할 수 있다.

OTNBBE_2021_v21n3_175_f0004.png 이미지

그림 4. 테스트 데이터 일부분과 예측값의 비교.

Fig. 4. Comparison of a portion of test data and the predicted value.

OTNBBE_2021_v21n3_175_f0005.png 이미지

그림 5. 테스트 데이터 일부분과 예측값의 비교.

Fig. 5. Comparison of a portion of test data and the predicted value.

Ⅴ. 결론

본 논문에서는 다중 에이전트를 가지는 DQN 기반의 에너지 사용량 예측 기법을 제안하였고 공개된 실제 에너지 사용량 데이터를 이용한 시뮬레이션을 통해 제안기법의 성능을 확인하였다. 시뮬레이션 결과로부터 제안한 기법은 이상점의 특징을 가지는 데이터를 제외하고 실제값과 근사한 값을 예측하는 것을 확인할 수 있었다. 본 논문에서 제어 분야에서 주로 사용되는 강화학습 알고리즘을 에너지 사용량 예측에 적용하고 분석해봄으로써 예측 분야에서의 강화학습 알고리즘의 활용 가능성을 제시할 수 있었다. 본 논문에서 활용한 강화학습 알고리즘과 다른 방식의 강화학습 알고리즘의 적용한 에너지사용량 예측 기술의 추가적 연구를 통해 강화학습 알고리즘의 활용성을 확인할 수 있다.

References

  1. D. E. Olivares et al., "Trends in microgrid control," IEEE Transactions on Smart Grid, vol. 5, no. 4, pp. 1905-1919, July 2014. DOI: https://doi.org/10.1109/TSG.2013.2295514
  2. S. Rue, "A Biz Model and Policy Suggestion for Total Operation Center of MEG," The Journal of KIIT, vol. 4, no. 4, pp. 157-169, Apr. 2014. DOI: https://doi.org/10.14801/kiitr.2014.12.4.157
  3. Y. Yoon, "Standardization to ensure Interoperability and Reliability of Campus Microgrid," The Journal of The Institute of Internet, Broadcasting and Communication, vol. 20, no. 2, pp. 277-282, Apr. 2020. DOI: https://doi.org/10.7236/JIIBC.2020.20.2.277
  4. T. Hong and S. Fan, "Probabilistic electric load forecasting: A tutorial review," International Journal of Forecasting, vol. 32, no. 3, pp. 914-938, July 2016. DOI: https://doi.org/10.1016/j.ijforecast.2015.11.011
  5. Y. Kim, S. Lee, and Y. Kwon, "Proposal of Step-by-Step Optimized Campus Power Forecast Model using CNN-LSTM Deep Learning," Journal of the Korea Academia-Industrial cooperation Society, vol. 21, no. 10, pp. 8-15, Oct. 2020. DOI: https://doi.org/10.5762/KAIS.2020.21.10.8
  6. K. Amasyali and N. M. El-Gohary, "A review of data-driven building energy consumption prediction studies," Renewable and Sustainable Energy Reviews, vol. 81, pp. 1192-1205, Jan. 2018. DOI: https://doi.org/10.1016/j.rser.2017.04.095
  7. A. S. Ahmad, M. Y. Hassan, M. P. Abdullah, H. A. Rahman, F. Hussin, H. Abdullah, and R. Saidur, "A review on applications of ANN and SVM for building electrical energy consumption forecasting," Renewable and Sustainable Energy Reviews, vol. 33, pp. 102-109, May 2014. DOI: https://doi.org/10.1016/j.rser.2014.01.069
  8. Z. Wang, Y. Wang, and R. S. Srinivasan, "A novel ensemble learning approach to support building energy use prediction," Energy and Buildings, vol. 159, pp. 109-122, Jan. 2018. DOI: https://doi.org/10.1016/j.enbuild.2017.10.085
  9. C. Fan, F. Xiao, and Y. Zhao, "A short-term building cooling load prediction method using deep learning algorithms," Applied Energy, vol. 195, pp. 222-233, June 2017. DOI: https://doi.org/10.1016/j.apenergy.2017.03.064
  10. M. Florkowski, "Classification of partial discharge image using deep convolutional neural network," Energies, vol. 13, no. 20(5496), pp. 1-17, Oct. 2020. DOI: https://doi.org/10.3390/en13205496
  11. D. Lee, Y. G. Sun, S. H. Kim, I. Sim, Y. M. Hwang, D. I. Kim, and J. Y. Kim., "DQN-based adaptive modulation scheme over wireless communication channels," IEEE Communications Letters, vol. 24, no. 6, pp. 1289-1293, June 2020. DOI: 10.1109/LCOMM.2020.2978390.
  12. V. Mandal, A. R. Mussah, P. Jin, and Y. Adu-Gyamfi, "Artificial intelligence-enabled traffic monitoring system," Sustainability, vol. 12, no. 21(9177), pp. 1-21, Nov. 2020. DOI: https://doi.org/10.3390/su12219177
  13. J. Cifuentes, G. Marulanda, A. Bello, and J. Reneses, "Air temperature forecasting using machine learning techniques: A review," Energies, vol. 13, no. 16(4215), pp. 1-28, Aug. 2020. DOI: https://doi.org/10.3390/en13164215
  14. I. Kiprijanovska, S. Stankoski, I. Ilievski, S. Jonvanovski, M. Gams, and H. Gjoreski, "HouseEEC: Day-ahead household electrical energy consumption forecasting using deep learning," Energies, vol. 13, no. 10(2672), pp. 1-29, May 2020. DOI: https://doi.org/10.3390/en13102672
  15. F. U. M. Ullah, A. Ullah, I. U. Haq, S. Rho, and S. W. Baik, "Short-term prediction of residential power energy consumption via CNN and multi-layer bi-directional LSTM networks," IEEE Access, vol. 8, pp. 123369-123380, Dec. 2019. DOI: https://doi.org/10.1109/ACCESS.2019.2963045.
  16. T. Liu, Z. Tan, C. Xu, H. Chen and Z. Li, "Study on deepl reinforcement learning techniques for building energy consumption forecasting," Energy and Buildings, vol. 208, , no. 109675, pp. 1-14, Feb. 2020. DOI: https://doi.org/10.1016/j.enbuild.2019.109675
  17. R. Park, K. Song, and B. Kwon, "Short-term load forecasting algorithm using a similar day selection method based on reinforcement learning," Energies, vol. 13, no. 10(2640), pp. 1-19, May 2020. DOI: https://doi.org/10.3390/en13102640
  18. P. Louridas and C. Ebert, "Machine Learning," IEEE Software, vol. 33, no. 5, pp. 110-115, Sept. 2016. DOI: https://doi.org/10.1109/MS.2016.114.
  19. R. S. Sutton and A. G. Barto, Reinforcement learning: An introduction, Cambridge, MIT Press, 2018.
  20. V. Mnih et al., "Human-level control through deep reinforcement learning," Nature, vol. 518, pp. 529-533, Feb. 2015. DOI: https://doi.org/10.1038/nature14236
  21. Q. Zhang, H. Wang, J. Dong, G. Zhong and X. Sun, "Prediction of Sea Surface Temperature Using Long Short-Term Memory," IEEE Geoscience and Remote Sensing Letters, vol. 14, no. 10, pp. 1745-1749, Oct. 2017. DOI: https://doi.org/10.1109/LGRS.2017.2733548.
  22. M. Liberatore and P. Shenoy, UMass Trace Respository. Available at: http://traces.cs.umass.edu/