Research on Unmanned Aerial Vehicle Mobility Model based on Reinforcement Learning

Kyoung Hun Kim;Min Kyu Cho;Chang Young Park;Jeongho Kim;Soo Hyun Kim;Young Ghyu Sun;Jin Young Kim;

doi:10.7236/JIIBC.2023.23.6.33

The Journal of the Institute of Internet, Broadcasting and Communication (한국인터넷방송통신학회논문지)

Volume 23 Issue 6
/
Pages.33-39
/
2023
/
2289-0238(pISSN)
/
2289-0246(eISSN)

The Institute of Internet, Broadcasting and Communication (한국인터넷방송통신학회)

DOI QR Code

Research on Unmanned Aerial Vehicle Mobility Model based on Reinforcement Learning

강화학습 기반 무인항공기 이동성 모델에 관한 연구

Kyoung Hun Kim ;
Min Kyu Cho ;
Chang Young Park ;
Jeongho Kim ;
Soo Hyun Kim ;
Young Ghyu Sun ;
Jin Young Kim (Dept. of Electronic Convergence Engineering, Kwangwoon University)

김경훈 (광운대학교 전자융합공학과) ;
조민규 (광운대학교 전자융합공학과) ;
박창용 (광운대학교 전자융합공학과) ;
김정호 (광운대학교 전자융합공학과) ;
김수현 (광운대학교 전자융합공학과) ;
선영규 (광운대학교 전자융합공학과) ;
김진영 (광운대학교 전자융합공학과)

Received : 2023.10.05
Accepted : 2023.12.08
Published : 2023.12.31

https://doi.org/10.7236/JIIBC.2023.23.6.33 Citation PDF HTML

Download PDF

⟨ Previous Next ⟩

Abstract

Recently, reinforcement learning has been used to improve the communication performance of flying ad-hoc networks (FANETs) and to design mobility models. Mobility model is a key factor for predicting and controlling the movement of unmmaned aerial vehicle (UAVs). In this paper, we designed and analyzed the performance of Q-learning with fourier basis function approximation and Deep-Q Network (DQN) models for optimal path finding in a three-dimensional virtual environment where UAVs operate. The experimental results show that the DQN model is more suitable for optimal path finding than the Q-learning model in a three-dimensional virtual environment.

최근 비행 애드-훅 네트워크(Flying Ad-hoc Network) 환경에서 강화학습을 이용한 통신 성능 개선과 이동성 모델 설계에 관한 연구가 진행되고 있다. 무인항공기(UAV)에서의 이동성 모델은 움직임을 예측하고 제어하기 위한 핵심요소로 주목받고 있다. 본 논문에서는 무인항공기가 운용되는 3차원 가상 환경을 구현하고, 무인항공기의 경로 최적화를 위해 푸리에 기저 함수 근사를 적용한 Q-learning과 DQN 두 가지 강화학습 알고리즘을 적용하여 모델을 설계 및 성능을 분석하였다. 실험 결과를 통해 3차원 가상 환경에서 DQN 모델이 Q-learning 모델 대비 최적의 경로 탐색에 적합한 것을 확인하였다.

Keywords

Ⅰ. 서론

비행 애드-혹 네트워크(Flying Ad-hoc Network)는 무인항공기(Unmanned Aerial Vehicle) 또는 자율 비행 드론이 공중에서 독자적인 네트워크를 형성하는 모바일 애드-혹 네트워크(Mobile Ad-hoc Network)의 한 종류이다. 그러나 비행 애드-혹 네트워크는 노드가 공중에서 비행하는 특성으로 인해 동적 토폴로지를 가진다. 비행 애드-혹 네트워크의 통신 성능에 가장 큰 영향을 주는 요소는 안정적인 노드 간 연결성이다. 비행 애드-혹네트워크의 환경은 동적이기 때문에 임무 수행성을 최대화하기 위해 안정적인 통신 환경 제공이 필요하다.

최근 인공지능(Artificial Intelligence)이 비행 애드-혹 네트워크 연구에 사용되면서 강화학습을 통한 라우팅 프로토콜, 비행 궤적 선택, 재밍으로부터의 보호 등의 새로운 접근 방식이 제안되고 있다^{[1, 2]}. 인공지능 알고리즘은 동적 시스템 동작을 학습하고 예측하는 강력한 도구로 사용되고 있으며, 비행 애드-혹 네트워크의 복잡성을 계산할 수 있는 메커니즘을 제공한다. 강화학습 알고리즘을 통해 비행 애드-혹 네트워크의 복잡한 이동성과 동적 토폴로지에 대응하는 이동성 모델 설계와 라우팅 프로토콜의 최적화를 통한 통신 성능을 개선하는 연구가 진행되고 있다^[3]~[6].

본 논문은 비행 애드-혹 네트워크 환경에서 강화학습 알고리즘을 활용한 이동성 모델을 설계하여 비교 분석한다. 본 논문의 구성은 다음과 같다. II장에서는 비행 애드-혹 네트워크의 구조와 특징에 대해 분석하고, III장에서는 이동성 모델을 설계하기 위한 강화학습 알고리즘을 설명한다. IV장에서는 푸리에 기저 함수 근사를 적용한 Q-learning과 DQN을 이용하여, 3차원 환경에서의 최적의 UAV 경로 탐색 및 비행 궤적 선택을 위한 이동성 모델의 성능 평가를 수행하였다.

Ⅱ. 비행 애드-혹 네트워크

비행 애드-혹 네트워크를 구성하는 노드들은 무선 인터페이스를 가지며, 이동 컴퓨팅 기능을 가진 호스트와 라우팅 기능을 동시에 만족하여 흔히 이동 노드라 정의한다. 이동 노드들은 기지국과 UAV 노드 간 정보 교환 방식을 최소화하여 별도의 통신 인프라 없이 통신 범위 제약 문제를 극복할 수 있는 애드-혹 방식으로 실시간 통신을 수행한다. 비행 애드-혹 방식은 별도의 통신 인프라없이 망 구성이 가능하며 3차원 이동 특성과 고정된 인프라 없이 동작 가능하다. 비행 애드-혹 네트워크 구조는 실시간 통신 및 범위 제약이 주요 이슈이고 통신 인프라가 제약된 환경에서 무선 통신 환경을 제공한다. 따라서 비행 애드-혹 네트워크는 빠르고 안전한 통신 환경을 제공하기 위해 다양한 네트워크 아키텍쳐가 제안되고 있다^[1][7].

1. UAV 애드-혹 네트워크

UAV 애드-혹 네트워크에서 모든 UAV 노드는 서로 연결되어 통신이 이루어진다. UAV 노드 중 특정 UAV 노드는 기지국과 다른 노드들 사이의 관문국(Gateway) 역할을 수행하며 이를 Backbone UAV 혹은 Head 노드라고 한다. 그림1과 같이 관문국 노드만이 기지국과 연결되어 통신 범위가 크게 확장된다. 그러나 네트워크의 연결성을 유지하기 위해서는 같은 네트워크 내에 있는 노드들의 이동성 패턴이 같아야 한다. 그러므로 UAV 애드-혹 네트워크는 규모가 작은 임무에 적합하다.

OTNBBE_2023_v23n6_33_f0001.png 이미지

그림 1. UAV 애드-혹 네트워크.

Fig. 1. UAV Ad-hoc network.

2. Multi-UAV 애드-혹 네트워크

Multi-UAV 애드-혹 네트워크는 UAV 애드-혹 네트워크를 통합한 형태이다. 그림 2와 같이, 동일 네트워크에서는 여러 대의 UAV가 클러스터를 형성하여 서로 연결하고 클러스터는 다시 Head UAV를 통해 기지국과 연결된다. 클러스터 내 통신은 기지국의 도움 없이 이루어지지만, 클러스터 간 통신은 기지국의 도움을 받아 이루어진다. Multi-UAV 애드-혹 네트워크는 통신 특성이 서로 다른 다수의 UAV가 필요한 경우 유용하다. 특히 UAV 애드-혹 네트워크에 비해 넓은 반경에 사용되어 소방, 보안, 정찰, 방송 등 응용 범위가 다양하다. 그러나 클러스터 간 통신은 기지국을 통해 이루어지고 기지국과 통신하는 노드가 한정되기 때문에 단일 장애 지점이 존재하는 단점이 있다.

OTNBBE_2023_v23n6_33_f0002.png 이미지

그림 2. Multi-UAV 애드-혹 네트워크.

Fig. 2. Multi-UAV Ad-hoc network.

3. Multi-layer UAV 애드-혹 네트워크

Multi-layer UAV 애드-혹 네트워크는 여러 계층으로 구성된다. 그림 3과 같이 첫 번째 계층은 개별 클러스터 내 UAV 간 통신이며, 두 번째 계층은 Head UAV 간 통신, 세 번째 계층은 Head UAV와 기지국 간 통신으로 구성된다. Multi-layer UAV 애드-혹 네트워크는 기지국에서의 통신 부하와 오버헤드를 줄이기 위해 클러스터 UAV와 통신하는 Head UAV만이 기지국과 통신이 이루어지는 특성을 갖고 있다. 그러나 기지국과 통신하는 Head UAV 간 링크가 끊어지면 전체 네트워크의 운용이 불가능하다는 단점이 있다.

OTNBBE_2023_v23n6_33_f0003.png 이미지

그림 3. Multi-layer UAV 애드-혹 네트워크.

Fig. 3. Multi-layer UAV ad-hoc network.

Ⅲ. 강화학습

강화학습은 주어진 상황에서 최적의 행동을 찾기 위한 방법을 학습한다. 행동의 결과는 최대한의 보상을 가져다주어야 하며, 보상 함수는 수학적으로 정의되어야 한다. 에이전트(Agent)는 행동에 대한 특정 지침을 받지 않고 스스로 행동하면서 최대 보상을 가져다주는 행동을 찾도록 학습한다. 강화학습은 정책(policy), 보상(reward) 그리고 환경(environment)으로 이루어진다. 에이전트는 환경으로부터 정보를 받아 특정 시점에서 어떤 행동을 할지 정책을 결정한다. 상태에 대한 행동을 취하면 환경은 그에 대한 보상을 전달한다. 에이전트는 보상을 높이는 행동을 선택하도록 업데이트하여 최적의 정책을 결정한다.

1. Q-learning

강화학습에서 주요 알고리즘 중 하나는 시간차(Temporal-Difference, TD) 학습이다. TD 알고리즘은 최종 학습 결과를 기다리지 않고, 학습된 다른 추정값을 활용하여 추정값을 갱신한다. TD 알고리즘은 지속적인 추정값 업데이트를 통해 빠르고 효과적인 학습을 가능하게 한다. 그림 4는 강화학습 알고리즘의 모식도이다.

OTNBBE_2023_v23n6_33_f0004.png 이미지

그림 4. 강화학습 알고리즘.

Fig. 4. Reinforcement algorithm.

V(S_t)←V(S_t) + α[R_t+1 + γV(S_t+1) - V(S_t)]. (1)

수식 1은 다음 상태에 대한 가치함수 V(S_t+1)와 현재 가치함수 V(S_t)에 대한 차이를 활용해 새로운 현재 가치함수에 반영한 수식을 나타낸다. α는 학습률(learning rate), γ는 감가율(discount factor)로 학습 성능을 조정하는 변수를 의미한다.

δ = [R_t+1 + γV(S_t+1) - V(S_t) (2)

수식 2는 TD 오차(error)를 의미하며, 다음 상태에 대한 이전 가치함수를 계산하여 최적의 정책을 결정하는 Target으로 적용된다.

Q(s_t, α_t)←Q(s_t, α_t) + α[R_t+1 + γmax_α(Q(s_t+1, α_t+1)) - Q(s_t, α_t)]. (3)

Q-learning은 모든 상태와 행동을 테이블로 지정하는 Tabular-Method를 사용한다. 에이전트는 수식 3과 같이 상태와 행동 쌍을 이용하여 Q 함수를 학습하고 다음 상태의 가치함수를 최댓값으로 하는 행동을 이용하여 Q 함수를 업데이트한다. 그러나 테이블 기반 Q-learning은 고차원 상태 공간을 다루는 문제에서 최적의 정책이나 최적의 가치함수를 찾는 것에 한계가 있다.

고차원 상태 공간에서 Q-learning이 갖는 한계점을 극복하기 위해 함수 근사(function approximation) 기법이 제안되었다^[8]. 함수 근사기법은 제한된 계산 능력에서 최적의 해를 찾는 대신 근사적 해를 이용한 방법을 의미하며, 고차원 상태 공간에서 합리적인 결정을 내리는 방안으로 사용된다.

푸리에 기저 함수 근사는 푸리에 급수를 이용하여 가치함수를 기저 함수의 가중 합계로 값을 예측하는 방법이다. 푸리에 급수는 사인과 코사인 함수들로 구성되어 모든 주기함수에 대해 푸리에 급수로 정의할 수 있다. 강화학습에서는 근사해야 하는 함수가 알려지지 않고, 주기적인 특성이 있지 않지만 제한된 구간에서 구간의 길이를 주기로 가정하면 푸리에 급수로 정의할 수 있다.

각각의 상태 s가 k개의 숫자로 구성된 벡터 s = (s₁, s₂, ..., s_k)를 구성하고, s_i∈[0, 1]이라고 가정한다. 그러면 n차 푸리에 코사인 기저의 특징을 식 4와 같이 표현할 수 있다.

x_i(s) = cos(πcⁱs). (4)

수식 4에서 c는 코사인 함수의 기저 계수를 의미하며, cⁱ = [c₁, ..., c_k]로 정의된다. 이때 c_j∈[0, ..., n]이다. 벡터 내적 cⁱs는 s의 각 차원에 (n+1)^k개의 정수 계수 c를 할당한다. n차 푸리에 기저는 코사인 함수를 이용하여 다변수로 확장이 가능하다. 높은 차수의 다항식 기저는 비선형 함수에 대한 근사치에서 발생하는 오차값을 감소시킬 수 있다.

2. DQN

인공신경망은 비선형 함수의 근사에 활용된다. DQN((Deep-Q Network)은 인공신경망과 Q-learning을 결합한 방식으로 고차원 상태 공간에서의 효과적인 학습을 가능하게 한다. 그림 5는 Q-learning과 DQN에서 Q 함수를 근사시키는 방법의 차이를 나타낸다. 테이블 방식을 이용한 Q 함수를 근사시키는 Q-leaning과 달리 DQN은 인공신경망의 가중치를 통해 Q 함수를 근사한다. DQN은 그림 6과 같이 경험 재현 메모리(experience replay memory)를 이용하여 학습 속도를 높인다. 또한, DQN은 Q 함수를 업데이트하는 역할을 하는 ‘Q Network’와 Q 값을 예측하는 ‘Target Network’ 두 개의 신경망을 사용하여 두 개의 신경망을 주기적으로 업데이트한다. 그리고 학습 대상인 Q 함수의 값이 커지는 걸 방지하도록 하여 안정적인 학습을 할 수 있다.

OTNBBE_2023_v23n6_33_f0005.png 이미지

그림 5. Q-learnig과 DQN 비교.

Fig. 5. Comparison between Q-learning and DQN.

OTNBBE_2023_v23n6_33_f0006.png 이미지

그림 6. DQN 알고리즘 처리 과정.

Fig. 6. DQN algorithm flowchart.

Ⅳ. 이동성 모델의 설계 및 성능 평가

1. 시뮬레이션 환경

본 논문에서는 비행-애드 혹 네트워크 환경에서 강화 학습 기반 최적의 경로 탐색을 위해 3차원 환경을 구성하였다. 그림 7은 100 x 100 x 30 크기의 3차원 가상 환경을 도식화한 것을 보여준다.

OTNBBE_2023_v23n6_33_f0007.png 이미지

그림 7. 3차원 시뮬레이션 환경.

Fig. 7. 3D Simulation environment.

드론(에이전트)이 3차원 가상환경에서 최단 경로로 목적지에 도달하기 위한 강화학습 모델을 설계하기 위해 보상을 표 1과 같이 설정하였다.

표 1. 실험 파라미터.

Table 1. Simulation Parameters.

OTNBBE_2023_v23n6_33_t0001.png 이미지

2. 이동성 모델 학습 방법

본 논문에서는 비행-애드 혹 네트워크 환경에서 강화 학습 기반 최적의 이동성 모델 설계를 위해 푸리에 기저 함수 근사를 적용한 Q-learning과 DQN을 이용하였다. 3차원 가상 환경에서 높은 수렴을 기대할 수 있도록 2가지 탐험 방식으로 학습하였다. 첫 번째 탐험 방식은 exploration-exploitation으로, 2000번의 에피소드까지 탐험(exploration)을 결정하는 epsilon 값을 1.0으로 고정하여 드론이 탐험하도록 유도하였다. 2000번의 에피소드 이후로는 epsilon 값을 1e-3으로 설정하여 탐험을 통해 얻은 추정값을 이용(exploitation)하도록 설정했다. 두 번째 탐험 방식은 gradual exploration으로, exponential decay를 설정하여 에피소드가 진행될 때마다 epsilon 값이 점진적으로 감소하도록 설정했다.

3. 학습 결과

3차원 가상 환경에서 최적의 이동성 모델 찾기 위해 다양한 실험을 수행했다. 본 논문에서 제안한 강화학습 모델 성능을 비교 분석하기 위해 드론이 움직인 횟수와 그에 따른 보상 값을 이용하였다. 그림 8과 그림 9는 exploration-exploitation 방식으로 학습했을 때의 결과를 보여준다. 초기 2000번까지는 탐험으로 인해 총 보상 값이 낮음을 확인할 수 있다. 그러나 학습이 진행됨에 따라 에이전트는 높은 보상을 얻을 수 있는 경로를 찾아 내고, 움직인 횟수 또한 적어지는 것을 확인할 수 있었다. 시뮬레이션 결과 Q-learning과 DQN 모두 일정 수준으로 수렴함을 확인할 수 있었고, DQN이 Q-learning보다 빠르게 수렴하는 것을 확인할 수 있었다. 그림 10과 그림 11은 DQN을 모델에서 exploration-exploitation 방식과 gradual exploration 방식으로 학습을 수행한 결과를 보여준다. Gradual exploration 방식은 무작위 행동의 가능성이 높음에도 exploration-exploitation 보다 빠른 수렴을 보여주고 있다. 이는 gradual exploration 방식이 3차원 공간에서의 최적 경로를 결정하는 것에 더 효과적임을 알 수 있다.

OTNBBE_2023_v23n6_33_f0008.png 이미지

그림 8. Q-learning과 DQN의 step counts 비교.

Fig. 8. Comparison of step counts in Q-learning and DQN.

OTNBBE_2023_v23n6_33_f0009.png 이미지

그림 9. Q-learning과 DQN의 total rewards 비교.

Fig. 9. Comparison of total rewards in Q-learning and DQN.

OTNBBE_2023_v23n6_33_f0010.png 이미지

그림 10. DQN 탐험 정책 비교 (step counts).

Fig. 10. Exploration policy comparison in DQN (step counts).

OTNBBE_2023_v23n6_33_f0011.png 이미지

그림 11. DQN 탐험 정책 비교 (total rewards). Fig. 11. Exploration policy comparison in DQN (total rewards).

Ⅴ. 결론

본 논문에서는 3차원 가상 환경에서 심층 강화학습 기반 이동성 모델이 강화학습 기반 이동성 모델보다 최적의 비행경로 선정에 적합한 것을 시뮬레이션 결과를 통해 확인하였다. 제안한 모델은 에이전트가 이동한 횟수와 총 보상값을 통해 성능을 평가하였다.

Exploration-exploitation 탐험 방식에서 DQN을 이용한 이동성 모델이 푸리에 기저 함수 근사를 적용한 Q-learning보다 우수한 성능을 보여주었다. 또한 exploration-exploitation과 gradual exploration 탐험 방식을 DQN에 적용한 결과 gradual exploration 탐험 방식을 적용한 DQN에서 높은 성능을 확인할 수 있었다.

References

S. Rezwan and W. Choi, "A Survey on Applications of Reinforcement Learning in Flying Ad-Hoc Networks", Electronics, Vol. 10, No. 4, pp. 449, Feb. 2021. DOI: https://doi.org/10.3390/electronics10040449
P. S. Bithas, E. T. Michailidis, N. Nomikos, D. Vouyioukas, and A. G. Kanatas, "A Survey on Machine-Learning Techniques for UAV-based Communications", Sensors, Vol. 19, No. 23, p. 5170, Nov. 2019. DOI: https://doi.org/10.3390/s19235170
Kil-woong Jang, "Reinforcement Learning for Node-disjoint Path Problem in Wireless Ad-hoc Networks", Journal of the Korea Institute of Information and Communication Engineering, vol. 23, no. 8, pp. 1011-1017, 2019. DOI: https://doi.org/10.6109/jkiice.2019.23.8.1011
Luis Antonio L.F. da Costa, R. Kunst, E. P. de Freitas, "Q-FANET: Improved Q-learning based Routing Protocol for FANETs", Computer Networks, vol. 198, no. 3, 2021. DOI: https://doi.org/10.1016/j.comnet.2021.108379
A. M. Koushik, F. Hu and S. Kumar, "Deep Q -Learning-based Node Positioning for Throughput-Optimal Communications in Dynamic UAV Swarm Network", in IEEE Transactions on Cognitive Communications and Networking, vol. 5, no. 3, pp. 554-566, Sept. 2019. DOI: https://doi.org/10.1109/TCCN.2019.2907520
S. Bhagat and P. B. Sujit, "UAV Target Tracking in Urban Environments Using Deep Reinforcement Learning", 2020 International Conference on Unmanned Aircraft Systems (ICUAS), Athens, Greece, pp. 694-701, 2020. DOI: https://doi.org/10.1109/ICUAS48674.2020.9213856
J. Lin, W. Cai, S. Zhang, X. Fan, S. Guo and J. Dai, "A Survey of Flying Ad-Hoc Networks: Characteristics and Challenges", 2018 Eighth International Conference on Instrumentation & Measurement, Computer, Communication and Control (IMCCC), Harbin, China, pp. 766-771, 2018. DOI: https://doi.org/10.1109/IMCCC.2018.00165
G. Konidaris, S. Osentoski, and P. Thomas, "Value Function Approximation in Reinforcement Learning Using the Fourier Basis", AAAI, vol. 25, no. 1, pp. 380-385, Aug. 2011. DOI: https://doi.org/10.1609/aaai.v25i1.7903
S. Bhagat and P. B. Sujit, "UAV Target Tracking in Urban Environments Using Deep Reinforcement Learning", 2020 International Conference on Unmanned Aircraft Systems (ICUAS), Athens, Greece, pp. 694-701, 2020. DOI: https://doi.org/10.1109/ICUAS48674.2020.9213856
T. Camp, J. Boleng, V. Davies, "A Survey of Mobility Models for Ad hoc Network Research", Wireless Communications and Mobile Computing, vol 2, no. 5, pp. 483-502, Aug, 2002. DOI: https://doi.org/10.1002/wcm.72
A. Bujari, Claudio. E. Palazzi, D. Ronzani, "FANET Application Scenarios and Mobility Model", DroNet '17: Proceedings of the 3rd Workshop on Micro Aerial Vehicle Networks, Systems, and Applications, Association for Computing Machinery, New York, NY, USA, pp. 43-46, Jun, 2017. DOI: https://doi.org/10.1145/3086439.3086440
S. Lee, B. On, G. S. Choi and S. Yi, "DQN Model based on Virtual Environment for Improving High Score Convergence Speed in Reinforcement Learning Games," in Proc. of KIIT Conference, pp. 472-475, Oct, 2020.

The Journal of the Institute of Internet, Broadcasting and Communication (한국인터넷방송통신학회논문지)

Research on Unmanned Aerial Vehicle Mobility Model based on Reinforcement Learning

강화학습 기반 무인항공기 이동성 모델에 관한 연구

Abstract

Keywords

Ⅰ. 서론

Ⅱ. 비행 애드-혹 네트워크

1. UAV 애드-혹 네트워크

2. Multi-UAV 애드-혹 네트워크

3. Multi-layer UAV 애드-혹 네트워크

Ⅲ. 강화학습

1. Q-learning

2. DQN

Ⅳ. 이동성 모델의 설계 및 성능 평가

1. 시뮬레이션 환경

2. 이동성 모델 학습 방법

3. 학습 결과

Ⅴ. 결론

References

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)