Federated Reinforcement Learning: Techniques, Applications, and Open Challenges

이두현·2024년 3월 17일

Federated Learning

Intro

FL : train data respectively and build shared model

Still problems in RL

1) Low sample efficiency

→ 이러한 문제를 풀기 위해서는 agent 간 communication 도입 필요, 하지만 이를 위해 central sever를 도입하는 것은 privacy 이슈를 초래

(FL은 privacy 이슈 없이 information exchange도 가능할 뿐만 아니라 various agent 들이 각각의 다양한 환경에 적응하는 것도 가능하게 함)

2) simulation reality gap

RL 은 real world 에 deploy 하기 위해서는 simulation 환경에서의 training 과정을 필요로 하지만 이는 실물을 완벽히 반영하지 못하는 문제가 있음

( FL은 시뮬레이션과 실물 두가지 env를 모두 받아 gap을 줄일 수 있음)

3) partial observation

각 agent들이 partial observation 만을 보는 것은 납득할만한 행동을 이끌기 부족한 경우가 있다

(FL은 aggregation을 통해 이를 가능하게 한다 → but how?)

⇒ 이러한 이유들로 FRL(Federated Reinforcement learning) 의 필요성이 대두됨

FL과 RL의 융합예시

ex) FL 에서의 (sample, feature, label) = (env, state, action) 으로 대체

FL은 HFL 과 VFL로 나뉜다?

→ 이러한 구분을 따라서 HFRL과 VRFL 로 나눠보자!

synchronous FL과 asynchronous FL 도 한번 보도록

전개순서

1) section2, 3 : 각각 FL과 RL에 대한 설명

2) section4 : FRL framework에 대한 설명

3) section5: 나와있는 FRL paper에 대한 종합적인 설명

4) section6: open issue 들과 direction

Section 2

2.A 절은 이미 아는 내용 (FedAvg) 이라 정리 생략

2.B FL architecture

1) client-server architecture

client 에 대한 기본적인 요구사항 두가지

hardward performance
independent of one another

server: train global model + maintain communication with all 참가자

2) p2p architecture

3rd party server를 필요로 하지 않고 직접 model 요구가능

사용예시) 여러 은행들이 ML 기반 attack 을 방어하는 모델을 개발했을 때 attack experience는 당한 은행만 소유하면서 통신 원하는 은행들이 이 경험을 통한 학습의 혜택을 볼 수 있다.

2.3 FL 의 category

데이터가 feature와 sample space 에 나눠진 방식에 따라 HFL, VFL, FTL(Federated Transfer Learning)로 구분가능

Federeated RL

background

FRL 의 장점

1) unknown env 에서 agent들이 good decision을 내리도록 훈련가능

2) privacy : 이 부분은 크게 관심없음

3) privacy 영역을 떠나 RL이 더 좋은 성능을 내게 도와줄 것이다 → but how?

env parition 에 따라 FRL을 두가지로 분류 : HFRL, VFRL

HFRL : 각 agent들이 속한 env는 서로 indep 하다

하지만 각 agnet의 state space와 action space는 비슷하게 놓여있다 가정한다

→ 이러한 상황은 state space와 action space 가 너무 큰 환경에서 agent가 이를 모두 탐색할 수 없으므로 다른 agent가 학습한 결과를 참고해 자신도 탐색한 것과 같은 효과를 낼 수 있다.

VFRL : agent들이 공유된 global env 에서 interact 한다

각 agent들이 env에 미치는 영향은 다른 agent들에게도 영향이 간다

MARL 과의 차이는 무엇인지 후술되어 있음

4.B HFRL

적용상황 : 비슷한 decision making task에 속해있지만 서로 간의 interaction 이 매우 적은 경우

장점

1) 기존 RL의 sample efficiency 문제를 해결할 수 있음

Framework

env ↔ dataset
state space ↔ feature space
action space ↔ label space

ex) autonomous driving

하나의 vehicle 이 모든 종류의 condition 에 노출될 수 없지만 각 vehicle 의 action space와 state space가 유사하고 비슷한 task를 갖고 있기 때문에 초기에 정의한 HFRL 환경에 적합하다

훈련 순서 중에서 step4 의 aggregation alogrithm 을 생각해보는게 연구주제가 될 수 있을 것 같음!

aggregation algorithm for global federated model

agent가 관찰하는 env는 시간에 따라 dynamic 하게 바뀔 수 있으므로 각 agent들은 model 을 빠르게 update 해서 env에 적응한 local model을 만들 수 있어야 한다 .

C. Nadiger, A. Kumar, and S. Abdelhak, “Federated reinforcement learning for fast personalization,” in 2019 IEEE Second International
Conference on Artificial Intelligence and Knowledge Engineering (AIKE), 2019, pp. 123–127

→ (grouping policy, learning policy, federation policy) 를 포함하며 // RL : applicability of granular personalization

FL : reduce training time

B. Liu, L. Wang, M. Liu, and C. Xu, “Lifelong federated reinforcement learning: A learning architecture for navigation in cloud
robotic systems,” CoRR, vol. abs/1901.06455, 2019. [Online]. Available: http://arxiv.org/abs/1901.06455

→ 각 robot이 각자의 env에서 배운 model을 global model 에 합친 후 이를 이용해 새로운 환경에 빠르게 적응하는 것을 목표로 함,

각 robot의 network와 global network의 structure가 다른 경우 transfer learning을 통해 해결

X. Wang, C. Wang, X. Li, V. C. M. Leung, and T. Taleb, “Federated deep reinforcement learning for internet of things with decentralized
cooperative edge caching,” IEEE Internet of Things Journal, vol. 7, no. 10, pp. 9441–9455, 2020.

→ local learning의 첫 라운드 training parameter를 통해 cooperative predictive model을 배우고 다음 global learning 의 parameter를 올린다…

HFRL이 연구되기 전 synchronized , asynchronous로 구분되는 알고리즘

synchronous : Sync-Opt, Parallel Advantage Actor Critic(PAAC)

→ 각 agent가 env를 seperate 하게 explore 한 후 global parameter는 synchronous 하게 업데이트

asynchronous : A3C, Impala, Ape-X

나아갸아 할 방향

agent들의 env가 서로 IID 하다는 가정이 깔려있는데 실제로는 그렇지 않다 (각 agent가 처한 env가 살짝씩 다름)
HFRL은 parallel RL과 다르게 Non-IID data로 인한 문제를 해결하기 위해 generalization ability를 증진시켜야 한다.

4.C VFRL

agent들이 같은 env에 있지만 다른 interaction을 갖고 있는 환경

각 agent들은 서로다른 action space에서 행동을 선택할 수 있음
각 agent가 관찰할 수 있는 범위는 매우 작기 때문에 협동을 통해 decision making의 도움을 받을 수 있음
여기서 FL의 기능은 agent들로부터 모은 partial feature들을 합치는 것이다

→ reward를 받지 않는 agent에게 특히 도움이 됨

VFRL 의 현행 연구상황

H. H. Zhuo, W. Feng, Q. Xu, Q. Yang, and Y. Lin, “Federated reinforcement learning,” CoRR, vol. abs/1901.08277, 2019. [Online].
Available: http://arxiv.org/abs/1901.08277

→ agent들이 서로의 observation을 공유할 수 없고 어떤 agent들은 reward도 받지 않음을 가정

MARL은 VFRL과 굉장히 비슷한 topic을 다룸! (개념을 처음 들었을 때 이 생각이 먼저 들음)

차이점?

1) MARL은 partially observable 한 상황을 가정하지 않는다 → 이 부분은 이제 사실이 아님

2) VFRL은 FL을 RL에 적용하는 것이 우선이므로 각 agent가 만든 partial feature를 aggregation 하는 것이 우선적인 목표이며 MARL은 하나의 agent가 env에 미치는 영향이 다른 agent의 env와 policy에도 영향을 미치기 때문에 이와 같은 차이가 있다.

3) MARL에서 모든 agent들은 필연적으로 reward를 필요로 하지만 VFRL에서는 action과 reward가 없는 agent도 존재한다 (more extensive 한 problem을 풀 수 있게 해준다?)

4) MARL에서는 state 와 model paramter를 다른 agent와 공유하는데 VFRL에서는 그렇지 않다? ; 이 부분은 동의할 수 없음

VFRL의 장점?

1) 각 agent의 정보가 보호된다는 점에서 MARL보다 privacy 면에서 우수하다 → 너무 뻔함

2) reward가 필요없는 agent도 있을 수 있기 때문에 더 넓은 범위의 real-world 문제를 해결할 수 있을 것이다

→ 이 부분은 FedRL 논문을 읽어보면 알 수 있을 것 같다

4.D Other types

Y. Hu, Y. Hua, W. Liu, and J. Zhu, “Reward shaping based federated reinforcement learning,” IEEE Access, vol. 9, pp. 67 259–67 267,
2021

→ Reward shaping based general RL : reward shaping 을 이용해서 policy quality 나 training speed 를 증가시키기 위해 federated information 을 공유한다

A. Anwar and A. Raychowdhury, “Multi-task federated reinforcement learning with adversaries,” CoRR, vol. abs/2103.06473, 2021.
[Online]. Available: https://arxiv.org/abs/2103.06473

→ smoothing the average weight? // HFRL과 다르게 agent 간 state와 action space는 서로 다르지만 unified policy를 배우는 것이 목표이며 non-negative smoothing average weight를 통해 agent parameter 간 수렴을 목표한다

5 . FRL Application

X. Wang, Y. Han, C. Wang, Q. Zhao, X. Chen, and M. Chen, “In-edge ai: Intelligentizing mobile edge computing, caching and
communication by federated learning,” IEEE Network, vol. 33, no. 5, pp. 156–165, 2019

→ edge system에서 제안한 FRL framework 이며 알고리즘의 adaptive improvement 필요성, scratch 에서 model의 training time 에 대한 개선 필요

X. Wang, R. Li, C. Wang, X. Li, T. Taleb, and V. C. M. Leung, “Attention-weighted federated deep reinforcement learning for
device-to-device assisted heterogeneous collaborative edge caching,” IEEE Journal on Selected Areas in Communications, vol. 39,
no. 1, pp. 154–169, 2021.

→ edge caching framework 를 제안하였으며 local DQN model을 사용하여 node selection 과 cache replacement decision을 한다

F. Majidi, M. R. Khayyambashi, and B. Barekatain, “Hfdrl: An intelligent dynamic cooperate cashing method based on hierarchical
federated deep reinforcement learning in edge-enabled iot,” IEEE Internet of Things Journal, pp. 1–1, 2021.

→ Future user request를 예상해 어떤 content들이 cached or evicted 되어야 하는지 판단한다

L. Zhao, Y. Ran, H. Wang, J. Wang, and J. Luo, “Towards cooperative caching for vehicular networks with multi-level federated
reinforcement learning,” in ICC 2021 - IEEE International Conference on Communications, 2021, pp. 1–6

→ 마찬가지로 어떤 content가 replaced 되어야 하고 어디에 content request 가 serve 되어야 할지 cooperative caching alogrithm을 사용해서 판단

위의 세개 까지 FRL을 이용한 caching algorithm 에 대한 연구

Z. Zhu, S. Wan, P. Fan, and K. B. Letaief, “Federated multi-agent actor-critic learning for age sensitive mobile edge computing,”
IEEE Internet of Things Journal, pp. 1–1, 2021.

→ data allocation strategy ; moving data, locally excuting 이나 cloud 로의 offloading 을 Multi agent actor critic 으로 해결

Z. Tianqing, W. Zhou, D. Ye, Z. Cheng, and J. Li, “Resource allocation in iot edge computing via concurrent federated reinforcement
learning,” IEEE Internet of Things Journal, pp. 1–1, 2021.

→ 이 논문도 resource allocation 문제에 대한 논문 // edge node로 들어오는 task가 각자의 resource allocation 알고리즘에 따라 모든 task를 최대한 빨리 처리하도록하는 것이 목표

5.C Control optimization using FRL

X. Liang, Y. Liu, T. Chen, M. Liu, and Q. Yang, “Federated Transfer Reinforcement Learning for Autonomous Driving,”
arXiv:1910.06001 [cs], Oct. 2019, arXiv: 1910.06001. [Online]. Available: http://arxiv.org/abs/1910.06001

→ autonomous driving 에서 다른 vehicle 들이 학습한 내용을 이용해 federated 되지 않은 방식보다 빠르게 training process를 진행시킨다 // 이 방식에서 vehicle 들의 환경이 비슷하고 task와 action space가 비슷하기 때문에 HFRL 의 연장선으로 볼 수 있다

H.-K. Lim, J.-B. Kim, J.-S. Heo, and Y.-H. Han, “Federated Reinforcement Learning for Training Control Policies on Multiple IoT
Devices,” Sensors, vol. 20, no. 5, p. 1359, Mar. 2020. [Online]. Available: https://www.mdpi.com/1424-8220/20/5/1359

→ 각기 다른 device에 있는 agent들이 experience를 공유하며 policy model을 다른 agent로 공유하는 방식의 framework를 제안

H.-K. Lim, J.-B. Kim, I. Ullah, J.-S. Heo, and Y.-H. Han, “Federated reinforcement learning acceleration method for precise control
of multiple devices,” IEEE Access, vol. 9, pp. 76 296–76 306, 2021.

→ Multi-agent 환경에 기반한 FRL architecture를 통해 multiple agent들이 learning experience를 효과적으로 공유할 수 있도록 제안

5.D FRL for attack detection

기존 centralized ML 에 기반한 detection 기법들은 heterogeneous 한 service나 복잡한 threat 에 대한 방어도가 낮기 때문에 FRL에 기반한 attack detection 방식을 제안한다

N. I. Mowla, N. H. Tran, I. Doh, and K. Chae, “Afrl: Adaptive federated reinforcement learning for intelligent jamming defense in
fanet,” Journal of Communications and Networks, vol. 22, no. 3, pp. 244–258, 2020.

→ model-free Q learning을 적용해 UAV 들이 cooperative하게 detection model을 학습할 수 있도록 제안

T. G. Nguyen, T. V. Phan, D. T. Hoang, T. N. Nguyen, and C. So-In, “Federated deep reinforcement learning for traffic monitoring
in sdn-based iot networks,” IEEE Transactions on Cognitive Communications and Networking, pp. 1–1, 2021.

→ DDos 와 같은 공격을 감지하기 위한 traffic monitoring framework 을 제안하였으며 각 agent들은 전체 시스템의 optimal flow rule을 만족시키기 위해 각자의 maximum flow capacity를 학습하게 되며 이는 DDPG 알고리즘을 통해 학습된다

F.1 aggregation algorithm 측면의 연구 상황

각 device의 dataset 개수를 기준으로 하는 FedAvg 알고리즘

→ 마지막 10개 에피소드의 cumulative reward에 비례하게 weight를 종합

H. Huang, C. Zeng, Y. Zhao, G. Min, Y. Zhu, W. Miao, and J. Hu, “Scalable orchestration of service function chains in nfv-enabled
networks: A federated reinforcement learning approach,” IEEE Journal on Selected Areas in Communications, vol. 39, no. 8, pp.
2558–2571, 2021

→ action 에 대한 error rate를 global weight에 기여하기 위한 weight 배정의 중요한 요소로 선정

→ reward + device-related indicator

X. Zhang, M. Peng, S. Yan, and Y. Sun, “Deep-reinforcement-learning-based mode selection and resource allocation for cellular v2x
communications,” IEEE Internet of Things Journal, vol. 7, no. 7, pp. 6380–6391, 2020.

→ aggregation weight를 각 iteration의 training batch size 에 비례하게 설정

→ 참여자들이 속한 env가 다를 경우 각각의 참여자들의 local model이 predefined criteria에 이를 때 학습을 멈추고 나머지 참여자들에게 model parameter를 reference로 넘겨주는 것이 서로 다른 환경에서 빠르게 학습하는데 도움을 준다

→ 여기서는 cloud 에서 centralized 된 policy가 최종적인 결과가 아니라 local model 과 network structure가 다른 경우 tranfer learning 과 같은 방식으로 해결해줘야 한다

F.2 FL 을 이용한 RL 성능 발전

저번에 소개한 DQN을 사용한 FL 참여 cluster 선정

Y. Zhan, P. Li, W. Leijie, and S. Guo, “L4l: Experience-driven computational resource control in federated learning,” IEEE Transactions
on Computers, pp. 1–1, 2021.

→ computational resoucre control problem (FL의 learning time 과 energy 효율에 관해) 을 RL을 사용해 해결

Y. Dong, P. Gan, G. S. Aujla, and P. Zhang, “Ra-rl: Reputation-aware edge device selection method based on reinforcement learning,”
in 2021 IEEE 22nd International Symposium on a World of Wireless, Mobile and Multimedia Networks (WoWMoM), 2021, pp.
348–353.

→ RL based selection을 하는데 computing resoure와 trust value 값을 포함한 reputation value 값을 도입한 아이디어를 제안

G. Future research direction

G.1 HFRL 에서의 convergence 이슈

HFRL 환경에서 agent들이 속해있는 env 들이 정확히 iid는 아니므로 stochastic 한 변화시 약간 차이가 있을 수 있으며 이는 convergence issue를 야기할 수 있음

→ 이를 해결하기 위해 global aggregation이 끝나고 각각의 agent가 각자 속한 env에서 local parameter를 fine- tune 하기 위한 시간을 다르게 설정하는 것이다

위의 문제와 다른 토픽은 RL 이 더 잘 수렴할 수 있도록 FL을 어떻게 응용할 것인지에 관한 것이다. 예를 들어 FRL 환경에서 agent들을 정확히 같은 환경에서 학습 시키더라도 어떤 agent는 수렴하는 반면 다른 것들은 발산한다.

이와 같은 상황에 FL을 응용해 수렴할 확률이 높은 model을 aggregate 해 global model을 학습시키는 방식을 생각해볼 수 있다.

A. K. Sahu, T. Li, M. Sanjabi, M. Zaheer, A. Talwalkar, and V. Smith, “On the convergence of federated optimization in
heterogeneous networks,” CoRR, vol. abs/1812.06127, 2018. [Online]. Available: http://arxiv.org/abs/1812.06127

→ 각각에 존재하는 heterogeneity를 고려하기 위해 proximal term을 추가한다

M. Chen, H. V. Poor, W. Saad, and S. Cui, “Convergence time optimization for federated learning over wireless networks,” IEEE
Transactions on Wireless Communications, vol. 20, no. 4, pp. 2457–2471, 2021.

→ global model에 가장 영향을 많이 미치는 local FL model을 선정해 FL convergence time과 training loss를 최소로 한다

X. Li, K. Huang, W. Yang, S. Wang, and Z. Zhang, “On the convergence of fedavg on non-iid data,” 2020. [Online]. Available:
https://arxiv.org/abs/1907.02189?context=stat.ML

→ non iid 한 training data에 대해 loss function이 convex 한 경우 수학적인 convergence bound를 계산한 논문

G.2 VFRL에서 reward가 없는 agent

conventional 한 RL에는 고유의 action 과 reward를 갖지 않는 agent에 대한 고려가 없지만 VFRL에는 이러한 agent가 존재한다

이러한 문제를 해결하기 위해 이러한 agent들의 state를 public knowledge로 여겨 학습에 사용하거나 계산의 편리성을 위해 임의의 action과 reward를 디자인 하는 방식이 있을 것이다.

하지만 이러한 방식은 privacy를 중시하는 환경에서 적합하지 않는다

이에 대한 대안으로 제시된

H. H. Zhuo, W. Feng, Q. Xu, Q. Yang, and Y. Lin, “Federated reinforcement learning,” CoRR, vol. abs/1901.08277, 2019. [Online].
Available: http://arxiv.org/abs/1901.08277

FedRL 알고리즘은 2개의 agent만 고려하기 때문에 scalability 가 떨어지고 Q-network 이라는 비교적 간단한 형태의 NN을 federated model로 사용하기 때문에 이 부분이 복잡해 졌을 때의 대안이 필요하다

G.3 communication 관점의 개선

각 agent의 local model을 언제 어느 주기로 업데이트 하는 것이 좋은지에 대한 연구가 이뤄지지 않았다

현행의 Deep RL에서 사용되는 network는 여러개의 layer를 갖고 있으며 통신시 모델 전체를 전송하는 것은 부담이 있기 때문에

1) model exchagne 횟수를 optimize 시킨다

2) model compression idea 제안

3) local model 의 중요한 부분만 전송

G.4 Security 관점의 개선

기존의 FL 에서의 attack 중 data poisoning attack 은 training dataset의 label을 바꿔 target model 이 성공적으로 학습되는 것을 방해하는 데 있다면

C. Fung, C. J. M. Yoon, and I. Beschastnikh, “Mitigating sybils in federated learning poisoning,” CoRR, vol. abs/1808.04866, 2018.
[Online]. Available: http://arxiv.org/abs/1808.04866

FRL 에서는 malicious agent가 evaluation function 이 shift 하게 만들어 RL 학습을 방해한다. 이에 대한 대안으로 evalution indicator 를 제시해 이에 훨씬 미치치 못하는 local agent model은 global model에 기여하지 못하도록 제한한다

A. Anwar and A. Raychowdhury, “Multi-task federated reinforcement learning with adversaries,” 2021

위와 같은 내부적인 공격뿐만 아니라 communication eavesdropping 으로 graident 와 parameter로부터 sensitive 한 data를 infer 하는 문제가 존재할 수 있다.

L. Zhu, Z. Liu, and S. Han, “Deep leakage from gradients,” CoRR, vol. abs/1906.08935, 2019. [Online]. Available:
http://arxiv.org/abs/1906.08935

agent group 내, 외부적 attack을 방어할 수 있는 방법에 대한 연구가 필요하다

G.5 join and exit mechanism design

FRL 에서 참가자들이 agent로 RL 에 참여하기 전에 각 agent의 legal status 를 판단해보는 framework를 만드는 것은 1차적인 attack 방어선 구축역할을 한다 → joint mechanism 의 중요성

이에 못지 않게 exit mechanism 의 개발도 중요한데 일례로 synchronous FRL 알고리즘에서 하나의 agent가 global model에 upload(기여) 실패한 상태에서 적절한 exit mechanism 이 없다면 계속해서 이 agent를 기다리는 bottleneck 으로 작용할 것이다

이를 해결하기 위해 태초부터 subset을 선정해 RL을 진행하는 알고리즘은 제시되었지만,

T. Nishio and R. Yonetani, “Client selection for federated learning with heterogeneous resources in mobile edge,” in ICC 2019 - 2019
IEEE International Conference on Communications (ICC), 2019, pp. 1–7.

exit mechanism 에 대한 명쾌한 해답은 아직 존재하지 않는다

G.6 Incentive mechanism

대부분의 논문에서 FRL agent들은 global model 의 update에 우호적이다

하지만 현실세계에서는 학습된 global model을 받아 local model에 최적화하는데 학습한 후 이를 다시 global model의 발전에 기여하도록 upload 하는 incentive 가 충분히 설계되어 있지 않다

이미 존재하는 insentive mechanism은 context-aware manner(?) 이며

H. Yu, Z. Liu, Y. Liu, T. Chen, M. Cong, X. Weng, D. Niyato, and Q. Yang, “A fairness-aware incentive scheme for federated
learning,” in Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society, ser. AIES ’20. New York, NY, USA: Association
for Computing Machinery, 2020, p. 393–399. [Online]. Available: https://doi.org/10.1145/3375627.337584

이는 FRL 환경에서는 적합하지 않다

성공적인 insentive 를 설계하기 위해서는 각 단계에서 agent가 global model 에 얼마만큼의 기여 했는가를 측정하는 정량적인 modeling 방식이 필요할 것이다

이두현

0100101

이전 포스트

Communication-Efficient Learning of Deep Networks from Decentralized Data

다음 포스트

Federated Reinforcement Learning: Techniques, Applications, and Open Challenges

Communication-Efficient Learning of Deep Networks from Decentralized Data

SAC - Soft Actor-Critic

0개의 댓글