目前看了一些多智能体强化学习算法,如VDN、QMIX等,好像都是在Dec-POMDP模型上建立的,但是MDP相关的模型都要求一个联合动作空间,多个智能体的动作需要同时做出,但实际问题中,多个智能体的动作往往是不同步的,这种情况应该如何处理?
没有动作也是可以当做一个动作吧,action-state,作为输入。
2.1m questions
2.1m answers
60 comments
57.0k users