面向多智能体强化学习协同规划文献综述

 2023-08-05 06:08

一、选题背景和意义:

1.选题背景

如今,以滴滴打车为代表的网约车行业逐渐兴起。每天面对超过3000万用户的用车需求, 调控系统如何充分调配网约车资源,对高峰时间段和人流密集地段做出合理预测规划,已成为系统能够快速满足百万级以上乘客出行需求的必要条件。

传统的中心式网约车路径规划方法虽然能够从理论上保证规划效率,但是该方法一方面需要环境的先验知识,另一方面因其高复杂度,无法适用于大规模需求相应问题。强化学习 (Reinforcement Learning,简称RL),通过利用智能体自主学习策略,在复杂多变的未知环境下,可以在并不需要依赖于大量先验知识条件下,仅通过动作的执行与环境进行交互,根据环境的反馈,智能体可以逐渐适应环境。而在多智能体系统(Multi-Agent System,简称MAS)下,单个智能体求解问题的能力通常十分有限:仅通过智能体的独立学习,在全局角度下并无法达到最大收益。因此需要设定协同规划机制,多个自治的智能体按照已有知识或者通过自主学习,与其他智能体进行沟通协作,组合求解。

采用协同机制的多智能体强化学习技术在对复杂多变的环境时,具有独立的自主决策能力与面对动态变化的自适应能力,大大提高了系统的灵活性与可靠性。在大规模分布式系统控制中,如网约车调控系统、订单派发、路由流量分配等情况下,协同机制在构建多智能体系统中充当至关重要的作用。

2.选题意义

设计面向动态环境的基于多智能体强化学习的协同机制,该机制不仅适用于网约车调控系统,满足广大乘客的用车需求,同时适用于大规模群体运动场景,譬如1)机器人信息采集,其中多个机器人在未知的环境下协同采集信息(包括灾难场景下的救援任务)和2)城市规模的警察巡逻问题,其中上百个警察需要分散到城市中不同的地区,并且在不同的时间段,根据警情的分布,警察的巡逻规划需要动态的变化。

二、课题关键问题及难点:

1.维数灾难问题。

对于采用了表格式的Q-learning的训练方式,对环境或者智能体状态的刻画维度增加,将会导致计算复杂度上指数级的增长。因此需要对环境和智能体进行合理建模。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。