[go: up one dir, main page]

CN118884948A - 一种基于强化学习的自动驾驶编队队形重组方法 - Google Patents

一种基于强化学习的自动驾驶编队队形重组方法 Download PDF

Info

Publication number
CN118884948A
CN118884948A CN202410857114.1A CN202410857114A CN118884948A CN 118884948 A CN118884948 A CN 118884948A CN 202410857114 A CN202410857114 A CN 202410857114A CN 118884948 A CN118884948 A CN 118884948A
Authority
CN
China
Prior art keywords
formation
vehicle
reward
vehicles
safety
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410857114.1A
Other languages
English (en)
Inventor
杭鹏
孔爱静
刘佳琦
孙剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202410857114.1A priority Critical patent/CN118884948A/zh
Publication of CN118884948A publication Critical patent/CN118884948A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/40Control within particular dimensions
    • G05D1/43Control of position or course in two dimensions
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/60Intended control result
    • G05D1/617Safety or protection, e.g. defining protection zones around obstacles or avoiding hazards
    • G05D1/622Obstacle avoidance
    • G05D1/633Dynamic obstacles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/60Intended control result
    • G05D1/644Optimisation of travel parameters, e.g. of energy consumption, journey time or distance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/60Intended control result
    • G05D1/648Performing a task within a working area or space, e.g. cleaning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/60Intended control result
    • G05D1/65Following a desired speed profile
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/60Intended control result
    • G05D1/69Coordinated control of the position or course of two or more vehicles
    • G05D1/692Coordinated control of the position or course of two or more vehicles involving a plurality of disparate vehicles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/60Intended control result
    • G05D1/69Coordinated control of the position or course of two or more vehicles
    • G05D1/693Coordinated control of the position or course of two or more vehicles for avoiding collisions between vehicles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D2109/00Types of controlled vehicles
    • G05D2109/10Land vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于强化学习的自动驾驶编队队形重组方法,包括:S1、采用图论描述编队与周围车辆的交互关系,预测编队与交互车辆的运动状态并进行碰撞检测,当碰撞风险值小于碰撞风险阈值时,转S4,否则转S2;S2、将编队决策过程建模为部分可观的马尔可夫决策过程,根据编队协同感知结果建立共享观察空间,采用强化学习算法输出编队行为决策结果;S3、基于编队行为决策结果,按照安全优先级依次对编队中车辆进行安全推演,更新编队行为决策结果;S4、根据可变车头时距计算理想间距,实时计算最优纵向控制量,进行编队跟车行驶;S5、循环执行S1~S4,直至编队完成自动驾驶任务。与现有技术相比,本发明安全鲁棒性高且编队整体通行效率高的优点。

Description

一种基于强化学习的自动驾驶编队队形重组方法
技术领域
本发明涉及自动驾驶技术领域,尤其是涉及一种基于强化学习的自动驾驶编队队形重组方法。
背景技术
近年来,自动驾驶技术备受关注,以其精准的感知与响应机制提高了道路安全,减少了交通事故。5G通信技术的发展进一步促进了车车通信,降低了交通拥堵,优化了整个交通系统。
编队行驶作为车车协同自动驾驶的典型方式,通过紧密排列减少了跟车间距,最大程度地利用了道路空间,缓解了交通拥堵,提升了道路通行能力。紧凑的排列方式还能显著降低后续车辆的空气阻力,减少了燃料消耗,环保出行效果显著。
然而,现有编队技术局限于纵向控制,面对突发危险情况反应不足,安全鲁棒性低,且编队整体通行效率低。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供了一种安全鲁棒性高且编队整体通行效率高的基于强化学习的自动驾驶编队队形重组方法。
本发明的目的可以通过以下技术方案来实现:
本发明提供了一种基于强化学习的自动驾驶编队队形重组方法,该方法包括:
S1、采用图论描述编队与周围车辆的交互关系,预测编队与交互车辆的运动状态并进行碰撞检测,基于碰撞风险阈值自适应切换编队控制权,当碰撞风险值小于碰撞风险阈值时,转S4,否则转S2;
S2、将编队决策过程建模为部分可观的马尔可夫决策过程,根据编队协同感知结果建立共享观察空间,在当前场景下采用预训练后的强化学习算法输出编队行为决策结果;
S3、基于编队行为决策结果,按照安全优先级依次对编队中车辆进行安全推演,根据安全推演结果和安全裕度,更新编队行为决策结果;
S4、根据可变车头时距计算理想间距,采用车辆纵向运动学跟驰模型实时计算最优纵向控制量,进行编队跟车行驶;
S5、循环执行S1~S4,直至编队完成自动驾驶任务。
优选地,所述采用图论描述编队与周围车辆的交互关系,具体为:
构建编队与周围车辆交互关系图G(V,E),V={v0,v1,v2,...,vn},其中,节点v0表示被控编队,vi表示与编队有交互关系的车辆,n为表示与编队有交互关系的周围车辆的数目,E为表征不同车辆节点之间交互关系的边。
优选地,所述基于碰撞风险阈值自适应切换编队控制权,对应的切换条件为:
式中:a0j表示编队与交互车辆j之间的碰撞风险,(xi,yi)为交互车辆i的位置坐标;smax为设定的碰撞风险阈值;s=0时,表示当前场景为强安全场景,进行编队跟车行驶;s=1时,表示当前场景为弱安全场景,进行编队队形重组。
优选地,所述将编队决策过程建模为部分可观的马尔可夫决策过程,基于编队协同感知结果建立共享观察空间,具体为:
将编队决策过程建模为部分可观的马尔可夫决策过程,用五元组(S,A,P,R,O)表示,其中,S为编队状态空间,A为编队动作空间,P为编队状态转移策略,R为奖励函数,O为编队观察空间;
编队内车辆i的观察空间Oi为Ni×W矩阵,其中,Ni为当前场景中与车辆i有交互关系的车辆数目,W为被观测车辆的特征数;编队观察空间O为每辆车观察空间的笛卡尔积,O=O1×O2×...×ON,N为编队内车辆数目;编队动作空间为A=A1×A2×…×AN,Ai为编队内车辆i的动作空间。
优选地,所述奖励函数包括碰撞惩罚、车道奖励、高速奖励、加速奖励、同车道奖励、行驶距离奖励、车距奖励以及速度协同奖励的加权和。
优选地,所述奖励函数具体为:
对于碰撞惩罚r1,当车辆发生碰撞时为1,否则为0;
对于车道奖励r2,当车辆处于车道中心时为1,否则为0;
对于同车道奖励r5,当车辆位于同车道中时为1,否则为0;
对于高速奖励r3,对车速在目标路段最大速度k%以上的车辆奖励,vmax为最大车速,vi为编队内车辆i的当前车速,k为设定的0.5~1中的常数;
对于加速奖励r4,对加速车辆给予奖励,amax为最大加速度,ai为编队内车辆i的当前加速度;
对于行驶距离奖励r6,对最小行驶距离超过阈值后给予奖励,dforward为编队最小行驶距离;
对于车距奖励r7:在车辆之间距离小于阈值后给予奖励,dbetween为车辆之间距离;
对于速度协同奖励r8:在车辆速度方差小于阈值后给予奖励,var为方差处理,v为车辆速度。
优选地,所述安全优先级,数学表达式为:
式中:prorityi表示车辆i的安全优先级,headwayi表示车辆i的车头空距,vi表示车辆i的速度。
优选地,所述基于编队行为决策结果,按照安全优先级依次对编队中车辆进行安全推演,根据安全推演结果和安全裕度,对当前编队行为决策结果进行优化更新,构建的优化问题具体为:
式中:dsm,i表示车辆i的安全裕度,pi表示车辆沿道路行驶的距离,objective表示换道目标车道的车辆集合。
优选地,所述车辆纵向运动学跟驰模型,具体为:
对编队中车辆i,定义系统变量为xi=[Δdi,Δvi,ai]T,Δdi=ds-di为编队中车辆i与前车的理想跟车间距与实际跟车间距的误差,Δvi=vf-vi为编队中车辆i与前车的速度误差,ai为编队中车辆i的实际加速度;控制变量为ui=ae,i,ae,i为编队中第i辆车的参考加速度;
则状态空间表达式为:
其中,τh为车头时距,构造车辆纵向运动学模型时假设车辆实际加速度ai与车辆参考加速度ae,i之间存在一阶惯性延迟Ts为惯性时间常数,K为增益常数;w为扰动项,w=af,af为前车的加速度。
优选地,所述根据可变车头时距计算理想间距,数学表达式为:
d=v·τh+d0
式中:d为期望安全距离,d0为最小安全距离,v为车辆速度,τh为车头时距,Δv为两车相对速度,τ0、c1为设定的大于0的参数,τmin和τmax分别为最小车头时距和最大车头时距。
与现有技术相比,本发明具有以下有益效果:
1)本发明提出的自动驾驶编队队形重组方法,基于碰撞风险阈值自适应切换编队控制权,编队在发生危险情况时能够及时避开障碍车辆,并在通过障碍区域后实现队形重组,提升编队的鲁棒性和抗干扰能力,安全性更高;且编队构型自适应调整,能够根据场景变化实时调整车辆控制策略,提升编队决策方法场景泛化性和编队整体通行效率。
2)本发明按照安全优先级依次对编队中车辆进行安全推演,对编队中车辆运动状态进行预测,在安全裕度不足时对编队当前决策结果进行优化,有效降低碰撞风险,提高编队行驶安全性。
3)本发明碰撞惩罚、车道奖励、高速奖励、加速奖励、同车道奖励、行驶距离奖励、车距奖励以及速度协同奖励的加权和作为奖励函数对不同场景下对强化学习算法进行训练,提高了编队行为决策结果的可靠准确性。
4)本发明根据可变车头时距计算理想间距,采用车辆纵向运动学跟驰模型实时计算最优纵向控制量,可实现更加平稳的编队跟车行驶。
附图说明
图1为本发明的方法整体流程图;
图2为本发明实施例的编队重组行驶场景示意图;
图3为本发明实施例的交互关系示意图;
图4为本发明实施例的编队重组过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
实施例
如图1所示,本实施例提供了一种基于强化学习的自动驾驶编队队形重组方法,该方法包括以下步骤:
S1:构建风险量化和控制权自适应切换模型:采用图论描述编队与周围车辆的交互关系,筛选与编队具有直接交互关系的车辆进行碰撞风险预测,基于运动学模型预测编队与交互车辆的运动状态并进行碰撞检测,构建风险指标计算碰撞风险,建立碰撞风险阈值体系,根据风险值将场景分为强安全场景和弱安全场景,基于碰撞风险阈值自适应切换编队控制权,当碰撞风险值小于碰撞风险阈值时,转S4,否则转S2;
构建编队与周围车辆交互关系图G(V,E),V={v0,V1,v2,...,vn},其中,节点v0表示被控编队,vi表示与编队有交互关系的车辆,n为表示与编队有交互关系的周围车辆的数目,E为表征不同车辆节点之间交互关系的边。
建立邻接矩阵a,其权值表示编队与车辆之间碰撞风险大小。
编队控制权自适应切换条件为:
式中:a0j表示编队与交互车辆j之间的碰撞风险,(xi,yi)为交互车辆i的位置坐标;smax为设定的碰撞风险阈值;s=0时,表示当前场景为强安全场景,进行编队跟车行驶;s=1时,表示当前场景为弱安全场景,进行编队队形重组。
S2:构建强化学习队形重组决策控制模型:将编队决策过程建模为部分可观的马尔可夫决策过程,根据编队协同感知结果建立共享观察空间,在当前场景下采用预训练后的强化学习算法输出编队行为决策结果;
将多车决策规划问题建模为部分可观的马尔可夫决策过程,用五元组(S,A,P,R,O)表示,S为状态空间,A为动作空间,P为状态转移策略,R为奖励函数,O为观察空间。
编队内车辆i的观察空间Oi为Ni×W矩阵,其中,Ni为当前场景中与车辆i有交互关系的车辆数目,W为被观测车辆的特征数;编队观察空间O为每辆车观察空间的笛卡尔积,O=O1×O2×…×ON,N为编队内车辆数目;编队动作空间为A=A1×A2×…×AN,Ai为编队内车辆i的动作空间。
考虑编队安全、效率、完整性等多项指标构建奖励函数Rt,如下式所示:
Ri=w1r1+w2r2+w3r3+w4r4+w5r5+W6r6+w7r7+w8r8
式中:r1~4分别为碰撞惩罚、车道奖励、高速奖励和加速奖励,均为针对单车设计的奖励;相对应的,r5~8分别为同车道奖励、行驶距离奖励、车距奖励以及速度协同奖励,为多车协同奖励。处于对安全性的考虑,γ1的权重将会远大于其他奖励权重,当车队内任意车辆发生碰撞时即给予较大惩罚。
各奖励惩罚项的设置具体如下:
对于碰撞惩罚γ1,当车辆发生碰撞时为1,否则为0;
对于车道奖励r2,当车辆处于车道中心时为1,否则为0;
对于同车道奖励r5,当车辆位于同车道中时为1,否则为0;
对于高速奖励r3,对车速在目标路段最大速度k%以上的车辆奖励,vmax为最大车速,vi为编队内车辆i的当前车速,k为设定的0.5~1中的常数,本实施例中,设置为0.9;
对于加速奖励r4,对加速车辆给予奖励,amax为最大加速度,ai为编队内车辆i的当前加速度;
对于行驶距离奖励r6,对最小行驶距离超过阈值后给予奖励,dforward为编队最小行驶距离;
对于车距奖励r7:在车辆之间距离小于阈值后给予奖励,dbetween为车辆之间距离;
对于速度协同奖励r8:在车辆速度方差小于阈值后给予奖励,var为方差处理,v为车辆速度。
在本实施例中,以DQN算法为例构建强化学习决策方法。DQN算法基于Q-learning算法,通过使用神经网络来拟合Q函数,从而实现其功能。Q-learning的更新规则为
其中,Q(s,a)表示在状态s下执行动作a时获得的预期回报,α是学习率,r是即时奖励,γ是折扣因子,Q(s′,a′)是在s下一状态执行动作a′时获得的预期回报。
其中,ω*为Q网络最优权重参数,N为样本数量,Qω(si,ai)为在状态si下执行动作ai后Q网络的输出,Qω(s′i,a′)为Q目标网络的输出。
DQN算法的训练过程如下:
首先建立与Q网络结构完全相同的Q目标网络,采用随机参数对Q网络和Q目标网络进行初始化,确定最大训练轮次。
在每个训练轮次内:
根据当前网络Qπ(s,a)以贪婪策略选择动作at,执行动作,更新回报和状态信息(si,ai,ri,st+1);
将(si,ai,ri,st+1)放入回放池D,若D中数据足够,从D中采样N个数据输入目标Q网络计算学习目标yi=ri+γmaxaQω-(si+1,a),最小化目标损失并以此来更新当前Q网络权重;
更新Q目标网络,循环上述过程至最大训练轮次。
S3:构建孪生世界安全推演模型:基于编队行为决策结果,按照安全优先级依次对编队中车辆进行安全推演,包括基于运动学的轨迹预测和碰撞检测,根据安全推演结果和安全裕度,更新编队行为决策结果;
建立安全优先级指标如下式所示:
式中:prorityi表示车辆i的安全优先级,headwayi表示车头空距,vi表示速度。
基于运动学模型对编队和周车运动状态进行预测:
v(k+1)=v0(k)+a(k)×Δtk
s(k+1)=s0(k)+v(k)×Δtk
基于运动状态进行碰撞检测,并对当前决策结果进行优化,优化问题如下式所示:
其中,dsm,i表示车辆i的安全裕度,pi表示车辆沿道路行驶的距离,objective表示换道目标车道的车辆集合。
S4:根据可变车头时距计算理想间距,采用车辆纵向运动学跟驰模型实时计算最优纵向控制量,进行编队跟车行驶;
本实施例,基于最优控制理论构建LQR控制器,计算性能指标函数最优时车辆纵向控制量,实现编队稳态跟车行驶。
基于可变车头时距计算理想间距模,表达式为:
d=v·τh+d0
其中,d为期望安全距离,d0为最小安全距离,τh为车头时距,Δv为辆车相对速度,τ0,c为大于0的参数。
建立编队车辆纵向运动学模型,系统变量为xi=[Δdi,Δvi,ai]T,控制变量为ui=ae,i,干扰变量为w=af,状态空间表达式为:
其中,τh为车头时距,构造车辆纵向运动学模型时假设车辆实际加速度ai与车辆参考加速度ae,i之间存在一阶惯性延迟Ts为惯性时间常数,K为增益常数;w为扰动项,w=af,af为前车的加速度。
S5:循环执行S1~S4,直至编队完成自动驾驶任务。
本实施例中,图2为编队重组行驶场景示意图,图3为交互关系示意图,图4为编队重组过程示意图。
综上,本实施例提出的基于强化学习的自动驾驶编队队形重组方法,在突发危险场景下使编队能及时避让障碍物并重新组合队形,提升编队的鲁棒性和抗干扰能力,充分利用多车道资源,进一步提高编队行驶的安全性和效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于强化学习的自动驾驶编队队形重组方法,其特征在于,该方法包括:
S1、采用图论描述编队与周围车辆的交互关系,预测编队与交互车辆的运动状态并进行碰撞检测,基于碰撞风险阈值自适应切换编队控制权,当碰撞风险值小于碰撞风险阈值时,转S4,否则转S2;
S2、将编队决策过程建模为部分可观的马尔可夫决策过程,根据编队协同感知结果建立共享观察空间,在当前场景下采用预训练后的强化学习算法输出编队行为决策结果;
S3、基于编队行为决策结果,按照安全优先级依次对编队中车辆进行安全推演,根据安全推演结果和安全裕度,更新编队行为决策结果;
S4、根据可变车头时距计算理想间距,采用车辆纵向运动学跟驰模型实时计算最优纵向控制量,进行编队跟车行驶;
S5、循环执行S1~S4,直至编队完成自动驾驶任务。
2.根据权利要求1所述的一种基于强化学习的自动驾驶编队队形重组方法,其特征在于,所述采用图论描述编队与周围车辆的交互关系,具体为:
构建编队与周围车辆交互关系图G(V,E),V={v0,v1,v2,…,vn},其中,节点v0表示被控编队,vi表示与编队有交互关系的车辆,n为表示与编队有交互关系的周围车辆的数目,E为表征不同车辆节点之间交互关系的边。
3.根据权利要求2所述的一种基于强化学习的自动驾驶编队队形重组方法,其特征在于,所述基于碰撞风险阈值自适应切换编队控制权,对应的切换条件为:
式中:a0j表示编队与交互车辆j之间的碰撞风险,(xi,yi)为交互车辆i的位置坐标;smax为设定的碰撞风险阈值;s=0时,表示当前场景为强安全场景,进行编队跟车行驶;s=1时,表示当前场景为弱安全场景,进行编队队形重组。
4.根据权利要求2所述的一种基于强化学习的自动驾驶编队队形重组方法,其特征在于,所述将编队决策过程建模为部分可观的马尔可夫决策过程,基于编队协同感知结果建立共享观察空间,具体为:
将编队决策过程建模为部分可观的马尔可夫决策过程,用五元组(S,A,P,R,O)表示,其中,S为编队状态空间,A为编队动作空间,P为编队状态转移策略,R为奖励函数,O为编队观察空间;
编队内车辆i的观察空间Oi为Ni×W矩阵,其中,Ni为当前场景中与车辆i有交互关系的车辆数目,W为被观测车辆的特征数;编队观察空间O为每辆车观察空间的笛卡尔积,O=O1×O2×…×ON,N为编队内车辆数目;编队动作空间为A=A1×A2×…×AN,Ai为编队内车辆i的动作空间。
5.根据权利要求1所述的一种基于强化学习的自动驾驶编队队形重组方法,其特征在于,所述奖励函数包括碰撞惩罚、车道奖励、高速奖励、加速奖励、同车道奖励、行驶距离奖励、车距奖励以及速度协同奖励的加权和。
6.根据权利要求5所述的一种基于强化学习的自动驾驶编队队形重组方法,其特征在于,所述奖励函数具体为:
对于碰撞惩罚r1,当车辆发生碰撞时为1,否则为0;
对于车道奖励r2,当车辆处于车道中心时为1,否则为0;
对于同车道奖励r5,当车辆位于同车道中时为1,否则为0;
对于高速奖励r3,对车速在目标路段最大速度k%以上的车辆奖励,vmax为最大车速,vi为编队内车辆i的当前车速,k为设定的0.5~1中的常数;
对于加速奖励r4,对加速车辆给予奖励,amax为最大加速度,ai为编队内车辆i的当前加速度;
对于行驶距离奖励r6,对最小行驶距离超过阈值后给予奖励,dforward为编队最小行驶距离;
对于车距奖励r7:在车辆之间距离小于阈值后给予奖励,dbetween为车辆之间距离;
对于速度协同奖励r8:在车辆速度方差小于阈值后给予奖励,var为方差处理,v为车辆速度。
7.根据权利要求1所述的一种基于强化学习的自动驾驶编队队形重组方法,其特征在于,所述安全优先级,数学表达式为:
式中:prorityi表示车辆i的安全优先级,headwayi表示车辆i的车头空距,vi表示车辆i的速度。
8.根据权利要求2所述的一种基于强化学习的自动驾驶编队队形重组方法,其特征在于,所述基于编队行为决策结果,按照安全优先级依次对编队中车辆进行安全推演,根据安全推演结果和安全裕度,对当前编队行为决策结果进行优化更新,构建的优化问题具体为:
式中:dsm,i表示车辆i的安全裕度,pi表示车辆沿道路行驶的距离,objective表示换道目标车道的车辆集合。
9.根据权利要求2所述的一种基于强化学习的自动驾驶编队队形重组方法,其特征在于,所述车辆纵向运动学跟驰模型,具体为:
对编队中车辆i,定义系统变量为xi=[Δdi,Δvi,ai]T,Δdi=ds-di为编队中车辆i与前车的理想跟车间距与实际跟车间距的误差,Δvi=vf-vi为编队中车辆i与前车的速度误差,ai为编队中车辆i的实际加速度;控制变量为ui=ae,i,ae,i为编队中第i辆车的参考加速度;
则状态空间表达式为:
其中,τh为车头时距,构造车辆纵向运动学模型时假设车辆实际加速度ai与车辆参考加速度ae,i之间存在一阶惯性延迟Ts为惯性时间常数,K为增益常数;w为扰动项,w=af,af为前车的加速度。
10.根据权利要求7所述的一种基于强化学习的自动驾驶编队队形重组方法,其特征在于,所述根据可变车头时距计算理想间距,数学表达式为:
式中:d为期望安全距离,d0为最小安全距离,v为车辆速度,τh为车头时距,Δv为两车相对速度,τ0、c1为设定的大于0的参数,τmin和τmax分别为最小车头时距和最大车头时距。
CN202410857114.1A 2024-06-28 2024-06-28 一种基于强化学习的自动驾驶编队队形重组方法 Pending CN118884948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410857114.1A CN118884948A (zh) 2024-06-28 2024-06-28 一种基于强化学习的自动驾驶编队队形重组方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410857114.1A CN118884948A (zh) 2024-06-28 2024-06-28 一种基于强化学习的自动驾驶编队队形重组方法

Publications (1)

Publication Number Publication Date
CN118884948A true CN118884948A (zh) 2024-11-01

Family

ID=93234064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410857114.1A Pending CN118884948A (zh) 2024-06-28 2024-06-28 一种基于强化学习的自动驾驶编队队形重组方法

Country Status (1)

Country Link
CN (1) CN118884948A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119200673A (zh) * 2024-11-27 2024-12-27 北京捷升通达信息技术有限公司 一种基于ai的多车驾驶控制方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119200673A (zh) * 2024-11-27 2024-12-27 北京捷升通达信息技术有限公司 一种基于ai的多车驾驶控制方法及系统

Similar Documents

Publication Publication Date Title
AU2021100503A4 (en) Method and system for controlling heavy-haul train based on reinforcement learning
CN112907967B (zh) 一种基于不完全信息博弈的智能车换道决策方法
Naveed et al. Trajectory planning for autonomous vehicles using hierarchical reinforcement learning
CN110362910B (zh) 基于博弈论的自动驾驶车辆换道冲突协调模型建立方法
Ding et al. Multivehicle coordinated lane change strategy in the roundabout under internet of vehicles based on game theory and cognitive computing
CN115257745A (zh) 一种基于规则融合强化学习的自动驾驶换道决策控制方法
CN113867354B (zh) 一种自动驾驶多车智能协同的区域交通流导引方法
CN113511222B (zh) 场景自适应式车辆交互行为决策与预测方法及装置
CN112550314B (zh) 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
CN118212808B (zh) 一种无信号交叉口车辆通行决策规划方法、系统与设备
Li et al. Enhancing cooperation of vehicle merging control in heavy traffic using communication-based soft actor-critic algorithm
CN117539254A (zh) 基于通信和多智能体强化学习的多车编队决策方法及系统
CN118358566B (zh) 一种智能汽车避障速度抉择方法及装置
CN115973179A (zh) 模型训练方法、车辆控制方法、装置、电子设备及车辆
CN119169818B (zh) 交叉口进口道混行车队协同引导控制方法
Schester et al. Automated driving highway traffic merging using deep multi-agent reinforcement learning in continuous state-action spaces
CN114360290B (zh) 一种基于强化学习的交叉口前车辆群体车道选择方法
Fan et al. Deep reinforcement learning based integrated eco-driving strategy for connected and automated electric vehicles in complex urban scenarios
CN117284327A (zh) 一种自动驾驶车辆的行为决策及规划方法
CN118884948A (zh) 一种基于强化学习的自动驾驶编队队形重组方法
CN119863933A (zh) 一种基于车联网的智能交通流优化方法
CN116805445B (zh) 车辆换道行驶控制方法及系统
CN120066281B (zh) 一种基于快慢系统的人机共融的自动驾驶决策方法
CN118838345A (zh) 一种基于联盟博弈的自动驾驶编队队形重组方法
Liu et al. Automatic tracking control strategy of autonomous trains considering speed restrictions: Using the improved offline deep reinforcement learning method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination