[go: up one dir, main page]

CN118936910A - 一种基于多联盟集群对抗的自动驾驶测试方法 - Google Patents

一种基于多联盟集群对抗的自动驾驶测试方法 Download PDF

Info

Publication number
CN118936910A
CN118936910A CN202410992688.XA CN202410992688A CN118936910A CN 118936910 A CN118936910 A CN 118936910A CN 202410992688 A CN202410992688 A CN 202410992688A CN 118936910 A CN118936910 A CN 118936910A
Authority
CN
China
Prior art keywords
vehicle
background
test
cluster
confrontation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410992688.XA
Other languages
English (en)
Other versions
CN118936910B (zh
Inventor
孙剑
杭鹏
孔爱静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202410992688.XA priority Critical patent/CN118936910B/zh
Publication of CN118936910A publication Critical patent/CN118936910A/zh
Application granted granted Critical
Publication of CN118936910B publication Critical patent/CN118936910B/zh
Priority to US19/238,205 priority patent/US12459536B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M17/00Testing of vehicles
    • G01M17/007Wheeled or endless-tracked vehicles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/0097Predicting future conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/04Monitoring the functioning of the control system
    • B60W50/045Monitoring control system parameters
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0022Gains, weighting coefficients or weighting functions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0026Lookup tables or parameter maps
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • B60W2520/105Longitudinal acceleration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/12Lateral speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/12Lateral speed
    • B60W2520/125Lateral acceleration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2552/00Input parameters relating to infrastructure
    • B60W2552/10Number of lanes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/10Path keeping
    • B60W30/12Lane keeping
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18163Lane change; Overtaking manoeuvres
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提出了一种基于多联盟集群对抗的自动驾驶测试方法,旨在提升自动驾驶仿真测试的效率和准确性。包括S1:自动驾驶测试环境初始化;S2:背景车对抗集群划分决策;S3:背景车对抗性行为决策;S4:背景车轨迹规划;S5:循环执行上述S2,S3,S4步骤,直至完成集群对抗测试任务。该方法通过强化学习和联盟博弈,动态生成与测试车辆高对抗性的测试场景,能更快找到自动驾驶危险边界场景,提高仿真测试效率。

Description

一种基于多联盟集群对抗的自动驾驶测试方法
技术领域
本发明涉及自动驾驶虚拟仿真测试技术领域,尤其是涉及一种基于多联盟集群对抗的自动驾驶测试方法。
背景技术
自动驾驶技术近年来成为汽车和交通领域的热门研究方向。相比于人类驾驶车辆,自动驾驶系统可以显著提高交通安全,降低事故发生率,在驾驶舒适性和经济性方面也有较大提升。然而,未来确保自动驾驶系统的安全性和稳定性,严格的自动驾驶系统测试是不可或缺的关键环节。自动驾驶测试方法包括道路测试、场地测试、仿真测试等。其中,自动驾驶仿真测试可模拟更加丰富的复杂场景,进行虚拟化和自动化测试,场景覆盖率高,安全性高且成本低廉,是当前最有效的自动驾驶测试手段。
然而,随着自动驾驶等级不断提升,长尾场景、边界场景成为制约自动驾驶仿真测试的一大瓶颈。传统的基于参数组合的自动驾驶测试场景生成方法主要通过轨迹数据的数字化映射实现,不具备与测试车辆的动态交互能力,测试场景与测试车辆契合度较低,容易产生大量无意义冗余场景,难以生成高风险边界场景,关键测试场景生成效率低。基于环境对抗的自动驾驶测试方法充分考虑了背景车与测试车辆的动态交互关系,可通过控制背景车的行为实时生成与测试车辆高对抗性的测试场景。该方法生成的测试场景与测试车辆有较高的契合度和针对性,更容易找到针对测试车辆的高风险边界场景,有效提高自动驾驶测试效率。
发明内容
本发明目的在于克服现有技术不足,公开一种基于多联盟集群对抗的自动驾驶测试方法。
本发明可以通过以下技术方案来实现:
一种基于多联盟集群对抗的自动驾驶测试方法,其特征在于,首先通过强化学习算法实现背景车对抗集群的自适应划分,将背景车划分为具备不同对抗强度等级的群组,令测试车辆与具备不同对抗强度等级的背景车群组进行交互,能更全面的测试被测车的自动驾驶能力,有效提高场景的多样性和测试难度,便于找到危险边界场景;同时将每个背景车群组视为一个联盟,联盟内部的车辆具有合作关系,通过联盟博弈方法实现背景车联盟的交互式高对抗性行为决策;最后根据行为决策结果对背景车集群进行轨迹规划,使背景车能按照规划轨迹行驶。
一种基于多联盟集群对抗的自动驾驶测试方法,其特征在于,包括
S1:自动驾驶测试环境初始化。
S2:背景车对抗集群划分决策。
S3:背景车对抗性行为决策。
S4:背景车轨迹规划。
S5:循环执行上述S2,S3,S4步骤,直至完成集群对抗测试任务。
所述S1自动驾驶测试环境初始化,包括:在虚拟仿真测试平台上选择需要的测试地图,设置车道数量、车道宽度这些环境信息;确定背景车的数量和生成位置,测试任务,在测试地图中选择测试的起点和终点,生成被测车行驶的全局参考路径。
所述S2背景车对抗集群划分决策:
采用强化学习算法实现背景车中对抗集群划分决策过程,将背景车集群划分过程建模成马尔可夫过程M(S,A,P,R,γ),其中,S为背景车集群的状态空间,A为背景车集群的动作空间,P为状态转移概率,R为背景车群执行动作后获得的即时奖励,γ为衰减因子;将所有背景车视为强化学习算法智能体,将S1步骤得出的环境初始化信息作为强化学习算法的环境信息输入;最优的环境车集群划分结果即背景车集群的动作空间为强化学习算法的输出,提供给S3。
所述S2背景车对抗集群划分决策,进一步的:
强化学习模型的构建过程如下:
其中,状态空间为
S={i∈0,1,…,n|si}
si={xi,yi,vx,i,vy,i,ax,i,ay,i}
其中,n为测试环境中背景车的数量,si为背景车和测试车辆的行驶状态信息。xi,yi,vx,i,vy,i,ax,i,ay,i分别为背景车和测试车的纵向位置、侧向位置、纵向速度、侧向速度、纵向加速度和侧向加速度;
其中,动作空间由不同的背景车集群划分方案构成,动作空间为
A={A1×A2}
A1={a1,a2,…,ap}
A2={q1,...,qv}
其中A为强化学习的总动作空间,A1={a1,a2,...,ap}为n辆车不同对抗强度下的所有的集群划分方案,A2={q1,…,qv}为每个联盟的对抗强度。
其中,奖励函数R包括对抗强度奖励r1、加速奖励r2、碰撞惩罚r3和行驶范围惩罚r4
R=w1r1+w2r2+w3r3+w4r4
其中,x0,y0为测试车的横纵向位置,ai为第i辆背景车的加速度,amax为背景车最大加速度,dmax为背景车与测试车的最大距离,di为第i辆背景车与测试车之间的距离,w1,w2,w3,w4为各项奖励的权重;
强化学习模型的训练过程如下,以DQN算法来实现:
首先建立与Q网络结构完全相同的Q目标网络,采用随机参数对Q网络和Q目标网络进行初始化,确定最大训练轮次;
在每个训练轮次内:
根据当前网络Qπ(s,a)以贪婪策略选择动作at,执行动作,更新回报和状态信息(si,ai,ri,st+1);其中,π指的是特定的策略;
将(si,ai,ri,st+1)放入回放池D,若D中数据足够,从D中采样N个数据输入目标Q网络计算学习目标最小化目标损失并以此来更新当前Q网络权重;
更新Q目标网络,循环上述过程至最大训练轮次;
当强化学习模型训练至收敛后,其输出的动作即为最优的环境车集群划分结果。
所述S3背景车对抗性行为决策:
根据背景车群划分结果,将背景车集群分为具备不同对抗强度的联盟;通过联盟博弈方法实现背景车集群的协同行为决策,各联盟之间建立合作关系,共同实现对测试车辆的对抗过程,从而提升场景的对抗强度。优选的,所述联盟博弈属于混合策略动态博弈。
所述S3背景车对抗性行为决策,具体的,所述联盟的动作空间为
Acoal={i∈1,…,m|am,i,}
am,i={b1,b2,b3,b4,b5,b6,b7}
其中,Acoal为联盟的动作空间,m为联盟内车辆数,am,i为联盟内第i辆车的动作空间,b1,b2,b3,b4,b5,b6,b7为联盟内车辆可执行的动作,分别为向左换道、向右换道、车道保持、较大幅度加速、较大幅度减速、较小幅度加速、较小幅度减速;
在建立动作空间后,需要对联盟内车辆选择不同动作后的状态进行预测;对执行相应动作后的下一时刻的背景车状态进行预测,预测过程如下:
对第m个联盟中的第i辆背景车:
已知当前车辆状态信息:x(k),y(k),vx(k),vy(k)分别为纵向位置、横向位置、横向速度以及纵向速度,预测时域为T;
则下一时刻的车辆预测状态为:
vx(k+1)=vx(k)+axT
vy(k+1)=vy(k)+ayT
其中,当车辆动作为选择不同动作时,ax和ay取不同值;
在完成动作预测后,建立收益函数计算选择不同动作时联盟获得的收益;所述收益函数e包括对抗性收益e1、速度收益e2和目标跟踪收益e3,其计算过程如下:
e=w1E1+w2E2+w3E3
其中,xtarg,ttarg为车辆选择不同动作后的预计到达的目标位置,w1,w2,w3为各项收益的权重系数,对抗性收益e1的权重系数w1与对抗强度相关,对第i个联盟,w1,i=w×qi,w为常数;
将车辆选择不同策略的概率作为优化变量,建立联盟博弈混合策略优化问题,其目标函数和约束条件为:
其中,ncoal为联盟数量,nact为联盟可选择的动作数量,uij为第联盟选择第某个动作的概率;约束条件是联盟选择所有动作的概率之和为1;求解上述优化问题,得到各联盟的混合策略决策结果,根据策略分布对动作进行抽样,抽样结果即为背景车的行为决策结果。
所述S4对背景车轨迹规划:
首先以道路中心线为参考建立Frenet曲线坐标系,后续的轨迹规划步骤都在Frenet坐标系下完成;
其次,根据背景车的行为决策结果确定轨迹规划的终点的位置范围xlim=[xmin,xmax],ylim=[ymin,ymax]和抵达终点的时间范围tlim=[tmin,tmax];在计算出的位置范围和时间范围内按照一定位置间隔和时间间隔进行均匀采样,将采样得到的位置信息和时间信息进行组合,得到轨迹规划终点的状态信息;
使用五次多项式方法拟合当前起点到不同终点状态的轨迹,形成轨迹簇;
建立轨迹评价指标对轨迹簇中的轨迹进行评价,选择最优轨迹作为轨迹规划结果输出;所述轨迹评价指标如下:
Et1=vx(tf)-vx(t0)
Et2=||(xtarg,ytarg)-(x(tf),y(tf))||
Et=wt1Et1+wt1Et2+wt3Et3
其中,Et1为速度收益,Et2为目标收益,Et3为碰撞收益,vx为轨迹的纵向速度,t0和tf分别为轨迹的开始时刻和结束时刻,xtarg,ytarg为轨迹的期望终点位置,wt1,wt2,wt3为各项指标的权重;
通过轨迹评价指标筛选出最优轨迹作为背景车的参考轨迹,将规划结果输入至下层轨迹跟踪控制器中,使背景车能按照参考轨迹行驶。
所述S5循环执行上述S2,S3,S4步骤,直至完成集群对抗测试任务:
当被测车和背景车都完成决策规划过程后,被测车和背景车的状态信息按照规划结果进行更新,相应环境信息也进行更新。基于更新后的环境信息进行测试任务终止条件判定:如果当前测试时间已达到预定测试时长或被测车与背景车发生碰撞,则测试任务结束,否则循环执行上述S2,S3,S4步骤,直至完成集群对抗测试任务。
本发明提出了一种基于多联盟集群对抗的自动驾驶测试方法,旨在提升自动驾驶仿真测试的效率和准确性。该方法通过强化学习和联盟博弈,动态生成与测试车辆高对抗性的测试场景,能更快找到自动驾驶危险边界场景,提高仿真测试效率。
本发明优越性如下:
1.本发明通过强化学习算法实现背景车集群自适应划分,通过与环境交互实现策略持续调整,环境适应性强,可针对不同被测对象动态生成高契合度风险场景,提高测试方法泛化性。
2.本发明通过联盟博弈建模背景车集群之间的合作关系,通过背景车集群协同合作提高整体场景对抗强度,能生成更复杂的场景,提高测试效率。
附图说明
图1为本发明测试过程流程图。
图2为本发明实施例仿真场景初始化示意图。
图3为本发明实施例多联盟集群对抗过程示意图。
具体实施方式
本发明技术方案属于自动驾驶虚拟仿真测试方法,可适用于多车道高速公路、匝道汇入、无保护左转等场景。本发明技术方案应用于自动驾驶虚拟仿真测试平台(以下简称测试平台):
测试平台为上位主机;
测试平台可以实时采集被测自动驾驶车的状态信息,并将信息传递给环境车集群;
本发明方法运行于测试平台,得到的规划结果输入至下层轨迹跟踪控制器,由下层轨迹跟踪控制器控制环境车集群实时运行。
本发明提出了基于多联盟集群对抗的自动驾驶测试方法,运行于测试平台:首先通过强化学习算法实现背景车对抗集群的自适应划分,将背景车划分为具备不同对抗强度等级的群组,令测试车辆与具备不同对抗强度等级的背景车群组进行交互,能更全面的测试被测车的自动驾驶能力,有效提高场景的多样性和测试难度,便于找到危险边界场景。同时将每个背景车群组视为一个联盟,联盟内部的车辆具有合作关系,通过联盟博弈方法实现背景车联盟的交互式高对抗性行为决策。最后根据行为决策结果对背景车集群进行轨迹规划,使背景车能按照规划轨迹行驶。
以下结合附图和实施例对本发明技术方案做进一步介绍。
实施例
在本实施例中,
定义被测车:需要进行仿真测试的高等级自动驾驶车,配备高性能传感器,具备自主感知、决策规划、控制能力;
定义背景车:在仿真测试平台中生成的与被测车有交互关系的其他车辆。
如图1所示,一种基于多联盟集群对抗的自动驾驶测试方法,包括以下步骤:
S1:自动驾驶测试环境初始化
本发明方法基于自动驾驶仿真平台实现,该平台可提供多种自动驾驶虚拟仿真场景和车辆模型,将规划控制算法接入自动驾驶仿真平台即可控制车辆在虚拟场景中的运动。所述自动驾驶仿真平台为自动驾驶虚拟仿真测试平台,可提供测试场景、车辆模型和传感器模型等,实现自动驾驶闭环仿真。
在虚拟仿真测试平台上选择需要的测试地图,设置车道数量、车道宽度等环境信息。确定背景车的数量和生成位置,编辑测试任务,在地图中选择测试的起点和终点,生成被测车行驶的全局参考路径。初始仿真场景示意图如图所示。
S2:背景车对抗集群划分决策:
采用强化学习算法实现背景车中对抗集群划分决策过程,将背景车集群划分过程建模成马尔可夫过程M(S,A,P,R,γ),其中,S为背景车集群的状态空间,A为背景车集群的动作空间,P为状态转移概率,R为背景车群执行动作后获得的即时奖励,γ为衰减因子;将所有背景车视为强化学习算法智能体,将S1步骤得出的环境初始化信息作为强化学习算法的环境信息输入;最优的环境车集群划分结果即背景车集群的动作空间为强化学习算法的输出,提供给S3。
详述如下。
强化学习模型的构建过程如下:
其中,状态空间为
S={i∈0,1,…,n|si}
si={xi,yi,vx,i,vy,i,ax,i,ay,i}
其中,n为测试环境中背景车的数量,si为背景车和测试车辆的行驶状态信息。xi,yi,vx,i,vy,i,ax,i,ay,i分别为背景车和测试车的纵向位置、侧向位置、纵向速度、侧向速度、纵向加速度和侧向加速度。
其中,动作空间由不同的背景车集群划分方案构成,动作空间为
A={A1×A2}
A1={a1,a2,…,ap}
A2={q1,...,qv}
其中A为强化学习的总动作空间,A1={a1,a2,…,ap}为n辆车不同对抗强度下的所有的集群划分方案,A2={q1,…,qv}为每个联盟的对抗强度。
其中,奖励函数R包括对抗强度奖励r1、加速奖励r2、碰撞惩罚r3和行驶范围惩罚r4等。
R=w1r1+w2r2+w3r3+w4r4
其中,x0,y0为测试车的横纵向位置,ai为第i辆背景车的加速度,amax为背景车最大加速度,dmax为背景车与测试车的最大距离,di为第i辆背景车与测试车之间的距离,w1,w2,w3,w4为各项奖励的权重。
在强化学习模型构建完成后,需要对强化学习模型进行预训练。
模型训练过程如下,实施例以DQN算法来实现:
首先建立与Q网络结构完全相同的Q目标网络,采用随机参数对Q网络和Q目标网络进行初始化,确定最大训练轮次。
在每个训练轮次内:
根据当前网络Qπ(s,a)以贪婪策略选择动作at,执行动作,更新回报和状态信息(si,ai,ri,st+1);其中,π指的是特定的策略。
将(si,ai,ri,st+1)放入回放池D,若D中数据足够,从D中采样N个数据输入目标Q网络计算学习目标最小化目标损失并以此来更新当前Q网络权重;
更新Q目标网络,循环上述过程至最大训练轮次。
当强化学习模型训练至收敛后,其输出的动作即为最优的环境车集群划分结果。
S3:背景车对抗性行为决策:
根据背景车群划分结果,将背景车集群分为具备不同对抗强度的联盟。通过联盟博弈方法实现背景车集群的协同行为决策,各联盟之间建立合作关系,共同实现对测试车辆的对抗过程,从而提升场景的对抗强度。背景车集群对抗过程示意如图所示。优选的,所述联盟博弈属于混合策略动态博弈。在博弈过程中,各联盟按一定顺序依次做出决策,后一个联盟在做决策时已知前面所有联盟的决策结果。另外,每个联盟的决策结果并不是固定的策略,而是不同策略的概率分布,能提高策略的多样性,更好应对复杂多变的动态博弈环境。
优选的,所述联盟的动作空间为
Acoal={i∈1,…,m|am,i,}
am,i={b1,b2,b3,b4,b5,b6,b7}
其中,Acoal为联盟的动作空间,m为联盟内车辆数,am,i为联盟内第i辆车的动作空间,b1,b2,b3,b4,b5,b6,b7为联盟内车辆可执行的动作,分别为向左换道、向右换道、车道保持、较大幅度加速、较大幅度减速、较小幅度加速、较小幅度减速。
在建立动作空间后,需要对联盟内车辆选择不同动作后的状态进行预测。为了提高算法的实时性,在本实施例中,仅对执行相应动作后的下一时刻的背景车状态进行预测,预测过程如下:
对第m个联盟中的第i辆背景车:
已知当前车辆状态信息:x(k),y(k),vx(k),vy(k)分别为纵向位置、横向位置、横向速度以及纵向速度,预测时域为T。
则下一时刻的车辆预测状态为:
vx(k+1)=vx(k)+axT
vy(k+1)=vy(k)+ayT
其中,当车辆动作为选择不同动作时,ax和ay取不同值。
在完成动作预测后,需要建立收益函数计算选择不同动作时联盟获得的收益。
优选的,所述收益函数E包括对抗性收益e1、速度收益e2和目标跟踪收益e3,其计算过程如下:
E=w1E1+w2E2+w3E3
其中,xtarg,ytarg为车辆选择不同动作后的预计到达的目标位置,w1,w2,w3为各项收益的权重系数,对抗性收益e1的权重系数w1与对抗强度相关,对第i个联盟,w1,i=w×qi,w为常数。
将车辆选择不同策略的概率作为优化变量,建立联盟博弈混合策略优化问题,其目标函数和约束条件为:
其中,ncoal为联盟数量,nact为联盟可选择的动作数量,uij为第联盟选择第某个动作的概率。约束条件是联盟选择所有动作的概率之和为1。求解上述优化问题,得到各联盟的混合策略决策结果,根据策略分布对动作进行抽样,抽样结果即为背景车的行为决策结果。
S4:对背景车轨迹规划
根据背景车的行为决策结果对背景车进行轨迹规划,在本实施例中采用Lattice方法进行路径规划。
首先以道路中心线为参考建立Frenet曲线坐标系,后续的轨迹规划步骤都在Frenet坐标系下完成。
其次,根据背景车的行为决策结果确定轨迹规划的终点的位置范围xlim=[xmin,xmax],ylim=[ymin,ymax]和抵达终点的时间范围tlim=[tmin,tmax]。在计算出的位置范围和时间范围内按照一定位置间隔和时间间隔进行均匀采样,将采样得到的位置信息和时间信息进行组合,得到轨迹规划终点的状态信息。
使用五次多项式方法拟合当前起点到不同终点状态的轨迹,形成轨迹簇。
建立动力学校验模块对轨迹簇终点轨迹进行筛选,删掉不满足车辆动力学要求的轨迹。
建立轨迹评价指标对轨迹簇中的轨迹进行评价,选择最优轨迹作为轨迹规划结果输出。所述轨迹评价指标如下:
Et1=vx(tf)-vx(t0)
Et2=||(xtarg,ytarg)-(x(tf),y(tf))||
Et=wt1Et1+wt1Et2+wt3Et3
其中,Et1为速度收益,Et22为目标收益,Et3为碰撞收益,vx为轨迹的纵向速度,t0和tf分别为轨迹的开始时刻和结束时刻,xtarg,ytarg为轨迹的期望终点位置,wt1,wt2,wt3为各项指标的权重。
通过轨迹评价指标筛选出最优轨迹作为背景车的参考轨迹,将规划结果输入至下层轨迹跟踪控制器中,使背景车能按照参考轨迹行驶。所述轨迹跟踪控制器可采用比例-积分-微分控制方法实现,在此不再详述。
S5:循环执行上述S2,S3,S4步骤,直至完成集群对抗测试任务。
当被测车和背景车都完成决策规划过程后,被测车和背景车的状态信息按照规划结果进行更新,相应环境信息也进行更新。基于更新后的环境信息进行测试任务终止条件判定:如果当前测试时间已达到预定测试时长或被测车与背景车发生碰撞,则测试任务结束,否则循环执行上述S2,S3,S4步骤,直至完成集群对抗测试任务。

Claims (10)

1.一种基于多联盟集群对抗的自动驾驶测试方法,其特征在于,首先通过强化学习算法实现背景车对抗集群的自适应划分,将背景车划分为具备不同对抗强度等级的群组,令测试车辆与具备不同对抗强度等级的背景车群组进行交互,能更全面的测试被测车的自动驾驶能力,有效提高场景的多样性和测试难度,便于找到危险边界场景;同时将每个背景车群组视为一个联盟,联盟内部的车辆具有合作关系,通过联盟博弈方法实现背景车联盟的交互式高对抗性行为决策;最后根据行为决策结果对背景车集群进行轨迹规划,使背景车能按照规划轨迹行驶。
2.根据权利要求1所述的一种基于多联盟集群对抗的自动驾驶测试方法,其特征在于,包括:
S1:自动驾驶测试环境初始化;
S2:背景车对抗集群划分决策;
S3:背景车对抗性行为决策;
S4:背景车轨迹规划;
S5:循环执行上述S2,S3,S4步骤,直至完成集群对抗测试任务。
3.根据权利要求2所述的一种基于多联盟集群对抗的自动驾驶测试方法,其特征在于,所述S1自动驾驶测试环境初始化,包括:在虚拟仿真测试平台上选择需要的测试地图,设置车道数量、车道宽度这些环境信息;确定背景车的数量和生成位置,测试任务,在测试地图中选择测试的起点和终点,生成被测车行驶的全局参考路径。
4.根据权利要求2所述的一种基于多联盟集群对抗的自动驾驶测试方法,其特征在于,所述S2背景车对抗集群划分决策:
采用强化学习算法实现背景车中对抗集群划分决策过程,将背景车集群划分过程建模成马尔可夫过程M(S,A,P,R,y),其中,S为背景车集群的状态空间,A为背景车集群的动作空间,P为状态转移概率,R为背景车群执行动作后获得的即时奖励,γ为衰减因子;将所有背景车视为强化学习算法智能体,将S1步骤得出的环境初始化信息作为强化学习算法的环境信息输入;最优的环境车集群划分结果即背景车集群的动作空间为强化学习算法的输出,提供给S3。
5.根据权利要求4所述的一种基于多联盟集群对抗的自动驾驶测试方法,其特征在于,所述S2背景车对抗集群划分决策,进一步的:
强化学习模型的构建过程如下:
其中,状态空间为
S={i∈0,1,…,n|si}
si={xi,yi,vx,i,vy,i,ax,i,ay,i}
其中,n为测试环境中背景车的数量,si为背景车和测试车辆的行驶状态信息,xi,yi,vx,i,vy,i,ax,i,ay,i分别为背景车和测试车的纵向位置、侧向位置、纵向速度、侧向速度、纵向加速度和侧向加速度;
其中,动作空间由不同的背景车集群划分方案构成,动作空间为
A={A1×A2}
A1={a1,a2,…,ap}
A2={q1,…,qv}
其中A为强化学习的总动作空间,A1={a1,a2,…,ap}为n辆车不同对抗强度下的所有的集群划分方案,A2={q1,…,qv}为每个联盟的对抗强度;
其中,奖励函数R包括对抗强度奖励r1、加速奖励r2、碰撞惩罚r3和行驶范围惩罚r4
R=w1r1+w2r2+w3r3+w4r4
其中,x0,y0为测试车的横纵向位置,ai为第i辆背景车的加速度,amax为背景车最大加速度,dmax为背景车与测试车的最大距离,di为第i辆背景车与测试车之间的距离,w1,w2,w3,w4为各项奖励的权重;
强化学习模型的训练过程如下,以DQN算法来实现:
首先建立与Q网络结构完全相同的Q目标网络,采用随机参数对Q网络和Q目标网络进行初始化,确定最大训练轮次;
在每个训练轮次内:
根据当前网络Qπ(s,a)以贪婪策略选择动作at,执行动作,更新回报和状态信息(si,ai,ri,st+1);其中,π指的是特定的策略;
将(si,ai,ri,st+1)放入回放池D,若D中数据足够,从D中采样N个数据输入目标Q网络计算学习目标yi=ri+γmaxaQω-(si+1,a),最小化目标损失并以此来更新当前Q网络权重;
更新Q目标网络,循环上述过程至最大训练轮次;
当强化学习模型训练至收敛后,其输出的动作即为最优的环境车集群划分结果。
6.根据权利要求2所述的一种基于多联盟集群对抗的自动驾驶测试方法,其特征在于,所述S3背景车对抗性行为决策:
根据背景车群划分结果,将背景车集群分为具备不同对抗强度的联盟;通过联盟博弈方法实现背景车集群的协同行为决策,各联盟之间建立合作关系,共同实现对测试车辆的对抗过程,从而提升场景的对抗强度。
7.根据权利要求6所述的一种基于多联盟集群对抗的自动驾驶测试方法,其特征在于,所述联盟博弈属于混合策略动态博弈。
8.根据权利要求6所述的一种基于多联盟集群对抗的自动驾驶测试方法,其特征在于,所述S3背景车对抗性行为决策,具体的,所述联盟的动作空间为
Acoal={i∈1,…,m|am,,i,}
am,i={b1,b2,b3,b4,b5,b6,b7}
其中,Acoal为联盟的动作空间,m为联盟内车辆数,am,i为联盟内第i辆车的动作空间,b1,b2,b3,b4,b5,b6,b7为联盟内车辆可执行的动作,分别为向左换道、向右换道、车道保持、较大幅度加速、较大幅度减速、较小幅度加速、较小幅度减速;
在建立动作空间后,需要对联盟内车辆选择不同动作后的状态进行预测;对执行相应动作后的下一时刻的背景车状态进行预测,预测过程如下:
对第m个联盟中的第i辆背景车:
已知当前车辆状态信息:x(k),y(k),vx(k),vy(k)分别为纵向位置、横向位置、横向速度以及纵向速度,预测时域为T;
则下一时刻的车辆预测状态为:
vx(k+1)=vx(k)+axT
vy(k+1)=vy(k)+ayT
其中,当车辆动作为选择不同动作时,ax和ay取不同值;
在完成动作预测后,建立收益函数计算选择不同动作时联盟获得的收益;所述收益函数e包括对抗性收益e1、速度收益e2和目标跟踪收益e3,其计算过程如下:
E=w,E1+w2E2+w3E3
其中,xtarg,ttarg为车辆选择不同动作后的预计到达的目标位置,w1,w2,w3为各项收益的权重系数,对抗性收益e1的权重系数w1与对抗强度相关,对第i个联盟,w1,i=w×qi,w为常数;
将车辆选择不同策略的概率作为优化变量,建立联盟博弈混合策略优化问题,其目标函数和约束条件为:
其中,ncoal为联盟数量,nact为联盟可选择的动作数量,uij为第联盟选择第某个动作的概率;约束条件是联盟选择所有动作的概率之和为1;求解上述优化问题,得到各联盟的混合策略决策结果,根据策略分布对动作进行抽样,抽样结果即为背景车的行为决策结果。
9.根据权利要求2所述的一种基于多联盟集群对抗的自动驾驶测试方法,其特征在于,所述S4对背景车轨迹规划:
首先以道路中心线为参考建立Frenet曲线坐标系,后续的轨迹规划步骤都在Frenet坐标系下完成;
其次,根据背景车的行为决策结果确定轨迹规划的终点的位置范围xlim=[xmin,xmax],ylim=[ymin,ymax]和抵达终点的时间范围tlim=[tmin,tmax];在计算出的位置范围和时间范围内按照一定位置间隔和时间间隔进行均匀采样,将采样得到的位置信息和时间信息进行组合,得到轨迹规划终点的状态信息;
使用五次多项式方法拟合当前起点到不同终点状态的轨迹,形成轨迹簇;
建立轨迹评价指标对轨迹簇中的轨迹进行评价,选择最优轨迹作为轨迹规划结果输出;所述轨迹评价指标如下:
Et1=vx(tf)-vx(t0)
Et2=||(xtarg,ytarg)-(x(tf),y(tf))||
Et=wt1Et1+wt1Et2+wt3Et3
其中,Et1为速度收益,Et2为目标收益,Et3为碰撞收益,vx为轨迹的纵向速度,t0和tf分别为轨迹的开始时刻和结束时刻,xtarg,ytarg为轨迹的期望终点位置,wt1,wt2,wt3为各项指标的权重;
通过轨迹评价指标筛选出最优轨迹作为背景车的参考轨迹,将规划结果输入至下层轨迹跟踪控制器中,使背景车能按照参考轨迹行驶。
10.根据权利要求2所述的一种基于多联盟集群对抗的自动驾驶测试方法,其特征在于,所述S5循环执行上述S2,S3,S4步骤,直至完成集群对抗测试任务:
当被测车和背景车都完成决策规划过程后,被测车和背景车的状态信息按照规划结果进行更新,相应环境信息也进行更新;基于更新后的环境信息进行测试任务终止条件判定:如果当前测试时间已达到预定测试时长或被测车与背景车发生碰撞,则测试任务结束,否则循环执行上述S2,S3,S4步骤,直至完成集群对抗测试任务。
CN202410992688.XA 2024-07-23 2024-07-23 一种基于多联盟集群对抗的自动驾驶测试方法 Active CN118936910B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202410992688.XA CN118936910B (zh) 2024-07-23 2024-07-23 一种基于多联盟集群对抗的自动驾驶测试方法
US19/238,205 US12459536B1 (en) 2024-07-23 2025-06-13 Autonomous driving testing method based on multi-coalition swarm confrontation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410992688.XA CN118936910B (zh) 2024-07-23 2024-07-23 一种基于多联盟集群对抗的自动驾驶测试方法

Publications (2)

Publication Number Publication Date
CN118936910A true CN118936910A (zh) 2024-11-12
CN118936910B CN118936910B (zh) 2025-05-16

Family

ID=93364236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410992688.XA Active CN118936910B (zh) 2024-07-23 2024-07-23 一种基于多联盟集群对抗的自动驾驶测试方法

Country Status (2)

Country Link
US (1) US12459536B1 (zh)
CN (1) CN118936910B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119783386A (zh) * 2024-12-31 2025-04-08 同济大学 一种自动驾驶自定义难度的对抗场景的生成方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680979A (zh) * 2023-06-05 2023-09-01 大连理工大学 一种基于强化学习的无人驾驶测试场景自动生成方法
CN117826603A (zh) * 2024-01-04 2024-04-05 四川智慧高速科技有限公司 一种基于对抗强化学习的自动驾驶控制方法
CN117892631A (zh) * 2024-01-19 2024-04-16 吉林大学 自动驾驶汽车换道场景下对抗性测试评估方法
CN118092392A (zh) * 2024-02-29 2024-05-28 吉林大学重庆研究院 基于模型预测控制的对抗性测试场景生成方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102792003B1 (ko) * 2019-09-27 2025-04-09 현대모비스 주식회사 자율 주행 장치 및 방법
US11465617B2 (en) * 2019-11-19 2022-10-11 Ford Global Technologies, Llc Vehicle path planning
DE102019219534A1 (de) * 2019-12-13 2021-06-17 Robert Bosch Gmbh Verfahren zum Bestimmen von Regelparametern für ein Regelsystem
US11975736B2 (en) * 2020-08-27 2024-05-07 Ford Global Technologies, Llc Vehicle path planning
US12485911B2 (en) * 2022-09-29 2025-12-02 Toyota Motor Engineering & Manufacturing North America, Inc. Method and system for modeling personalized car-following driving styles with model-free inverse reinforcement learning
US20250058802A1 (en) * 2023-08-07 2025-02-20 Nvidia Corporation Interactive motion planning for autonomous systems and applications

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680979A (zh) * 2023-06-05 2023-09-01 大连理工大学 一种基于强化学习的无人驾驶测试场景自动生成方法
CN117826603A (zh) * 2024-01-04 2024-04-05 四川智慧高速科技有限公司 一种基于对抗强化学习的自动驾驶控制方法
CN117892631A (zh) * 2024-01-19 2024-04-16 吉林大学 自动驾驶汽车换道场景下对抗性测试评估方法
CN118092392A (zh) * 2024-02-29 2024-05-28 吉林大学重庆研究院 基于模型预测控制的对抗性测试场景生成方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈泓运: "基于对抗策略的智能网联车防碰撞能力测试方法研究", 《优秀硕士学位论文全文库 工程科技Ⅱ辑》, no. 10, 15 October 2021 (2021-10-15), pages 43 - 51 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119783386A (zh) * 2024-12-31 2025-04-08 同济大学 一种自动驾驶自定义难度的对抗场景的生成方法及系统

Also Published As

Publication number Publication date
US12459536B1 (en) 2025-11-04
CN118936910B (zh) 2025-05-16

Similar Documents

Publication Publication Date Title
CN109733415B (zh) 一种基于深度强化学习的拟人化自动驾驶跟驰模型
Wasala et al. Trajectory based lateral control: A reinforcement learning case study
CN111898211A (zh) 基于深度强化学习的智能车速度决策方法及其仿真方法
CN112550314B (zh) 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
CN113791615B (zh) 一种混合车辆队列分布式模型预测控制方法
CN113276883B (zh) 基于动态生成环境的无人车行驶策略规划方法及实现装置
CN118468700A (zh) 一种基于多智能体强化学习的自动驾驶关键场景生成方法
CN119169818B (zh) 交叉口进口道混行车队协同引导控制方法
CN118936910B (zh) 一种基于多联盟集群对抗的自动驾驶测试方法
Wang et al. An interaction-aware evaluation method for highly automated vehicles
CN117227754A (zh) 一种针对环岛通行的自动驾驶决策模型构建方法
CN114360290B (zh) 一种基于强化学习的交叉口前车辆群体车道选择方法
CN118536793A (zh) 一种感知盲区场景下自动驾驶车辆风险评估及交互规划系统
Tian et al. Balanced reward-inspired reinforcement learning for autonomous vehicle racing
CN116639124A (zh) 一种基于双层深度强化学习的自动驾驶车辆换道方法
CN117284327A (zh) 一种自动驾驶车辆的行为决策及规划方法
CN118730145A (zh) 一种基于无地图导航的园区物流小车的路径规划方法
Capo et al. Short-term trajectory planning in TORCS using deep reinforcement learning
CN114937506A (zh) 一种面向疫情防控的公交车在途强化学习速度控制方法
CN120370938A (zh) 基于深度强化学习的无人数据收集车多目标路径规划方法
CN119761223A (zh) 一种基于自动人工引导的自动驾驶强化学习方法
CN119568155A (zh) 一种基于强化学习的自动驾驶车辆高速公路智能变道方法
Guo et al. Modeling, learning and prediction of longitudinal behaviors of human-driven vehicles by incorporating internal human DecisionMaking process using inverse model predictive control
CN119002536A (zh) 一种基于深度神经网络的智能制导律及其预测方法
Wu et al. Lane change decision-making through deep reinforcement learning with driver’s inputs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant