CN118936910A

CN118936910A - 一种基于多联盟集群对抗的自动驾驶测试方法

Info

Publication number: CN118936910A
Application number: CN202410992688.XA
Authority: CN
Inventors: 孙剑; 杭鹏; 孔爱静
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2024-07-23
Filing date: 2024-07-23
Publication date: 2024-11-12
Anticipated expiration: 2044-07-23
Also published as: US12459536B1; CN118936910B

Abstract

本发明提出了一种基于多联盟集群对抗的自动驾驶测试方法，旨在提升自动驾驶仿真测试的效率和准确性。包括S1：自动驾驶测试环境初始化；S2：背景车对抗集群划分决策；S3：背景车对抗性行为决策；S4：背景车轨迹规划；S5：循环执行上述S2，S3，S4步骤，直至完成集群对抗测试任务。该方法通过强化学习和联盟博弈，动态生成与测试车辆高对抗性的测试场景，能更快找到自动驾驶危险边界场景，提高仿真测试效率。

Description

一种基于多联盟集群对抗的自动驾驶测试方法

技术领域

本发明涉及自动驾驶虚拟仿真测试技术领域，尤其是涉及一种基于多联盟集群对抗的自动驾驶测试方法。

背景技术

自动驾驶技术近年来成为汽车和交通领域的热门研究方向。相比于人类驾驶车辆，自动驾驶系统可以显著提高交通安全，降低事故发生率，在驾驶舒适性和经济性方面也有较大提升。然而，未来确保自动驾驶系统的安全性和稳定性，严格的自动驾驶系统测试是不可或缺的关键环节。自动驾驶测试方法包括道路测试、场地测试、仿真测试等。其中，自动驾驶仿真测试可模拟更加丰富的复杂场景，进行虚拟化和自动化测试，场景覆盖率高，安全性高且成本低廉，是当前最有效的自动驾驶测试手段。

然而，随着自动驾驶等级不断提升，长尾场景、边界场景成为制约自动驾驶仿真测试的一大瓶颈。传统的基于参数组合的自动驾驶测试场景生成方法主要通过轨迹数据的数字化映射实现，不具备与测试车辆的动态交互能力，测试场景与测试车辆契合度较低，容易产生大量无意义冗余场景，难以生成高风险边界场景，关键测试场景生成效率低。基于环境对抗的自动驾驶测试方法充分考虑了背景车与测试车辆的动态交互关系，可通过控制背景车的行为实时生成与测试车辆高对抗性的测试场景。该方法生成的测试场景与测试车辆有较高的契合度和针对性，更容易找到针对测试车辆的高风险边界场景，有效提高自动驾驶测试效率。

发明内容

本发明目的在于克服现有技术不足，公开一种基于多联盟集群对抗的自动驾驶测试方法。

本发明可以通过以下技术方案来实现：

一种基于多联盟集群对抗的自动驾驶测试方法，其特征在于，首先通过强化学习算法实现背景车对抗集群的自适应划分，将背景车划分为具备不同对抗强度等级的群组，令测试车辆与具备不同对抗强度等级的背景车群组进行交互，能更全面的测试被测车的自动驾驶能力，有效提高场景的多样性和测试难度，便于找到危险边界场景；同时将每个背景车群组视为一个联盟，联盟内部的车辆具有合作关系，通过联盟博弈方法实现背景车联盟的交互式高对抗性行为决策；最后根据行为决策结果对背景车集群进行轨迹规划，使背景车能按照规划轨迹行驶。

一种基于多联盟集群对抗的自动驾驶测试方法，其特征在于，包括

S1：自动驾驶测试环境初始化。

S2：背景车对抗集群划分决策。

S3：背景车对抗性行为决策。

S4：背景车轨迹规划。

S5：循环执行上述S2，S3，S4步骤，直至完成集群对抗测试任务。

所述S1自动驾驶测试环境初始化，包括：在虚拟仿真测试平台上选择需要的测试地图，设置车道数量、车道宽度这些环境信息；确定背景车的数量和生成位置，测试任务，在测试地图中选择测试的起点和终点，生成被测车行驶的全局参考路径。

所述S2背景车对抗集群划分决策：

采用强化学习算法实现背景车中对抗集群划分决策过程，将背景车集群划分过程建模成马尔可夫过程M(S,A,P,R,γ)，其中，S为背景车集群的状态空间，A为背景车集群的动作空间，P为状态转移概率，R为背景车群执行动作后获得的即时奖励，γ为衰减因子；将所有背景车视为强化学习算法智能体，将S1步骤得出的环境初始化信息作为强化学习算法的环境信息输入；最优的环境车集群划分结果即背景车集群的动作空间为强化学习算法的输出，提供给S3。

所述S2背景车对抗集群划分决策，进一步的：

强化学习模型的构建过程如下：

其中，状态空间为

S＝{i∈0,1,…,n|s_i}

s_i＝{x_i,y_i,v_x,i,v_y,i,a_x,i,a_y,i}

其中，n为测试环境中背景车的数量，s_i为背景车和测试车辆的行驶状态信息。x_i,y_i,v_x,i,v_y,i,a_x,i,a_y,i分别为背景车和测试车的纵向位置、侧向位置、纵向速度、侧向速度、纵向加速度和侧向加速度；

其中，动作空间由不同的背景车集群划分方案构成，动作空间为

A＝{A₁×A₂}

A₁＝{a₁,a₂,…,a_p}

A₂＝{q₁,...,q_v}

其中A为强化学习的总动作空间，A₁＝{a₁,a₂,...,a_p}为n辆车不同对抗强度下的所有的集群划分方案，A₂＝{q₁,…,q_v}为每个联盟的对抗强度。

其中，奖励函数R包括对抗强度奖励r₁、加速奖励r₂、碰撞惩罚r₃和行驶范围惩罚r₄；

R＝w₁r₁+w₂r₂+w₃r₃+w₄r₄

其中，x₀,y₀为测试车的横纵向位置，a_i为第i辆背景车的加速度，a_max为背景车最大加速度，d_max为背景车与测试车的最大距离，d_i为第i辆背景车与测试车之间的距离，w₁,w₂,w₃,w₄为各项奖励的权重；

强化学习模型的训练过程如下，以DQN算法来实现：

首先建立与Q网络结构完全相同的Q目标网络，采用随机参数对Q网络和Q目标网络进行初始化，确定最大训练轮次；

在每个训练轮次内：

根据当前网络Q^π(s,a)以贪婪策略选择动作a_t，执行动作，更新回报和状态信息(s_i,a_i,r_i,s_t+1)；其中，π指的是特定的策略；

将(s_i,a_i,r_i,s_t+1)放入回放池D，若D中数据足够，从D中采样N个数据输入目标Q网络计算学习目标最小化目标损失并以此来更新当前Q网络权重；

更新Q目标网络，循环上述过程至最大训练轮次；

当强化学习模型训练至收敛后，其输出的动作即为最优的环境车集群划分结果。

所述S3背景车对抗性行为决策：

根据背景车群划分结果，将背景车集群分为具备不同对抗强度的联盟；通过联盟博弈方法实现背景车集群的协同行为决策，各联盟之间建立合作关系，共同实现对测试车辆的对抗过程，从而提升场景的对抗强度。优选的，所述联盟博弈属于混合策略动态博弈。

所述S3背景车对抗性行为决策，具体的，所述联盟的动作空间为

A_coal＝{i∈1,…,m|a_m,i,}

a_m,i＝{b₁,b₂,b₃,b₄,b₅,b₆,b₇}

其中，A_coal为联盟的动作空间，m为联盟内车辆数，a_m,i为联盟内第i辆车的动作空间，b₁,b₂,b₃,b₄,b₅,b₆,b₇为联盟内车辆可执行的动作，分别为向左换道、向右换道、车道保持、较大幅度加速、较大幅度减速、较小幅度加速、较小幅度减速；

在建立动作空间后，需要对联盟内车辆选择不同动作后的状态进行预测；对执行相应动作后的下一时刻的背景车状态进行预测，预测过程如下：

对第m个联盟中的第i辆背景车：

已知当前车辆状态信息：x(k),y(k),v_x(k),v_y(k)分别为纵向位置、横向位置、横向速度以及纵向速度，预测时域为T；

则下一时刻的车辆预测状态为：

v_x(k+1)＝v_x(k)+a_xT

v_y(k+1)＝v_y(k)+a_yT

其中，当车辆动作为选择不同动作时，a_x和a_y取不同值；

在完成动作预测后，建立收益函数计算选择不同动作时联盟获得的收益；所述收益函数e包括对抗性收益e₁、速度收益e₂和目标跟踪收益e₃，其计算过程如下：

e＝w₁E₁+w₂E₂+w₃E₃

其中，x_targ,t_targ为车辆选择不同动作后的预计到达的目标位置，w₁,w₂,w₃为各项收益的权重系数，对抗性收益e₁的权重系数w₁与对抗强度相关，对第i个联盟，w_1,i＝w×q_i，w为常数；

将车辆选择不同策略的概率作为优化变量，建立联盟博弈混合策略优化问题，其目标函数和约束条件为：

其中，n_coal为联盟数量，n_act为联盟可选择的动作数量，u_ij为第联盟选择第某个动作的概率；约束条件是联盟选择所有动作的概率之和为1；求解上述优化问题，得到各联盟的混合策略决策结果，根据策略分布对动作进行抽样，抽样结果即为背景车的行为决策结果。

所述S4对背景车轨迹规划：

首先以道路中心线为参考建立Frenet曲线坐标系，后续的轨迹规划步骤都在Frenet坐标系下完成；

其次，根据背景车的行为决策结果确定轨迹规划的终点的位置范围x_lim＝[x_min,x_max]，y_lim＝[y_min,y_max]和抵达终点的时间范围t_lim＝[t_min,t_max]；在计算出的位置范围和时间范围内按照一定位置间隔和时间间隔进行均匀采样，将采样得到的位置信息和时间信息进行组合，得到轨迹规划终点的状态信息；

使用五次多项式方法拟合当前起点到不同终点状态的轨迹，形成轨迹簇；

建立轨迹评价指标对轨迹簇中的轨迹进行评价，选择最优轨迹作为轨迹规划结果输出；所述轨迹评价指标如下：

E_t1＝v_x(t_f)-v_x(t₀)

E_t2＝||(x_targ,y_targ)-(x(t_f),y(t_f))||

E_t＝w_t1E_t1+w_t1E_t2+w_t3E_t3

其中，E_t1为速度收益，E_t2为目标收益，E_t3为碰撞收益，v_x为轨迹的纵向速度，t₀和t_f分别为轨迹的开始时刻和结束时刻，x_targ,y_targ为轨迹的期望终点位置，w_t1,w_t2,w_t3为各项指标的权重；

通过轨迹评价指标筛选出最优轨迹作为背景车的参考轨迹，将规划结果输入至下层轨迹跟踪控制器中，使背景车能按照参考轨迹行驶。

所述S5循环执行上述S2，S3，S4步骤，直至完成集群对抗测试任务：

当被测车和背景车都完成决策规划过程后，被测车和背景车的状态信息按照规划结果进行更新，相应环境信息也进行更新。基于更新后的环境信息进行测试任务终止条件判定：如果当前测试时间已达到预定测试时长或被测车与背景车发生碰撞，则测试任务结束，否则循环执行上述S2，S3，S4步骤，直至完成集群对抗测试任务。

本发明提出了一种基于多联盟集群对抗的自动驾驶测试方法，旨在提升自动驾驶仿真测试的效率和准确性。该方法通过强化学习和联盟博弈，动态生成与测试车辆高对抗性的测试场景，能更快找到自动驾驶危险边界场景，提高仿真测试效率。

本发明优越性如下：

1.本发明通过强化学习算法实现背景车集群自适应划分，通过与环境交互实现策略持续调整，环境适应性强，可针对不同被测对象动态生成高契合度风险场景，提高测试方法泛化性。

2.本发明通过联盟博弈建模背景车集群之间的合作关系，通过背景车集群协同合作提高整体场景对抗强度，能生成更复杂的场景，提高测试效率。

附图说明

图1为本发明测试过程流程图。

图2为本发明实施例仿真场景初始化示意图。

图3为本发明实施例多联盟集群对抗过程示意图。

具体实施方式

本发明技术方案属于自动驾驶虚拟仿真测试方法，可适用于多车道高速公路、匝道汇入、无保护左转等场景。本发明技术方案应用于自动驾驶虚拟仿真测试平台(以下简称测试平台)：

测试平台为上位主机；

测试平台可以实时采集被测自动驾驶车的状态信息，并将信息传递给环境车集群；

本发明方法运行于测试平台，得到的规划结果输入至下层轨迹跟踪控制器，由下层轨迹跟踪控制器控制环境车集群实时运行。

本发明提出了基于多联盟集群对抗的自动驾驶测试方法，运行于测试平台：首先通过强化学习算法实现背景车对抗集群的自适应划分，将背景车划分为具备不同对抗强度等级的群组，令测试车辆与具备不同对抗强度等级的背景车群组进行交互，能更全面的测试被测车的自动驾驶能力，有效提高场景的多样性和测试难度，便于找到危险边界场景。同时将每个背景车群组视为一个联盟，联盟内部的车辆具有合作关系，通过联盟博弈方法实现背景车联盟的交互式高对抗性行为决策。最后根据行为决策结果对背景车集群进行轨迹规划，使背景车能按照规划轨迹行驶。

以下结合附图和实施例对本发明技术方案做进一步介绍。

实施例

在本实施例中，

定义被测车：需要进行仿真测试的高等级自动驾驶车，配备高性能传感器，具备自主感知、决策规划、控制能力；

定义背景车：在仿真测试平台中生成的与被测车有交互关系的其他车辆。

如图1所示，一种基于多联盟集群对抗的自动驾驶测试方法，包括以下步骤：

S1：自动驾驶测试环境初始化

本发明方法基于自动驾驶仿真平台实现，该平台可提供多种自动驾驶虚拟仿真场景和车辆模型，将规划控制算法接入自动驾驶仿真平台即可控制车辆在虚拟场景中的运动。所述自动驾驶仿真平台为自动驾驶虚拟仿真测试平台，可提供测试场景、车辆模型和传感器模型等，实现自动驾驶闭环仿真。

在虚拟仿真测试平台上选择需要的测试地图，设置车道数量、车道宽度等环境信息。确定背景车的数量和生成位置，编辑测试任务，在地图中选择测试的起点和终点，生成被测车行驶的全局参考路径。初始仿真场景示意图如图所示。

S2：背景车对抗集群划分决策：

详述如下。

强化学习模型的构建过程如下：

其中，状态空间为

S＝{i∈0,1,…,n|s_i}

s_i＝{x_i,y_i,v_x,i,v_y,i,a_x,i,a_y,i}

其中，n为测试环境中背景车的数量，s_i为背景车和测试车辆的行驶状态信息。x_i,y_i,v_x,i,v_y,i,a_x,i,a_y,i分别为背景车和测试车的纵向位置、侧向位置、纵向速度、侧向速度、纵向加速度和侧向加速度。

A＝{A₁×A₂}

A₁＝{a₁,a₂,…,a_p}

A₂＝{q₁,...,q_v}

其中A为强化学习的总动作空间，A₁＝{a₁,a₂,…,a_p}为n辆车不同对抗强度下的所有的集群划分方案，A₂＝{q₁,…,q_v}为每个联盟的对抗强度。

其中，奖励函数R包括对抗强度奖励r₁、加速奖励r₂、碰撞惩罚r₃和行驶范围惩罚r₄等。

R＝w₁r₁+w₂r₂+w₃r₃+w₄r₄

其中，x₀,y₀为测试车的横纵向位置，a_i为第i辆背景车的加速度，a_max为背景车最大加速度，d_max为背景车与测试车的最大距离，d_i为第i辆背景车与测试车之间的距离，w₁,w₂,w₃,w₄为各项奖励的权重。

在强化学习模型构建完成后，需要对强化学习模型进行预训练。

模型训练过程如下，实施例以DQN算法来实现：

首先建立与Q网络结构完全相同的Q目标网络，采用随机参数对Q网络和Q目标网络进行初始化，确定最大训练轮次。

在每个训练轮次内：

根据当前网络Q^π(s,a)以贪婪策略选择动作a_t，执行动作，更新回报和状态信息(s_i,a_i,r_i,s_t+1)；其中，π指的是特定的策略。

更新Q目标网络，循环上述过程至最大训练轮次。

S3：背景车对抗性行为决策：

根据背景车群划分结果，将背景车集群分为具备不同对抗强度的联盟。通过联盟博弈方法实现背景车集群的协同行为决策，各联盟之间建立合作关系，共同实现对测试车辆的对抗过程，从而提升场景的对抗强度。背景车集群对抗过程示意如图所示。优选的，所述联盟博弈属于混合策略动态博弈。在博弈过程中，各联盟按一定顺序依次做出决策，后一个联盟在做决策时已知前面所有联盟的决策结果。另外，每个联盟的决策结果并不是固定的策略，而是不同策略的概率分布，能提高策略的多样性，更好应对复杂多变的动态博弈环境。

优选的，所述联盟的动作空间为

A_coal＝{i∈1,…,m|a_m,i,}

a_m,i＝{b₁,b₂,b₃,b₄,b₅,b₆,b₇}

其中，A_coal为联盟的动作空间，m为联盟内车辆数，a_m,i为联盟内第i辆车的动作空间，b₁,b₂,b₃,b₄,b₅,b₆,b₇为联盟内车辆可执行的动作，分别为向左换道、向右换道、车道保持、较大幅度加速、较大幅度减速、较小幅度加速、较小幅度减速。

在建立动作空间后，需要对联盟内车辆选择不同动作后的状态进行预测。为了提高算法的实时性，在本实施例中，仅对执行相应动作后的下一时刻的背景车状态进行预测，预测过程如下：

对第m个联盟中的第i辆背景车：

已知当前车辆状态信息：x(k),y(k),v_x(k),v_y(k)分别为纵向位置、横向位置、横向速度以及纵向速度，预测时域为T。

则下一时刻的车辆预测状态为：

v_x(k+1)＝v_x(k)+a_xT

v_y(k+1)＝v_y(k)+a_yT

其中，当车辆动作为选择不同动作时，a_x和a_y取不同值。

在完成动作预测后，需要建立收益函数计算选择不同动作时联盟获得的收益。

优选的，所述收益函数E包括对抗性收益e₁、速度收益e₂和目标跟踪收益e₃，其计算过程如下：

E＝w₁E₁+w₂E₂+w₃E₃

其中，x_targ,y_targ为车辆选择不同动作后的预计到达的目标位置，w₁,w₂,w₃为各项收益的权重系数，对抗性收益e₁的权重系数w₁与对抗强度相关，对第i个联盟，w_1,i＝w×q_i，w为常数。

其中，n_coal为联盟数量，n_act为联盟可选择的动作数量，u_ij为第联盟选择第某个动作的概率。约束条件是联盟选择所有动作的概率之和为1。求解上述优化问题，得到各联盟的混合策略决策结果，根据策略分布对动作进行抽样，抽样结果即为背景车的行为决策结果。

S4：对背景车轨迹规划

根据背景车的行为决策结果对背景车进行轨迹规划，在本实施例中采用Lattice方法进行路径规划。

首先以道路中心线为参考建立Frenet曲线坐标系，后续的轨迹规划步骤都在Frenet坐标系下完成。

其次，根据背景车的行为决策结果确定轨迹规划的终点的位置范围x_lim＝[x_min,x_max]，y_lim＝[y_min,y_max]和抵达终点的时间范围t_lim＝[t_min,t_max]。在计算出的位置范围和时间范围内按照一定位置间隔和时间间隔进行均匀采样，将采样得到的位置信息和时间信息进行组合，得到轨迹规划终点的状态信息。

使用五次多项式方法拟合当前起点到不同终点状态的轨迹，形成轨迹簇。

建立动力学校验模块对轨迹簇终点轨迹进行筛选，删掉不满足车辆动力学要求的轨迹。

建立轨迹评价指标对轨迹簇中的轨迹进行评价，选择最优轨迹作为轨迹规划结果输出。所述轨迹评价指标如下：

E_t1＝v_x(t_f)-v_x(t₀)

E_t2＝||(x_targ,y_targ)-(x(t_f),y(t_f))||

E_t＝w_t1E_t1+w_t1E_t2+w_t3E_t3

其中，E_t1为速度收益，E_t22为目标收益，E_t3为碰撞收益，v_x为轨迹的纵向速度，t₀和t_f分别为轨迹的开始时刻和结束时刻，x_targ,y_targ为轨迹的期望终点位置，w_t1,w_t2,w_t3为各项指标的权重。

通过轨迹评价指标筛选出最优轨迹作为背景车的参考轨迹，将规划结果输入至下层轨迹跟踪控制器中，使背景车能按照参考轨迹行驶。所述轨迹跟踪控制器可采用比例-积分-微分控制方法实现，在此不再详述。

Claims

1.一种基于多联盟集群对抗的自动驾驶测试方法，其特征在于，首先通过强化学习算法实现背景车对抗集群的自适应划分，将背景车划分为具备不同对抗强度等级的群组，令测试车辆与具备不同对抗强度等级的背景车群组进行交互，能更全面的测试被测车的自动驾驶能力，有效提高场景的多样性和测试难度，便于找到危险边界场景；同时将每个背景车群组视为一个联盟，联盟内部的车辆具有合作关系，通过联盟博弈方法实现背景车联盟的交互式高对抗性行为决策；最后根据行为决策结果对背景车集群进行轨迹规划，使背景车能按照规划轨迹行驶。

2.根据权利要求1所述的一种基于多联盟集群对抗的自动驾驶测试方法，其特征在于，包括：

S1：自动驾驶测试环境初始化；

S2：背景车对抗集群划分决策；

S3：背景车对抗性行为决策；

S4：背景车轨迹规划；

3.根据权利要求2所述的一种基于多联盟集群对抗的自动驾驶测试方法，其特征在于，所述S1自动驾驶测试环境初始化，包括：在虚拟仿真测试平台上选择需要的测试地图，设置车道数量、车道宽度这些环境信息；确定背景车的数量和生成位置，测试任务，在测试地图中选择测试的起点和终点，生成被测车行驶的全局参考路径。

4.根据权利要求2所述的一种基于多联盟集群对抗的自动驾驶测试方法，其特征在于，所述S2背景车对抗集群划分决策：

采用强化学习算法实现背景车中对抗集群划分决策过程，将背景车集群划分过程建模成马尔可夫过程M(S，A，P，R，y)，其中，S为背景车集群的状态空间，A为背景车集群的动作空间，P为状态转移概率，R为背景车群执行动作后获得的即时奖励，γ为衰减因子；将所有背景车视为强化学习算法智能体，将S1步骤得出的环境初始化信息作为强化学习算法的环境信息输入；最优的环境车集群划分结果即背景车集群的动作空间为强化学习算法的输出，提供给S3。

5.根据权利要求4所述的一种基于多联盟集群对抗的自动驾驶测试方法，其特征在于，所述S2背景车对抗集群划分决策，进一步的：

强化学习模型的构建过程如下：

其中，状态空间为

S＝{i∈0,1，…，n|s_i}

s_i＝{x_i，y_i，v_x，i，v_y，i，a_x，i，a_y，i}

其中，n为测试环境中背景车的数量，s_i为背景车和测试车辆的行驶状态信息，x_i，y_i，v_x，i,v_y，i，a_x，i,a_y，i分别为背景车和测试车的纵向位置、侧向位置、纵向速度、侧向速度、纵向加速度和侧向加速度；

A＝{A₁×A₂}

A₁＝{a₁,a₂，…，a_p}

A₂＝{q₁，…，q_v}

其中A为强化学习的总动作空间，A₁＝{a₁,a₂，…，a_p}为n辆车不同对抗强度下的所有的集群划分方案，A₂＝{q₁，…，q_v}为每个联盟的对抗强度；

R＝w₁r₁+w₂r₂+w₃r₃+w₄r₄

强化学习模型的训练过程如下，以DQN算法来实现：

在每个训练轮次内：

将(s_i,a_i,r_i,s_t+1)放入回放池D，若D中数据足够，从D中采样N个数据输入目标Q网络计算学习目标y_i＝r_i+γmax_aQ_ω-(s_i+1,a)，最小化目标损失并以此来更新当前Q网络权重；

更新Q目标网络，循环上述过程至最大训练轮次；

6.根据权利要求2所述的一种基于多联盟集群对抗的自动驾驶测试方法，其特征在于，所述S3背景车对抗性行为决策：

根据背景车群划分结果，将背景车集群分为具备不同对抗强度的联盟；通过联盟博弈方法实现背景车集群的协同行为决策，各联盟之间建立合作关系，共同实现对测试车辆的对抗过程，从而提升场景的对抗强度。

7.根据权利要求6所述的一种基于多联盟集群对抗的自动驾驶测试方法，其特征在于，所述联盟博弈属于混合策略动态博弈。

8.根据权利要求6所述的一种基于多联盟集群对抗的自动驾驶测试方法，其特征在于，所述S3背景车对抗性行为决策，具体的，所述联盟的动作空间为

A_coal＝{i∈1,…，m|a_m,，i，}

a_m,i＝{b₁，b₂,b₃,b₄,b₅,b₆，b₇}

其中，A_coal为联盟的动作空间，m为联盟内车辆数，a_m，i为联盟内第i辆车的动作空间，b₁，b₂,b₃,b₄,b₅,b₆,b₇为联盟内车辆可执行的动作，分别为向左换道、向右换道、车道保持、较大幅度加速、较大幅度减速、较小幅度加速、较小幅度减速；

对第m个联盟中的第i辆背景车：

则下一时刻的车辆预测状态为：

v_x(k+1)＝v_x(k)+a_xT

v_y(k+1)＝v_y(k)+a_yT

其中，当车辆动作为选择不同动作时，a_x和a_y取不同值；

E＝w，E₁+w₂E₂+w₃E₃

9.根据权利要求2所述的一种基于多联盟集群对抗的自动驾驶测试方法，其特征在于，所述S4对背景车轨迹规划：

其次，根据背景车的行为决策结果确定轨迹规划的终点的位置范围x_lim＝[x_min，x_max]，y_lim＝[y_min，y_max]和抵达终点的时间范围t_lim＝[t_min，t_max]；在计算出的位置范围和时间范围内按照一定位置间隔和时间间隔进行均匀采样，将采样得到的位置信息和时间信息进行组合，得到轨迹规划终点的状态信息；

E_t1＝v_x(t_f)-v_x(t₀)

E_t2＝||(x_targ，y_targ)-(x(t_f)，y(t_f))||

E_t＝w_t1E_t1+w_t1E_t2+w_t3E_t3

10.根据权利要求2所述的一种基于多联盟集群对抗的自动驾驶测试方法，其特征在于，所述S5循环执行上述S2，S3，S4步骤，直至完成集群对抗测试任务：

当被测车和背景车都完成决策规划过程后，被测车和背景车的状态信息按照规划结果进行更新，相应环境信息也进行更新；基于更新后的环境信息进行测试任务终止条件判定：如果当前测试时间已达到预定测试时长或被测车与背景车发生碰撞，则测试任务结束，否则循环执行上述S2，S3，S4步骤，直至完成集群对抗测试任务。