CN111401557B

CN111401557B - 智能体决策制定方法、ai模型训练方法、服务器及介质

Info

Publication number: CN111401557B
Application number: CN202010492473.3A
Authority: CN
Inventors: 张弛; 郭仁杰; 王宇舟; 武建芳; 杨木; 杨正云; 李宏亮; 刘永升
Original assignee: Super Parameter Technology Shenzhen Co ltd
Current assignee: Super Parameter Technology Shenzhen Co ltd
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-09-18
Anticipated expiration: 2040-06-03
Also published as: CN111401557A

Abstract

本申请公开了一种基于AI模型的智能体决策制定方法、AI模型训练方法、服务器及介质，该方法包括：获取3D虚拟环境中智能体当前帧状态信息、以及当前帧3D地图信息；通过AI模型的时序特征提取模块基于所述当前帧状态信息、所述当前帧3D地图信息，输出所述智能体对应的当前帧动作输出信息；根据所述当前帧动作输出信息，获得所述智能体下一帧状态信息；获取所述智能体的历史位置信息，并根据所述历史位置信息，生成下一帧3D地图信息；根据所述下一帧状态信息和所述下一帧3D地图信息，输出所述智能体对应的下一帧动作输出信息。因此，实现了可靠、高效地AI仿真。

Description

智能体决策制定方法、AI模型训练方法、服务器及介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种智能体决策制定方法、AI模型训练方法、服务器及介质。

背景技术

随着人工智能（Artificial Intelligence， AI）技术的快速发展，人工智能技术被广泛应用于3D游戏、虚拟交通、自动驾驶仿真、机器人轨迹规划等各个领域，在3D虚拟空间中进行AI仿真具有非常大的商业价值。

目前，一般是通过神经网络的记忆能力学习到AI仿真中智能体不同位置需要做出的正确决策，使用soft-attention机制，将全部状态信息，其中包括动态变化的信息以及静态不变的信息，比如3D游戏中队友和敌方不断移动的信息、物资点位置等各种信息，都用来进行决策分析，可以满足环境信息简单变化的一些场景，但不适用于环境信息快速变化的场景，智能体很难做出长期决策。因此，如何实现可靠、高效地AI仿真成为亟需解决的问题。

发明内容

本申请实施例提供一种智能体决策制定方法、AI模型训练方法、服务器及介质，可以实现可靠、高效地AI仿真。

第一方面，本申请实施例提供了一种基于AI模型的智能体决策制定方法，包括：

获取3D虚拟环境中智能体当前帧状态信息、以及当前帧3D地图信息；

通过AI模型的时序特征提取模块基于所述当前帧状态信息、所述当前帧3D地图信息，输出所述智能体对应的当前帧动作输出信息；

根据所述当前帧动作输出信息，获得所述智能体下一帧状态信息；

获取所述智能体的历史位置信息，并根据所述历史位置信息，生成下一帧3D地图信息；

根据所述下一帧状态信息和所述下一帧3D地图信息，输出所述智能体对应的下一帧动作输出信息。

第二方面，本申请实施例还提供了一种AI模型的训练方法，包括：

获取样本数据集，其中，所述样本数据集包括智能体的多帧状态信息和多帧3D地图信息；

通过待训练的AI模型的时序特征提取模块基于所述多帧状态信息和所述多帧3D地图信息，输出所述智能体对应的多帧融合状态向量信息；

根据所述多帧融合状态向量信息，构建损失函数；

对所述损失函数进行多步迭代，以训练更新所述AI模型。

第三方面，本申请实施例还提供了一种服务器，其特征在于，所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，所述存储器存储有AI模型，其中所述计算机程序被所述处理器执行时，实现如上述的基于AI模型的智能体决策制定方法；或者，实现如上述的AI模型的训练方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行时使所述处理器实现上述的基于AI模型的智能体决策制定方法；或者，实现上述的AI模型的训练方法。

本申请实施例提供了一种基于AI模型的智能体决策制定方法、AI模型的训练方法、服务器及计算机可读存储介质，基于3D虚拟环境中智能体当前帧状态信息以及当前帧3D地图信息，通过AI模型的时序特征提取模块基于智能体当前帧状态信息、当前帧3D地图信息，输出智能体对应的当前帧动作输出信息，并根据当前帧动作输出信息，获得智能体下一帧状态信息，以及根据智能体的历史位置信息，生成下一帧3D地图信息，进而根据智能体下一帧状态信息和下一帧3D地图信息，获得智能体下一帧动作输出信息，依照该方式获得智能体的各帧动作输出信息，从而实现长期决策，因此，实现了可靠、高效地AI仿真。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种基于AI模型的智能体决策制定方法的步骤示意流程图；

图2是本申请一实施例提供的3D地图的第一层通道的示意图；

图3是本申请一实施例提供的3D地图的第二层通道的示意图；

图4是本申请一实施例提供的3D地图的第三层通道的示意图；

图5是本申请一实施例提供的3D地图的第四层通道的示意图；

图6是本申请一实施例提供的基于AI模型的智能体动作输出的示意图；

图7是本申请一实施例提供的一种AI模型的训练方法的步骤示意流程图；

图8是本申请一实施例提供的AI模型训练的示意图；

图9是本申请实施例提供的一种服务器的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

目前，在3D虚拟空间的AI仿真中，一般是通过神经网络的记忆能力学习到AI仿真中智能体不同位置需要做出的正确决策，使用soft-attention机制，将全部状态信息，其中包括动态变化的信息以及静态不变的信息，比如3D游戏中队友和敌方不断移动的信息、物资点位置等各种信息，都用来进行决策分析，可以满足环境信息简单变化的一些场景，但不适用于环境信息快速变化的场景，智能体很难做出长期决策。

为了解决上述问题，本申请的实施例提供了一种基于AI模型的智能体决策制定方法、AI模型的训练方法、服务器及计算机可读存储介质，用于实现可靠、高效地AI仿真。其中，该基于AI模型的智能体决策制定方法、AI模型的训练方法可以应用于服务器中，该服务器可以为单台的服务器，也可以为由多台服务器组成的服务器集群。

请参阅图1，图1是本申请一实施例提供的基于AI模型的智能体决策制定方法的流程示意图。

如图1所示，该基于AI模型的智能体决策制定方法具体包括步骤S101至步骤S105。

S101、获取3D虚拟环境中智能体当前帧状态信息、以及当前帧3D地图信息。

比如在人工智能（Artificial Intelligence，AI）、3D虚拟环境下的机器人仿真、机械臂、无人驾驶、虚拟交通仿真等各种应用场景，或者是3D类型游戏中的游戏AI，为了实现快速高效的仿真，对3D虚拟环境中智能体（Agent）做出正确决策，获取3D虚拟环境中智能体当前帧状态信息、以及当前帧3D地图信息。其中，智能体是指宿主于复杂动态环境中，自治地感知环境信息，自主采取行动，并实现一系列预先设定的目标或任务的智能体。智能体的状态信息包括但不限于智能体的位置信息、运动信息、战斗力信息等等。

示例性的，3D地图信息为以智能体当前所在位置为中心的预设范围内的相对地图信息，而不是3D虚拟环境的全局地图信息。例如，以智能体当前所在位置为中心点，附近90m*90m范围内的相对地图信息。

在一实施例中，3D虚拟环境的3D地图包括多层通道，每层通道由多个网格组成，例如每层通道由n*n个网格组成，比如取n为9，每层通道由9*9的网格构成。其中，每个网格大小为Lm*Lm，例如，取L为10，每个网格大小为10m*10m。

需要说明的是，每层通道的网格数量，以及网格大小可根据实际情况进行灵活设置，在此不作具体限制。通过将局部的3D地图进行网格分割，避免了由于地图尺度过大而带来的地图信息维度过大的问题。

每层通道分别记载不同类型信息，该不同类型信息包括但不限于智能体是否移动至网格所在位置、智能体移动至网格所在位置的频次、智能体移动至网格所在位置的次序、网格所在位置存在物资点的数量、智能体移动至网格所在位置的状态信息等等。

可选地，3D地图的多层通道包括第一层通道、第二层通道、第三层通道与第四层通道，其中，第一层通道的网格记载智能体是否移动至网格所在位置，第二层通道的网格记载智能体移动至网格所在位置的频次，第三层通道的网格记载智能体移动至网格所在位置的次序，第四层通道的网格记载网格所在位置存在物资点的数量。

示例性的，采用第一标识信息填充至第一层通道的相应网格，表征智能体移动至该网格所在位置；并采用第二标识信息填充至第一层通道的相应网格，表征智能体未移动至该网格所在位置。

例如，如图2所示，设置第一标识信息为数值1，第二标识信息为数值0，在第一层通道的网格存储数值0或数值1，表征智能体是否移动至网格所在位置，其中，存储数值0的网格代表智能体未曾移动至该网格所在位置，存储数值1的网格代表智能体移动至该网格所在位置。

示例性的，采用相应整数填充至第二层通道的相应网格，表征智能体移动至该网格所在位置的频次。例如，如图3所示，第二层通道的网格填充0代表智能体未曾移动至该网格所在位置，第二层通道的网格填充1代表智能体到过该网格所在位置1次，第二层通道的网格填充2代表智能体到过该网格所在位置2次，第二层通道的网格填充3代表智能体到过该网格所在位置3次等等。

示例性的，采用大小不同的编号填充至第三层通道的相应网格，表征智能体移动至该网格所在位置的次序。例如，如图4所示，第三层通道的网格存储的编号越小，代表智能体移动至该网格所在位置的时间越晚。需要说明的是，也可以反向表征，智能体移动至相应网格所在位置的时间越早，该网格存储的编号越小。

示例性的，采用不同的数值填充至第四层通道的相应网格，表征网格所在位置存在物资点的数量。例如，如图5所示，第四层通道的网格填充数值0代表网格所在位置没有物资点，第四层通道的网格填充数值1代表网格所在位置有1个物资点，第四层通道的网格填充数值2代表网格所在位置有2个物资点，第四层通道的网格填充数值3代表网格所在位置有3个物资点等等。

基于3D地图信息，也即获取到智能体是否移动至3D地图的相应网格所在位置、智能体移动至网格所在位置的频次、智能体移动至网格所在位置的次序、网格所在位置存在物资点的数量等信息。

在一实施例中，3D地图记载预设次数或者预设时长段内智能体是否移动至3D地图的相应网格所在位置、智能体移动至网格所在位置的频次、智能体移动至网格所在位置的次序、网格所在位置存在物资点的数量等信息。例如，设置预设次数为20次，第一层通道的网格存储数值0表示在20次历史数据中智能体未曾移动至该网格所在位置，存储数值1表示在20次历史数据中智能体移动至该网格所在位置；第二层通道的网格填充1代表在20次历史数据中智能体到过该网格所在位置1次，第二层通道的网格填充2代表在20次历史数据中智能体到过该网格所在位置2次；第三层通道的网格存储在20次历史数据中智能体到达该网格的顺序，将智能体到达该网格的顺序从0到19进行编号，到达该网格的时间越晚，网格存储的编号就越小。

通过将智能体的相应位置信息嵌入到3D地图的通道中，并且在通道中添加物资点的信息，因此，促进了AI仿真中对于位置信息的识别，进而也提高了AI模型网络的泛化性。

S102、通过AI模型的时序特征提取模块基于所述当前帧状态信息、所述当前帧3D地图信息，输出所述智能体对应的当前帧动作输出信息。

本实施例中，AI模型设有相应的时序特征提取模块，其中，时序特征提取模块包括但不限于LSTM（Long Short-Term Memory，长短期记忆网络）模块、GRU（Gated RecurrentUnit，门控单元网络）模块，Transformer模块等。

通过调用AI模型，基于AI模型的时序特征提取模块，将智能体的当前帧状态信息、以及当前帧3D地图信息作为输入信息，经时序特征提取模块处理，进行时序特征提取，输出智能体对应的当前帧动作输出信息。

在一实施例中，先将智能体的当前帧状态信息、以及当前帧3D地图信息进行CONCAT融合后再输入时序特征提取模块进行处理。具体地，首先提取智能体当前帧状态信息中的状态嵌入向量特征S_t，以及根据当前帧3D地图信息获取地图向量特征M_t，将状态嵌入向量特征S_t与地图向量特征M_t合并输入全连接神经网络进行处理，获得状态嵌入向量特征S_t和地图向量特征M_t对应的融合信息。再将融合信息输入时序特征提取模块进行处理，输出智能体对应的当前帧动作输出信息。

在一实施例中，基于3D地图的多层通道分别记载不同类型信息，在根据当前帧3D地图信息获取地图向量特征M_t时，具体地，将不同类型信息经多层卷积计算，获得对应的地图向量特征M_t。例如，以3D地图包括上述的四层通道为例，将当前帧3D地图信息经过4层卷积计算，并在最后一层卷积计算进行拉平操作，得到地图向量特征M_t。

S103、根据所述当前帧动作输出信息，获得所述智能体下一帧状态信息。

S104、获取所述智能体的历史位置信息，并根据所述历史位置信息，生成下一帧3D地图信息。

基于输出的当前帧动作输出信息，控制智能体执行相应的动作输出，与3D虚拟环境进行交互，更新智能体的状态信息，获得智能体下一帧状态信息。同时，并记录智能体的位置信息，将每次记录的位置信息保存，这些位置信息作为智能体的历史位置信息，保存于服务器本地，或者也可以保存于服务器之外的其他存储设备，在此不作具体限制。

查询获取保存的智能体的历史位置信息，根据该历史位置信息，构建得到下一帧3D地图信息。例如，预设用于构建3D地图信息的历史位置信息对应的预设数量，获取预设数量的历史位置信息，基于该预设数量的历史位置信息，构建得到下一帧3D地图信息。可选地，设置该预设数量为20，也即根据20组历史位置信息，构建得到下一帧3D地图信息。该预设数量可根据实际情况进行灵活设置，在此不作具体限制。

在一实施例中，为了节约存储空间，仅保存预设数量的历史位置信息。每当记录保存一次历史位置信息，同时从保存的多个历史位置信息中删除记录最早的一个历史位置信息，使保存的历史位置信息的数量维持在预设数量。具体地，每次记录智能体的当前位置信息时，确定存储的历史位置信息的数量是否达到预设数量。若存储的历史位置信息的数量未达到预设数量，则直接存储当前位置信息；若存储的历史位置信息的数量达到预设数量，则存储当前位置信息，同时将存储的历史位置信息中最早记录的历史位置信息删除，从而使存储的历史位置信息的数量维持在预设数量。

在一实施例中，并不是每帧记录智能体的位置信息，而是通过设置一预设时长，每隔该预设时长记录一次智能体的位置信息并保存，作为智能体的历史位置信息。该预设时长可根据实际情况进行灵活设置，例如，设置该预设时长为10s，也即每隔10s记录一次智能体的位置信息并保存。

结合上述的预设数量，假设预设数量为20，预设时长为10s，也即每隔10s记录一次智能体的位置信息，且一共保存20组历史位置信息，相当于保存200s时间跨度内的历史位置信息。根据200s时间跨度内的20组历史位置信息，构建得到下一帧3D地图信息。

示例性的，以时序特征提取模块为LSTM模块为例，LSTM模块作为一个独立的特征提取单元，可以接受上一帧隐藏状态信息与当前帧状态信息作为输入，输出对应的当前帧隐藏状态信息，其中，隐藏状态信息包括隐藏信息（hidden state）和单元状态信息（cellstate），并将当前帧隐藏状态信息作为下一帧的输入。LSTM模块基于智能体的当前帧状态信息、当前帧3D地图信息、以及上一帧隐藏状态信息，先将智能体的当前帧状态信息、以及当前帧3D地图信息进行CONCAT融合后，将融合信息与上一帧隐藏状态信息输入LSTM模块，输出对应的当前帧隐藏状态信息。然后，根据当前帧隐藏状态信息，获取智能体对应的当前帧动作输出信息。

例如，如图6所示，将当前帧3D地图信息经过4层卷积计算得到当前帧地图向量特征M_t，并将智能体的当前帧状态信息对应的当前帧状态嵌入向量特征S_t与当前帧地图向量特征M_t进行CONCAT合并输入全连接神经网络进行处理，获得对应的融合信息，再将融合信息、以及上一帧隐藏信息h_t-1、上一帧单元状态信息C_t-1输入LSTM模块进行处理，输出智能体对应的当前帧动作输出信息。

LSTM模块中设计了三种门，分别是遗忘门（forget gate）、输入门（input gate）以及输出门（output gate），这三种门会对输入信息做出不同的处理。输入上一帧隐藏状态信息，包括上一帧隐藏信息h_t-1与上一帧单元状态信息C_t-1，以及智能体的当前帧状态信息与当前帧3D地图信息的融合信息x_t，输出当前帧隐藏信息h_t和当前帧单元状态信息C_t。通过遗忘门将上一帧隐藏信息h_t-1与融合信息x_t进行合并（CONCAT），通过一个前向网络，然后经过Sigmoid函数输出遗忘概率f_t（0到1间的值）。可通过输入们将上一帧隐藏信息h_t-1与融合信息x_t进行合并（CONCAT），通过一个前向网络，然后经过Sigmoid函数输出对应的输入概率i_t（0到1间的值），同时通过另一个前向网络，经过tanh函数输出融合信息x_t的处理结果C_t ^～，通过乘法操作将f_t与上一帧单元状态信息C_t-1相乘，以及将i_t与C_t ^～相乘，获得的两个乘积值相加，以相加的和值更新到输出的当前帧单元状态信息C_t中：

C_t=f_t·C_t-1+i_t·C_t ^～

输出门控制LSTM单元的输出信息，输出的当前帧隐藏信息

整合了上一帧隐藏信息h_t-1与上一帧单元状态信息C_t-1，以及融合信息x_t。通过Sigmoid函数计算融合信息x_t的输出概率O_t，同时将当前帧单元状态信息C_t通过tanh函数处理，并与O_t相乘得到当前帧隐藏信息h_t为：

h_t=O_t·tanh(C_t)

其中，当前帧隐藏信息h_t中包含有智能体对应的融合状态向量信息，基于输出的当前帧隐藏状态信息中的当前帧隐藏信息h_t，获得智能体对应的融合状态向量信息，其中，融合状态向量信息中包含有智能体的多帧状态信息。根据融合状态向量信息，获得智能体的当前帧动作输出信息。

S105、根据所述下一帧状态信息和所述下一帧3D地图信息，输出所述智能体对应的下一帧动作输出信息。

在获得智能体的下一帧状态信息、以及下一帧3D地图信息后，按照上述步骤S102中的操作，通过AI模型的时序特征提取模块基于智能体的下一帧状态信息、以及下一帧3D地图信息，输出智能体对应的下一帧动作输出信息。具体操作过程可参考步骤S102中所述，在此不再赘述。

由此，基于智能体的每一帧状态信息、以及每一帧3D地图信息，可输出智能体对应的每一帧动作输出信息，根据智能体对应的各帧动作输出信息，进而实现智能体高效、可靠的长期决策。也即，通过将时序特征提取模块，如LSTM模块与3D地图进行结合，使得智能体可以在3D虚拟环境中形成很好的记忆能力，进而做出长期决策。

上述实施例提供的基于AI模型的智能体决策制定方法，基于3D虚拟环境中智能体当前帧状态信息以及当前帧3D地图信息，通过AI模型的时序特征提取模块基于智能体当前帧状态信息、当前帧3D地图信息，输出智能体对应的当前帧动作输出信息，并根据当前帧动作输出信息，获得智能体下一帧状态信息，以及根据智能体的历史位置信息，生成下一帧3D地图信息，进而根据智能体下一帧状态信息和下一帧3D地图信息，获得智能体下一帧动作输出信息，依照该方式获得智能体的各帧动作输出信息，从而实现长期决策，因此，实现了可靠、高效地AI仿真。

本申请实施例还提供一种AI模型的训练方法。其中，该AI模型的训练方法可应用于服务器，以通过调用训练好的AI模型，实现可靠、高效地AI仿真。其中，该服务器可以为单台的服务器，也可以为由多台服务器组成的服务器集群。

请参照图7，图7为本申请实施例提供的一种AI模型的训练方法的流程示意图。

如图7所示，该AI模型的训练方法包括步骤S201至步骤204。

S201、获取样本数据集，其中，所述样本数据集包括智能体的多帧状态信息和多帧3D地图信息。

示例性的，在redis（Remote Dictionary Server，远程字典服务）数据库中存储AI模型训练对应的样本数据集，该样本数据集用于对AI模型进行训练，其中，样本数据集包括但不限于智能体的多帧状态信息和多帧3D地图信息等。通过查询访问redis获取AI模型训练对应的样本数据集。

S202、通过待训练的AI模型的时序特征提取模块基于所述多帧状态信息和所述多帧3D地图信息，输出所述智能体对应的多帧融合状态向量信息。

如基于AI模型的智能体决策制定方法实施例中所述，AI模型设有相应的时序特征提取模块，其中，时序特征提取模块包括但不限于LSTM模块、GRU模块，Transformer模块等。

基于AI模型的时序特征提取模块，将智能体的多帧状态信息、以及多帧3D地图信息作为输入信息，经时序特征提取模块处理，进行时序特征提取，输出智能体对应的多帧融合状态向量信息。具体地，提取多帧状态信息中的状态嵌入向量特征S_i，以及多帧3D地图信息对应的地图向量特征M_i，将多帧状态嵌入向量特征S_i和地图向量特征M_i输入时序特征提取模块处理，输出智能体对应的多帧融合状态向量信息。

示例性的，仍以时序特征提取模块为LSTM模块为例，例如，如图8所示，将多帧3D地图信息分别经过多层卷积计算得到每一帧3D地图信息对应的地图向量特征M_i，包括M_t、M_t+1等，以及获取每一帧状态信息对应的状态嵌入向量特征S_i，包括S_t、S_t+1等，分别将S_t与M_t、以及上一帧隐藏信息h_t-1、上一帧单元状态信息C_t-1输入LSTM模块进行处理，输出当前帧隐藏信息h_t、当前帧单元状态信息C_t、对应的融合状态向量信息；将S_t+1、M_t+1、以及当前帧隐藏信息h_t、当前帧单元状态信息C_t输入LSTM模块进行处理，输出下一帧隐藏信息h_t+1、下一帧单元状态信息C_t+1、对应的融合状态向量信息，依此方式，获得多帧融合状态向量信息。

S203、根据所述多帧融合状态向量信息，构建损失函数。

其中，损失函数包括价值函数损失（value loss）、策略梯度损失（policygradient loss）、信息熵损失（entropy loss）等。

在一实施例中，对于多帧融合状态向量信息，基于每一帧融合状态向量信息，分别得到每一帧融合状态向量信息对应的动作输出信息、以及该动作输出信息对应的价值函数输出值。其中，价值函数输出值用于对动作输出信息进行评价，若价值函数输出值高，则可控制执行对应的动作输出信息的相关动作指令；若价值函数输出值低，则不执行对应的动作输出信息的相关动作指令。基于获得的多帧动作输出信息，以及多帧动作输出信息对应的价值函数输出值，构建对应的损失函数。

S204、对所述损失函数进行多步迭代，以训练更新所述AI模型。

可选地，如图8所示，将损失函数送往GPU（Graphics Processing Unit，图形处理器）进行多步迭代优化，获得迭代后的相关AI模型参数，其中，AI模型参数包括但不限于时序特征提取模块的参数、价值函数的参数等等。基于迭代后的相关AI模型参数更新到AI模型，从而完成AI模型的训练更新。

同时，通过不断与3D虚拟环境交互产生的智能体的状态信息、3D地图信息等各种信息，将这些信息存储在数据存储系统中，如redis中，作为样本数据集中的数据，对AI模型进行迭代训练使用。

请参阅图9，图9为本申请实施例提供的一种服务器的示意性框图。

如图9所示，该服务器可以包括处理器、存储器和网络接口。处理器、存储器和网络接口通过系统总线连接，该系统总线比如为I2C（Inter-integrated Circuit）总线。

具体地，处理器可以是微控制单元(Micro-controller Unit，MCU)、中央处理单元(Central Processing Unit，CPU)或数字信号处理器(Digital Signal Processor，DSP)等。

具体地，存储器可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器用于运行存储在存储器中的计算机程序，并在执行所述计算机程序时实现如下步骤：

在一些实施例中，所述处理器在实现所述通过AI模型的时序特征提取模块基于所述当前帧状态信息、所述当前帧3D地图信息，输出所述智能体对应的当前帧动作输出信息之前，还实现：

提取所述当前帧状态信息中的状态嵌入向量特征，以及根据所述当前帧3D地图信息获取地图向量特征；

将所述状态嵌入向量特征与所述地图向量特征合并输入全连接神经网络，获得对应的融合信息；

所述处理器在实现所述通过所述AI模型的时序特征提取模块基于所述当前帧状态信息、所述当前帧3D地图信息，输出所述智能体对应的当前帧动作输出信息时，具体实现：

将所述融合信息输入所述时序特征提取模块，输出所述智能体对应的所述当前帧动作输出信息。

在一些实施例中，所述3D虚拟环境的3D地图包括多层通道，每层通道由多个网格组成，所述多层通道分别记载不同类型信息。

在一些实施例中，所述多层通道包括第一层通道、第二层通道、第三层通道与第四层通道中至少两层通道，所述第一层通道的网格记载所述智能体是否移动至网格所在位置，所述第二层通道的网格记载所述智能体移动至网格所在位置的频次，所述第三层通道的网格记载所述智能体移动至网格所在位置的次序，所述第四层通道的网格记载网格所在位置存在物资点的数量。

在一些实施例中，所述当前帧3D地图信息包括3D地图的多层通道记载的不同类型信息，所述处理器在实现所述根据所述当前帧3D地图信息获取地图向量特征时，具体实现：

将所述不同类型信息经多层卷积计算，获得所述地图向量特征。

在一些实施例中，所述当前帧3D地图信息为以所述智能体当前所在位置为中心的预设范围内的相对地图信息。

在一些实施例中，所述处理器在执行所述计算机程序时，还实现：

每隔预设时长记录所述智能体的位置信息并存储，所述智能体的所述历史位置信息为存储的多个位置信息。

在一些实施例中，所述处理器在实现所述记录所述智能体的位置信息并存储时，具体实现：

每次记录所述智能体的当前位置信息时，确定存储的所述历史位置信息的数量是否达到预设数量；

若存储的所述历史位置信息的数量未达到所述预设数量，则存储所述当前位置信息；

若存储的所述历史位置信息的数量达到所述预设数量，则存储所述当前位置信息，并将存储的所述历史位置信息中最早记录的历史位置信息删除。

在一些实施例中，所述时序特征提取模块包括LSTM模块，所述处理器在执行所述计算机程序时，还实现：

获取LSTM模块对应的上一帧隐藏状态信息；

通过所述LSTM模块基于所述当前帧状态信息、所述当前帧3D地图信息、以及所述上一帧隐藏状态信息，输出所述LSTM模块对应的当前帧隐藏状态信息；

根据所述当前帧隐藏状态信息，获取所述智能体对应的所述当前帧动作输出信息。

在一些实施例中，所述处理器在实现所述根据所述当前帧隐藏状态信息，获取所述智能体对应的所述当前帧动作输出信息时，具体实现：

根据所述当前帧隐藏状态信息，获取所述智能体对应的融合状态向量信息；

根据所述融合状态向量信息，获取所述当前帧动作输出信息。

根据所述多帧融合状态向量信息，构建损失函数；

对所述损失函数进行多步迭代，以训练更新所述AI模型。

在一些实施例中，所述时序特征提取模块包括LSTM模块，所述样本数据集还包括所述LSTM模块对应的隐藏状态信息，所述处理器在实现所述通过待训练的AI模型的时序特征提取模块基于所述多帧状态信息和所述多帧3D地图信息，输出所述智能体对应的多帧融合状态向量信息时，具体实现：

通过所述LSTM模块基于所述隐藏状态信息、以及所述多帧状态信息和所述多帧3D地图信息，输出所述多帧融合状态向量信息。

在一些实施例中，所述处理器在实现所述根据所述多帧融合状态向量信息，构建损失函数时，具体实现：

根据所述多帧融合状态向量信息，获取多帧动作输出信息，以及所述多帧动作输出信息对应的价值函数输出值；

根据所述多帧动作输出信息，以及所述多帧动作输出信息对应的所述价值函数输出值，构建所述损失函数。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的服务器的具体工作过程，可以参考前述基于AI模型的智能体决策制定方法和/或AI模型的训练方法实施例中的对应过程，在此不再赘述。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现上述实施例提供的基于AI模型的智能体决策制定方法和/或AI模型的训练方法的步骤。例如，该计算机程序被处理器加载，可以执行如下步骤：

调用AI模型，通过所述AI模型的时序特征提取模块基于所述当前帧状态信息、所述当前帧3D地图信息，输出所述智能体对应的当前帧动作输出信息；

获取所述智能体的历史位置信息，并根据所述历史位置信息，生成下一帧3D地图信息。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，计算机可读存储介质可以是前述实施例的服务器的内部存储单元，例如服务器的硬盘或内存。计算机可读存储介质也可以是服务器的外部存储设备，例如服务器上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种基于AI模型的智能体决策制定方法和/或AI模型的训练方法，因此，可以实现本申请实施例所提供的任一种基于AI模型的智能体决策制定方法和/或AI模型的训练方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅是本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于AI模型的智能体决策制定方法，其特征在于，包括：

获取3D虚拟环境中智能体当前帧状态信息、以及当前帧3D地图信息；所述当前帧3D地图信息为以所述智能体当前所在位置为中心的预设范围内的相对地图信息；

根据所述下一帧状态信息和所述下一帧3D地图信息，输出所述智能体对应的下一帧动作输出信息；

其中，所述通过AI模型的时序特征提取模块基于所述当前帧状态信息、所述当前帧3D地图信息，输出所述智能体对应的当前帧动作输出信息之前，包括：

所述通过AI模型的时序特征提取模块基于所述当前帧状态信息、所述当前帧3D地图信息，输出所述智能体对应的当前帧动作输出信息，包括：

2.根据权利要求1所述的方法，其特征在于，所述3D虚拟环境的3D地图包括多层通道，每层通道由多个网格组成，所述多层通道分别记载不同类型信息。

3.根据权利要求2所述的方法，其特征在于，所述多层通道包括第一层通道、第二层通道、第三层通道与第四层通道中至少两层通道，所述第一层通道的网格记载所述智能体是否移动至网格所在位置，所述第二层通道的网格记载所述智能体移动至网格所在位置的频次，所述第三层通道的网格记载所述智能体移动至网格所在位置的次序，所述第四层通道的网格记载网格所在位置存在物资点的数量。

4.根据权利要求1所述的方法，其特征在于，所述当前帧3D地图信息包括3D地图的多层通道记载的不同类型信息，所述根据所述当前帧3D地图信息获取地图向量特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述记录所述智能体的位置信息并存储，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述时序特征提取模块包括LSTM模块，所述方法还包括：

获取LSTM模块对应的上一帧隐藏状态信息；

所述通过所述AI模型的时序特征提取模块基于所述当前帧状态信息、所述当前帧3D地图信息，输出所述智能体对应的当前帧动作输出信息，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述当前帧隐藏状态信息，获取所述智能体对应的所述当前帧动作输出信息，包括：

9.一种AI模型的训练方法，其特征在于，包括：

根据所述多帧融合状态向量信息，构建损失函数；

对所述损失函数进行多步迭代，以训练更新所述AI模型；

其中，所述根据所述多帧融合状态向量信息，构建损失函数，包括：

10.根据权利要求9所述的方法，其特征在于，所述时序特征提取模块包括LSTM模块，所述样本数据集还包括所述LSTM模块对应的隐藏状态信息，所述通过待训练的AI模型的时序特征提取模块基于所述多帧状态信息和所述多帧3D地图信息，输出所述智能体对应的多帧融合状态向量信息，包括：

11.一种服务器，其特征在于，所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，所述存储器存储有AI模型，其中所述计算机程序被所述处理器执行时，实现如权利要求1至8中任一项所述的基于AI模型的智能体决策制定方法；或者，实现如权利要求9至10中任一项所述的AI模型的训练方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至8中任一项所述的基于AI模型的智能体决策制定方法；或者，实现如权利要求9至10中任一项所述的AI模型的训练方法。