WO2020187004A1

WO2020187004A1 - 通信系统中的调度方法、装置及存储介质

Info

Publication number: WO2020187004A1
Application number: PCT/CN2020/077227
Authority: WO
Inventors: 王坚; 徐晨; 李榕; 秦大力; 王俊
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-03-15
Filing date: 2020-02-28
Publication date: 2020-09-24
Anticipated expiration: 2021-09-15
Also published as: US20210410161A1; EP3930278B1; CN111698789A; EP3930278A4; US12156240B2; CN111698789B; EP3930278A1

Abstract

本申请实施例提供的通信系统中的调度方法、装置及存储介质，通信设备获取系统状态信息，该系统状态信息包括：网络状态信息，再基于系统状态信息和深度神经网络得到调度策略，并基于该调度策略进行通信，由于该深度神经网络是基于历史系统状态信息训练得到的，该历史系统状态信息包括：当前调度周期之前的所有调度周期中的系统状态信息，因而，基于该深度神经网络得到的调度策略能够满足用户吞吐量和公平性的均衡需求，解决了现有通信系统的性能低的问题。

Description

通信系统中的调度方法、装置及存储介质

本申请要求于2019年03月15日提交中国专利局、申请号为201910199878.5、申请名称为“通信系统中的调度方法、装置及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信技术领域，尤其涉及一种通信系统中的调度方法、装置及存储介质。

背景技术

在无线通信系统中，媒体介入控制(media access control，MAC)层调度主要用于解决时频域资源分配、功率控制、调制与编码策略(modulation and coding scheme，MCS)选择、用户配对、预编码矩阵计算等问题，以实现通信系统中吞吐量和用户公平性的均衡。

现有技术中，基于MAC层的调度方法主要是将通信系统作为一个确定的模型，并通过调度算法得到调度方案，以使终端设备基于得到的调度方案实现调度。例如，在蜂窝网络中的资源块组(resource block group，RBG)分配过程中，可以利用比例公平(proportional fair，PF)算法确定调度方案，以实现吞吐量和公平性的折中。

然而，由于通信系统比较复杂，基于上述算法得到的调度方案无法满足用户吞吐量和公平性的均衡，通信系统的性能低。

发明内容

本申请实施例提供一种通信系统中的调度方法、装置及存储介质，以解决现有通信系统性能低的问题。

本申请第一方面提供一种通信系统中的调度方法，通信设备首先获取系统状态信息，所述系统状态信息包括：网络状态信息，其次基于所述系统状态信息和深度神经网络得到调度策略，所述深度神经网络是基于历史系统状态信息训练得到的，所述历史系统状态信息包括：当前调度周期之前的所有调度周期中的系统状态信息，最后基于所述调度策略进行通信。

在本实施例中，由于该深度神经网络是基于历史系统状态信息训练得到的，且该历史系统状态信息包括：当前调度周期之前的所有调度周期中的系统状态信息，因而，基于该方法得到的调度策略能够满足用户吞吐量和公平性的均衡需求，提高了通信系统的性能。

示例性的，所述系统状态信息还包括：历史吞吐信息、用户缓存状态信息。

在第一方面的一种可能设计中，所述基于所述系统状态信息和深度神经网络得到调度策略，包括：

基于所述网络状态信息和所述用户缓存状态信息，确定估计吞吐信息；

将所述估计吞吐信息和所述历史吞吐信息输入所述深度神经网络，得到调度权值；

基于所述调度权值，确定所述调度策略。

在本实施例中，通信设备首先计算出估计吞吐信息，再将估计吞吐信息和历史吞吐信息输入到深度神经网络得到调度权值，最后得到调度策略，其降低了系统的处理压力，提高了系统稳定性。

在第一方面的上述可能设计中，所述系统状态信息还包括：混合自动重传请求HARQ信息；所述基于所述调度权值，确定所述调度策略，包括：

基于所述调度权值和所述HARQ信息，确定所述调度策略。

在本实施例中，通过深度神经网络确定各用户的调度权值后，同时考虑HARQ信息，对所有待调度用户的调度优先级进行调整，可以优先保障即将过期失效的重传信息的传输，即基于该调度权值和HARQ信息确定的调度策略能够实现调度的公平性。

在第一方面的另一种可能设计中，所述基于所述系统状态信息和深度神经网络得到调度策略，包括：

将所述估计吞吐信息、所述历史吞吐信息输入所述深度神经网络，得到所述调度策略。

在本实施例中，深度神经网络的输入为估计吞吐信息、历史吞吐信息，输出为调度策略，这样具有该深度神经网络的通信设备，其系统性能较好。

在第一方面的再一种可能设计中，所述基于所述系统状态信息和深度神经网络得到调度策略，包括：

将所述系统状态信息输入所述深度神经网络，得到所述调度策略。

在本实施例中，将获取到的系统状态信息均输入到深度神经网络可以减低通信系统的复杂度，提高通信系统的性能，但是该方案对深度神经网络的要求较高，消耗的资源较多，处理速度较慢。

在第一方面的又一种可能设计中，所述基于所述系统状态信息和深度神经网络得到调度策略，包括：

将所述系统状态信息输入所述深度神经网络，得到所述调度权值；

基于所述调度权值，确定所述调度策略。

在本实施例中，首先基于系统状态信息得到调度权值，再基于该调度权值确定调度策略，这样既可以降低深度神经网络的压力，又可以提高通信系统的性能，实现了用户吞吐信息和公平性的折中。

在第一方面的上述各可能设计中，输入所述深度神经网络的系统状态信息还包括：HARQ信息。

在第一方面的上述任意一种可能设计中，所述方法还包括：

获取所述调度策略执行后的当前系统吞吐信息、当前公平性参数信息以及更新后的系统状态信息；

基于如下参数中的至少一个确定回报信息，所述回报信息用于调整下一个调度周期中所述深度神经网络的决策，所述参数包括：所述当前系统吞吐信息、所述当前公平性参数信息、系统丢包率、系统时延。

在本实施例中，通过确定一个回报信息用于后续深度神经网络的更新，可以提高后续调度周期中调度策略的合理性。

可选的，所述方法还包括：

存储所述系统状态信息、所述调度策略、所述更新后的系统状态信息以及所述回报信息，所述系统状态信息、所述调度策略、所述更新后的系统状态信息以及所述回报信息用于更新所述深度神经网络。通信设备可以将上述获取到的系统状态信息、得到的调度策略、更新后的系统状态信息以及对应的回报信息作为一次经历进行存储，进而利用该经历训练或更新商户深度神经网络。

在第一方面的又一种可能设计中，所述通信设备为网络设备，所述获取系统状态信息，包括：

获取至少一个终端设备确定的所述网络状态信息、确认或非确认ACK/NACK信息；

基于所述ACK/NACK信息，更新所述HARQ信息；

获取所述用户缓存状态信息和所述历史吞吐信息。

对于通信系统中的下行传输，网络设备可以获取至少一个终端设备确定的网络状态信息、确认或非确认ACK/NACK信息，基于该ACK/NACK信息，更新HARQ信息，以及获取该用户缓存状态信息和历史吞吐信息，即得到了通信系统的系统状态信息，其为确定出合理的调度策略奠定了基础。

获取至少一个终端设备确定的所述用户缓存状态信息和所述HARQ信息；

获取所述网络状态信息和所述历史吞吐信息。

对于通信系统中的上行传输，网络设备可以获取至少一个终端设备确定的用户缓存状态信息和HARQ信息，以及获取该网络状态信息和历史吞吐信息，即得到了通信系统的系统状态信息，其为确定出合理的调度策略奠定了基础。

在第一方面的上述可能设计中，所述方法还包括：

将所述调度策略发送给所述至少一个终端设备。

网络设备将确定的调度策略发送给至少一个终端设备，这样网络设备可以和终端设备基于相同的调度策略进行通信，提高了系统稳定性。

在第一方面的又一种可能设计中，所述通信设备为终端设备，在所述获取系统状态信息之前，所述方法还包括：

接收网络设备广播的神经网络参数；

基于所述神经网络参数，确定所述深度神经网络。

深度神经网络在网络设备侧训练，这样得到的调度策略不仅合理，而且降低了对终端设备的能力要求，通信系统的性能好。

在第一方面的又一种可能设计中，所述通信设备为终端设备，所述获取系统状态信息，包括：

接收网络设备广播的所述网络状态信息；

获取所述用户缓存状态信息、所述HARQ信息和所述历史吞吐信息。

深度神经网络在终端设备侧训练并使用，能够得到吞吐信息和公平性均衡的调度策略，提高了通信系统的性能。

在第一方面的上述可能设计中，所述方法还包括：

将所述调度策略发送给与所述终端设备通信的所述网络设备或其他终端设备。

终端设备将上述调度策略发送给与该终端设备通信的网络设备或其他终端设备(对于UCNC或D2D场景)，可以使与该终端设备通信的网络设备或其他终端设备可以基于接收到的调度策略与该终端设备通信。

本申请第二方面提供一种通信系统中的调度装置，适用于通信设备，所述装置包括：获取模块、处理模块和收发模块；

所述获取模块，用于获取系统状态信息，所述系统状态信息包括：网络状态信息；

所述处理模块，用于基于所述系统状态信息和深度神经网络得到调度策略，所述深度神经网络是基于历史系统状态信息训练得到的，所述历史系统状态信息包括：当前调度周期之前的所有调度周期中的系统状态信息；

所述收发模块，用于基于所述调度策略进行通信。

在第二方面的一种可能设计中，所述处理模块，具体用于基于所述网络状态信息和所述用户缓存状态信息，确定估计吞吐信息，将所述估计吞吐信息和所述历史吞吐信息输入所述深度神经网络，得到调度权值，以及基于所述调度权值，确定所述调度策略。

示例性的，所述系统状态信息还包括：混合自动重传请求HARQ信息；

所述处理模块，具体用于基于所述调度权值和所述HARQ信息，确定所述调度策略。

在第二方面的上述可能设计中，所述处理模块，具体用于基于所述网络状态信息和所述用户缓存状态信息，确定估计吞吐信息，将所述估计吞吐信息、所述历史吞吐信息输入所述深度神经网络，得到所述调度策略。

在第二方面的另一种可能设计中，所述处理模块，具体用于将所述系统状态信息输入所述深度神经网络，得到所述调度策略。

在第二方面的再一种可能设计中，所述处理模块，具体用于将所述系统状态信息输入所述深度神经网络，得到所述调度权值，基于所述调度权值，确定所述调度策略。

在第二方面的上述任意一种可能设计中，输入所述深度神经网络的系统状态信息还包括：HARQ信息。

在第二方面的又一种可能设计中，所述获取模块，还用于获取所述调度策略执行后的当前系统吞吐信息、当前公平性参数信息以及更新后的系统状态信息；

所述处理模块，还用于基于如下参数中的至少一个确定回报信息，所述回报信息用于调整下一个调度周期中所述深度神经网络的决策，所述参数包括：所述当前系统吞吐信息、所述当前公平性参数信息、系统丢包率、系统时延。

在第二方面的上述可能设计中，所述装置还包括：存储模块；

所述存储模块，用于存储所述系统状态信息、所述调度策略、所述更新后的系统状态信息以及所述回报信息，所述系统状态信息、所述调度策略、所述更新后的系统状态信息以及所述回报信息用于更新所述深度神经网络。

在第二方面的又一种可能设计中，所述通信设备为网络设备，所述获取模块，具体用于获取至少一个终端设备确定的所述网络状态信息、确认或非确认ACK/NACK信息，基于所述ACK/NACK信息，更新所述HARQ信息，以及获取所述用户缓存状态信息和所述历史吞吐信息。

在第二方面的又一种可能设计中，所述通信设备为网络设备，所述获取模块，具体用于获取至少一个终端设备确定的所述用户缓存状态信息和所述HARQ信息，以及获取所述网络状态信息和所述历史吞吐信息。

在第二方面的上述可能设计中，所述收发模块，还用于将所述调度策略发送给所述至少一个终端设备。

在第二方面的又一种可能设计中，所述通信设备为终端设备，所述收发模块，还用于在所述获取模块获取系统状态信息之前，接收网络设备广播的神经网络参数；

所述处理模块，还用于基于所述神经网络参数，确定所述深度神经网络。

在第二方面的又一种可能设计中，所述通信设备为终端设备，所述获取模块，具体用于通过所述收发模块接收网络设备广播的所述网络状态信息，获取所述用户缓存状态信息、所述HARQ信息和所述历史吞吐信息。

在第二方面的上述可能设计中，所述收发模块，还用于将所述调度策略发送给与所述终端设备通信的所述网络设备或其他终端设备。

关于第二方面以及第二方面各可能设计未详尽的有益技术效果可以参见第一方面中的记载，此处不再赘述。

本申请第三方面提供一种通信系统中的调度装置，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面以及第一方面各种可能的设计中所述的方法。

本申请第四方面提供一种运行指令的芯片，所述芯片包括存储器、处理器，存储器中存储代码和数据，存储器与所述处理器耦合，处理器运行存储器中的代码使得芯片用于执行上述第一方面以及第一方面各种可能的设计中所述的方法。

本申请第五方面提供一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如第一方面以及第一方面各种可能的设计中所述的方法。

本申请第六方面提供一种包含指令的程序产品，当其在计算机上运行时，使得计算机执行上述第一方面以及第一方面各种可能的设计中所述的方法。

附图说明

图1为强化学习的原理示意图；

图2为MLP的结构示意图；

图3为损失函数的优化示意图；

图4为梯度反向传播时节点关系示意图；

图5为深度强化学习的结构示意图；

图6为本申请实施例提供的一种通信系统的结构示意图；

图7A为本申请实施例提供的通信系统中的调度方法实施例一的流程示意图；

图7B为基于系统状态信息和深度神经网络得到调度策略的第一种可能实现方式的示意图；

图7C为基于系统状态信息和深度神经网络得到调度策略的第二种可能实现方式的示意图；

图8A为本申请实施例提供的通信系统中的调度方法实施例二的流程示意图；

图8B为基于系统状态信息和深度神经网络得到调度策略的第三种可能实现方式的示意图；

图8C为基于系统状态信息和深度神经网络得到调度策略的第四种可能实现方式的示意图；

图8D为基于系统状态信息和深度神经网络得到调度策略的第五种可能实现方式的示意图；

图9A为本申请实施例提供的通信系统中的调度方法实施例三的流程示意图；

图9B为基于系统状态信息和深度神经网络得到调度策略的第六种可能实现方式的示意图；

图9C为基于系统状态信息和深度神经网络得到调度策略的第七种可能实现方式的示意图；

图10A为本申请实施例提供的通信系统中的调度方法实施例四的流程示意图；

图10B为基于系统状态信息和深度神经网络得到调度策略的第八种可能实现方式的示意图；

图10C为基于系统状态信息和深度神经网络得到调度策略的第九种可能实现方式的示意图；

图11A为本申请实施例提供的通信系统中的调度方法实施例五的流程示意图；

图11B为基于系统状态信息和深度神经网络得到调度策略的第十种可能实现方式的示意图；

图11C为基于系统状态信息和深度神经网络得到调度策略的第十一种可能实现方式的示意图；

图12为本申请实施例提供的通信系统中的调度方法实施例六的流程示意图；

图13为本申请实施例提供的通信系统中的调度方法实施例七的流程示意图；

图14为本申请实施例提供的通信系统中的调度方法实施例八的流程示意图；

图15为本申请实施例提供的通信系统中的调度方法实施例九的流程示意图；

图16为本申请实施例提供的通信系统中的调度方法实施例十的流程示意图；

图17A为RL算法和PF算法的吞吐性能比较示意图；

图17B为RL算法和PF算法的公平性性能比较示意图；

图18为本申请实施例提供的通信系统中的调度装置实施例一的结构示意图；

图19为本申请实施例提供的通信系统中的调度装置实施例二的结构示意图。

具体实施方式

以下，对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解：

强化学习：

强化学习是一种重要的机器学习方法，其在智能控制机器人及分析预测等领域有许多应用。强化学习可以把学习作为试探评价过程，强化学习的主体可以通过和环境的交互过程获得最大化的预期利益，学习得到最优的行为方式。示例性的，图1为强化学习的原理示意图。如图1所示，主体通过对环境的观察，得到当前状态，并按照一定的控制规则(policy)决策一个动作(action)用于环境，环境接收并实施该动作后，状态发生变化，同时基于该状态产生一个回报信息(奖励或惩罚)反馈给主体，主体根据该回报信息和环境当前状态再选择下一个动作，选择的原则是使受到正回报(奖励)的概率增大或者使受到的负回报(惩罚)的概率减小。通过多次的迭代学习，使主体学会根据环境状态作出最优决策。

全连接神经网络：

全连接神经网络又叫多层感知机(multilayer perceptron，MLP)。一个MLP可以包含一个输入层、一个输出层以及位于输入层和输出层的多个隐藏层。每一层(输入层、输出层、隐藏层)均包含数个节点，称为神经元。其中，相邻两层的神经元间两两相连。

示例性的，图2为MLP的结构示意图。如图2所示，对于包括一个输入层、一个输出层以及两个隐藏层的MLP，若输入层用向量x表示，与输入层连接的隐藏层的输出用向量h表示，则向量h与向量x的关系可以用矩阵h＝f(wx+b)表示，也即，向量h表示所有与该隐藏层相连的输入层的向量x的加权和并经过激活函数后的结果，其中，w为权重矩阵，b为偏置向量，f为激活函数。对于图2所示的MLP，x＝(x ₁，...，x ₄)是由输入层包含的所有节点组成的向量，h＝(h ₁，...，h ₈)表示该第一隐藏层包含的所有节点组成的向量。

同理，若输出层用向量y表示，假设与该输出层连接的隐藏层的输出用向量h＝f _n-1(...)表示，则该输出层用向量y可以用如下递归表达式表示：y＝f _n(w _nf _n-1(...)+b _n)，其中，w _n为向量y与输出层的输入向量h＝f _n-1(...)之间的权重矩阵，b _n为向量y与输出层的输入向量h＝f _n-1(...)之间的偏置向量，f _n()为第n次利用激活函数。对于图2所示的MLP，该输出层用向量y＝(y ₁，...，y ₆)。

简单的说，神经网络可以理解为一个从输入数据集合到输出数据集合的映射关系。而通常神经网络都是随机初始化的，用已有数据从随机的权重矩阵w和偏置向量b得到这个映射关系的过程被称为神经网络的训练。

可选的，神经网络的训练的具体方式为采用损失函数(loss function)对神经网络的输出结果进行评价，并将误差反向传播，通过梯度下降方法迭代优化权重矩阵w和偏置向量b直到损失函数达到最小值，如图3所示，图3为损失函数的优化示意图。参照图3所示，基于损失函数与神经网络参数之间的关系，逐渐迭代神经网络参数使得损失函数达到最小值，也即，从起始点开始迭代，直至确定出最优点的过程。值得说明的是，该神经网络参数包括：上述权重矩阵w和偏置向量b。

可选的，梯度下降的过程可以表示为

其中，θ为待优化参数(如w和b)，L为损失函数，η为学习率，用于控制梯度下降的步长。

示例性的，反向传播的过程利用到求偏导的链式法则，即前一层参数的梯度可以由后一层参数的梯度递推计算得到。可选的，图4为梯度反向传播时节点关系示意图。参照图4所示，反向传播的链式法则可以用如下公式可以

其中w _ij为节点j连接节点i的权重，s _i为节点i上的输入加权和。

深度强化学习：

将强化学习和深度学习相结合，就得到了深度强化学习(deep reinforcement learning，DRL)。示例性的，图5为深度强化学习的结构示意图。对比图1和图5可知，DRL仍然符合强化学习中主体和环境交互的框架，不同的是，在DRL中，主体使用深度神经网络进行决策。

下面首先对本申请实施例的适用场景进行简要说明。

本申请下述各实施例提供的通信系统中的调度方法可适用于通信系统中。图6为本申请实施例提供的一种通信系统的结构示意图。如图6所示，该通信系统可以包括至少一个终端设备61和至少一个网络设备62。图6示例性地示出了两个终端设备(终端设备611和终端设备612)和两个网络设备(网络设备621和网络设备622)，本申请实施例并不限定终端设备和网络设备的数量，其可以根据实际情况确定。

示例性的，在图6所示的通信系统中，至少一个终端设备61中的任意一个终端设备可以与至少一个网络设备62中的任意一个网络设备进行通信，而且任意两个终端设备或者任意两个网络设备也分别可以进行通信，从而实现信息的传输或同步。

可选的，该通信系统不限于包括网络设备和终端设备，其还可以包括网络控制器、移动管理实体等其他网络实体，本申请实施例不限于此，只要该通信系统中存在发送信息的实体，以及存在接收信息的实体即可，本申请实施例对此不做限定。

本申请实施例所应用的通信系统可以为全球移动通讯(global system of mobile communication，GSM)系统、码分多址(code division multiple access，CDMA)系统、宽带码分多址(wideband code division multiple access，WCDMA)系统、长期演进(long term evolution，LTE)系统、LTE频分双工(frequency division duplex，FDD)系统、LTE时分双工(time division duplex，TDD)、通用移动通信系统(universal mobile telecommunication system，UMTS)，及其他应用正交频分复用(orthogonal frequency division multiplexing，OFDM)技术的无线通信系统等。本申请实施例描述的系统架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着网络架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

在本申请实施例中，网络设备可以用于为终端设备提供无线通信功能，使得终端设备通过无线方式接入到该通信系统中。该网络设备可以包括各种形式的宏基站，微基站(也称为小站)，中继站，接入点等。该网络设备可以是CDMA中的基站(base transceiver station，BTS)，也可以是WCDMA中的基站(nodeB，NB)，还可以是LTE中的演进型基站(evolutional node B，eNB或e-NodeB)，以及可以是5G网络中对应的设备gNB、未来通信系统中的基站或WiFi系统中的接入节点等，本申请的实施例对网络设备所采用的具体技术和具体设备形态不做限定。为方便描述，本申请所有实施例中，上述为终端设备提供无线通信功能的装置统称为网络设备。

示例性的，在本申请实施例中，终端设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备。可选的，该终端设备也可称之为用户设备(user equipment，UE)、移动台(mobile station，MS)、移动终端(mobile terminal，MT)、终端(terminal)等，该终端设备可以经无线接入网(radio access network，RAN)与一个或多个核心网设备进行通信，例如，终端设备可以是移动电话(或称为蜂窝电话(cellular phone))、具有移动终端的计算机等，例如，终端设备还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语言和/或数据。具体的，终端设备还可以是手机(mobile phone)、用户单元(subscriber unit)、智能电话(smart phone)、无线数据卡、个人数字助理(personal digital assistant，PDA)电脑、平板型电脑、无线调制解调器(modem)、手持设备(handset)、便携式电脑(laptop computer)、机器类型通信(machine type communication，MTC)终端等等。本申请的实施例对终端设备所采用的具体技术和具体设备形态不做限定。

可选的，网络设备和终端设备可以部署在陆地上，包括室内或室外、手持或车载；也可以部署在水面上；还可以部署在空中的飞机、气球和人造卫星上。本申请的实施例对网络设备和终端设备的应用场景不做限定。

在本实施例中，根据背景技术中记载的内容可知，基于MAC层的调度方法主要是将通信系统作为一个确定的模型，进而通过公式推导得到调度方案。示例性的，下面以蜂窝网络中的资源块组(resource block group，RBG)分配为例进行说明。

现阶段，比较常用的调度算法有轮询(round robin，RR)算法、最大载干比(Maximum C/I)算法以及比例公平(proportional fair，PF)算法。其中，RR算法对应的调度策略是使用户轮流使用共享资源，由于其在调度过程中不考虑瞬时信道条件，致使整体通信系统的性能较低。Maximum C/I算法对应的调度策略是指选择信道质量最好的用户进行调度，其可以保证系统吞吐量达到最大值，但是其完全没有考虑公平性因素。PF算法可以实现吞吐和公平性较好的折中，应用比较广泛。下面以PF算法为例简要说明现有调度方法存在的问题。

示例性的，PF算法基于模型

选择被调度的用户，其中，R _i(t)为用户i在时刻t的估计吞吐量，它由信道条件信息、用户缓存信息等因素决定，而T _i(t)为用户i在时刻t时的历史累积吞吐量。由此可见，

是一种吞吐量和公平性兼顾的度量：当前估计吞吐量R _i(t)越大，说明该用户的信道条件较好，且缓存中又足够的数据需要发送，因此，度量值也越大；同时，历史累积吞吐量T _i(t)越大，说明该用户已经发送的数据量越多，为了公平起见，应减少其发送机会，因此，度量值越小。通过选择度量值最大的用户进行调度即实现了吞吐和公平性的折中。

但是，通信系统比较复杂，基于上述算法得到的调度方案无法满足用户吞吐量和公平性的均衡，通信系统的性能低。

为解决上述问题，本申请实施例提供了一种通信系统中的调度方法。通信设备获取系统状态信息，并基于该系统状态信息和深度神经网络得到调度策略，最后基于该调度策略进行通信。该方法中，由于该深度神经网络是基于历史系统状态信息训练得到的，且该历史系统状态信息包括：当前调度周期之前的所有调度周期中的系统状态信息，因而，基于该方法得到的调度策略能够满足用户吞吐量和公平性的均衡需求，提高了通信系统的性能。

示例性的，本申请实施例的适用场景为通信系统，执行主体为运行有深度神经网络的通信设备，通过采用深度强化学习方式实现了通信系统中的资源调度。

本申请实施例中，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面，通过具体实施例对本申请的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图7A为本申请实施例提供的通信系统中的调度方法实施例一的流程示意图。该方法适用于通信系统中的通信设备。参照图7A所示，该方法可以包括如下步骤：

步骤71：获取系统状态信息，该系统状态信息包括：网络状态信息。

示例性的，在本实施例中，通信设备与通信系统中的其他设备通信之前，两者之间首先可以确定出调度策略。若想确定调度策略首先需要获取该通信设备所在通信系统的系统状态信息，例如，网络状态信息等反映网络质量的相关信息。

示例性的，在本实施例中，调度策略可以包括：通信资源分配方案、功率控制、MCS选择、用户配对、预编码矩阵计算。在通信系统中，由于通信资源可以指时域、频域、空域、码域、极化方式等资源，因而，通信资源分配方案可以指时域、频域、空域、码域、极化方式等资源中的至少一种资源的分配方式。

可选的，该网络状态信息可以包括如下参数中的一种或多种：信道系数信息、信道信噪比(signal to noise ratio，SNR)信息、系统带宽信息、用户位置信息、网络负载信息等信息。值得说明的是，本实施例中的网络状态信息包括但不局限于包括上述参数，其可以根据实际场景进行确定，此处不再赘述。

可选的，不同的调度策略对应的具体实现方案是不同的，因而，不同的调度策略可以选择的不同系统参数来表征系统状态信息。因而，该系统状态信息包括但不局限于包括上述网络状态信息，其在其他场景中还可以包括其他信息，例如，用户缓存信息、历史吞吐信息等，此处不再赘述。

示例性的，在实际应用中，通信设备可以通过多个不同的模块获取该系统状态信息，也可能需要与其他设备进行交互获取该系统状态信息，对于该系统状态信息的获取方式其可以根据实际情况确定，此处不再赘述。

步骤72：基于该系统状态信息和深度神经网络得到调度策略，其中，该深度神经网络是基于历史系统状态信息训练得到的。

可选的，该历史系统状态信息包括：当前调度周期之前的所有调度周期中的系统状态信息。

在本实施例中，该通信设备上可能运行着训练得到的深度神经网络，该深度神经网络可以是该通信设备基于历史系统状态信息训练得到的，也可以是能够与该通信设备通信的其他设备训练得到，但将该深度神经网络的神经网络参数同步给该通信设备的。关于该深度神经网络的具体得到形式，本申请实施例并不对其进行限定，其可以根据实际情况确定。

本实施例中的深度神经网络是一个开放的模型，其可以是基于深度强度学习方法，利用当前调度周期之前的所有调度周期中的系统状态信息得到的，且在该调度周期结束之后，参与本次调度的系统状态信息也可以作为该深度神经网络的输入，以用于更新该深度神经网络。也即，该深度神经网络是基于当前调度周期之前的所有调度周期中的系统状态信息不断迭代更新的结果。

在本实施例中，通信设备获取到当前的系统状态信息后，可以基于该系统状态信息和上述深度神经网络得到调度策略。可选的，通信设备基于该系统状态信息可以首先得到调度权值，再得到该调度策略，也可以直接得到该调度策略，本申请实施例并不限定得到调度策略的具体实现方式，其可以根据实际需要确定。

可选的，调度权值指的是各待调度用户的调度权值，该调度权值与上述比例公平方案计算的权值类似，用于指示各待调度用户的调度优先级，不失一般性，通常情况下，调度权值最高的用户拥有最高的调度优先级。该调度策略可以指上述的通信资源分配方案、功率控制、MCS选择、用户配对、预编码矩阵计算等。

关于本步骤的具体实现原理和有益效果可以参见下述实施例二至实施例五中的记载，此处不再赘述。

示例性的，图7B为基于系统状态信息和深度神经网络得到调度策略的第一种可能实现方式的示意图。图7C为基于系统状态信息和深度神经网络得到调度策略的第二种可能实现方式的示意图。如图7B和图7C所示，在这两种实现方式中，网络状态信息均作为深度神经网络的输入，两者不同的是，在图7B所示的实现方式中，该深度神经网络的输出为调度权值，在图7C所示的实现方式中，该深度神经网络的输出直接为调度策略，也即，通信资源分配方案、MCS选择和预编码矩阵计算结果等最终调度策略。图7B所示的实现方式与图7C所示的实现方式相比，其需要的资源少，硬件相对消耗低，处理速度快，但是网络性能不如图7C所示的实现方式好。

可选的，该通信资源分配方案可以指资源块组(resource block group，RBG)和/或空间流的分配方案。

可选的，在图7B所示的实现方式中，通信设备得到的调度权值为各待调度用户的调度权值，因而，通信设备可以再根据该调度权值，确定出调度策略，也即确定出各被调度用户可使用的通信资源方案、MCS选择以及预编码矩阵等，关于具体的确定过程与现有通信系统的方案相同，此处不再赘述。

值得说明的是，在图7B所示的实现方式中，由于调度权值最高的用户拥有最高的调度优先级，因而，在本调度周期内，通信设备将调度“调度权值”最高的用户。值得注意的是，每个调度周期最终会调度至少一个用户进行数据传输，当调度的用户数为n，且n大于1时，则选择调度权值最高的n个用户。

步骤73：基于该调度策略进行通信。

在本实施例中，通信设备确定出调度策略之后，可以基于该调度策略与通信系统中的其他设备进行通信。具体的，该通信设备可以首先将该调度策略同步给与其通信的其他设备，再基于该调度策略对应的通信资源分配方案、MCS选择和预编码矩阵计算结果等进行信息传输。本申请实施例并不限定通信设备的具体通信实现过程，其可以根据实际情况确定。

本申请实施例提供的通信系统中的调度方法，通信设备获取系统状态信息，该系统状态信息包括：网络状态信息，再基于系统状态信息和深度神经网络得到调度策略，并基于该调度策略进行通信，由于该深度神经网络是基于历史系统状态信息训练得到的，该历史系统状态信息包括：当前调度周期之前的所有调度周期中的系统状态信息，因而，基于该深度神经网络得到的调度策略能够满足用户吞吐量和公平性的均衡需求，通信系统的性能高。

示例性的，在本申请实施例的一种可能设计中，上述系统状态信息还包括：历史吞吐信息、用户缓存状态信息。

可选的，在本实施例中，历史吞吐信息可以表示通信系统在当前周期之前的用户吞吐信息，其可以用于评价用户公平性，该用户缓存状态信息可以用于计算当前周期的估计吞吐信息，因而，在本实施例中，上述用于确定调度策略的系统状态信息中还可以包括该历史吞吐信息、用户缓存状态信息。

同理，上述用于训练深度神经网络的历史系统状态信息中还可以包括历史吞吐信息、历史用户缓存状态信息等。

可选的，在实际应用中，若上述获取系统状态信息的步骤由通信设备中的状态获取模块执行，则该状态获取模块中还可以包含多个子模块，例如，网络状态获取子模块、缓存状态获取子模块、历史参数获取子模块等。

可选的，该状态获取模块还可能需要与该通信设备的其他模块或者该通信设备之外的其他设备或装置进行信息交互。例如，网络状态获取子模块可能需要通过与通信链路的对端进行信令交互以实现对网络或信道的测量，进而得到网络状态信息；若该通信设备为接收设备时，该通信设备可能需要通过通信链路与发送设备进行交互，获取上报的用户缓存状态；该状态获取模块也可能需要将获取到的系统状态信息存入缓存模块等。

示例性的，在上述实施例的基础上，图8A为本申请实施例提供的通信系统中的调度方法实施例二的流程示意图。示例性的，图8B为基于系统状态信息和深度神经网络得到调度策略的第三种可能实现方式的示意图。如图8A所示，在本实施例中，上述步骤72可以通过如下步骤实现：

步骤81：基于该网络状态信息和用户缓存状态信息，确定估计吞吐信息。

可选的，在本实施例中，通信设备获取到当前系统的网络状态信息、历史吞吐信息以及用户缓存状态信息之后，如图8B所示，可以首先利用该网络状态信息和用户缓存状态信息计算出估计吞吐信息，从而确定出每个用户的信道质量以及缓存中的数据情况，然后再确定调度策略。

步骤82：将该估计吞吐信息和历史吞吐信息输入该深度神经网络，得到调度权值。

作为一种示例，如图8B所示，在本实施例中，通信设备可以将上述计算得到的估计吞吐信息和历史吞吐信息作为深度神经网络的输入，该深度神经网络的输出为调度权值，该调度权值与上述图7B所示实现方式中的一致，关于该调度权值的介绍可以参见上述实施例中的记载，此处不再赘述。

步骤83：基于该调度权值，确定调度策略。

在本实施例中，如图8B所示，通信设备得到调度权值后，可以再根据该调度权值，确定出调度策略，也即计算各被调度用户可使用的通信资源、MCS选择以及预编码矩阵等方案，关于具体的确定过程与现有通信系统的方案相同，此处不再赘述。

本申请实施例提供的通信系统中的调度方法，通信设备基于该网络状态信息和用户缓存状态信息，确定估计吞吐信息，将该估计吞吐信息和历史吞吐信息输入该深度神经网络，得到调度权值，最后基于该调度权值，确定调度策略。该技术方案中，通信设备首先计算出估计吞吐信息，再将估计吞吐信息和历史吞吐信息输入到深度神经网络得到调度权值，最后得到调度策略，其降低了系统的处理压力，提高了系统稳定性。

值得说明的是，在上述各实施例中，通信设备确定调度策略时没有考虑混合自动重传请求(hybrid automatic repeat request，HARQ)信息对调度过程的影响，这是因为在某些通信系统中(例如，超高可靠性与超低时延通信(ultra reliable & low latency communication，URLLC)系统，卫星通信系统等)，HARQ的功能可能不存在或被关闭，这时则不需考虑HARQ信息对调度策略的影响。

可选的，该HARQ信息可以至少包括HARQ进程状态信息和HARQ缓存状态信息。其中，该HARQ进程状态信息可以理解为只保存了各用户重传的进程号等信息，而HARQ缓存状态信息可以指示了重传的数据大小、距离过期所剩的时间等信息。因而，通常情况下，在以数据传输为主要任务的传输网络中，重传数据往往具有比新传数据更高的优先级。

通常情况下，当通信系统中具有HARQ的功能且开启时，可以将HARQ信息考虑到确定调度策略的方案中。

示例性的，在本实施例的一种可能设计中，上述系统状态信息还包括：HARQ信息。

示例性的，图8C为基于系统状态信息和深度神经网络得到调度策略的第四种可能实现方式的示意图。如图8C所示，该HARQ信息可以与深度神经网络输出的调度权值共同确定调度策略。因而，在该种可能设计中，上述步骤83可以通过如下步骤实现：

基于该调度权值和HARQ信息，确定该调度策略。

可选的，在本实施例中，通过深度神经网络确定各用户的调度权值后，可以需要同时考虑HARQ信息，对所有待调度用户的调度优先级进行调整，优先保障即将过期失效的重传信息的传输，即给拥有该类信息的用户更高的调度优先级，因而，基于该调度权值和HARQ信息确定的调度策略能够实现调度的公平性。

该方案对深度神经网络的要求比较低，该深度神经网络的压力较小。

示例性的，图8D为基于系统状态信息和深度神经网络得到调度策略的第五种可能实现方式的示意图。如图8D所示，输入上述深度神经网络的系统状态信息还包括：HARQ信息。相应的，该步骤82可以通过如下步骤实现：

将该估计吞吐信息、历史吞吐信息和HARQ信息输入上述深度神经网络，得到调度权值。

可选的，该步骤上述步骤82的区别在于，在本实施例中，输入到深度神经网络的系统状态信息中还包括HARQ信息，也即，如图8D所示，通信设备可以将基于网络状态信息和用户缓存状态信息确定的估计吞吐信息、历史吞吐信息以及HARQ信息作为深度神经网络的输入，这样深度神经网络在确定调度权值时在考虑信道质量、缓存中的数据情况的基础上，还考虑了拥有HARQ信息的用户具有的调度优先级，这样得到的调度权值更合理，充分考虑了用户吞吐信息和公平性的折中，进一步提高了通信系统的稳定性。

示例性的，在上述实施例的基础上，图9A为本申请实施例提供的通信系统中的调度方法实施例三的流程示意图。示例性的，图9B为基于系统状态信息和深度神经网络得到调度策略的第六种可能实现方式的示意图。如图9A所示，在本实施例中，上述步骤72可以通过如下步骤实现：

步骤91：基于该网络状态信息和用户缓存状态信息，确定估计吞吐信息。

在本实施例中，参照图9B所示，通信设备首先利用网络状态信息和用户缓存状态信息得到估计吞吐信息。

该步骤91与上述图8A所述实施例中步骤81的实现方式一致，具体可以参见上述步骤81中的记载，此处不再赘述。

步骤92：将该估计吞吐信息、历史吞吐信息输入深度神经网络，得到调度策略。

作为一种示例，如图9B所示，在本实施例中，通信设备可以将上述计算得到的估计吞吐信息和系统状态信息中的历史吞吐信息作为深度神经网络的输入，该深度神经网络可以直接输出调度策略，即该深度神经网络决策的调度结果为：通信资源分配方案、MCS索引和/或预编码矩阵等。

示例性的，在本申请实施例的另一种可能设计中，当通信设备考虑HARQ信息对调度过程的影响时，输入该深度神经网络的系统状态信息还包括：HARQ信息。

相应的，该步骤92可以通过如下步骤实现：

将该估计吞吐信息、历史吞吐信息和HARQ信息输入深度神经网络，得到调度策略。

示例性的，图9C为基于系统状态信息和深度神经网络得到调度策略的第七种可能实现方式的示意图。可选的，如图9C所示，HARQ信息作为系统状态信息的一部分输入深度神经网络，并且该深度神经网络直接输出调度策略。

可选的，在本实施例中，该深度神经网络的输入包括：历史吞吐信息、根据网络状态信息和用户缓存信息计算得到的估计吞吐信息以及获取到的HARQ信息，该调度策略对应的决策结果为：通信资源分配方案、MCS索引和/或预编码矩阵等。

示例性的，在上述实施例的基础上，图10A为本申请实施例提供的通信系统中的调度方法实施例四的流程示意图。示例性的，图10B为基于系统状态信息和深度神经网络得到调度策略的第八种可能实现方式的示意图。如图10A所示，在本实施例中，上述步骤72可以通过如下步骤实现：

步骤101：将上述系统状态信息输入该深度神经网络，得到调度策略。

如图10B所示，在本实施例中，该系统状态信息包括：网络状态信息、历史吞吐信息、用户缓存状态信息，因而，在该实现方式中，通信设备可以直接将该系统状态信息包括的网络状态信息、历史吞吐信息、用户缓存状态信息均输入到深度神经网络，得到调度策略。

进一步的，在本实施例的基础上，当通信设备考虑HARQ信息对调度过程的影响时，同理，输入该深度神经网络的系统状态信息还包括：HARQ信息。

相应的，该步骤101可以通过如下步骤实现：

将该网络状态信息、历史吞吐信息、用户缓存状态信息和HARQ信息输入深度神经网络，得到调度策略。

示例性的，图10C为基于系统状态信息和深度神经网络得到调度策略的第九种可能实现方式的示意图。如图10C所示，在本实施例中，通信设备可以将系统状态信息包括的历史吞吐信息、网络状态信息、用户缓存状态、HARQ信息均作为深度神经网络的输入，输出为调度策略。

图10C所示的实现方式与图10B所示实现方式的区别仅在于，在该实现方式中，输入到深度神经网络的系统状态信息中还包括是否为重传信息的HARQ信息，其使得该深度神经网络的输出结果更合理，进一步提高了通信系统的性能。

示例性的，在上述实施例的基础上，图11A为本申请实施例提供的通信系统中的调度方法实施例五的流程示意图。图11B为基于系统状态信息和深度神经网络得到调度策略的第十种可能实现方式的示意图。如图11A所示，在本实施例中，上述步骤72可以通过如下步骤实现：

步骤111：将该系统状态信息输入上述深度神经网络，得到调度权值。

可选的，在本实施例中，如图11B所示，通信设备可以将系统状态信息包括的网络状态信息、历史吞吐信息、用户缓存状态信息均输入到深度神经网络中，这时该深度神经网络的输出可以为调度权值，即用于指示各待调度用户调度优先级的调度权值。

步骤112：基于该调度权值，确定调度策略。

该步骤112与上述图8A所示实施例中步骤83的实现原理类似，具体可以参见上述实施例中的记载，此处不再赘述。

图11B所示的实现方式与图10B所示实现方式的区别仅在于，在该实现方式中，深度神经网络的输出为调取权值，而该图10B所示实现方式中，深度神经网络的输出为调取策略。

相应的，该步骤111可以通过如下步骤实现：

将该网络状态信息、历史吞吐信息、用户缓存状态信息和HARQ信息输入深度神经网络，得到调度权值。

示例性的，图11C为基于系统状态信息和深度神经网络得到调度策略的第十一种可能实现方式的示意图。如图11C所示，在本实施例中，通信设备可以将系统状态信息包括的历史吞吐信息、网络状态信息、用户缓存状态以及HARQ信息均作为深度神经网络的输入，输出为调度权值。

图11C所示的实现方式与图11B所示实现方式的区别仅在于，在该实现方式中，输入到深度神经网络的系统状态信息中还包括是否为重传信息的HARQ信息，其使得该深度神经网络输出的调度权值更合理，进一步提高了通信系统的性能。

示例性的，在上述任一实施例的基础上，图12为本申请实施例提供的通信系统中的调度方法实施例六的流程示意图。如图12所示，该方法还可以包括如下步骤：

步骤121：获取该调度策略执行后的当前系统吞吐信息、当前公平性参数信息以及更新后的系统状态信息。

可选的，在本实施例中，通信设备基于上述确定的调度策略通信一段时间之后，通信系统的系统状态信息相应的发生变化，即网络状态信息、用户缓存状态信息、HARQ信息以及历史参数等都可能发生了变化，这时通信设备通过检测或与其他设备交互可以得到通信系统的当前系统吞吐信息、当前公平性参数信息以及更新后的系统状态信息。

步骤122：基于如下参数中的至少一个确定回报信息，该回报信息用于调整下一个调度周期中深度神经网络的决策，该参数包括：当前系统吞吐信息、当前公平性参数信息、系统丢包率、系统时延。

可选的，在本实施例中，通信设备可以基于给定的回报函数计算该调度策略执行后的回报信息，以调整下一个调度周期中该深度神经网络的决策。

示例性的，在本实施例中，回报信息可以是基于通信系统的系统性能参数确定的，该系统性能参数包括但不限于系统吞吐信息、公平性参数信息，其可以将其他的一些系统性能参数，例如，通信过程中的系统丢包率、传输时延等归入到确定回报信息的参数之中，该公平性参数信息可以包括不同业务流之间的比例等内容。

示例性的，在本实施例中，深度神经网络在深度强化学习中用到的系统状态信息包括：估计吞吐信息和历史吞吐信息。该估计吞吐信息为当前时刻各待调度用户在各RBG上的估计吞吐信息，对于m+1个用户设备(UE 1至UE m)、n+1个RBG(RBG 0至RBG n)的场景，该估计吞吐信息的数据结构可以如下：

	UE0	UE 1	……	UE m
RBG 0	inst_THP ₀₀	inst_THP ₀₁	……	inst_THP _0m
RBG 1	inst_THP ₁₀	inst_THP ₁₁	……	inst_THP _1m
……	……	……	……	……
RBG n	inst_THP _n0	inst_THP _n1	…….	inst_THP _nm

在本实施例中，该历史吞吐信息为各待调度用户的历史吞吐信息，对于m+1个用户设备(UE 1至UE m)，该历史吞吐信息的数据结构中可以如下：

UE0	UE 1	……	UE m
THP ₀	THP ₁	……	THP m

可选的，在本实施例中，当深度神经网络在深度强化学习中的输出结果为各待调度用户在各RBG上的调度权值时，该调取权值的数据结构可以如下：

	UE0	UE 1	……	UE m
RBG 0	调度权值 ₀₀	调度权值 ₀₁	……	调度权值 _0m
RBG 1	调度权值 ₁₀	调度权值 ₁₁	……	调度权值 _1m
……	……	……	……	……
RBG n	调度权值 _n0	调度权值 _n1	…….	调度权值 _nm

示例性的，在本实施例中，下面以回报信息与当前系统吞吐信息和当前公平性参数信息的关系进行解释说明。

作为一种示例，回报信息Reward＝inst_THP+eta×fairness；即回报信息等于当前系统吞吐信息和当前公平性参数信息的加权和。

其中，Reward表示调度策略执行后的回报信息，该inst_THP为当前系统吞吐信息，该fairness为当前公平性参数信息，该eta可以为一预设实数，通过调节该eta的值可以调整吞吐信息和公平性信息在回报信息中所占的比例。

可选的，该当前公平性参数信息通常可以使用广泛应用的Jain公式表示：

其中，n表示待调度的用户总数，x _i表示用户i的当前系统吞吐信息。

作为另一种示例，回报信息Reward＝inst_THP+eta×fairFlag；同样，回报信息等于当前系统吞吐信息inst_THP和当前公平性参数信息fairFlag的加权和。

该eta的值同样用于调整吞吐信息和公平性参数信息在回报信息中所占的比例。

在实际应用中，当前调度周期和前一个调度周期的调度结果相比，如果异于前一个调度周期内的用户被调度，则fairFlag＝1，否则，fairFlag＝0。该方式可以鼓励每次调度周期和上一个调度周期调度不同的用户，以实现公平。

值得注意的是，回报信息的计算用于指示深度神经网络输出结果的好与坏，通过设置合适的回报信息计算公式，可以促进深度神经网络更快地做出较优的决策。

可选的，回报信息的计算一般基于系统的性能参数，例如，在本实施方案中，回报信息基于当前系统吞吐信息和当前公平性参数信息。在其他场景下，回报信息的计算也可以考虑该通信系统的其他系统性能参数，例如，系统丢包率、传输时延、各种业务之间的公平性等内容。

可选的，在本实施例中，如图12所示，该方法还可以包括如下步骤：

步骤123：存储该系统状态信息、调度策略、更新后的系统状态信息以及回报信息，该系统状态信息、调度策略、更新后的系统状态信息以及回报信息用于更新上述深度神经网络。

示例性的，深度神经网络在利用之前首先可以基于历史系统状态信息进行训练得到。在深度神经网络的每个训练周期内，可以首先设置一个起点，该起点可以用于表征通信设备在每个训练周期的起始位置或时刻，例如，如果采用一天作为一个训练周期，则可以在每天的某个固定的时间点作为训练周期的起点，并在每次运行到该起点时开始重新执行训练过程。

可选的，通信设备可以将上述获取到的系统状态信息、得到的调度策略、更新后的系统状态信息以及对应的回报信息作为一次经历进行存储，进而利用该经历训练或更新商户深度神经网络。

值得说明的是，深度神经网络的更新可以是一个循序渐进的过程，在每个调度周期执行完成后，每次可以只更新神经网络的部分参数，整个深度神经网络的更新可以是经过很多个调度周期后才完成。

可选的，在每个调度周期执行完成之后，均可以利用得到的系统状态信息、调度策略、更新后的系统状态信息以及回报信息更新上述深度神经网络，并且更新后的深度神经网络将在下一个调度周期中的调度策略确定过程中发挥作用。

本申请实施例提供的通信系统中的调度方法，通信设备还可以获取该调度策略执行后的当前系统吞吐信息、当前公平性参数信息以及更新后的系统状态信息，基于如下参数中的至少一个确定回报信息，该回报信息用于调整下一个调度周期中深度神经网络的决策，该参数包括：当前系统吞吐信息、当前公平性参数信息、系统丢包率、系统时延，以及存储该系统状态信息、调度策略、更新后的系统状态信息以及回报信息，该系统状态信息、调度策略、更新后的系统状态信息以及回报信息用于更新上述深度神经网络。该技术方案中，通过确定一个回报信息用于后续深度神经网络的更新，可以提高后续调度周期中调度策略的合理性。

可选的，在本实施例中，作为一种示例，上述通信设备为网络设备，即上述深度神经网络的可以运行在网络设备中，或者集成在调度器中，且该调度器集成中网络设备中。

对于现有蜂窝无线网络，例如，LTE网络，这类网络通常采用集中调度方式，由通信系统中的网络设备进行资源调度。当上述通信设备为网络设备时，对于网络设备与终端设备的下行传输，该通信系统中的调度方法可以通过如下图13所示的实施例实现。

示例性的，图13为本申请实施例提供的通信系统中的调度方法实施例七的流程示意图。如图13所示，上述步骤71可以通过如下步骤实现：

步骤131：获取至少一个终端设备确定的网络状态信息、确认或非确认ACK/NACK信息。

可选的，在通信系统的下行传输过程中，每个终端设备均可以测量当前的信道状态等网络状态信息，以及确定出与网络设备通信时的ACK或NACK信息。

作为一种示例，至少一个终端设备可以直接将该网络状态信息和ACK/NACK信息反馈给该网络设备，从而使得该网络设备直接接收至少一个终端设备确定并发送的网络状态信息和ACK/NACK信息。

作为另一种示例，该终端设备可以将确定的网络状态信息、ACK/NACK信息上报给通信系统的某个网络设备后，该网络设备可以将收到的网络状态信息和ACK/NACK信息再同步给通信系统中的其他网络设备，因而，网络设备可以从其他的网络设备获取至少一个终端设备的网络状态信息和ACK/NACK信息。

步骤132：基于该ACK/NACK信息，更新HARQ信息。

可选的，在本实施例中，网络设备获取到至少一个终端设备的ACK/NACK信息后，可以基于该ACK/NACK信息确定终端设备与网络设备之间的数据传输是否成功，并确定是否需要重传，相应的更新HARQ信息。

例如，在本实施例中，当网络设备的数据包到达终端设备时，终端设备对其进行检错，若接收正确，则向网络设备返回确认(ACK)信号，这样网络设备则不需要进行重传；若接收错误，则返回不确认(NACK)信号，这样网络设备需要重新上述数据包。因而，网络设备可以根据获取到的ACK/NACK信息更新HARQ信息。

步骤133：获取该用户缓存状态信息和历史吞吐信息。

可选的，一方面，网络设备可以通过查询方式获取存储的用户缓存状态信息和历史吞吐信息，另一方面，网络设备也可以通过接收其他网络设备同步的用户缓存状态信息和历史吞吐信息，这是由于通信系统中的某个网络设备获取到用户缓存状态信息和历史吞吐信息后，可以将其同步给其他的网络设备，这样可以避免其他网络设备重复检测或查询，降低了其他网络设备的负担。

本申请实施例并不限定网络设备获取网络状态信息、ACK/NACK信息以及用户缓存状态信息和历史吞吐信息的具体方式，其可以根据实际情况确定，此处不再赘述。

相应的，上述步骤72可以替换为如下步骤134：

步骤134：基于网络状态信息、用户缓存状态信息、历史吞吐信息和HARQ信息以及深度神经网络得到调度策略。

相应的，在上述步骤134之后，该方法还可以包括如下步骤：

步骤135：将该调度策略发送给至少一个终端设备。

可选的，在本实施例中，当网络设备基于确定的网络状态信息、HARQ信息、用户缓存状态信息和历史吞吐信息等系统状态信息、深度神经网络得到调度策略后，该网络设备可以将上述调度策略发送给需要该网络设备通信的至少一个终端设备，以使至少一个终端设备可以基于该调度策略与网络设备通信。

本申请实施例提供的通信系统中的调度方法，对于通信系统中的下行传输，网络设备可以获取至少一个终端设备确定的网络状态信息、确认或非确认ACK/NACK信息，基于该ACK/NACK信息，更新HARQ信息，以及获取该用户缓存状态信息和历史吞吐信息，即得到了通信系统的系统状态信息，其为确定出合理的调度策略奠定了基础，进一步的，网络设备将确定的调度策略发送给至少一个终端设备，这样网络设备可以和终端设备基于相同的调度策略进行通信，提高了系统稳定性。

示例性的，在现有的蜂窝无线网络中，当上述通信设备为网络设备，且终端设备与网络设备执行上行传输时，该通信系统中的调度方法可以通过如下图14所示的实施例实现。

示例性的，图14为本申请实施例提供的通信系统中的调度方法实施例八的流程示意图。如图14所示，上述步骤71可以通过如下步骤实现：

步骤141：获取至少一个终端设备确定的用户缓存状态信息和HARQ信息。

可选的，在通信系统的上行传输过程中，每个终端设备可以确定出自身维护的用户缓存状态信息和HARQ信息。

作为一种示例，至少一个终端设备可以直接将确定的用户缓存状态信息和HARQ信息上报给该网络设备，从而使得该网络设备直接接收至少一个终端设备确定的用户缓存状态信息和HARQ信息。

作为另一种示例，该终端设备可以将确定的用户缓存状态信息和HARQ信息上报给通信系统的某个网络设备后，该网络设备再将接收到的用户缓存状态信息和HARQ信息再同步给通信系统中的其他网络设备，因而，网络设备可以从其他的网络设备获取至少一个终端设备的用户缓存状态信息和HARQ信息。

步骤142：获取该网络状态信息和历史吞吐信息。

可选的，一方面，网络设备可以通过检测当前网络的信道状态，从而得到通信系统的网络状态信息，查询得到历史吞吐信息。另一方面，网络设备也可以通过接收其他网络设备同步的用户缓存状态信息和历史吞吐信息，也即，当通信系统中的某个网络设备获取到用户缓存状态信息和历史吞吐信息后，可以将其同步给其他的网络设备，以使通信系统中的其他网络设备不需要自行检测或查询也能够获取到该通信系统当前的网络状态信息和历史吞吐信息。

本申请实施例并不限定网络设备获取用户缓存状态信息、HARQ信息以及网络状态信息和历史吞吐信息的具体方式，其可以根据实际情况确定，此处不再赘述。

相应的，上述步骤72可以替换为如下步骤143：

步骤143：基于网络状态信息、用户缓存状态信息、历史吞吐信息和HARQ信息以及深度神经网络得到调度策略。

相应的，在上述步骤143之后，该方法还可以包括如下步骤：

步骤144：将调度策略发送给至少一个终端设备。

在本实施例中，与上述图13所示实施例中步骤135类似，网络设备基于确定的网络状态信息、HARQ信息、用户缓存状态信息和历史吞吐信息等系统状态信息得到调度策略后，可以将上述调度策略发送给需要该网络设备通信的至少一个终端设备，以使至少一个终端设备可以基于该调度策略与网络设备通信。

本申请实施例提供的通信系统中的调度方法，对于通信系统中的上行传输，网络设备可以获取至少一个终端设备确定的用户缓存状态信息和HARQ信息，以及获取该网络状态信息和历史吞吐信息，即得到了通信系统的系统状态信息，其为确定出合理的调度策略奠定了基础，进一步的，网络设备将确定的调度策略发送给至少一个终端设备，这样网络设备可以和终端设备基于相同的调度策略进行通信，提高了系统稳定性。

可选的，本实施例的通信设备可以应用于多种场景，除了图13和图14所示实施例的集中调度方式外，还有新空口(new radio，NR)以及未来网络中可能出现免调度传输(grant-free)、UE中心无小区(user centric no cell，UCNC)以及设备到设备(device-to-device，D2D)通信等场景。

作为另一种示例，上述通信设备可以为终端设备，也即，即上述深度神经网络可以集成在调度器中，且该调度器可以在终端设备中实现。由于考虑到终端设备的能力(能量、计算资源等)有限，且无法获得系统的全局信息。终端设备实现通信系统中的调度方法是可以通过如下图15所示实施例和图16所示实施例。

示例性的，图15为本申请实施例提供的通信系统中的调度方法实施例九的流程示意图。如图15所示，在上述步骤71之前，该方法还可以包括如下步骤：

步骤151：接收网络设备广播的神经网络参数。

在本实施例中，由通信系统的网络设备(中心控制器)负责收集系统状态信息，并基于收集到的所有历史系统状态信息训练上述深度神经网络。该网络设备可以将训练好的深度神经网络对应的神经网络参数通过广播下发给通信系统中的所有终端设备，以使终端设备可以接收到网络设备广播的上述神经网络参数。

步骤152：基于该神经网络参数，确定上述深度神经网络。

可选的，在本实施例中，终端设备不需要对深度神经网络进行训练，只需要根据自身所处的无线环境信息对从网络设备接收到的神经网络参数进行更新，得到用于确定调度策略的深度神经网络。

示例性的，终端设备通过检测或查询的方式可以获取网络状态信息、用户缓存状态、HAQR信息以及历史吞吐信息等，得到通信系统当前的系统状态信息，将该系统状态信息输入到确定的深度神经网络中得到调度权值或调度策略，若得到的是调度权值时，则再确定调度策略。

相应的，在上述步骤72之后，该方法还可以包括如下步骤：

步骤153：将上述调度策略发送给与该终端设备通信的网络设备或其他终端设备。

可选的，在本实施例中，终端设备基于获取到的系统状态信息以及深度神经网络确定出调度策略之后，其可以将上述调度策略发送给与该终端设备通信的网络设备或其他终端设备(对于UCNC或D2D场景)，以使与该终端设备通信的网络设备或其他终端设备可以基于接收到的调度策略与该终端设备通信，例如，实现数据传输。

本申请实施例提供的通信系统中的调度方法，终端设备可以接收网络设备广播的神经网络参数，基于该神经网络参数，确定上述深度神经网络，以及在基于系统状态信息和深度神经网络得到的调度策略后，将上述调度策略发送给与该终端设备通信的网络设备或其他终端设备。该技术方案中，深度神经网络在网络设备侧训练，这样得到的调度策略不仅合理，而且降低了对终端设备的能力要求，通信系统的性能好。

示例性的，图16为本申请实施例提供的通信系统中的调度方法实施例十的流程示意图。如图16所示，上述步骤71可以通过如下步骤实现：

步骤161：接收网络设备广播的网络状态信息。

在本实施例中，由通信系统的网络设备(中心控制器)负责收集网络状态信息，并将获取到的网络状态信息进行广播，以使终端设备接收该网络设备广播的网络状态信息。

示例性的，该网络状态信息可以但不局限于包括信道信息、干扰信息等，其还可以包括其他的反映网络状态的参数，此处不再赘述。

步骤162：获取用户缓存状态信息、HARQ信息和历史吞吐信息。

在本实施例中，终端设备可以获取自身的一些状态信息，例如，用户缓存状态信息、HARQ信息和历史吞吐信息。

进一步的，该终端设备可以基于获取到的用户缓存状态信息、HARQ信息和历史吞吐信息以及从网络设备接收到的网络状态信息以及已经基于历史系统状态信息训练得到的深度神经网络得到调度结果。值得说明的是，在本实施例中，该深度神经网络是终端设备基于得到的历史系统状态信息训练得到的。

相应的，上述步骤72可以替换为如下步骤163：

步骤163：基于网络状态信息、用户缓存状态信息、历史吞吐信息和HARQ信息以及深度神经网络得到调度策略。

相应的，在上述步骤163之后，该方法还可以包括如下步骤：

步骤164：将该调度策略发送给与该终端设备通信的网络设备或其他终端设备。

该步骤与上述图15所示实施例中步骤153的实现方式类似，具体可参见上述实施例中的记载，此处不再赘述。

本实施例提供的通信系统中的调度方法，终端设备接收网络设备广播的网络状态信息，获取用户缓存状态信息、HARQ信息和历史吞吐信息，以及在得到调度策略后，将该调度策略发送给与该终端设备通信的网络设备或其他终端设备。该技术方案中，深度神经网络在终端设备侧训练并使用，能够得到吞吐信息和公平性均衡的调度策略，提高了通信系统的性能。

示例性的，假设对于一个单基站五用户的通信系统，图17A为RL算法和PF算法的吞吐性能比较示意图。图17B为RL算法和PF算法的公平性性能比较示意图。图17A和图17B的横轴均表示强化学习(RL)的一个学习周期，其可以用epoch表示，1个epoch等于使用训练集中的全部样本训练500次对应的时间。图17A的纵轴表示吞吐量，单位为兆比特每秒(Mbps)，图17B的纵轴表示公平性，其介于0至1之间，可以通过Jain公式计算得到。

参照图17A所示，该通信系统经过一段时间的训练后，通过强化RL学习方式得到的调度策略，其吞吐信息比现有技术中比例公平算法的调度策略的吞吐信息高，如图17B所示，该通信系统经过一段时间的训练后，通过强化学习方式得到的调度策略，其公平性信息比现有技术中比例公平算法的调度策略的公平性信息也稍好。因而，由此可知，本申请实施例的得到的调度策略其在吞吐性能和公平性能方面均超过了现有技术中的PF算法，实现了吞吐信息和公平性信息的均衡。

图18为本申请实施例提供的通信系统中的调度装置实施例一的结构示意图。该装置可以集成在通信设备中，也可以通过通信设备实现。如图18所示，该装置可以包括：获取模块181、处理模块182和收发模块183。

其中，该获取模块181，用于获取系统状态信息，所述系统状态信息包括：网络状态信息；

该处理模块182，用于基于所述系统状态信息和深度神经网络得到调度策略，所述深度神经网络是基于历史系统状态信息训练得到的，所述历史系统状态信息包括：当前调度周期之前的所有调度周期中的系统状态信息；

该收发模块183，用于基于所述调度策略进行通信。

示例性的，在本实施例的一种可能设计中，所述系统状态信息还包括：历史吞吐信息、用户缓存状态信息。

可选的，所述处理模块182，具体用于基于所述网络状态信息和所述用户缓存状态信息，确定估计吞吐信息，将所述估计吞吐信息和所述历史吞吐信息输入所述深度神经网络，得到调度权值，以及基于所述调度权值，确定所述调度策略。

示例性的，在本实施例的上述可能设计中，所述系统状态信息还包括：混合自动重传请求HARQ信息；

所述处理模块182，具体用于基于所述调度权值和所述HARQ信息，确定所述调度策略。

示例性的，在本实施例的另一种可能设计中，所述处理模块182，具体用于基于所述网络状态信息和所述用户缓存状态信息，确定估计吞吐信息，将所述估计吞吐信息、所述历史吞吐信息输入所述深度神经网络，得到所述调度策略。

示例性的，在本实施例的再一种可能设计中，所述处理模块182，具体用于将所述系统状态信息输入所述深度神经网络，得到所述调度策略。

示例性的，在本实施例的又一种可能设计中，所述处理模块182，具体用于将所述系统状态信息输入所述深度神经网络，得到所述调度权值，基于所述调度权值，确定所述调度策略。

示例性的，在本实施例的上述任意一种可能设计中，输入所述深度神经网络的系统状态信息还包括：HARQ信息。

示例性的，在本实施例的上述任意一种可能设计中，所述获取模块181，还用于获取所述调度策略执行后的当前系统吞吐信息、当前公平性参数信息以及更新后的系统状态信息；

所述处理模块182，还用于基于如下参数中的至少一个确定回报信息，所述回报信息用于调整下一个调度周期中所述深度神经网络的决策，所述参数包括：所述当前系统吞吐信息、所述当前公平性参数信息、系统丢包率、系统时延。

可选的，如图18所示，该装置还包括：存储模块184。

该存储模块184，用于存储所述系统状态信息、所述调度策略、所述更新后的系统状态信息以及所述回报信息，所述系统状态信息、所述调度策略、所述更新后的系统状态信息以及所述回报信息用于更新所述深度神经网络。

可选的，在本实施例的一种可能实现方式中，所述通信设备为网络设备，所述获取模块181，具体用于获取至少一个终端设备确定的所述网络状态信息、确认或非确认ACK/NACK信息，基于所述ACK/NACK信息，更新所述HARQ信息，以及获取所述用户缓存状态信息和所述历史吞吐信息。

可选的，在本实施例的另一种可能实现方式中，所述通信设备为网络设备，所述获取模块181，具体用于获取至少一个终端设备确定的所述用户缓存状态信息和所述HARQ信息，以及获取所述网络状态信息和所述历史吞吐信息。

可选的，在上述任意一种可能实现方式中，所述收发模块183，还用于将所述调度策略发送给所述至少一个终端设备。

可选的，在本实施例的再一种可能实现方式中，所述通信设备为终端设备，所述收发模块183，还用于在所述获取模块181获取系统状态信息之前，接收网络设备广播的神经网络参数；

所述处理模块182，还用于基于所述神经网络参数，确定所述深度神经网络。

可选的，在本实施例的又一种可能实现方式中，所述通信设备为终端设备，所述获取模块181，具体用于通过所述收发模块183接收网络设备广播的所述网络状态信息，获取所述用户缓存状态信息、所述HARQ信息和所述历史吞吐信息。

可选的，在上述任意一种可能实现方式中，所述收发模块183，还用于将所述调度策略发送给与所述终端设备通信的所述网络设备或其他终端设备。

本实施例的通信系统中的调度装置可用于执行图7A至图16所示方法实施例的实现方案，具体实现方式和技术效果类似，这里不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。

例如，处理模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上处理模块的功能。其它模块的实现与之类似。

此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，ASIC)，或，一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(central processing unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统 (system-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在可读存储介质中，或者从一个可读存储介质向另一个可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

图19为本申请实施例提供的通信系统中的调度装置实施例二的结构示意图。该装置可以集成在通信设备中，也可以通过通信设备实现。

在硬件实现上，上述收发模块183可以为收发器，收发器构成通信接口，而且收发器可以是由独立功能的发送器和接收器实现，两者均可以通过天线等形式实现，本申请实施例并不对其限定，上述获取模块181和处理模块182可以为处理器，上述存储模块184可以为存储器。

如图19所示，该装置可以包括：处理器191、存储器192、通信接口193和系统总线194，所述存储器192和所述通信接口193通过所述系统总线194与所述处理器191连接并完成相互间的通信，所述存储器192用于存储计算机执行指令，所述通信接口193用于和其他设备进行通信，所述处理器191执行所述计算机执行指令时实现如图7A至图16所示方法实施例的方法。

可选的，所述处理器191和所述存储器192可以集成在一起实现，也可以单独实现，对于处理器191和存储器192的具体实现形式可以根据实际情况确定，本申请实施例并不对其进行限定。

该图19中提到的系统总线可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。所述系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(random access memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器CPU、网络处理器(network processor，NP)等；还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选的，上述处理器191、存储器192也可以集成在专用集成电路中，集成电路中还可以包括通信接口193。专用集成电路可以是处理芯片，也可以是处理电路。其中，通信接口193可以是包括无线收发的通信接口，也可以是经过其他处理电路对接收的无线信号进行处理后而输入的数字信号的接口，还可以是和其他模块进行通信的软件或硬件接口。存储器192中存储代码和数据，存储器192与所述处理器191耦合，处理器191运行存储器192中的代码使得芯片执行上述图7A至图16所示方法实施例的方法。

可选的，本申请实施例还提供一种存储介质，所述存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行如上述图7A至图16所示方法实施例中终端设备的实现方案。

本申请实施例还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在存储介质中，至少一个处理器可以从所述存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序时可实现上述图7A至图16所示方法实施例的方法。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系；在公式中，字符“/”，表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中，a，b，c可以是单个，也可以是多个。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。

可以理解的是，在本申请的实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

Claims

一种通信系统中的调度方法，其特征在于，适用于通信设备，所述方法包括：

获取系统状态信息，所述系统状态信息包括：网络状态信息；

基于所述系统状态信息和深度神经网络得到调度策略，所述深度神经网络是基于历史系统状态信息训练得到的，所述历史系统状态信息包括：当前调度周期之前的所有调度周期中的系统状态信息；

基于所述调度策略进行通信。
根据权利要求1所述的方法，其特征在于，所述系统状态信息还包括：历史吞吐信息、用户缓存状态信息。
根据权利要求2所述的方法，其特征在于，所述基于所述系统状态信息和深度神经网络得到调度策略，包括：

基于所述网络状态信息和所述用户缓存状态信息，确定估计吞吐信息；

将所述估计吞吐信息和所述历史吞吐信息输入所述深度神经网络，得到调度权值；

基于所述调度权值，确定所述调度策略。
根据权利要求3所述的方法，其特征在于，所述系统状态信息还包括：混合自动重传请求HARQ信息；所述基于所述调度权值，确定所述调度策略，包括：

基于所述调度权值和所述HARQ信息，确定所述调度策略。
根据权利要求2所述的方法，其特征在于，所述基于所述系统状态信息和深度神经网络得到调度策略，包括：

基于所述网络状态信息和所述用户缓存状态信息，确定估计吞吐信息；

将所述估计吞吐信息、所述历史吞吐信息输入所述深度神经网络，得到所述调度策略。
根据权利要求2所述的方法，其特征在于，所述基于所述系统状态信息和深度神经网络得到调度策略，包括：

将所述系统状态信息输入所述深度神经网络，得到所述调度策略。
根据权利要求2所述的方法，其特征在于，所述基于所述系统状态信息和深度神经网络得到调度策略，包括：

将所述系统状态信息输入所述深度神经网络，得到所述调度权值；

基于所述调度权值，确定所述调度策略。
根据权利要求3、5-7任一项所述的方法，其特征在于，输入所述深度神经网络的系统状态信息还包括：HARQ信息。
根据权利要求1-8任一项所述的方法，其特征在于，所述方法还包括：

获取所述调度策略执行后的当前系统吞吐信息、当前公平性参数信息以及更新后的系统状态信息；

基于如下参数中的至少一个确定回报信息，所述回报信息用于调整下一个调度周期中所述深度神经网络的决策，所述参数包括：所述当前系统吞吐信息、所述当前公平性参数信息、系统丢包率、系统时延。
根据权利要求9所述的方法，其特征在于，所述方法还包括：

存储所述系统状态信息、所述调度策略、所述更新后的系统状态信息以及所述回报信息，所述系统状态信息、所述调度策略、所述更新后的系统状态信息以及所述回报信息用于更新所述深度神经网络。
根据权利要求4或8所述的方法，其特征在于，所述通信设备为网络设备，所述获取系统状态信息，包括：

获取至少一个终端设备确定的所述网络状态信息、确认或非确认ACK/NACK信息；

基于所述ACK/NACK信息，更新所述HARQ信息；

获取所述用户缓存状态信息和所述历史吞吐信息。
根据权利要求4或8所述的方法，其特征在于，所述通信设备为网络设备，所述获取系统状态信息，包括：

获取至少一个终端设备确定的所述用户缓存状态信息和所述HARQ信息；

获取所述网络状态信息和所述历史吞吐信息。
根据权利要求11或12所述的方法，其特征在于，所述方法还包括：

将所述调度策略发送给所述至少一个终端设备。
根据权利要求4或8所述的方法，其特征在于，所述通信设备为终端设备，在所述获取系统状态信息之前，所述方法还包括：

接收网络设备广播的神经网络参数；

基于所述神经网络参数，确定所述深度神经网络。
根据权利要求4或8所述的方法，其特征在于，所述通信设备为终端设备，所述获取系统状态信息，包括：

接收网络设备广播的所述网络状态信息；

获取所述用户缓存状态信息、所述HARQ信息和所述历史吞吐信息。
根据权利要求14或15所述的方法，其特征在于，所述方法还包括：

将所述调度策略发送给与所述终端设备通信的所述网络设备或其他终端设备。
一种通信系统中的调度装置，其特征在于，适用于通信设备，所述装置包括：获取模块、处理模块和收发模块；

所述获取模块，用于获取系统状态信息，所述系统状态信息包括：网络状态信息；

所述处理模块，用于基于所述系统状态信息和深度神经网络得到调度策略，所述深度神经网络是基于历史系统状态信息训练得到的，所述历史系统状态信息包括：当前调度周期之前的所有调度周期中的系统状态信息；

所述收发模块，用于基于所述调度策略进行通信。
根据权利要求17所述的装置，其特征在于，所述系统状态信息还包括：历史吞吐信息、用户缓存状态信息。
根据权利要求18所述的装置，其特征在于，所述处理模块，具体用于基于所述网络状态信息和所述用户缓存状态信息，确定估计吞吐信息，将所述估计吞吐信息和所述历史吞吐信息输入所述深度神经网络，得到调度权值，以及基于所述调度权值，确定所述调度策略。
根据权利要求19所述的装置，其特征在于，所述系统状态信息还包括：混合自动重传请求HARQ信息；

所述处理模块，具体用于基于所述调度权值和所述HARQ信息，确定所述调度策略。
根据权利要求18所述的装置，其特征在于，所述处理模块，具体用于基于所述网络状态信息和所述用户缓存状态信息，确定估计吞吐信息，将所述估计吞吐信息、所述历史吞吐信息输入所述深度神经网络，得到所述调度策略。
根据权利要求18所述的装置，其特征在于，所述处理模块，具体用于将所述系统状态信息输入所述深度神经网络，得到所述调度策略。
根据权利要求18所述的装置，其特征在于，所述处理模块，具体用于将所述系统状态信息输入所述深度神经网络，得到所述调度权值，基于所述调度权值，确定所述调度策略。
根据权利要求19、21-23任一项所述的装置，其特征在于，输入所述深度神经网络的系统状态信息还包括：HARQ信息。
根据权利要求17-24任一项所述的装置，其特征在于，所述获取模块，还用于获取所述调度策略执行后的当前系统吞吐信息、当前公平性参数信息以及更新后的系统状态信息；

所述处理模块，还用于基于如下参数中的至少一个确定回报信息，所述回报信息用于调整下一个调度周期中所述深度神经网络的决策，所述参数包括：所述当前系统吞吐信息、所述当前公平性参数信息、系统丢包率、系统时延。
根据权利要求25所述的装置，其特征在于，所述装置还包括：存储模块；

所述存储模块，用于存储所述系统状态信息、所述调度策略、所述更新后的系统状态信息以及所述回报信息，所述系统状态信息、所述调度策略、所述更新后的系统状态信息以及所述回报信息用于更新所述深度神经网络。
根据权利要求20或24所述的装置，其特征在于，所述通信设备为网络设备，所述获取模块，具体用于获取至少一个终端设备确定的所述网络状态信息、确认或非确认ACK/NACK信息，基于所述ACK/NACK信息，更新所述HARQ信息，以及获取所述用户缓存状态信息和所述历史吞吐信息。
根据权利要求20或24所述的装置，其特征在于，所述通信设备为网络设备，所述获取模块，具体用于获取至少一个终端设备确定的所述用户缓存状态信息和所述HARQ信息，以及获取所述网络状态信息和所述历史吞吐信息。
根据权利要求27或28所述的装置，其特征在于，所述收发模块，还用于将所述调度策略发送给所述至少一个终端设备。
根据权利要求20或24所述的装置，其特征在于，所述通信设备为终端设备，所述收发模块，还用于在所述获取模块获取系统状态信息之前，接收网络设备广播的神经网络参数；

所述处理模块，还用于基于所述神经网络参数，确定所述深度神经网络。
根据权利要求20或24所述的装置，其特征在于，所述通信设备为终端设备，所述获取模块，具体用于通过所述收发模块接收网络设备广播的所述网络状态信息，获取所述用户缓存状态信息、所述HARQ信息和所述历史吞吐信息。
根据权利要求30或31所述的装置，其特征在于，所述收发模块，还用于将所述调度策略发送给与所述终端设备通信的所述网络设备或其他终端设备。
一种通信系统中的调度装置，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上述权利要求1-16任一项所述的方法。
一种运行指令的芯片，其特征在于，所述芯片用于执行上述权利要求1-16任一项所述的方法。
一种存储介质，其特征在于，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如权利要求1-16任一项所述的方法。
一种程序产品，其特征在于，所述程序产品包括指令，当所述指令在计算机上运行时，如权利要求1-16任一项所述的方法被执行。