WO2021114968A1

WO2021114968A1 - 一种调度方法及装置

Info

Publication number: WO2021114968A1
Application number: PCT/CN2020/126756
Authority: WO
Inventors: 徐晨; 王坚; 皇甫幼睿; 李榕; 王俊
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-12-13
Filing date: 2020-11-05
Publication date: 2021-06-17
Anticipated expiration: 2022-06-13
Also published as: EP4057751B1; EP4057751A1; CN112996125A; EP4057751A4; CN112996125B

Abstract

一种调度方法及装置，用以解决现有技术中调度算法用户设备数量自适应困难的问题。该方法为：对K个待调度终端设备的第一状态信息集合进行处理后得到K个待调度终端设备的第二状态信息集合；任一个待调度终端设备的第二状态信息集合包含任一个待调度终端设备的状态信息以及任一个待调度终端设备与其他待调度终端设备之间的状态关联数据；任一个待调度终端设备的第二状态信息集合的维度为H；分别将每个待调度终端设备的第二状态信息集合输入第一神经网络模型，确定每个待调度终端设备的被调度权重，进而确定调度结果；第一神经网络模型基于H确定。调度时神经网络模型与待调度终端设备的数量解耦，可以应用到待调度终端设备数量不同的场景中。

Description

一种调度方法及装置

相关申请的交叉引用

本申请要求在2019年12月13日提交中国专利局、申请号为201911285268.3、申请名称为“一种调度方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信技术领域，尤其涉及一种调度方法及装置。

背景技术

无线资源调度在蜂窝网络中起着至关重要的作用，其本质就是根据当前各个用户设备的信道质量、服务的质量(quality of service，QoS)要求等对可用的无线频谱等资源进行分配。在蜂窝网络中，媒体访问控制(media access control，MAC)层调度主要解决时频资源的分配、调制与编码策略(modulation and coding scheme，MCS)选择、用户配对、预编码等问题，通过调度来实现系统吞吐和公平性的折中。

目前，为了在动态变化的无线传输环境中进行调度，通常结合深度强化学习(deep reinforcement learning，DRL)算法来获得较优的调度策略。而在上述调度算法中，通常采用深度神经网络实现，该深度神经网络的输入神经元规模和输出神经元规模由系统的状态与动作空间决定，而系统的状态与动作空间与系统中的待调度的用户设备数量相关，所以深度神经网络会随着待调度的用户设备数量变化。

由于待调度的用户设备数量的不可控，适合用户设备数量深度神经网络的规模大小不能保证，因此可能会造成性能损失，调度灵活性较差。

发明内容

本申请提供一种调度方法及装置，用以将深度神经网络在调度问题上与用户设备数量解耦，从而解决深度强化学习调度算法用户设备数量自适应困难的问题。

第一方面，本申请提供了一种调度方法，该方法可以应用于网络设备，也可以应用于网络设备中的芯片或者芯片组。该方法包括：对K个待调度终端设备的第一状态信息集合进行处理，得到K个待调度终端设备的第二状态信息集合；分别将每个待调度终端设备的第二状态信息集合输入第一神经网络模型，确定所述每个待调度终端设备的被调度权重，得到K个被调度权重；根据所述K个被调度权重确定调度结果，所述调度结果指示被调度的终端设备；其中，K为大于或者等于1的整数；其中，任一个待调度终端设备的第二状态信息集合包含所述任一个待调度终端设备的状态信息以及所述任一个待调度终端设备与其他待调度终端设备之间的状态关联数据；所述K个待调度终端设备中任一个待调度终端设备的第二状态信息集合的维度为H，H为大于或者等于1的整数；所述第一神经网络模型基于所述H确定。

通过上述方法，通过对所有待调度终端设备的状态信息处理，然后将每个待调度终端设备的处理后的状态信息分别输入同一个神经网络模型进而得到结果。即，在调度过程中该神经网络模型是被所有待调度终端设备共享使用的，该神经网络模型可以适用所有的待调度终端设备，从而可以达到调度时神经网络模型与待调度终端设备的数量解耦，可以将该神经网络模型应用到待调度终端设备数量不同的场景中，具有较好的自适应性和可扩展性。

在一个可能的设计中，任一个待调度终端设备的第一状态信息集合包括以下至少一项状态信息：终端设备的瞬时估计吞吐量，终端设备的平均吞吐量，终端设备的缓存大小，终端设备的包等待时间。

在一个可能的设计中，根据所述K个被调度权重确定调度结果，具体方法可以包括：将所述K个被调度权重中最大的被调度权重对应的终端设备的标识作为所述调度结果；或者，将所述K个被调度权重中最小的被调度权重对应的终端设备的标识作为所述调度结果；或者，将所述K个被调度权重中的一个被调度权重处理成第一值，将剩余K-1个被调度权重处理成第二值，将处理后的第一值和K-1个第二值组成的序列为所述调度结果，其中，所述调度结果中第一值对应的终端设备为被调度的终端设备。

通过上述三种方法，可以灵活地确定所述调度结果，从而准确指示被调度的终端设备。

在一个可能的设计中，将第三状态信息集合输入第二神经网络模型，得到所述第三状态信息集合对应的值，所述值用于更新所述第一神经网络模型和所述第二神经网络模型的模型参数；其中，所述第三状态信息集合的维度为所述H，所述第二神经网络模型基于所述H确定。

通过上述方法，可以不断对第一神经网络模型和第二神经网络模型的模型参数进行训练更新，可以使第一神经网络模型和第二神经网络模型更加准确，从而使调度更加准确。并且，在训练过程中，不受待调度终端设备的数量的影响，从而可以使更新的第一神经网络模型的模型参数和第二神经网络的模型参数与待调度终端设备的数量无关，使所述第一神经网络模型和所述第二神经网络模型应用到更广泛的场景中。

在一个可能的设计中，所述第三状态信息集合是对所述K个待调度终端设备的第二状态信息集合进行处理得到的。

在一个可能的设计中，对所述K个待调度终端设备的第二状态信息集合进行处理得到所述第三状态信息集合，具体方法可以为：针对所述K个待调度终端设备的第二状态信息集合中的每一项状态信息取平均值，得到所述第三状态信息集合；或者，选取所述K个待调度终端设备的第二状态信息集合中的每一项状态信息的最大值，组成所述第三状态信息集合；或者，选取所述K个待调度终端设备的第二状态信息集合中的每一项状态信息的最小值，组成所述第三状态信息集合。

通过上述方法，可以灵活地得到所述第三状态信息集合，以使可以准确通过所述第三状态信息集合得到更新模型参数的值。

在一个可能的设计中，所述第一神经网络模型和所述第二神经网络模型中的任一个神经网络模型基于所述H确定，可以包括：所述第一神经网络模型和所述第二神经网络模型中的任一个神经网络模型的输入的维度与所述H相关。这样可以使任一个神经网络模型可以适用所有的待调度终端设备，从而可以达到调度时神经网络模型与待调度终端设备的数量解耦，可以将该神经网络模型应用到待调度终端设备数量不同的场景中，具有较好的自适应性和可扩展性。

第二方面，本申请提供了一种调度方法，该方法可以应用于网络设备，也可以应用于网络设备中的芯片或者芯片组。该方法包括：基于K个待调度终端设备的第四状态信息集合和系统的状态信息集合得到一个第五状态信息集合，将所述第五状态信息集合输入第三神经网络模型，确定一个权重集合；基于所述权重集合确定所述K个待调度终端设备中每个待调度终端设备的被调度权重，得到K个被调度权重；根据所述K个被调度权重确定调度结果，所述调度结果指示被调度的终端设备；其中，K为大于或者等于1的整数；所述K个待调度终端设备中任一个待调度终端设备的第四状态信息集合的维度为L，L为大于或者等于1的整数；任一个待调度终端设备的第四状态信息集合包含所述任一个待调度终端设备的状态信息以及所述任一个待调度终端设备与其他待调度终端设备之间的状态关联数据；所述权重集合包含的权重个数与所述L相同；所述第三神经网络模型基于所述L确定。

通过上述方法，将基于所有待调度终端设备的状态信息集合以及系统的状态信息集合得到的一个状态信息集合输入一个神经网络模型进而得到结果。即，在调度过程中该神经网络模型是被所有待调度终端设备共享使用的，该神经网络模型可以适用所有的待调度终端设备，从而可以达到调度时神经网络模型与待调度终端设备的数量解耦，可以将该神经网络模型应用到待调度终端设备数量不同的场景中，具有较好的自适应性和可扩展性。

在一个可能的设计中，所述系统的状态信息集合包括以下至少一项状态信息：系统的平均吞吐量、系统公平性、系统丢包率。

在一个可能的设计中，基于K个待调度终端设备的第四状态信息集合和系统的状态信息集合得到一个第五状态信息集合，具体方法可以为：对所述K个待调度终端设备的第四状态信息集合进行处理，得到一个第六状态信息集合；将所述第六状态信息集合与所述系统的状态信息集合组合成所述第五状态信息集合。

通过上述方法可以准确地得到所述第五状态信息集合，从而可以使调度过程与待调度终端设备的数量解耦，进而实现与待调度终端设备数量无关的调度。

在一个可能的设计中，对所述K个待调度终端设备的第四状态信息集合进行处理，得到一个第六状态信息集合，具体方法可以为：针对所述K个待调度终端设备的第四状态信息集合中的每一项状态信息取平均值，得到所述第六状态信息集合；或者，选取所述K个待调度终端设备的第四状态信息集合中的每一项状态信息的最大值，组成所述第六状态信息集合；或者，选取所述K个待调度终端设备的第四状态信息集合中的每一项状态信息的最小值，组成所述第六状态信息集合。

通过上述方法，可以灵活地得到所述第六状态信息集合，以使后续可以准确得到所述第五状态信息集合。

在一个可能的设计中，将第七状态信息集合输入第四神经网络模型，得到所述第七状态信息集合对应的值，所述值用于更新所述第三神经网络模型和所述第四神经网络模型的模型参数；其中，所述第七状态信息集合的维度与所述第五状态信息集合的维度相同，所述第四神经网络模型基于所述L确定。

通过上述方法，可以不断对第三神经网络模型和第四神经网络模型的模型参数进行训练更新，可以使第三神经网络模型和第四神经网络模型更加准确，从而使调度更加准确。并且，在训练过程中，不受待调度终端设备的数量的影响，从而可以使更新的第三神经网络模型的模型参数和第四神经网络的模型参数与待调度终端设备的数量无关，使所述第一神经网络模型和所述第二神经网络模型应用到更广泛的场景中。

在一个可能的设计中，所述第七状态信息集合与所述第五状态信息集合相同。

在一个可能的设计中，所述第三神经网络模型和所述第四神经网络模型中的任一个神经网络模型基于所述L确定，可以包括：所述第三神经网络模型和所述第四神经网络模型中的任一个神经网络模型的输入的维度与所述L相关。这样可以使任一个神经网络模型可以适用所有的待调度终端设备，从而可以达到调度时神经网络模型与待调度终端设备的数量解耦，可以将该神经网络模型应用到待调度终端设备数量不同的场景中，具有较好的自适应性和可扩展性。

在一个可能的设计中，基于所述权重集合确定所述K个待调度终端设备中每个待调度终端设备的被调度权重，具体方法可以为：基于所述权值集合分别对所述K个待调度终端设备中每个待调度终端设备的第四状态信息集合中的每个状态信息的值进行加权求和，得到所述每个待调度终端设备的被调度权重。

通过上述方法，权重集合中的权重可以代表每个状态信息的权重，从而可以根据每个状态信息的权重准确地确定每个待调度终端设备的被调度权重，进而准确地确定调度结果。

在一个可能的设计中，根据所述K个被调度权重确定调度结果，具体方法可以为：将所述K个被调度权重中最大的被调度权重对应的终端设备的标识作为所述调度结果；或者，将所述K个被调度权重中最小的被调度权重对应的终端设备的标识作为所述调度结果；或者，将所述K个被调度权重中的一个被调度权重处理成第一值，将剩余K-1个被调度权重处理成第二值，将处理后的第一值和K-1个第二值组成的序列为所述调度结果，其中，所述调度结果中第一值对应的终端设备为被调度的终端设备。

第三方面，本申请提供一种调度装置，该调度装置可以是网络设备，也可以是网络设备内的芯片或芯片组。该调度装置可以包括处理单元，还可以包括通信单元。当该调度装置是网络设备时，该处理单元可以是处理器，该通信单元可以是收发器；该调度装置还可以包括存储单元，该存储单元可以是存储器；该存储单元用于存储指令，该处理单元执行该存储单元所存储的指令，以使网络设备执行上述第一方面或第二方面中相应的功能。当该调度装置是网络设备内的芯片或芯片组时，该处理单元可以是处理器，该通信单元可以是输入/输出接口、管脚或电路等；该处理单元执行存储单元所存储的指令，以使网络设备执行上述第一方面或第二方面中相应的功能。该存储单元可以是该芯片或芯片组内的存储模块(例如，寄存器、缓存等)，也可以是该网络设备内的位于该芯片或芯片组外部的存储单元(例如，只读存储器、随机存取存储器等)。其中，所述处理单元还可以分为第一处理单元和第二处理单元，具体的，所述第一处理单元分别实现上述第一方面和第二方面中涉及状态处理的功能，所述第二处理单元分别实现上述第一方面或第二方面中调度过程。

第四方面，提供了一种调度装置，包括：处理器、通信接口和存储器。通信接口用于该调度装置与其他装置之间传输信息、和/或消息、和/或数据。该存储器用于存储计算机执行指令，当该装置运行时，该处理器执行该存储器存储的该计算机执行指令，以使该调度装置执行如上述第一方面或第二方面中任一设计所述的调度方法。

第五方面，本申请实施例提供一种调度装置，所述调度装置包括处理器，当所述处理器执行存储器中的计算机程序或指令时，如第一方面或第二方面所述的方法被执行。

第六方面，本申请实施例提供一种调度装置，所述调度装置包括处理器和存储器，所述存储器用于存储计算机执行计算机程序或指令；所述处理器用于执行所述存储器所存储的计算机执行计算机程序或指令，以使所述通信装置执行如上述第一方面或第二方面中所示的相应的方法。

第七方面，本申请实施例提供一种调度装置，所述调度装置包括处理器、存储器和收发器，所述收发器，用于接收信号或者发送信号；所述存储器，用于存储程序代码或指令；所述处理器，用于从所述存储器调用所述程序代码或指令执行如上述第一方面或第二方面所述的方法。

第八方面，本申请实施例提供一种调度装置，所述调度装置包括处理器和接口电路，所述接口电路，用于接收计算机程序代码或指令并传输至所述处理器；所述处理器运行所述计算机程序代码或指令以执行如上述第一方面或第二方面所示的相应的方法。

第九方面，本申请实施例提供了一种通信系统，可以包括上述提及的待调度终端设备和调度装置。

第十方面，本申请实施例提供的一种计算机可读存储介质，该计算机可读存储介质存储有程序指令，当程序指令在网络设备上运行时，使得网络设备执行本申请实施例第一方面及其任一可能的设计、或者第二方面或第二方面中任一可能设计。示例性的，计算机可读存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于：计算机可读介质可以包括非瞬态计算机可读介质、随机存取存储器(random-access memory，RAM)、只读存储器(read-only memory，ROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。

第十一方面，本申请实施例提供一种包括计算机程序代码或指令的计算机程序产品，当所述计算机程序代码或指令被执行时，使得上述第一方面或第二方面所述的方法被实现。示例性的，计算机程序产品可以是包括非暂时性计算机可读介质的计算机程序产品。

另外，第三方面至第十一方面所带来的技术效果可参见上述第一方面至第三方面的描述，此处不再赘述。

附图说明

图1为本申请提供的一种全连接神经网络的示意图；

图2为本申请提供的一种通信系统的架构图；

图3为本申请提供的一种调度方法的框图；

图4为本申请提供的一种调度方法的流程图；

图5为本申请提供的另一种调度方法的框图；

图6为本申请提供的另一种调度方法的流程图；

图7为本申请提供的另一种调度方法的框图；

图8为本申请提供的一种性能分析图；

图9为本申请提供的另一种性能分析图；

图10为本申请提供的另一种性能分析图；

图11为本申请提供的另一种性能分析图；

图12为本申请提供的一种调度装置的结构示意图；

图13为本申请提供的一种调度装置的结构图；

图14为本申请提供的一种网络设备的结构示意图。

具体实施方式

下面将结合附图对本申请作进一步地详细描述。

本申请实施例提供一种调度方法及装置，用以将深度神经网络在调度问题上与用户设备数量解耦，从而解决深度强化学习调度算法用户设备数量自适应困难的问题。其中，本申请所述方法和装置基于同一发明构思，由于方法及装置解决问题的原理相似，因此装置与方法的实施可以相互参见，重复之处不再赘述。

以下，对本申请中的部分用语进行解释说明，以便于本领域技术人员理解。

1)、强化学习是智能体(Agent)以与环境交互的方式进行学习，智能体根据环境反馈的状态，对环境做出动作，从而获得奖励(reward)及下一个时刻的状态，目标是使智能体在一段时间内积累最大的奖赏。强化学习中由环境提供的强化信号对产生动作的好坏作一种评价(通常为标量信号)，通过这种方式，智能体在行动-评价的环境中获得知识，改进行动方案以适应环境。常见的强化学习算法有Q学习(Q-learning)，策略梯度算法(policy gradient)，演员-评论家法(actor-critic)等。目前常用的强化学习算法通常为深度强化学习，其主要将强化学习与深度学习结合，采用神经网络对策略/价值函数进行建模，从而适应更大输入/输出维度，被称为深度强化学习(DRL)。

2)、全连接神经网络又叫多层感知机(multi-layer perceptron，MLP)，一个MLP包含一个输入层(左侧)，一个输出层(右侧)，及多个隐藏层(中间)，每层包含数个节点，称为神经元。其中相邻两层的神经元间两两相连。例如，图1示出了一种示例性的全连接神经网络，图1中以包含2个隐藏层示例，其中，x为输入，y为输出，w为权重矩阵，b为偏置向量。

3)MAC层调度：MAC层调度主要解决时频资源的分配、MCS选择、用户配对、预编码等问题，通过MAC调度来实现系统吞吐和公平性的折中。

4)、在本申请的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

5)、至少一项(个)，指一项(个)或多项(个)，多项(个)指两项(个)或两项(个)以上。

6)“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

需要说明的是，随着技术的不断发展，本申请实施例的用语有可能发生变化，但都在本申请的保护范围之内。

为了更加清晰地描述本申请实施例的技术方案，下面结合附图，对本申请实施例提供的调度方法及装置进行详细说明。

本申请实施例提供的调度方法可以应用于各类通信系统中，例如，卫星通信系统、物联网(internet of things，IoT)、窄带物联网(narrow band internet of things，NB-IoT)系统、全球移动通信系统(global system for mobile communications，GSM)、增强型数据速率GSM 演进系统(enhanced data rate for GSM evolution，EDGE)、宽带码分多址系统(wideband code division multiple access，WCDMA)、码分多址2000系统(code division multiple access，CDMA2000)、时分同步码分多址系统(time division-synchronization code division multiple access，TD-SCDMA)，长期演进系统(long term evolution，LTE)、第五代(5G)通信系统，例如5G新无线(new radio，NR)，以及下一代5G移动通信系统的三大应用场景增强型移动带宽(enhanced mobile broadband，eMBB)，超可靠、低时延通信(ultra reliable low latency communications，uRLLC)和海量机器类通信(massive machine type communications，mMTC)，或者还可以是其他通信系统。只要通信系统中存在通信设备进行MAC层调度，均可以采用本申请实施例提供的调度方法。

示例性的，图2示出了本申请实施例提供的调度方法适用的一种可能的通信系统的架构，所述通信系统的架构中包括网络设备和终端设备(例如图2中示出的终端设备1和终端设备2)。其中：

所述终端设备又称为移动台(mobile station，MS)、用户设备(user equipment，UE)或者终端(terminal)。例如，所述终端设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。所述终端设备还可以是用户单元(subscriber unit)、蜂窝电话(cellular phone)、智能手机(smart phone)、无线数据卡、个人数字助理(personal digital assistant，PDA)电脑、平板型电脑、无线调制解调器(modem)、手持设备(handset)、膝上型电脑(laptop computer)、机器类型通信(machine type cCommunication，MTC)终端等。

所述网络设备可以是一种部署在无线接入网中为终端设备提供无线通信功能的设备。具体的，所述网络设备可以是基站(base station，BS)。例如，所述基站可以包括各种形式的宏基站，微基站(也称为小站)，中继站，接入点等。在采用不同的无线接入技术的系统中，具备基站功能的设备的名称可能会有所不同，例如，在LTE系统中，所述基站称为演进的节点B(evolved NodeB，eNB或者eNodeB)，在第三代(3rd generation，3G)系统中，称为节点B(node B)，在5G系统中可以是gNode B(gNB)，新无线控制器(new radio controller，NR controller)等。为方便描述，本申请所有实施例中，上述为终端设备提供无线通信功能的设备或者装置统称为网络设备。

在所述通信系统中，所述网络设备(例如基站)可以进行MAC层资源调度。通信系统通常由小区组成，每个小区包含一个基站，基站向至少一个终端设备提供通信服务。其中基站包含基带单元(baseband unit，BBU)和远端射频单元(remote radio unit，RRU)。BBU和RRU可以放置在不同的地方，例如：RRU拉远，放置于高话务量的区域，BBU放置于中心机房。BBU和RRU也可以放置在同一机房。BBU和RRU也可以为一个机架下的不同部件。本申请对此不作限定。

需要说明的是，图1中网络设备和终端设备的个数并不作为对所述通信系统的限定，所述通信系统中可以包含更多的网络设备，以及可以包括更少或者更多的终端设备。应理解，所述通信系统中除了所述网络设备和所述终端设备还可以包含其他设备，本申请此处不再一一列举。

应理解，本申请实施例描述的通信系统的架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着通信系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

目前，为了在动态变化的无线传输环境中进行调度，可以使用DRL算法实现。这类算法利用DRL中的智能体与无线传输环境的交互，不断更新其自身参数，以获得较优的决策策略。智能体首先获取通信系统的当前状态，并根据此状态做出决策，执行决策后，通信系统进入下一状态，同时反馈奖励，智能体根据奖励对自身决策参数进行调整。智能体通过迭代式地与环境进行交互，不断调整自身参数以获得更大奖励，最终收敛后即可得到较优的调度策略。

其中，智能体的策略通常采用深度神经网络实现，该深度神经网络的输入神经元规模和输出神经元规模由系统的状态与动作空间决定，而系统的状态与动作空间与系统中的待调度终端设备数量相关，所以深度神经网络会随着待调度的终端设备数量变化。为了将这个深度神经网络用于实际系统中，通常有两种做法：1、训练一个最大终端设备数量的网络。2、根据不同用户数量训练多个网络用于切换。

但是，上述现有的做法1在终端设备数量不匹配的时候会造成性能损失，而且由于状态和动作空间非常大，其对应神经网络规模也很大，这种情况下神经网络的训练比较困难，收敛性也不能保证。做法2遍历所有终端设备的灵活性较差，而且会带来较大的存储复杂度。

基于上述问题，本申请提出一种新的调度方法及装置，将深度神经网络在调度问题上与终端设备数量解耦，从而解决将深度强化学习调度算法终端设备数量自适应困难的问题。具体的，本申请提供的调度方法可以基于DRL实现，具体的，可以先对多个待调度终端设备(UE)的状态(states)进行处理，之后单个终端设备的状态(state)通过同一个神经网络模型后得到多个待调度的终端设备分别对应的输出，对得到的输出进行处理后得到调度结果。其中，对所述多个待调度终端设备的状态进行处理可以是通过新增的一个状态处理模块(单元)执行，当然，所述状态处理模块的命名仅仅是一个示例，还可以有其它多种不同的命名，本申请对此不作限定。示例性的，得到多个待调度的终端设备分别对应的输出可以是各个待调度终端设备的得分等，本申请对此也不作限定。例如，以终端设备为UE为例，图3示出了一种调度方法的框图。

需要说明的是，本申请实施例提供的调度方法可以应用于网络设备，也可以应用于网络设备中的芯片或者芯片组，下面以应用于网络设备为例对本申请提供的调度方法进行详细说明。

本申请实施例提供了一种调度方法，适用于如图2所示的通信系统。该实施例中的调度方法可以应用在强化学习中的actor-critic算法(离散动作)上。参阅图4所示，该方法的具体流程可以包括：

步骤401、网络设备对K个待调度终端设备的第一状态信息集合进行处理，得到K个待调度终端设备的第二状态信息集合，K为大于或者等于1的整数；其中，任一个待调度终端设备的第二状态信息集合包含所述任一个待调度终端设备的状态信息以及所述任一个待调度终端设备与其他待调度终端设备之间的状态关联数据；所述K个待调度终端设备中任一个待调度终端设备的第二状态信息集合的维度为H，H为大于或者等于1的整数。

具体的，所述网络设备可以通过第一处理模块(可以称为状态处理模块)执行步骤401。例如，当所述K个待调度终端设备中的每个待调度终端设备的第一状态信息集合的维度均为F时，所有待调度终端设备的状态维度可以认为是K*F，其中，F为大于或者等于1的整数；在所述网络设备通过所述第一处理模块对所述K个待调度终端设备的第一状态信息集合进行处理后，所有待调度终端设备的状态维度变成了K*H，这里可以用K*1*H表示。也即得到了每个待调度终端设备的状态维度(也即第二状态信息集合的维度)为H，这里可以用1*H或者2*(H/2)等等表示。可选的，每个待调度终端设备的第一状态信息集合可以理解为所述每个待调度终端设备的特征。例如，上述过程可以参考图5示出的调度方法的框图中，由K*F维度的UE(即为待调度终端设备)特征通过状态处理模块(第一处理模块)后得到K*1*H的K个UE的状态的相关框图。

在一种可选的实施方式中，所述H大于或者等于所述F，所述H为基于所述F设定的。所述H也即每个第二状态信息集合中包含的状态信息的个数。

在一种示例性的实施方式中，上述涉及的第一处理模块是为了将待调度终端设备之间特征(状态信息)的关联性显式的提取出来作为待调度终端设备状态信息集合的组成部分，而且在处理的过程中不丢失待调度终端设备自身的状态信息，即可以认为处理后的待调度终端设备的第二状态信息集合包含用户自身的状态信息及其他待调度终端设备对该待调度终端设备的影响。也即通过上述处理，可以使任一个待调度终端设备的第二状态信息集合包含所述任一个待调度终端设备的状态信息以及所述任一个待调度终端设备与其他待调度终端设备之间的状态关联数据。需要说明的是，这里所说的其他待调度终端设备可以是所述K个待调度终端设备中除了所述任一个待调度终端设备之外的待调度终端设备中的部分或者全部，本申请对此不作限定。

示例性的，所述第一处理模块中用到的操作可以有嵌入(embedding)，用户间归一化(inter-user normalization)，注意力机制(attention)等。

其中，嵌入指的是通过一个共享的神经网络将输入的用户特征(即K个待调度终端设备的第一状态信息集合)映射到另外一个空间，可以进行维度的变换，如从F维空间映射到F’维空间。其中，所述F’即为所述H。

用户间归一化指的是在用户特征的每个维度都根据该维度所有用户(即K个的待调度终端设备)的状态信息进行归一化，如x′＝(x-x _min)/(x _max-x _min)或x′＝(x-μ)/σ或x′＝x-μ或x′＝x/x _max等，其中x为某个特征(某项状态信息)的取值，x’为归一化后的特征取值，x _max为所有用户该特征的最大值(也即K个待调度终端设备中某项状态信息的最大值)，x _min为所有用户该特征的最小值(也即K个待调度终端设备中某项状态信息的最小值)，μ为所有用户该特征的平均值(也即K个待调度终端设备中某项状态信息的平均值)，σ为所有用户该特征的标准差(也即K个待调度终端设备中某项状态信息的标准差)。

注意力机制主要功能是提取用户特征(也即待调度终端设备的状态信息)之间的相关性，其原理是通过将所有用户特征通过三个共享的神经网络转化为Q、M、V三个矩阵，维度都为M*dm，attention的操作可以表示为

其中，所述dm即为所述H。

基于上述处理相关介绍可以看出，这些处理本质上都是独立对每一个待调度终端设备的状态信息(特征)进行操作，这与待调度终端设备的数量K无关。

在一种具体的实施方式中，所述任一个待调度终端设备的第一状态信息集合可以包括以下至少一项状态信息：终端设备的瞬时估计吞吐量，终端设备的平均吞吐量，终端设备的缓存大小，终端设备的包等待时间等等。

步骤402、所述网络设备分别将每个待调度终端设备的第二状态信息集合输入第一神经网络模型，确定所述每个待调度终端设备的被调度权重，得到K个被调度权重；所述第一神经网络模型基于所述H确定。

其中，步骤402中的过程可以理解为推理过程，通过上述方法，可以使得第一神经网络模型只需要关注单个待调度终端设备的第二状态信息集合就可以做出决策，从而实现所述第一神经网络模型与待调度终端设备的数量K无关。例如，图5中示出的K个待调度终端设备的第二状态信息集合分别通过所述第一神经网络模型，也即K个1*H的第二状态信息集合输入所述第一神经网络模型后得到K*1个输出，K个被调度权重。

其中，每个待调度终端设备的被调度权重可以是每个待调度终端设备的被调度的概率、得分等等。

在一种可选的实施方式中，所述第一神经网络模型基于所述H确定可以理解为所述第一神经网络模型的输入的维度与所述H相关，也即所述第一神经网络模型的输入层的神经元个数与所述H相关。一种实现方式中，本申请中，所述第一神经网络模型的输入的维度与所述H相等，也即所述第一神经网络模型的输入层的神经元的个数为H个。

具体的，所述第一神经网络模型与所述K无关。

示例性的，所述第一神经网络模型可以称为策略神经网络。所述第一神经网络模型可以是全连接神经网络，其中，所述第一神经网络模型的隐藏层的激活函数可以为ReLU，输出层的激活函数可以为softmax。

步骤403、所述网络设备根据所述K个被调度权重确定调度结果，所述调度结果指示被调度的终端设备。

例如，所述网络设备根据所述K个被调度权重确定调度结果，可以通过执行以下三种操作(action)，下述三种操作即示例为图5中的操作：

操作a1：所述网络设备将所述K个被调度权重中最大的被调度权重对应的终端设备的标识作为所述调度结果。

所述操作a1可以通过操作argmax实现，得到的所述终端设备的标识可以为所述终端设备在所述K个待调度终端设备中的序号。

操作a2：所述网络设备将所述K个被调度权重中最小的被调度权重对应的终端设备的标识作为所述调度结果。

所述操作a2可以通过操作argmin实现，同样得到的所述终端设备的标识可以为所述终端设备在所述K个待调度终端设备中的序号。

操作a3：所述网络设备将所述K个被调度权重中的一个被调度权重处理成第一值，将剩余K-1个被调度权重处理成第二值，将处理后的第一值和K-1个第二值组成的序列为所述调度结果，其中，所述调度结果中第一值对应的终端设备为被调度的终端设备。

例如，所述操作a3得到的调度结果可以为one-hot码，例如，在所述one-hot码中，所述第一值为0，所述第二值为1，即为111011……1；或者所述第一值为1，所述第二值为0，即为000100……0。当然还可以有其它多种表示，本申请不再一一列举。

在一种可选的实施方式中，在执行上述步骤之前或者在执行上述步骤的过程中，进行神经网络模型训练。

在一种具体的实施方式中，将第三状态信息集合输入第二神经网络模型，得到所述第三状态信息集合对应的值(可以参阅图5)，所述值用于更新所述第一神经网络模型和所述第二神经网络模型的模型参数；其中，所述第三状态信息集合的维度为所述H，所述第二神经网络模型基于所述H确定。

其中，所述第二神经网络模型可以称为价值神经网络，所述第二神经网络模型的隐藏层可以与所述第一神经网络模型的隐藏层相同，所述第二神经网络模型的输出层的激活函数可以是线性激活函数。

示例性的，所述第二神经网络模型基于所述H确定可以理解为所述第二神经网络模型的输入的维度与所述H相关，也即所述第二神经网络模型的输入层的神经元的个数与所述H相关。一种实现方式中，本申请中，所述第二神经网络模型的输入的维度与所述H相等，也即所述第二神经网络模型的输入层的神经元的个数为H个。

在一种具体的实施方式中，所述第三状态信息集合对应的值可以理解为价值，所述值用于更新所述第一神经网络模型和所述第二神经网络模型的模型参数时，具体可以为结合所述值与从环境获得的奖励来更新所述第一神经网络模型和所述第二神经网络模型的模型参数。

通过上述方法中将单个的第三状态信息集合输入所述第二神经网络模型得到值的过程，与所述待调度终端设备的数量K无关，所述第二神经网络模型与所述K也无关，从而实现神经网络模型的训练过程与所述K也无关，这样可以不受待调度终端设备的数量的影响，减小训练复杂度。

在一种可选的实施方式中，得到所述第三状态信息集合的情况可以有多种。例如，所述第三状态信息集合是对所述K个待调度终端设备的第二状态信息集合进行处理得到的，如图5中虚框中最左边的平均操作。又例如，所述第三状态信息集合可以是对所述K个待调度终端设备的第二状态信息集合中的部分第二状态信息集合处理得到的。又例如，所述第三状态信息还可以是对所述K个待调度终端设备的第二状态信息集合以及其他训练样本中的终端设备的状态信息集合进行处理得到的。又例如，所述第三状态信息集合可以是对其他训练样本中终端设备的状态信息集合进行处理得到的。

需要说明的是，上述得到所述第三状态信息集合的数据可以认为是一组数据，在训练过程中，可以执行多次上述过程，即通过多组数据得到多个类似于所述第三状态信息集合的状态信息集合，重复执行输入所述第二神经网络模型输入一个值的过程。其中，每组数据中涉及的终端设备的个数可以任意，即与终端设备的数量解耦(无关)。

在一种具体的实施方式中，所述网络设备对所述K个待调度终端设备的第二状态信息集合进行处理得到所述第三状态信息集合，可以包括以下三种方法：

方法b1：所述网络设备针对所述K个待调度终端设备的第二状态信息集合中的每一项状态信息取平均值，得到所述第三状态信息集合。所述方法b1可以理解为平均操作(average，avg.)(一种降维操作)，在图5中仅以平均操作示出。

方法b2：所述网络设备选取所述K个待调度终端设备的第二状态信息集合中的每一项状态信息的最大值，组成所述第三状态信息集合。所述方法b2可以理解为最大降维操作。

方法b3：所述网络设备选取所述K个待调度终端设备的第二状态信息集合中的每一项状态信息的最小值，组成所述第三状态信息集合。所述方法b3可以理解为最小降维操作。

需要说明的是，除了上述三种方法，还有其他降维方法可以实现所述网络设备对所述 K个待调度终端设备的第二状态信息集合进行处理得到所述第三状态信息集合，此处不再一一列举。

下面以一个例子对上述调度方法进行示例性说明：

假设待调度终端设备的数量K＝5，每个待调度终端设备的第一状态信息集合的维度F＝4，其中每个第一状态信息集合包含的状态信息均为{瞬时估计吞吐，平均吞吐，缓存大小，包等待时间}，则系统的输入(也即需要通过第一处理模块处理的输入)为5*4的矩阵(下面称为第一状态矩阵)，第一状态矩阵的每一行是一个待调度终端设备的所有特征(也即该调度终端设备的第一状态信息集合中的所有状态信息)。进入所述第一处理模块后，例如进行用户间归一化的操作，第一状态矩阵的每一列采用上文提到的归一化方法进行归一化，输出为5*1*4的第二状态矩阵，嵌入或注意力机制同理，只不过输出的维度变成了5*1*F’和5*1*dm，F’和dm为预先设定的参数。第二状态矩阵中，每个待调度终端设备都有1*4的状态向量，将每个待调度终端设备的状态向量通过第一神经网络模型，如隐藏层为2，隐藏层神经元数目为128的全连接神经网络，隐藏层的激活函数为ReLU，神经网络的输出激活函数为softmax，最终输出的维度是5*1，分别代表调度某个待调度终端设备的概率。例如，在训练阶段，把第二状态矩阵按照第一维进行平均，得到的1*4的平均状态后经过第二神经网络模型输出一个值，所述第二神经网络模型的隐藏层与所述第一神经网络模型相同，最后输出层的激活函数为线性激活函数。

采用本申请实施例提供的调度方法，通过对所有待调度终端设备的状态信息处理，然后将每个待调度终端设备的处理后的状态信息分别输入同一个神经网络模型进而得到结果。即，在调度过程中该神经网络模型是被所有待调度终端设备共享使用的，该神经网络模型可以适用所有的待调度终端设备，从而可以达到调度时神经网络模型与待调度终端设备的数量解耦，可以将该神经网络模型应用到待调度终端设备数量不同的场景中，具有较好的自适应性和可扩展性。

需要说明的是，在上述图4所示的实施例中，当所述K等于1时，也就是说只有一个待调度终端设备的时候，涉及的其他待调度终端设备也即所述待调度终端设备本身。在这种情况下，同样可以采用上述方法去执行，只不过得到所述待调度终端设备本身的状态信息集合，也即所述待调度终端设备的第二状态信息集合与所述待调度终端设备的第一状态信息集合相同。进而直接将所述待调度终端设备的第二状态信息集合输入所述第一神经网络模型，最后得到一个调度权重。也就是说上述调度方法当K等于1的时候也完全适用。这样使得上述调度方法与待调度终端设备的数量更具无关性，使得调度的兼容性更好。

当然，在具体实现时，也可以省略对所述待调度终端设备的状态信息集合的处理过程，以及当输出只有一个被调度权重的时候省略对被调度权重的进一步确定调度结果的过程，本申请对此不作限定。

基于以上实施例，本申请实施例还提供了另一种调度方法，适用于图2所示的通信系统。该实施例中的调度方法可以应用在强化学习actor-critic算法(连续动作)上。参阅图6所示，该方法的具体流程可以包括：

步骤601：网络设备基于K个待调度终端设备的第四状态信息集合和系统的状态信息集合得到一个第五状态信息集合，K为大于或者等于1的整数；所述K个待调度终端设备中任一个待调度终端设备的第四状态信息集合的维度为L，L为大于或者等于1的整数；任一个待调度终端设备的第四状态信息集合包含所述任一个待调度终端设备的状态信息以及所述任一个待调度终端设备与其他待调度终端设备之间的状态关联数据。

其中，所述系统的状态信息集合可以包括以下至少一项状态信息：系统的平均吞吐量、系统公平性、系统丢包率。

具体的，所述网络设备可以通过第二处理模块(可以称为状态处理模块)执行步骤601。具体的，所述网络设备基于K个待调度终端设备的第四状态信息集合和系统的状态信息集合得到一个第五状态信息集合具体方法可以为：所述网络设备对所述K个待调度终端设备的第四状态信息集合进行处理，得到一个第六状态信息集合；将所述第六状态信息集合与所述系统的状态信息集合组合成所述第五状态信息集合。例如，所述K个待调度终端设备的第四状态信息集合构成的所有待调度终端设备的状态维度为K*L，进而得到所述第六状态信息集合的维度为1*L；假设系统的状态信息集合为维度为J(这里可以理解为是1*J)，J为大于或者等于1的整数；然后最后组合得到的所述第五状态信息集合的维度可以是1*G，其中G为大于或者等于2的整数。其中，G可以等于J+L，也即上述集合组合可以理解为是两个集合的相加。例如，上述过程可以如图7所示调度方法的框图中第二处理模块的流程。其中，在图7中每个待调度终端设备的第四信息状态集合以UE状态示意。

在一种可选的实施方式中，所述K个待调度终端设备的第四状态信息集合，可以与图4所示的实施例中涉及的所述K个待调度终端设备的第二状态信息集合，此时所述L等于所述H。相应的，所述K个待调度终端设备的第四状态信息集合同样可以是由所述网络设备对所述K个待调度终端设备的第一状态信息集合进行处理得到的，具体处理方法可以参见上述图4所示的实施例中涉及的嵌入(embedding)，用户间归一化(inter-user normalization)，注意力机制(attention)等操作，本申请此处不再重复赘述。

在一种具体的实施方式中，所述网络设备对所述K个待调度终端设备的第四状态信息集合进行处理，得到一个第六状态信息集合，具体方法可以包括以下三种方法：

方法c1：所述网络设备针对所述K个待调度终端设备的第四状态信息集合中的每一项状态信息取平均值，得到所述第六状态信息集合。

方法c2：所述网络设备选取所述K个待调度终端设备的第四状态信息集合中的每一项状态信息的最大值，组成所述第六状态信息集合。

方法c3：所述网络设备选取所述K个待调度终端设备的第四状态信息集合中的每一项状态信息的最小值，组成所述第六状态信息集合。

可选的，当所述第四状态信息集合与图4所示的实施例中的第二状态信息集合相同时，得到的所述第六状态信息集合，与图4所示的实施例中涉及的所述网络设备对所述K个待调度终端设备的第二状态信息集合进行处理得到的所述第三状态信息集合相同。相应的，上述方法c1-c3分别与图4涉及的方法b1-b3类似，可以互相参见，此处不再详细描述。

步骤602：所述网络设备将所述第五状态信息集合输入第三神经网络模型，确定一个权重集合；所述第三神经网络模型基于所述L确定；所述权重集合包含的权重个数与所述L相同。

其中，步骤602中的过程可以理解为推理过程，通过上述方法，可以使得第三神经网络模型只需要关注一个状态信息集合(这里即为所述第五状态信息集合)就可以输出相应结果，从而实现所述第三神经网络模型与待调度终端设备的数量K无关。例如，图7中所示的，所述第五状态信息集合的维度是1*G时，将所述第五状态信息集合输入所述第三神经网络模型后，得到所述权重集合的维度为1*L，也即所述权重集合包含的权重个数为L。

具体的，所述权重集合可以看成是包含所述K个待调度终端设备中每个待调度终端设备的第四状态信息基集合中每一项状态信息的权重。也可以理解为L个权重分别代表每个待调度终端设备的L个状态信息的占得分的权重，可选的，所述L个权重可以是连续值。

在一种示例性的实施方式中，所述第三神经网络模型基于所述L确定，可以理解为所述第三神经网络模型的输入的维度与所述L相关，也即所述第三神经网络模型的输入层的神经元个数与所述L相关。

在一种实现方式中，本申请中，所述第三神经网络模型的输入的维度与所述G相等，也即所述第一神经网络模型的输入层的神经元的个数为G个。

具体的，所述第三神经网络模型与所述K无关。

步骤603：所述网络设备基于所述权重集合确定所述K个待调度终端设备中每个待调度终端设备的被调度权重，得到K个被调度权重。

在一种实施方式中，所述网络设备基于所述权重集合确定所述K个待调度终端设备中每个待调度终端设备的被调度权重，具体方法可以为：所述网络设备基于所述权值集合分别对所述K个待调度终端设备中每个待调度终端设备的第四状态信息集合中的每个状态信息的值进行加权求和，得到所述每个待调度终端设备的被调度权重。例如，上述过程可以理解为是维度为1*L的矩阵(权重集合)与维度为K*L的矩阵(K个待调度终端设备的第四状态信息集合)进行点乘后得到K*1被调度权重，即K个被调度权重。例如，图7所示的相关过程，K个被调度权重以得分示出。

当然，每个待调度终端设备的被调度权重还可以是每个待调度终端设备的被调度的概率等等。

示例性的，所述第三神经网络模型可以称为策略神经网络。所述第三神经网络模型可以是全连接神经网络，其中，所述第三神经网络模型的隐藏层的激活函数可以为ReLU，输出层输出可以是一个多维的高斯分布，例如输出层可以是两个，对应输出均值和方差，对应的激活函数分别可以为tanh和softplus，经采样后获得所述第三神经网络模型的最后的输出结果。

步骤604：所述网络设备根据所述K个被调度权重确定调度结果，所述调度结果指示被调度的终端设备。

例如，所述网络设备根据所述K个被调度权重确定调度结果，可以通过执行以下三种操作(action)：

操作d1：所述网络设备将所述K个被调度权重中最大的被调度权重对应的终端设备的标识作为所述调度结果。

操作d2：所述网络设备将所述K个被调度权重中最小的被调度权重对应的终端设备的标识作为所述调度结果。

操作d3：所述网络设备将所述K个被调度权重中的一个被调度权重处理成第一值，将剩余K-1个被调度权重处理成第二值，将处理后的第一值和K-1个第二值组成的序列为所述调度结果，其中，所述调度结果中第一值对应的终端设备为被调度的终端设备。

需要说明的是，上述操作d1-d3与图4所示的实施例中涉及的操作a1-a3相同，具体举例可以参见上述相关描述，此处不再重复赘述。

在一种具体的实施方式中，将第七状态信息集合输入第四神经网络模型，得到所述第七状态信息集合对应的值(参阅图7所示)，所述值用于更新所述第三神经网络模型和所述第四神经网络模型的模型参数；其中，所述第七状态信息集合的维度与所述第五状态信息集合的维度相同，所述第四神经网络模型基于所述L确定。

其中，所述第四神经网络模型可以称为价值神经网络，所述第四神经网络模型的隐藏层可以与所述第三神经网络模型的隐藏层相同，所述第四神经网络模型的输出层的激活函数可以是线性激活函数。

示例性的，所述第四神经网络模型基于所述L确定可以理解为所述第四神经网络模型的输入的维度与所述L相关，也即所述第四神经网络模型的输入层的神经元的个数与所述L相关。

一种实现方式中，本申请中，所述第四神经网络模型的输入的维度与所述G相等，也即所述第四神经网络模型的输入层的神经元的个数为G个。

在一种具体的实施方式中，所述第七状态信息集合对应的值可以理解为价值，所述值用于更新所述第三神经网络模型和所述第四神经网络模型的模型参数时，具体可以为结合所述值与从环境获得的奖励来更新所述第三神经网络模型和所述第四神经网络模型的模型参数。

通过上述方法中将单个的第七状态信息集合输入所述第四神经网络模型得到值的过程，与所述待调度终端设备的数量K无关，所述第四神经网络模型与所述K也无关，从而实现神经网络模型的训练过程与所述K也无关，这样可以不受待调度终端设备的数量的影响，减小训练复杂度。

在一种可选的实施方式中，得到所述第七状态信息集合的情况可以有多种。例如，所述第七状态信息集合可以与所述第五状态信息集合相同，也即可以直接将得到的所述第五信息状态集合用于训练。又例如，所述第七状态信息集合可以是基于对所述第五状态信息集合以及其他训练样本中的终端设备的状态信息集合和系统的状态信息集合进行处理得到的。又例如，所述第七状态信息可以是基于其他训练样本中终端设备的状态信息集合以及系统的状态信息集合进行处理得到的。

需要说明的是，上述得到所述第七状态信息集合的数据可以认为是一组数据，在训练过程中，可以执行多次上述过程，即通过多组数据得到多个类似于所述第七状态信息集合的状态信息集合，重复执行输入所述第四神经网络模型输入一个值的过程。其中，每组数据中涉及的终端设备的个数可以任意，即与终端设备的数量解耦(无关)。

下面以一个例子对上述调度方法进行示例性说明：

假设待调度终端设备的数量K＝5，每个待调度终端设备的第四状态信息集合的维度L＝32，系统的状态信息集合可以包含系统当前性能指标{平均吞吐，公平性，丢包率}，维度是1*3。则5个待调度终端设备的第四状态信息集合组成的第一状态矩阵维度是5*32，进而第一状态矩阵进行平均后得到的第二状态矩阵的维度是1*32，则系统全局状态(也即上述所述第五状态信息集合)的维度是1*35。将系统全局状态通过第三神经网络模型，如隐藏层为2，隐藏层神经元数目为512的全连接神经网络，隐藏层的激活函数为ReLU，所述第三神经网络模型有两个输出层，对应输出均值和方差，输出层激活函数分别为tanh和softplus，最终输出的维度是2*32，分别代表待调度终端设备的状态信息的权重的均值和方差，进行采样后得到1*32的权重集合。之后得到的权重集合分别与每个待调度终端设备的第四状态信息集合中的状态子向量点乘，得到每个待调度终端设备得分，根据得分对待调度终端设备进行调度。在训练阶段，第四神经网络模型的隐藏层可以为2层，隐藏蹭神经元数可以为512，最后输出层的激活函数可以为线性激活函数。在该示例中，可以将维度为1*35的系统全局状态输入所述第四神经网络模型得到一个值。

采用本申请实施例提供的调度方法，将基于所有待调度终端设备的状态信息集合以及系统的状态信息集合得到的一个状态信息集合输入一个神经网络模型进而得到结果。即，在调度过程中该神经网络模型是被所有待调度终端设备共享使用的，该神经网络模型可以适用所有的待调度终端设备，从而可以达到调度时神经网络模型与待调度终端设备的数量解耦，可以将该神经网络模型应用到待调度终端设备数量不同的场景中，具有较好的自适应性和可扩展性。

需要说明的是，在上述图6所示的实施例中，当所述K等于1时，也就是说只有一个待调度终端设备的时候，涉及的其他待调度终端设备也即所述待调度终端设备本身。在这种情况下，同样可以采用上述方法去执行，只不过所述第四状态信息集合值包含所述待调度终端设备的状态信息，得到的所述第五状态信息集合也是只与所述待调度终端设备的状态信息和系统的状态信息集合有关。在最后得出权重集合后也只得出所述待调度终端设备的一个被调度权重。也就是说上述调度方法当K等于1的时候也完全适用。这样使得上述调度方法与待调度终端设备的数量更具无关性，使得调度的兼容性更好。

当然，在具体实现时，当输出只有一个被调度权重的时候可以省略对被调度权重的进一步确定调度结果的过程，本申请对此不作限定。

在一种可能的实施例中，在上述图6所示的调度方法中，在步骤601中，网络设备可以基于K个待调度终端设备的第一信息状态集合(也即图4所示的实施例中涉及的第一状态信息集合)和系统的状态信息集合得到一个第八状态信息集合。其中，得到所述第八状态信息集合的方法与得到所述第五状态信息集合的方法原理相同，可以相互参见。此时，得到的所述第八状态信息集合的维度可以是F+J。进一步地，在步骤602中，将所述第八状态信息集合输入所述第三神经网络模型得到的权重集合的个数则与所述F相同。然后，在步骤603的执行过程中，所述网络设备基于所述权值集合分别对所述K个待调度终端设备中每个待调度终端设备的第八状态信息集合中的每个状态信息的值进行加权求和，得到所述每个待调度终端设备的被调度权重。最后在执行步骤604。应理解，上述过程中的原理均与图6所示的调度方法的原理相同，可以互相参见，此处不再详细描述。

需要说明的是，在图4所示的实施例中涉及的训练过程，以及在图6所示的实施例中谁的训练过程均与待调度终端设备的数量无关，增加了训练的灵活性。上述训练过程均可以是在先训练过程，也可以是离线训练过程。示例性的，上述两个训练过程可以总结为以下离线(在线)训练过程：

步骤1、初始化策略神经网络π _θ和价值神经网络V _φ，θ为策略神经网络待训练的系数，φ为价值神经网络待训练的系数。

步骤2、获取时刻t所有待调度终端设备的状态信息集合s _t，根据策略神经网络π _θ获得动作a _t，并实施调度。

步骤3、获取所有待调度终端设备下一个时刻(t+1时刻)的状态信息集合s _t+1，并获得奖励r _t。

步骤4、保存{s _t,a _t,r _t,s _t+1}作为训练样本。

步骤5、重复步骤2-4，积累一批训练样本(batch size个)训练样本后进行神经网络的更新，更新步骤如下：

策略神经网络的目标函数为J _θ＝∑ _i(R _i-V _φ(s _i))logπ _θ(a _i|s _i)，价值神经网络的损失函数为L _φ＝∑ _i(R _i-V _φ(s _i)) ²，其中回报R＝r _t+γV(s _t+1)。其中，i是训练样本在这一批数据中的序号，γ是折扣因子，V()表示价值神经网络的输出，即值。

对策略神经网络参数θ和价值神经网络参数φ的更新梯度g可以表示为：

其中，

分别表示对θ和φ求偏导，λ _v是一个系数，权衡策略和价值在梯度更新中的比重。

在在线训练(学习)中，小区内终端设备数量改变是个常见的问题，传统强化学习调度的神经网络与训练样本各参数的维度相关，故无法进行高效地在线学习，即步骤5中的多个训练样本必须保证终端设备数量相同。在本申请的技术方案中，由于训练样本将进一步分解为与终端设备数量无关的状态并输入神经网络，故可以有效利用各种终端设备数量不同的训练样本，即步骤5中保存多个训练样本{s _t,a _t,r _t,s _t+1}可以是网络设备在不同终端设备数量的情况下产生的样本。

此外，在一些极端场景，网络设备不能获取训练样本、或者获取的训练样本非常少，传统强化学习调度在这种场景下无法进行训练。在这种情况下，基于本申请技术方案中训练过程的用户无关性，其他小区的网络设备可以共享其训练样本，使该网络设备能完成训练。

基于上述实施例，以比例公平(proportional fair，PF)算法作为基线，采用5UE的配置训练神经网络，采用本申请提供的方案分别验证了5、10、20、50UE情况下的吞吐、公平性及丢包率性能分别如图8、图9、图10、图11所示。通过图8-图11可以看出，使用5UE情况下训练的策略同样可以适用于10UE、20UE、50UE，并且能保持稳定的性能增益。因此，可以说明，本申请提供的调度方法可以实现将神经网络在调度问题上与用户设备数量解耦，从而解决深度强化学习调度算法用户设备数量自适应困难的问题。

上述涉及的其中PF算法可以实现吞吐和公平性较好的折中，因此应用比较广泛。下面以PF算法为例，介绍基于确定模型和公式的调度算法。PF算法可以按照以下公式选择被调度用户：

其中，R _i(t)为用户i在时刻t的估计吞吐，它由信道条件、用户的缓存情况等因素决定，而T _i(t)为用户i在时刻t时的历史累积吞吐。由此可见，R _i(t)/T _i(t)是一种吞吐和公平性兼顾的度量：当前估计吞吐R _i(t)越大，说明该用户信道条件较好，且缓存中又足够的数据需要发送，因此度量值也越大；同时，累积吞吐T _i(t)越大，说明该用户已经发送的数据量越多，为了公平起见，应减少其发送机会，因此度量值越小。通过选择度量值最大的用户进行调度即实现了吞吐和公平性的折中。

但是，由于通信系统的复杂性，用闭式的模型和公式对其进行精确建模是不可能的。因此PF算法等基于公式的调度算法并不能保证其最优性。因此，本申请提供的调度算法在应用上比较广泛，并且可扩展性比较好。

基于以上实施例，本申请实施例还提供了一种调度装置，该调度装置可以是网络设备，也可以是网络设备中的装置(例如，芯片或者芯片系统或芯片组或芯片中用于执行相关方法功能的一部分)，或者是能够和网络设备匹配使用的装置。该调度装置可以应用于如图2所示的通信系统，用于实现如图4或图6所示的调度方法。一种设计中，该调度装置可以包括执行上述方法实施例中网络设备执行的方法/操作/步骤/动作所一一对应的模块，该模块可以是硬件电路，也可是软件，也可以是硬件电路结合软件实现。例如，参阅图12所示，该调度装置1200可以包括：第一处理单元1201、第二处理单元1202和通信单元1203。其中，所述第一处理单元1201和所述第二处理单元1202可以合成为一个处理单元，合成的该处理单元可以同时具有所述第一处理单元1201和所述第二处理单元1202的功能。需要说明的是，在本申请中某某单元也可以称为某某模块或其他，本申请对命名不作限定。

在一个实施例中，当所述调度装置1200用于执行上述图4所述的调度方法中网络设备的操作时：

所述第一处理单元1201，用于对K个待调度终端设备的第一状态信息集合进行处理，得到K个待调度终端设备的第二状态信息集合，K为大于或者等于1的整数；其中，任一个待调度终端设备的第二状态信息集合包含所述任一个待调度终端设备的状态信息以及所述任一个待调度终端设备与其他待调度终端设备之间的状态关联数据；所述K个待调度终端设备中任一个待调度终端设备的第二状态信息集合的维度为H，H为大于或者等于1的整数；所述第二处理单元1202，用于分别将每个待调度终端设备的第二状态信息集合输入第一神经网络模型，确定所述每个待调度终端设备的被调度权重，得到K个被调度权重；所述第一神经网络模型基于所述H确定；以及根据所述K个被调度权重确定调度结果，所述调度结果指示被调度的终端设备；所述通信单元1203，用于输出所述调度结果。

示例性的，任一个待调度终端设备的第一状态信息集合包括以下至少一项状态信息：终端设备的瞬时估计吞吐量，终端设备的平均吞吐量，终端设备的缓存大小，终端设备的包等待时间。

在一种具体的实施方式中，所述第二处理单元1202，在根据所述K个被调度权重确定调度结果时，具体用于：将所述K个被调度权重中最大的被调度权重对应的终端设备的标识作为所述调度结果；或者，将所述K个被调度权重中最小的被调度权重对应的终端设备的标识作为所述调度结果；或者，将所述K个被调度权重中的一个被调度权重处理成第一值，将剩余K-1个被调度权重处理成第二值，将处理后的第一值和K-1个第二值组成的序列为所述调度结果，其中，所述调度结果中第一值对应的终端设备为被调度的终端设备。

在一种可选的实施方式中，所述第二处理单元1202还用于将第三状态信息集合输入第二神经网络模型，得到所述第三状态信息集合对应的值，所述值用于更新所述第一神经网络模型和所述第二神经网络模型的模型参数；其中，所述第三状态信息集合的维度为所述H，所述第二神经网络模型基于所述H确定。

示例性的，所述第三状态信息集合是所述第二处理单元1202对所述K个待调度终端设备的第二状态信息集合进行处理得到的。

具体的，所述第二处理单元1202在对所述K个待调度终端设备的第二状态信息集合进行处理得到所述第三状态信息集合时，具体用于：针对所述K个待调度终端设备的第二状态信息集合中的每一项状态信息取平均值，得到所述第三状态信息集合；或者，选取所述K个待调度终端设备的第二状态信息集合中的每一项状态信息的最大值，组成所述第三状态信息集合；或者，选取所述K个待调度终端设备的第二状态信息集合中的每一项状态信息的最小值，组成所述第三状态信息集合。

一种可能的实现方式中，所述第一神经网络模型和所述第二神经网络模型中的任一个神经网络模型基于所述H确定，包括：所述第一神经网络模型和所述第二神经网络模型中的任一个神经网络模型的输入的维度与所述H相关。

在另一个实施例中，当所述调度装置1200用于执行上述图6所述的调度传输方法中网络设备的操作时：

所述第一处理单元1201，用于基于K个待调度终端设备的第四状态信息集合和系统的状态信息集合得到一个第五状态信息集合，K为大于或者等于1的整数；所述K个待调度终端设备中任一个待调度终端设备的第一状态信息集合的维度为L，L为大于或者等于1的整数；任一个待调度终端设备的第四状态信息集合包含所述任一个待调度终端设备的状态信息以及所述任一个待调度终端设备与其他待调度终端设备之间的状态关联数据；所述第二处理单元1202，用于将所述第五状态信息集合输入第三神经网络模型，确定一个权重集合；所述第三神经网络模型基于所述H确定；所述权重集合包含的权重个数与所述H相同；基于所述权重集合确定所述K个待调度终端设备中每个待调度终端设备的被调度权重，得到K个被调度权重；以及根据所述K个被调度权重确定调度结果，所述调度结果指示被调度的终端设备；所述通信单元1203，用于输出所述调度结果。

示例性的，所述系统的状态信息集合包括以下至少一项状态信息：系统的平均吞吐量、系统公平性、系统丢包率。

在一种具体的实施方式中，所述第一处理单元1201在基于K个待调度终端设备的第四状态信息集合和系统的状态信息集合得到一个第五状态信息集合时，具体用于：对所述K个待调度终端设备的第四状态信息集合进行处理，得到一个第六状态信息集合；将所述第六状态信息集合与所述系统的状态信息集合组合成所述第五状态信息集合。

在一种可选的实施方式中，所述第一处理单元1201在对所述K个待调度终端设备的第四状态信息集合进行处理，得到一个第六状态信息集合时，具体用于：针对所述K个待调度终端设备的第四状态信息集合中的每一项状态信息取平均值，得到所述第六状态信息集合；或者，选取所述K个待调度终端设备的第四状态信息集合中的每一项状态信息的最大值，组成所述第六状态信息集合；或者，选取所述K个待调度终端设备的第四状态信息集合中的每一项状态信息的最小值，组成所述第六状态信息集合。

示例性的，所述第二处理单元1202还用于：将第七状态信息集合输入第四神经网络模型，得到所述第七状态信息集合对应的值，所述值用于更新所述第三神经网络模型和所述第四神经网络模型的模型参数；其中，所述第七状态信息集合的维度与所述第五状态信息集合的维度相同，所述第四神经网络模型基于所述L确定。

可选的，所述第七状态信息集合与所述第五状态信息集合相同。

在一种可能的实现方式中，所述第三神经网络模型和所述第四神经网络模型中的任一个神经网络模型基于所述L确定，可以包括：所述第三神经网络模型和所述第四神经网络模型中的任一个神经网络模型的输入的维度与所述L相关。

一种可选的实施方式，所述第二处理单元1202在基于所述权重集合确定所述K个待调度终端设备中每个待调度终端设备的被调度权重时，具体用于：基于所述权值集合分别对所述K个待调度终端设备中每个待调度终端设备的第四状态信息集合中的每个状态信息的值进行加权求和，得到所述每个待调度终端设备的被调度权重。

示例性的，所述第二处理单元1202在根据所述K个被调度权重确定调度结果时，具体用于：将所述K个被调度权重中最大的被调度权重对应的终端设备的标识作为所述调度结果；或者，将所述K个被调度权重中最小的被调度权重对应的终端设备的标识作为所述调度结果；或者，将所述K个被调度权重中的一个被调度权重处理成第一值，将剩余K-1个被调度权重处理成第二值，将处理后的第一值和K-1个第二值组成的序列为所述调度结果，其中，所述调度结果中第一值对应的终端设备为被调度的终端设备。

需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。在本申请的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

基于以上实施例，本申请实施例还提供了一种调度装置，该调度装置可以是网络设备，也可以是网络设备中的装置(例如，芯片或者芯片系统或芯片组或芯片中用于执行相关方法功能的一部分)，或者是能够和网络设备匹配使用的装置。其中，该调度装置可以为芯片系统。本申请实施例中，芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。该调度装置可以应用于如图2所示的通信系统，用于实现如图4或图6所示的调度方法。例如，参阅图13所示，所述调度装置1300可以包括：至少一个处理器1302，可选的，还可以把总括通信接口1301和/或存储器1303。

其中，所述处理器1302可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合等等。所述处理器1302还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。所述处理器1302在实现上述功能时，可以通过硬件实现，当然也可以通过硬件执行相应的软件实现。

在本申请实施例中，通信接口1301可以是收发器、电路、总线、模块或其它类型的通信接口，用于通过传输介质和其它设备进行通信。所述存储器1303，与所述处理器1302耦合，用于存放所述调度装置1300必要的程序等。例如，程序可以包括程序代码，该程序代码包括计算机操作指令。

所述存储器1303可能包括RAM，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。所述处理器1302执行所述存储器1303所存放的应用程序，实现所述调度装置1300的功能。本申请实施例中的耦合是装置、单元或模块之间的间接耦合或通信连接，可以是电性，机械或其它的形式，用于装置、单元或模块之间的信息交互。

本申请实施例中不限定上述通信接口1301、处理器1302以及存储器1302之间的具体连接介质。本申请实施例在图13中以通信接口1301、处理器1302以及存储器1302之间通过总线1304连接，所述总线1304可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图13中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在一个实施例中，当所述调度装置1300用于执行上述图4所述的调度方法中网络设备的操作时：

所述处理器1302，用于对K个待调度终端设备的第一状态信息集合进行处理，得到K个待调度终端设备的第二状态信息集合，K为大于或者等于1的整数；其中，任一个待调度终端设备的第二状态信息集合包含所述任一个待调度终端设备的状态信息以及所述任一个待调度终端设备与其他待调度终端设备之间的状态关联数据；所述K个待调度终端设备中任一个待调度终端设备的第二状态信息集合的维度为H，H为大于或者等于1的整数；分别将每个待调度终端设备的第二状态信息集合输入第一神经网络模型，确定所述每个待调度终端设备的被调度权重，得到K个被调度权重；所述第一神经网络模型基于所述H确定；以及根据所述K个被调度权重确定调度结果，所述调度结果指示被调度的终端设备。

在一种具体的实施方式中，所述处理器1302，在根据所述K个被调度权重确定调度结果时，具体用于：将所述K个被调度权重中最大的被调度权重对应的终端设备的标识作为所述调度结果；或者，将所述K个被调度权重中最小的被调度权重对应的终端设备的标识作为所述调度结果；或者，将所述K个被调度权重中的一个被调度权重处理成第一值，将剩余K-1个被调度权重处理成第二值，将处理后的第一值和K-1个第二值组成的序列为所述调度结果，其中，所述调度结果中第一值对应的终端设备为被调度的终端设备。

在一种可选的实施方式中，所述处理器1302还用于将第三状态信息集合输入第二神经网络模型，得到所述第三状态信息集合对应的值，所述值用于更新所述第一神经网络模型和所述第二神经网络模型的模型参数；其中，所述第三状态信息集合的维度为所述H，所述第二神经网络模型基于所述H确定。

示例性的，所述第三状态信息集合是所述处理器1302对所述K个待调度终端设备的第二状态信息集合进行处理得到的。

具体的，所述处理器1302在对所述K个待调度终端设备的第二状态信息集合进行处理得到所述第三状态信息集合时，具体用于：针对所述K个待调度终端设备的第二状态信息集合中的每一项状态信息取平均值，得到所述第三状态信息集合；或者，选取所述K个待调度终端设备的第二状态信息集合中的每一项状态信息的最大值，组成所述第三状态信息集合；或者，选取所述K个待调度终端设备的第二状态信息集合中的每一项状态信息的最小值，组成所述第三状态信息集合。

在另一个实施例中，当所述调度装置1300用于执行上述图6所述的调度传输方法中网络设备的操作时：

所述处理器1302，用于基于K个待调度终端设备的第四状态信息集合和系统的状态信息集合得到一个第五状态信息集合，K为大于或者等于1的整数；所述K个待调度终端设备中任一个待调度终端设备的第一状态信息集合的维度为L，L为大于或者等于1的整数；任一个待调度终端设备的第四状态信息集合包含所述任一个待调度终端设备的状态信息以及所述任一个待调度终端设备与其他待调度终端设备之间的状态关联数据；将所述第五状态信息集合输入第三神经网络模型，确定一个权重集合；所述第三神经网络模型基于所述H确定；所述权重集合包含的权重个数与所述H相同；基于所述权重集合确定所述K个待调度终端设备中每个待调度终端设备的被调度权重，得到K个被调度权重；以及根据所述K个被调度权重确定调度结果，所述调度结果指示被调度的终端设备。

在一种具体的实施方式中，所述处理器1302在基于K个待调度终端设备的第四状态信息集合和系统的状态信息集合得到一个第五状态信息集合时，具体用于：对所述K个待调度终端设备的第四状态信息集合进行处理，得到一个第六状态信息集合；将所述第六状态信息集合与所述系统的状态信息集合组合成所述第五状态信息集合。

在一种可选的实施方式中，所述处理器1302在对所述K个待调度终端设备的第四状态信息集合进行处理，得到一个第六状态信息集合时，具体用于：针对所述K个待调度终端设备的第四状态信息集合中的每一项状态信息取平均值，得到所述第六状态信息集合；或者，选取所述K个待调度终端设备的第四状态信息集合中的每一项状态信息的最大值，组成所述第六状态信息集合；或者，选取所述K个待调度终端设备的第四状态信息集合中的每一项状态信息的最小值，组成所述第六状态信息集合。

示例性的，所述处理器1302还用于：将第七状态信息集合输入第四神经网络模型，得到所述第七状态信息集合对应的值，所述值用于更新所述第三神经网络模型和所述第四神经网络模型的模型参数；其中，所述第七状态信息集合的维度与所述第五状态信息集合的维度相同，所述第四神经网络模型基于所述L确定。

一种可选的实施方式，所述处理器1302在基于所述权重集合确定所述K个待调度终端设备中每个待调度终端设备的被调度权重时，具体用于：基于所述权值集合分别对所述K个待调度终端设备中每个待调度终端设备的第四状态信息集合中的每个状态信息的值进行加权求和，得到所述每个待调度终端设备的被调度权重。

示例性的，所述处理器1302在根据所述K个被调度权重确定调度结果时，具体用于：将所述K个被调度权重中最大的被调度权重对应的终端设备的标识作为所述调度结果；或者，将所述K个被调度权重中最小的被调度权重对应的终端设备的标识作为所述调度结果；或者，将所述K个被调度权重中的一个被调度权重处理成第一值，将剩余K-1个被调度权重处理成第二值，将处理后的第一值和K-1个第二值组成的序列为所述调度结果，其中，所述调度结果中第一值对应的终端设备为被调度的终端设备。

在一种实施例中，调度装置1200和调度装置1300具体是芯片或者芯片系统时，通信单元1203和通信接口1301所输出或接收的可以是基带信号形式的信息。例如，调度装置1200和调度装置1300在实现网络设备的功能时，通信接口1301接收到的是承载信息的基带信号。

在一种实施例中，调度装置1200和调度装置1300具体是设备时，通信接口1301所输出或接收的可以是射频信号。例如，调度装置1200和调度装置1300在实现网络设备的功能时，通信接口1301接收到的是承载信息的射频信号。

图14是本申请实施例提供的一种网络设备的结构示意图，如可以为基站的结构示意图。如图14所示，该网络可应用于如图2所示的通信系统中，执行上述图4或图6所述方法实施例中网络设备的功能。基站1400可包括一个或多个分布单元(distributed unit，DU)1401和一个或多个集中单元(centralized unit，CU)1402。所述DU 1401可以包括至少一个天线14011，至少一个射频单元14012，至少一个处理器14017和至少一个存储器14014。所述DU 1401部分主要用于射频信号的收发以及射频信号与基带信号的转换，以及部分基带处理。CU1402可以包括至少一个处理器14022和至少一个存储器14021。CU1402和DU1401之间可以通过接口进行通信，其中，控制面(Control plan)接口可以为Fs-C，比如F1-C，用户面(User Plan)接口可以为Fs-U，比如F1-U。

所述CU 1402部分主要用于进行基带处理，对基站进行控制等。所述DU 1401与CU 1402可以是物理上设置在一起，也可以物理上分离设置的，即分布式基站。所述CU 1402为基站的控制中心，也可以称为处理单元，主要用于完成基带处理功能。例如所述CU 1402可以用于控制基站执行上述图4或图6所述方法实施例中关于网络设备的操作流程。

具体的，CU和DU上的基带处理可以根据无线网络的协议层划分，例如PDCP层及以上协议层的功能设置在CU，PDCP以下的协议层，例如RLC层和MAC层等的功能设置在DU。又例如，CU实现RRC，PDCP层的功能，DU实现RLC、MAC和物理(physical，PHY)层的功能。

此外，可选的，基站1400可以包括一个或多个射频单元(RU)，一个或多个DU和一个或多个CU。其中，DU可以包括至少一个处理器14017和至少一个存储器14014，RU可以包括至少一个天线14011和至少一个射频单元14012，CU可以包括至少一个处理器14022和至少一个存储器14021。

在一个实例中，所述CU1402可以由一个或多个单板构成，多个单板可以共同支持单一接入指示的无线接入网(如5G网)，也可以分别支持不同接入制式的无线接入网(如LTE网，5G网或其他网)。所述存储器14021和处理器14022可以服务于一个或多个单板。也就是说，可以每个单板上单独设置存储器和处理器。也可以是多个单板共用相同的存储器和处理器。此外每个单板上还可以设置有必要的电路。所述DU1401可以由一个或多个单板构成，多个单板可以共同支持单一接入指示的无线接入网(如5G网)，也可以分别支持不同接入制式的无线接入网(如LTE网，5G网或其他网)。所述存储器14014和处理器14017可以服务于一个或多个单板。也就是说，可以每个单板上单独设置存储器和处理器。也可以是多个单板共用相同的存储器和处理器。此外每个单板上还可以设置有必要的电路。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被调度装置执行时，使得该调度装置实现上述调度方法。示例性的，计算机可读存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于：计算机可读介质可以包括非瞬态计算机可读介质、RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品被通信装置执行时，使得该通信装置实现上述调度方法。示例性的，计算机程序产品可以是包括非暂时性计算机可读介质的计算机程序产品。

综上所述，本申请提供了一种调度方法及装置，在调度过程中可以使神经网络模型被所有待调度终端设备共享使用，该神经网络模型可以适用所有的待调度终端设备，从而可以达到调度时神经网络模型与待调度终端设备的数量解耦，可以将该神经网络模型应用到待调度终端设备数量不同的场景中，具有较好的自适应性和可扩展性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

一种调度方法，其特征在于，包括：

对K个待调度终端设备的第一状态信息集合进行处理，得到K个待调度终端设备的第二状态信息集合，K为大于或者等于1的整数；其中，任一个待调度终端设备的第二状态信息集合包含所述任一个待调度终端设备的状态信息以及所述任一个待调度终端设备与其他待调度终端设备之间的状态关联数据；所述K个待调度终端设备中任一个待调度终端设备的第二状态信息集合的维度为H，H为大于或者等于1的整数；

分别将每个待调度终端设备的第二状态信息集合输入第一神经网络模型，确定所述每个待调度终端设备的被调度权重，得到K个被调度权重；所述第一神经网络模型基于所述H确定；

根据所述K个被调度权重确定调度结果，所述调度结果指示被调度的终端设备。
如权利要求1所述的方法，其特征在于，任一个待调度终端设备的第一状态信息集合包括以下至少一项状态信息：终端设备的瞬时估计吞吐量，终端设备的平均吞吐量，终端设备的缓存大小，终端设备的包等待时间。
如权利要求1或2所述的方法，其特征在于，根据所述K个被调度权重确定调度结果，包括：

将所述K个被调度权重中最大的被调度权重对应的终端设备的标识作为所述调度结果；或者

将所述K个被调度权重中最小的被调度权重对应的终端设备的标识作为所述调度结果；或者

将所述K个被调度权重中的一个被调度权重处理成第一值，将剩余K-1个被调度权重处理成第二值，将处理后的第一值和K-1个第二值组成的序列为所述调度结果，其中，所述调度结果中第一值对应的终端设备为被调度的终端设备。
如权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

将第三状态信息集合输入第二神经网络模型，得到所述第三状态信息集合对应的值，所述值用于更新所述第一神经网络模型和所述第二神经网络模型的模型参数；其中，所述第三状态信息集合的维度为所述H，所述第二神经网络模型基于所述H确定。
如权利要求4所述的方法，其特征在于，所述第三状态信息集合是对所述K个待调度终端设备的第二状态信息集合进行处理得到的。
如权利要求5所述的方法，其特征在于，对所述K个待调度终端设备的第二状态信息集合进行处理得到所述第三状态信息集合，包括：

针对所述K个待调度终端设备的第二状态信息集合中的每一项状态信息取平均值，得到所述第三状态信息集合；或者

选取所述K个待调度终端设备的第二状态信息集合中的每一项状态信息的最大值，组成所述第三状态信息集合；或者

选取所述K个待调度终端设备的第二状态信息集合中的每一项状态信息的最小值，组成所述第三状态信息集合。
如权利要求1、4-6任一项所述的方法，其特征在于，所述第一神经网络模型和所述第二神经网络模型中的任一个神经网络模型基于所述H确定，包括：

所述第一神经网络模型和所述第二神经网络模型中的任一个神经网络模型的输入的维度与所述H相关。
一种调度方法，其特征在于，包括：

基于K个待调度终端设备的第四状态信息集合和系统的状态信息集合得到一个第五状态信息集合，K为大于或者等于1的整数；所述K个待调度终端设备中任一个待调度终端设备的第四状态信息集合的维度为L，L为大于或者等于1的整数；任一个待调度终端设备的第四状态信息集合包含所述任一个待调度终端设备的状态信息以及所述任一个待调度终端设备与其他待调度终端设备之间的状态关联数据；

将所述第五状态信息集合输入第三神经网络模型，确定一个权重集合；所述第三神经网络模型基于所述L确定；所述权重集合包含的权重个数与所述L相同；

基于所述权重集合确定所述K个待调度终端设备中每个待调度终端设备的被调度权重，得到K个被调度权重；

根据所述K个被调度权重确定调度结果，所述调度结果指示被调度的终端设备。
如权利要求8所述的方法，其特征在于，所述系统的状态信息集合包括以下至少一项状态信息：系统的平均吞吐量、系统公平性、系统丢包率。
如权利要求8或9所述的方法，其特征在于，基于K个待调度终端设备的第四状态信息集合和系统的状态信息集合得到一个第五状态信息集合，包括：

对所述K个待调度终端设备的第四状态信息集合进行处理，得到一个第六状态信息集合；

将所述第六状态信息集合与所述系统的状态信息集合组合成所述第五状态信息集合。
如权利要求10所述的方法，其特征在于，对所述K个待调度终端设备的第四状态信息集合进行处理，得到一个第六状态信息集合，包括：

针对所述K个待调度终端设备的第四状态信息集合中的每一项状态信息取平均值，得到所述第六状态信息集合；或者

选取所述K个待调度终端设备的第四状态信息集合中的每一项状态信息的最大值，组成所述第六状态信息集合；或者

选取所述K个待调度终端设备的第四状态信息集合中的每一项状态信息的最小值，组成所述第六状态信息集合。
如权利要求8-11任一项所述的方法，其特征在于，所述方法还包括：

将第七状态信息集合输入第四神经网络模型，得到所述第七状态信息集合对应的值，所述值用于更新所述第三神经网络模型和所述第四神经网络模型的模型参数；其中，所述第七状态信息集合的维度与所述第五状态信息集合的维度相同，所述第四神经网络模型基于所述L确定。
如权利要求12所述的方法，其特征在于，所述第七状态信息集合与所述第五状态信息集合相同。
如权利要求8、12或13所述的方法，其特征在于，所述第三神经网络模型和所述第四神经网络模型中的任一个神经网络模型基于所述L确定，包括：

所述第三神经网络模型和所述第四神经网络模型中的任一个神经网络模型的输入的维度与所述L相关。
如权利要求8-14任一项所述的方法，其特征在于，基于所述权重集合确定所述K 个待调度终端设备中每个待调度终端设备的被调度权重，包括：

基于所述权值集合分别对所述K个待调度终端设备中每个待调度终端设备的第四状态信息集合中的每个状态信息的值进行加权求和，得到所述每个待调度终端设备的被调度权重。
如权利要求8-15任一项所述的方法，其特征在于，根据所述K个被调度权重确定调度结果，包括：

将所述K个被调度权重中最大的被调度权重对应的终端设备的标识作为所述调度结果；或者

将所述K个被调度权重中最小的被调度权重对应的终端设备的标识作为所述调度结果；或者

将所述K个被调度权重中的一个被调度权重处理成第一值，将剩余K-1个被调度权重处理成第二值，将处理后的第一值和K-1个第二值组成的序列为所述调度结果，其中，所述调度结果中第一值对应的终端设备为被调度的终端设备。
一种调度装置，其特征在于，包括：

第一处理单元，用于对K个待调度终端设备的第一状态信息集合进行处理，得到K个待调度终端设备的第二状态信息集合，K为大于或者等于1的整数；其中，任一个待调度终端设备的第二状态信息集合包含所述任一个待调度终端设备的状态信息以及所述任一个待调度终端设备与其他待调度终端设备之间的状态关联数据；所述K个待调度终端设备中任一个待调度终端设备的第二状态信息集合的维度为H，H为大于或者等于1的整数；

第二处理单元，用于分别将每个待调度终端设备的第二状态信息集合输入第一神经网络模型，确定所述每个待调度终端设备的被调度权重，得到K个被调度权重；所述第一神经网络模型基于所述H确定；以及根据所述K个被调度权重确定调度结果，所述调度结果指示被调度的终端设备；

通信单元，用于输出所述调度结果。
如权利要求17所述的装置，其特征在于，任一个待调度终端设备的第一状态信息集合包括以下至少一项状态信息：终端设备的瞬时估计吞吐量，终端设备的平均吞吐量，终端设备的缓存大小，终端设备的包等待时间。
如权利要求17或18所述的装置，其特征在于，所述第二处理单元，在根据所述K个被调度权重确定调度结果时，具体用于：

将所述K个被调度权重中最大的被调度权重对应的终端设备的标识作为所述调度结果；或者

将所述K个被调度权重中最小的被调度权重对应的终端设备的标识作为所述调度结果；或者

将所述K个被调度权重中的一个被调度权重处理成第一值，将剩余K-1个被调度权重处理成第二值，将处理后的第一值和K-1个第二值组成的序列为所述调度结果，其中，所述调度结果中第一值对应的终端设备为被调度的终端设备。
如权利要求17-19任一项所述的装置，其特征在于，所述第二处理单元，还用于：

将第三状态信息集合输入第二神经网络模型，得到所述第三状态信息集合对应的值，所述值用于更新所述第一神经网络模型和所述第二神经网络模型的模型参数；其中，所述第三状态信息集合的维度为所述H，所述第二神经网络模型基于所述H确定。
如权利要求20所述的装置，其特征在于，所述第三状态信息集合是所述第二处理单元对所述K个待调度终端设备的第二状态信息集合进行处理得到的。
如权利要求21所述的装置，其特征在于，所述第二处理单元，在对所述K个待调度终端设备的第二状态信息集合进行处理得到所述第三状态信息集合时，具体用于：

针对所述K个待调度终端设备的第二状态信息集合中的每一项状态信息取平均值，得到所述第三状态信息集合；或者

选取所述K个待调度终端设备的第二状态信息集合中的每一项状态信息的最大值，组成所述第三状态信息集合；或者

选取所述K个待调度终端设备的第二状态信息集合中的每一项状态信息的最小值，组成所述第三状态信息集合。
如权利要求17、20-22任一项所述的装置，其特征在于，所述第一神经网络模型和所述第二神经网络模型中的任一个神经网络模型基于所述H确定，包括：

所述第一神经网络模型和所述第二神经网络模型中的任一个神经网络模型的输入的维度与所述H相关。
一种调度装置，其特征在于，包括：

第一处理单元，用于基于K个待调度终端设备的第四状态信息集合和系统的状态信息集合得到一个第五状态信息集合，K为大于或者等于1的整数；所述K个待调度终端设备中任一个待调度终端设备的第四状态信息集合的维度为L，L为大于或者等于1的整数；任一个待调度终端设备的第四状态信息集合包含所述任一个待调度终端设备的状态信息以及所述任一个待调度终端设备与其他待调度终端设备之间的状态关联数据；

第二处理单元，用于将所述第五状态信息集合输入第三神经网络模型，确定一个权重集合；所述第三神经网络模型基于所述L确定；所述权重集合包含的权重个数与所述H相同；基于所述权重集合确定所述K个待调度终端设备中每个待调度终端设备的被调度权重，得到K个被调度权重；以及根据所述K个被调度权重确定调度结果，所述调度结果指示被调度的终端设备；

通信单元，用于输出所述调度结果。
如权利要求24所述的装置，其特征在于，所述系统的状态信息集合包括以下至少一项状态信息：系统的平均吞吐量、系统公平性、系统丢包率。
如权利要求24或25所述的装置，其特征在于，所述第一处理单元，在基于K个待调度终端设备的第四状态信息集合和系统的状态信息集合得到一个第五状态信息集合时，具体用于：

对所述K个待调度终端设备的第四状态信息集合进行处理，得到一个第六状态信息集合；

将所述第六状态信息集合与所述系统的状态信息集合组合成所述第五状态信息集合。
如权利要求26所述的装置，其特征在于，所述第一处理单元，在对所述K个待调度终端设备的第四状态信息集合进行处理，得到一个第六状态信息集合时，具体用于：

针对所述K个待调度终端设备的第四状态信息集合中的每一项状态信息取平均值，得到所述第六状态信息集合；或者

选取所述K个待调度终端设备的第四状态信息集合中的每一项状态信息的最大值，组成所述第六状态信息集合；或者

选取所述K个待调度终端设备的第四状态信息集合中的每一项状态信息的最小值，组成所述第六状态信息集合。
如权利要求24-27任一项所述的装置，其特征在于，所述第二处理单元，还用于：

将第七状态信息集合输入第四神经网络模型，得到所述第七状态信息集合对应的值，所述值用于更新所述第三神经网络模型和所述第四神经网络模型的模型参数；其中，所述第七状态信息集合的维度与所述第五状态信息集合的维度相同，所述第四神经网络模型基于所述L确定。
如权利要求28所述的装置，其特征在于，所述第七状态信息集合与所述第五状态信息集合相同。
如权利要求24、28或29所述的装置，其特征在于，所述第三神经网络模型和所述第四神经网络模型中的任一个神经网络模型基于所述L确定，包括：

所述第三神经网络模型和所述第四神经网络模型中的任一个神经网络模型的输入的维度与所述L相关。
如权利要求24-30任一项所述的装置，其特征在于，所述第二处理单元，在基于所述权重集合确定所述K个待调度终端设备中每个待调度终端设备的被调度权重时，具体用于：

基于所述权值集合分别对所述K个待调度终端设备中每个待调度终端设备的第四状态信息集合中的每个状态信息的值进行加权求和，得到所述每个待调度终端设备的被调度权重。
如权利要求24-31任一项所述的装置，其特征在于，所述第二处理单元，在根据所述K个被调度权重确定调度结果时，具体用于：

将所述K个被调度权重中最大的被调度权重对应的终端设备的标识作为所述调度结果；或者

将所述K个被调度权重中最小的被调度权重对应的终端设备的标识作为所述调度结果；或者

将所述K个被调度权重中的一个被调度权重处理成第一值，将剩余K-1个被调度权重处理成第二值，将处理后的第一值和K-1个第二值组成的序列为所述调度结果，其中，所述调度结果中第一值对应的终端设备为被调度的终端设备。
一种调度装置，其特征在于，包括处理器，当所述处理器执行存储器中的计算机程序或指令时，执行如权利要求1-7任一项所述的方法，或者执行如权利要求8-16任一项所述的方法，其中，所述调度装置与所述存储器相连，或者，所述调度装置包括所述存储器。
一种计算机可读存储介质，其特征在于，包括程序或指令，当其在计算机上运行时，使得计算机执行如权利要求1-7任一项所述的方法，或者执行如权利要求8-16任一项所述的方法。