WO2019095873A1

WO2019095873A1 - 任务并行处理方法、装置、系统、存储介质及计算机设备

Info

Publication number: WO2019095873A1
Application number: PCT/CN2018/108298
Authority: WO
Inventors: 吴林阳; 孟小甫; 赵永威; 郭崎; 陈峋宇; 王康羽
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2017-11-20
Filing date: 2018-09-28
Publication date: 2019-05-23
Anticipated expiration: 2020-05-20
Also published as: EP3614260A4; US20200104722A1; US20200104162A1; JP2020522824A; US20200125406A1; KR102569086B1; KR20200087078A; US11113103B2; EP3651020A1; EP3614260A1; US11113104B2; US20200012521A1; JP7074777B2; US11360811B2; US11221877B2

Abstract

本发明提出的一种任务并行处理方法、装置、系统、存储介质及计算机设备，能够根据任务有向无环图DAG进行需执行任务分发与控制，实现多核处理器的任务并行，提高了数据处理效率。

Description

任务并行处理方法、装置、系统、存储介质及计算机设备

相关申请

本申请要求2017年11月20日申请的，申请号为201711157341.X，名称为“任务并行处理方法、存储介质、计算机设备、装置和系统”的中国专利申请的优先权；2017年12月29日申请的，申请号201711484410.8，名称为“指令列表调度方法、装置、计算机设备及存储介质”的中国专利申请的优先权；2018年1月29日申请的，申请号为201810084077.X，名称为“计算机设备、数据处理方法及存储介质”的中国专利申请的优先权；以及2018年1月29日申请的，申请号为201810083577.1，名称为“计算机设备、数据处理方法及存储介质”的中国专利申请的优先权；为在此将其全文引入作为参考。

技术领域

本申请涉及计算机技术领域，特别是涉及一种任务并行处理方法、装置、系统、存储介质及计算机设备。

背景技术

传统技术中，尽管可以通过CUDA(Compute Unified Device Architecture，显卡厂商 NVIDIA推出的运算平台)、Cudnn(CUDA Deep Neural Network library，NVIDIA推出的深度神经网络加速库)、Cublas(CUDA Basic Linear Algebra Subprograms，NVIDIA推出的矩阵运算加速库)等加速器API接口进行编程，实现卷积神经网络的程序指令。但是，通过CUDA、Cudnn、Cublas等加速器API接口编程，实现的卷积神经网络的各指令间无相互依赖关系，只可以顺序执行编程指令。

神经网络实际是一串队列函数，是一种图结构。在实现卷积神经网络的程序指令，会存在任务分支。目前可以应用tensorflow( 谷歌基于DistBelief进行研发的第二代人工智能学习系统)或者Caffe(Convolutional Architecture for Fast Feature Embedding，卷积神经网络框架)等框架应用程序实现卷积神经网络的程序的任务并行，但是，应用上述框架程序实现任务并行，不仅需额外安装软件，而且存在程序接口不兼容的问题，使用不便。

发明内容

基于此，有必要针对由于需借助tensorflow或者Caffe等框架应用程序实现任务并行，造成的使用不便的问题，提供一种任务并行处理方法、存储介质、计算机设备、装置和系统。

本申请提出了一种任务并行处理方法，包括：

根据需执行任务之间的依赖关系，构建任务有向无环图DAG；

根据所述任务有向无环图DAG，将各所述需执行任务分发至处理器的多个工作队列；

根据所述任务有向无环图DAG中各所述需执行任务的依赖关系，调控各所述工作队列中并行的需执行任务开始运行。

在其中一个实施例中，所述根据需执行任务之间的依赖关系，构建任务有向无环图DAG的步骤之前包括：

根据程序中的操作节点和/或数据节点对程序进行拆分，获取所述需执行任务。

在其中一个实施例中，所述根据程序中的操作节点对程序进行拆分，获取所述需执行任务的步骤包括：

若所述程序包括带模型的操作请求，则对所述带模型的操作请求的模型进行拆分和/或对所述模型的输入数据进行拆分，获取需执行任务。

在其中一个实施例中，所述对所述带模型的操作请求的模型进行拆分，获取需执行任务的步骤包括：

设置拆分模型得到的各所述需执行任务对应的权值；

使用各所述权值，设置所述需执行任务的输入数据与输出数据的对应关系。

按照预设规则在模型的窗口方向和/或通道方向上拆分所述带模型的操作的模型，得到需执行任务。

在其中一个实施例中，所述对所述带模型的操作请求的输入数据进行拆分，获取需执行任务的步骤包括：

按照预设规则在数据的窗口方向拆分所述带模型的操作的输入数据，得到需执行任务。

若所述程序包括不带模型的操作请求，则对所述不带模型的操作请求的输入数据和/或输出数据进行拆分，获取需执行任务。

在其中一个实施例中，所述对所述不带模型的操作请求的输入数据和/或输出数据进行拆分，获取需执行任务的在步骤包括：

按照预设规则在数据的窗口方向拆分所述输入数据和/或输出数据，得到需执行任务。

在其中一个实施例中，所述根据需执行任务之间的依赖关系，构建任务有向无环图DAG的步骤包括：

根据获取的各所述需执行任务之间的依赖关系，确定所述任务有向无环图DAG中的并行结点与顺序结点；

根据所述并行结点与顺序结点构建任务有向无环图DAG。

在其中一个实施例中，所述根据所述任务有向无环图DAG将各所述需执行任务分发至所述处理器的多个工作队列的步骤包括：

对所述任务有向无环图DAG进行拓扑排序，获取任务拓扑排序序列；

根据各所述需执行任务的预设执行时间，对得到的所述拓扑排序序列进行排序，得到最长拓扑排序序列；

根据所述最长拓扑排序序列以及各所述需执行任务之间的依赖关系，分发各所述需执行任务至所述工作队列。

在其中一个实施例中，所述根据所述任务有向无环图DAG中各所述需执行任务的依赖关系，调控各所述工作队列中并行的需执行任务开始运行的步骤包括：

根据所述任务有向无环图DAG为各所述需执行任务设置引用计数；

若被依赖的需执行任务已执行，则修改需依赖的需执行任务的引用计数；

当所述需执行任务的引用计数达到预设值，控制各所述工作队列中引用计数达到预设值的需执行任务开始运行。

本申请提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法所提及的步骤。

本申请提出了一种任务并行处理系统，包括存储器、多核处理器，及存储在存储器上并可在处理器上运行的计算机程序，所述多核处理器能够运行拆分算法，所述多核处理器执行所述计算机程序时实现上述方法所提及的步骤。

本申请还提出了一种任务并行处理系统，包括存储器、第一处理器和第二处理器，所述第一处理器能够运行拆分算法，第二处理器为多核处理器，所述第一处理器和第二处理器执行所述计算机程序时实现上述方法所提及的步骤。

相应的，本申请还提出了一种任务并行处理装置，包括：DAG图构建模块、任务分发模块和调度控制模块，

所述DAG图构建模块，用于根据需执行任务之间的依赖关系，构建任务有向无环图DAG；

所述任务分发模块，用于根据所述任务有向无环图DAG，将各所述需执行任务分发至处理器的多个工作队列；

所述调度控制模块，用于根据所述任务有向无环图DAG中各所述需执行任务的依赖关系，调控各所述工作队列中并行的需执行任务开始运行。

与现有技术相比，本申请提供的一种任务并行处理方法、存储介质、计算机设备、装置和系统具有如下有益效果：

本申请提出的一种任务并行处理方法、存储介质、计算机设备、装置和系统，通过根据需执行任务之间的依赖关系，构建任务有向无环图DAG，再根据任务有向无环图DAG进行需执行任务分发与控制，依赖于工作队列的可重新调度性实现多核处理器的任务并行，提高了数据处理效率。本实施例提出的任务并行处理方法的实施不依赖tensorflow或者Caffe等框架程序，因此在设计程序时无需考虑接口兼容等问题。

本申请还提供了一种指令列表调度方法，包括：获取待调度指令列表中的待调度指令集，并对所述待调度指令集进行数据依赖分析，得到所述待调度指令集中各指令之间的数据依赖关系；

根据各指令之间的所述数据依赖关系，得到指令调度过程中每次进行指令选择的所有选择节点；

按照预设规则，根据对应次序的所述选择节点确定调度后指令列表中各次序的指令。

在其中一个实施例中，所述按照预设规则，根据对应次序的所述选择节点确定调度后指令列表中各次序的指令的步骤包括：

访问所述选择节点，并获取当前访问的选择节点对应的最长执行时间；

若当前访问的所述选择节点对应的最长执行时间小于初始执行时间，则将当前访问的选择节点的已排序指令确定为调度后的指令列表中对应次序的指令；

其中，初始执行时间为待调度指令列表中指令序列的执行时间。

在其中一个实施例中，所述方法包括：

若当前访问的选择节点对应的最长执行时间小于初始执行时间，则初始执行时间更新为当前访问的选择节点对应的最长执行时间。

在其中一个实施例中，所述访问所述选择节点，并获取当前访问的选择节点对应的最长执行时间的步骤包括：

在预设访问时间段内访问选择节点，并获取当前访问的选择节点对应的最长执行时间；

若当前访问的选择节点对应的最长执行时间小于初始执行时间，则将当前访问节点对应的已排序指令确定为调度后的指令列表中对应次序的指令；

在其中一个实施例中，若当前访问的选择节点对应的最长执行时间不小于初始执行时间，则将待调度指令表中指令序列作为调度后指令表中的指令序列。

在其中一个实施例中，访问所述选择节点，并获取当前访问的选择节点对应的最长执行时间的步骤包括：

按照随机优先的规则选择所述选择节点进行访问，并获取当前选择访问的选择节点对应的最长执行时间。

按照广度优先的规则选择所述选择节点进行访问，并获取当前选择访问的选择节点对应的最长执行时间。

按照深度优先的规则选择所述选择节点进行访问，并获取当前选择访问的选择节点对应的最长执行时间。

按照广度或随机优先的规则选择小于预设次序的所述选择节点进行访问，得到当前选择访问的选择节点对应的最长执行时间；

按照深度优先的规则选择不小于预设次序的所述选择节点进行访问，得到当前选择访问的选择节点对应的最长执行时间。

获取当前访问的选择节点对应的最短执行时间；

若当前访问的选择节点对应的最短执行时间大于初始执行时间，则终止访问与当前访问的选择节点关联的选择节点；

在其中一个实施例中，按照预设规则，根据对应次序的选择节点中确定调度后指令列表中各次序的指令的步骤包括：

按照指令的预设优先级评估当前次序对应的所有选择节点，得到当前次序的各选择节点的评估结果，并根据所述评估结果确定当前次序对应的指令。

在其中一个实施例中，所述方法包括：根据当前选择节点的具体内容和/或类型设定各指令的优先级。

根据当前次序所有的选择节点对应的最短执行时间的长短，确定当前次序对应的指令。

一种指令调度装置，包括：获取模块、数据依赖分析模块、评估模块，

所述获取模块，用于获取待调度指令列表中的待调度指令集，以及根据各指令之间的数据依赖关系，得到指令调度过程中每次指令选择对应的所有选择节点；

所述数据依赖分析模块，用于对待调度指令集进行数据依赖分析，得到各指令之间的数据依赖关系；

所述评估模块，用于按照预设规则，根据对应次序的选择节点中确定调度后指令列表中各次序的指令。

一种计算机设备，包括存储器、处理器，及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行上述的方法所提及的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现执行上述的方法所提及的步骤。

与传统技术相比，本申请提供的一种指令列表调度方法、装置、计算机设备及存储介质具有如下有益效果：

通过分析待调度指令的数据依赖关系，得到调度过程中每次指令选择对应的所有选择节点，再根据对各次序对应的选择节点的评估结果确定调度后的指令列表中各次序的指令。该方法可以保证每次选择指令时，选择的指令为当前状态的最优结果，使用这些最优结果得到的调度后的指令列表，各个指令之间的排列更加紧凑，便于缩短原指令列表中指令序列的执行时间。

本申请还提供了一种计算机设备，包括第一处理器、第二处理器和存储器，其中，所述存储器内存储有多个原始网络对应的离线模型及输入数据和能够在所述第一处理器上运行的运行时系统；所述运行时系统包括：

数据处理装置，所述数据处理装置用于从所述存储器中获取当前原始网络对应的离线模型及输入数据，所述当前原始网络对应的离线模型中包含原始网络中各个计算节点对应的模型参数、指令以及所述原始网络中的各个计算节点的接口数据；

设备管理装置，所述设备管理装置用于控制所述第二处理器启动或关闭；

任务执行装置，所述任务执行装置用于控制所述第二处理器运行所述当前原始网络的离线模型及输入数据。

在其中一个实施例中，所述数据处理装置包括离线模型加载模块和输入数据加载模块；

所述离线模型加载模块用于从所述存储器中获取各个所述当前原始网络对应的离线模型，并对所述当前原始网络对应的离线模型进行解析；

所述输入数据加载模块用于从所述存储器中获取所述当前原始网络对应的输入数据。

在其中一个实施例中，所述数据处理装置还包括输入数据预处理模块，所述输入数据预处理模块用于对所述输入数据加载模块获取的所述当前原始网络对应的输入数据进行预处理，使所述第二处理器能够运行所述当前原始网络对应的输入数据，并用于将所述第二处理器获得的输出数据存储至所述存储器。

在其中一个实施例中，所述计算机设备还包括能够在所述运行时系统上运行的应用软件；

所述数据处理装置能够提供离线模型API及输入数据API；

所述设备管理装置能够提供第二处理器驱动API；

所述任务执行装置能够提供第二处理器运行API；

所述应用软件能够调用所述离线模型API及输入数据API、所述第二处理器驱动API，以及所述第二处理器运行API。

在其中一个实施例中，所述第二处理器的数量为多个，或所述第二处理器包括多个处理模块；

所述任务执行装置还能够提供任务分配API，所述应用软件还能够调用所述任务分配API，以控制多个所述第二处理器或控制所述第二处理器的多个处理模块。

本申请还提供了一种数据处理方法，用于所述的计算机设备中，所述方法包括如下步骤：

控制数据处理装置从存储器中获取当前原始网络对应的离线模型及输入数据，其中，所述当前原始网络对应的离线模型中包含所述当前原始网络中各个计算节点对应的模型参数、指令以及所述当前原始网络中的各个计算节点的接口数据；

通过设备管理装置控制所述计算机设备的第二处理器启动；

通过任务执行装置控制所述计算机设备的第二处理器根据所述当前原始网络对应的离线模型及输入数据，运行所述当前原始网络，获得所述当前原始网络的输出数据；

控制所述数据处理装置将所述当前原始网络的输出数据存储至所述存储器中。

在其中一个实施例中，所述方法还包括如下步骤：

实时获取所述当前原始网络对应的离线模型的加载进度；

若所述当前原始网络对应的离线模型的加载进度大于或等于第一预设比例，则执行所述的控制所述计算机设备的第二处理器启动的步骤。

在其中一个实施例中，从所述存储器中获取当前原始网络对应的离线模型及输入数据的步骤之前，所述方法还包括如下步骤：

对所述当前原始网络对应的离线模型进行解析及预处理；

对所述当前原始网络对应的输入数据进行预处理。

同时，本申请还提供了一种数据处理方法，用于所述的计算机设备，所述方法包括如下步骤：

调用离线模型API，获取当前原始网络对应的离线模型，所述当前原始网络对应的离线模型中包含所述当前原始网络中各个计算节点对应的模型参数、指令以及所述当前原始网络中的各个计算节点的接口数据；

调用输入数据API，获取所述当前原始网络的输入数据；

调用第二处理器驱动API，控制所述计算机设备中的第二处理器启动；

调用第二处理器运行API，控制所述第二处理器根据所述当前原始网络对应的离线模型及输入数据，获得所述当前原始网络的输出数据；

调用第二处理器驱动API，控制第二处理器关闭。

此外，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被一个或多个处理器执行时，实现上述任一项所述的方法的步骤。

上述的计算机设备、数据处理方法及存储介质，通过数据处理装置可以直接从存储器中获取当前原始网络对应的离线模型及输入数据，从而该计算机设备的第二处理器可以根据其获取的原始网络的离线模型及输入数据运行该当前原始网络，获得当前原始网络的输出数据。由于每个原始网络对应的离线模型中仅包含原始网络中各个计算节点对应的模型参数、指令以及原始网络中各个计算节点的接口数据，因而，原始网络的离线模型的数据量级远远小于该原始网络的数据量级，从而通过在计算机设备上运行该当前原始网络对应的离线模型(轻量级)，可以实现计算机设备对重量级的神经网络数据的处理过程。同时，通过在该计算机设备上直接运行该当前原始网络对应的离线模型，无需对当前原始网络中的各个计算节点进行编译等处理操作，可以提高该计算机设备的处理速度及效率。

本申请还提供了一种计算机设备，包括第一处理器、第二处理器、第一存储器和第二存储器，其中，所述第一存储器内存储有多个原始网络对应的离线模型及输入数据和能够在所述第一处理器上运行的运行时系统，所述第二存储器内存储有能够在所述第一处理器或所述第二处理器上运行的操作系统；

所述运行时系统为基于可信运行环境建立的安全的运行时系统，所述第一存储器为安全存储介质；当所述运行时系统在所述第一处理器上运行时，所述运行时系统能够从所述第一存储器内获取当前原始网络对应的离线模型及输入数据，并控制所述第二处理器运行所述当前原始网络对应的离线模型；

其中，所述当前原始网络对应的离线模型中包含原始网络中各个计算节点对应的模型参数、指令以及所述原始网络中的各个计算节点的接口数据。

在其中一个实施例中，所述运行时系统包括：

数据处理装置，所述数据处理装置能够提供离线模型API及输入数据API，用于从所述第一存储器中获取当前原始网络对应的离线模型及输入数据；

设备管理装置，所述设备管理装置能够提供第二处理器驱动API，用于控制所述第二处理器启动或关闭；

任务执行装置，所述任务执行装置能够提供第二处理器运行API，用于控制所述第二处理器运行所述当前原始网络的离线模型及输入数据。

所述离线模型加载模块能够提供离线模型API，用于从所述第一存储器中获取各个所述当前原始网络对应的离线模型，并对所述当前原始网络对应的离线模型进行解析；

所述输入数据加载模块能够提供输入数据API，用于从所述第一存储器中获取所述当前原始网络对应的输入数据。

在其中一个实施例中，所述数据处理装置还包括输入数据预处理模块，所述输入数据预处理模块能够提供数据预处理API，用于对所述当前原始网络的输入数据进行预处理，使所述第二处理器能够运行所述当前原始网络的输入数据，并用于将所述第二处理器获得的输出数据存储至所述第一存储器。

所述任务执行装置还能够提供任务分配API，用于控制多个所述第二处理器，或控制所述第二处理器的多个处理模块。

在其中一个实施例中，所述计算机设备还包括能够在所述运行时系统上运行的安全的应用软件，且所述应用软件能够调用所述离线模型API及输入数据API、所述第二处理器驱动API，以及所述第二处理器运行API。

在其中一个实施例中，所述第一存储器和所述第二存储器在物理上相互独立设置；

或者，所述第一存储器和所述第二存储器集成为一体，且所述第一存储器和所述第二存储器在逻辑上相互独立设置。

从第一存储器中获取当前原始网络对应的离线模型及输入数据，所述当前原始网络对应的离线模型中包含所述当前原始网络中各个计算节点对应的模型参数、指令以及所述当前原始网络中的各个计算节点的接口数据；

控制所述计算机设备的第二处理器启动；

控制所述计算机设备的第二处理器根据所述当前原始网络对应的离线模型及输入数据，运行所述当前原始网络，获得所述当前原始网络的输出数据；

将所述当前原始网络的输出数据存储至所述第一存储器中。

本申请还提供了一种数据处理方法，用于所述的计算机设备，所述方法包括如下步骤：

调用离线模型API，从第一存储器中获取当前原始网络对应的离线模型，所述当前原始网络对应的离线模型中包含所述当前原始网络中各个计算节点对应的模型参数、指令以及所述当前原始网络中的各个计算节点的接口数据；

调用输入数据API，获取所述当前原始网络的输入数据；

调用第二处理器驱动API，控制第二处理器关闭。

在其中一个实施例中，所述方法还包括如下步骤：

调用数据预处理API，将所述当前原始网络的输出数据存储至所述第一存储器中。

在其中一个实施例中，在所述的调用输入数据API，获取所述当前原始网络的输入数据的步骤之后，所述方法还包括如下步骤：

调用数据预处理API，对获取的所述当前原始网络的输入数据进行预处理，使所述第二处理器能够运行所述输入数据。

此外，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被一个或多个处理器执行时，实现上述任一项中所述的方法的步骤。

上述的计算机设备、数据处理方法及存储介质，通过运行时系统的数据处理装置可以直接从第一存储器中获取当前原始网络对应的离线模型及输入数据，从而计算机设备的第二处理器根据其获取的原始网络的离线模型及输入数据运行该当前原始网络。由于当前原始网络的离线模型中仅仅存储了当前原始网络中各个计算节点对应的模型参数、指令以及当前原始网络中的各个计算节点的接口数据等必要的网络结构信息。因而该当前原始网络的离线模型的数据量级远远小于该当前原始网络的数据量级，从而通过运行当前原始网络的离线模型，能够实现在基于TEE等可信执行环境建立的安全的运行时系统对神经网络等重量级数据的处理过程，拓展了神经网络的应用范围。同时，通过在该计算机设备上直接运行该原始网络对应的离线模型，无需对原始网络中的各个计算节点进行编译等处理操作，可以提高该计算机设备的处理速度及效率。

附图说明

图1为一个实施例中提出的一种任务并行处理系统的结构示意图；

图2为一个实施例中提出的一种任务并行处理系统的结构示意图；

图3为一个实施例中提出的一种任务并行处理方法的步骤流程图；

图4为一个实施例中提出的对不带模型的操作请求的输入数据和输出数据进行拆分的示意图；

图5为一个实施例中提出的神经网络模型的卷积操作(conv)的输入输出示意图；

图6为一个实施例中提出的对conv模型进行拆分的示意图；

图7为一个实施例中提出的一种任务并行处理方法的步骤流程图；

图8为一个实施例中构建的任务有向无环图DAG；

图9为一个实施例中的需执行任务分发结果示意图；

图10为一个实施例中提出的一种任务并行处理方法的步骤流程图；

图11为一个实施例中构建的任务有向无环图DAG；

图12为一个实施例中的需执行任务分发结果示意图；

图13为一个实施例中提出的一种任务并行处理装置的结构示意图；

图14为一个实施例中提出计算机系统的结构示意图；

图15为一个实施例中一种指令列表调度方法的步骤流程图；

图16为一个实施例中得到的待调度指令的数据依赖关系图；

图17为一个实施例中得到的选择节点的关联图；

图18为一个实施例中提出的指令列表调度装置的结构示意图；

图19为一个实施例中提出的一种计算机设备的内部结构图；

图20为一实施例中计算机设备的结构框图；

图21为图20中第一处理器一实施例的结构框图；

图22为图20中运行时系统一实施例的结构框图；

图23为图20中运行时系统另一实施例的结构框图；

图24为图20中计算机设备一实施例的数据处理方法的流程图；

图25为图20中计算机设备另一实施例的数据处理方法的流程图；

图26为一实施例的离线模型生成方法的流程图；

图27为另一实施例的离线模型生成方法的流程图；

图28为一实施例的神经网络的网络结构图；

图29为图28中神经网络的离线模型生成过程示意图；

图30为另一实施例中计算机设备的结构框图；

图31为图30中计算机设备一实施例的数据处理方法的流程图；

图32为图30中计算机设备另一实施例的数据处理方法的流程图。

具体实施方式

为了使本申请的申请目的、技术方案及技术效果更加清楚明白，以下结合附图对本申请的具体实施例进行描述。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。应当清楚是，本实施例中的“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。

图1示出的为本申请实施例提出一种任务并行处理系统600(为了便于区分，下文称第一任务并行处理系统)的结构示意图。所述处理器系统包括：处理器620和存储器610，存储器610上存储有处理器620可执行的指令；处理器620包括多个处理器核，各处理器核可以通过内总线进行通信，执行不同的任务。处理器620的处理器核可以运行拆分算法。

图2示出的为本申请实施例提出另一种任务并行处理系统700(为了便于区分，下文称第二任务并行处理系统)的结构示意图，该任务并行处理系统包括第一处理器710、第二处理器720和存储器730。存储器730上存储有第一处理器710和/或第二处理器720可执行的指令。第一处理器710的处理器核需具备运行拆分算法的能力；第二处理器720可以不具备运行拆分算法的能力。第一处理器710与第二处理器720各自的处理器核通过内总线进行通信，执行不同任务。第一处理器710与第二处理器720通过总线通信，协同工作。作为一种可选的实施方式，第一处理器710可以为多核处理器，也可以为单核处理器。第二处理器720可以为多核处理器。

如图3为本申请提出的一种任务并行处理方法的步骤流程图。该方法能够应用于图1或图2所示的任务并行处理系统，下述步骤可以以指令的形式存储于上述任务并行处理系统的存储器上，该任务并行处理方法可以包括：

步骤S301：根据需执行任务之间的依赖关系，构建任务有向无环图DAG。

本实施例中的有向无环图DAG是为了表示需执行任务之间的驱动依赖关系。DAG(Directed Acyclic Graph，有向无环图)是有向图的一种，常被用来表示事件之间的驱动依赖关系，管理任务之间的调度。基于DAG的这些特性，因此，可以使用DAG来描述获取的需执行任务之间的逻辑关系。

需执行任务之间的依赖关系是指：某些需执行任务的执行需要依赖于其他执行任务的执行结果。例如：读取A指令，需要依赖于写入A指令这一操作。

作为一种可选的实施方式，需执行任务可由第一任务并行处理系统600中处理器620的处理器核运行预设的拆分算法，拆分需执行的程序得到。

作为一种可选的实施方式，需执行任务可由第二任务并行处理系统700中第一处理器710的处理器核运行预设的拆分算法，拆分需执行的程序得到。

本实施步骤S301可以由第一任务并行处理系统600中处理器620的处理器核执行，或者第二任务并行处理系统700中第一处理器的处理器核执行。

步骤S302：根据所述任务有向无环图DAG，将各所述需执行任务分发至所述处理器的多个工作队列。

第一任务并行处理系统600中处理器的处理器核，或者第二任务并行处理系统700中处理器核都可以包括一个或多个工作队列。

工作队列(work queue)是将任务推后执行的一种机制，可以按序运行放入的待需执行任务。工作队列中的各需执行任务的运行由一个内核线程控制，因此可以通过处理器系统中的中断控制机制调整工作队列的控制线程实现任务重新调度甚至睡眠。

在将需执行任务分发至工作队列时，尽可能的将可并行的任务分发至不同的工作队列以减少程序的运行时间。任务有向无环图DAG中并行结点关联的下游需执行任务一般为可并行的需执行任务，因此，可以根据构建的任务有向无环图DAG，进行需执行任务的分发。

需要说明的是，本实施步骤S302可以由第一任务并行处理系统600中的任一处理器核执行，也可以由第二任务并行处理系统700中的任一处理器核执行。

步骤S303：根据所述任务有向无环图DAG中各所述需执行任务的依赖关系，调控各所述工作队列中并行的需执行任务开始运行。

由于各工作队列独立运行，当某工作队列中存在需依赖与其他工作队列中的需执行任务的输出结果时，若不对需执行任务进行调度会出现执行错误。因此，为了保证程序输出正确结果，需根据任务有向无环图DAG中各所述需执行任务的依赖关系对各工作队列中的各需执行任务进行调度，控制各需执行任务的运行。

需要说明的是，本实施步骤可以由第一任务并行处理系统600中的任一处理器核执行，也可以由第二任务并行处理系统700中的任一处理器核执行。本实施例提出的一种任务并行处理方法，通过根据需执行任务之间的依赖关系，构建任务有向无环图DAG，再根据任务有向无环图DAG进行需执行任务分发与控制，依赖于工作队列的可重新调度性实现多核处理器的任务并行，提高了数据处理效率。本实施例提出的任务并行处理方法的实施不依赖tensorflow或者Caffe等框架程序，因此在设计程序时无需考虑接口兼容等问题。

在其中一个实施例中，根据需执行任务之间的依赖关系，构建任务有向无环图DAG的步骤之前包括：

根据程序中的操作节点和/或数据节点对程序进行拆分，获取所述需执行任务。执行程序中包含多个操作请求(如：conv，pool，active，add等)，各操作请求之间存在操作节点。因此，可以根据操作节点拆分程序获取需执行任务。

在某些执行程序中，可能包含操作请求均需顺序执行。在这种情形下，可以考虑在执行程序的数据层面(代码层面)，也可以根据程序中的数据节点进行拆分，增加任务的并行可能性。

本实施步骤需由第一任务并行处理系统600中处理器620的处理器核，或者第二任务并行处理系统700中第一处理器710的处理器核运行预设的拆分算法，根据程序中的操作节点和/或数据节点对须执行程序进行拆分得到需执行任务。

需要说明的是，在对执行程序进行拆分时，可以仅根据操作节点对执行程序进行拆分，也可以直接在数据层面根据数据节点进行拆分，还可以将二者结合。尽管将执行程序拆分的越细致，任务并行的可能性也越高，但是这也会增加任务并行时的调控难度。因此，在选择对执行程序的拆分时需根据实际需求选择拆分方式，本申请对此不作限定。

在其中一个实施例中，第一任务并行处理系统600中处理器620的处理器核，或者第二任务并行处理系统700中第一处理器710的处理器核对根据程序中的操作节点对程序进行拆分时，包括两种情形：1)程序中包括模型的操作请求；2)程序中不包括带模型的操作请求。

情形一：当所述程序中包括不带模型的操作请求(如pool，batchnorm，Lrn，active，add等)时，根据程序中的操作节点对程序进行拆分，获取所述需执行任务的步骤包括：

对所述不带模型的操作请求的输入数据和/或输出数据进行拆分，获取需执行任务。

当不带模型的操作请求的输入数据和/或输出数据进行拆分时，可以按照预设规则在数据的窗口方向(height width方向，hw方向)拆分所述输入数据和/或输出数据，得到需执行任务。

如图4示出的为在数据的窗口方向上，对不带模型的操作请求的输入数据和输出数据进行拆分的示意图。此次拆分的预设规则为，在窗口所在的平面上均分输入数据和输出数据。

设定输出数据Y＝输入数据X，其中，X＝x1+x2+x3+x4；Y＝y1+y2+y3+y4。

需要说明的是，在数据的窗口方向上均分输入数据和输出数据得到需执行的任务，仅是本实施例提出的一种在数据的窗口方向上拆分输入数据和输出数据的具体形式，实际情形中，还可以以非均分的形式在数据的窗口方向上拆分数据，或者以不同的均分方式在数据的窗口方向上拆分数据，只要可以按照一定的规则将输入数据和输出数据拆分开，即可实现本步骤的目的，具体如何拆分，本申请不做限定。

还需要说明的是，本申请提出在数据的窗口方向上拆分输入数据和输出数据旨在获取多个需执行任务，只要输入数据和输出数据进行拆分即可达到本步骤的目的。因此，对不带模型的操作请求进行拆分得到需执行任务时，可以仅对输入数据进行拆分，也可以仅对输出数据进行拆分，还可以既拆分输入数据又拆分输出数据，上述情形均可以达到本步骤的实施目的，具体如何拆分可根据具体操作以及实际需求灵活选择。

情形二：当所述程序包括带模型的操作请求(如conv，mlp等)时，根据程序中的操作节点对程序进行拆分，获取所述需执行任务的步骤包括：

对所述带模型的操作请求的模型进行拆分和/或对所述模型的输入数据进行拆分，获取需执行任务。

当对所述带模型的操作请求的模型进行拆分时，需预先设置拆分模型得到的各所述需执行任务对应的权值；再使用各所述权值，设置所述需执行任务的输入数据与输出数据的对应关系。

对所述带模型的操作请求的模型进行拆分时，可以按照预设规则在模型的窗口方向(height width方向，hw方向)上拆分所述带模型的操作的模型，得到需执行任务；也可以在模型的通道方向(channel方向，C方向)上拆分所述带模型的操作的模型，得到需执行任务；还可以将二者进行结合。

此外，也可以在hw平面上拆分带模型的操作的输入数据，得到需执行任务。

图5示出的神经网络模型的卷积操作(conv)的输入输出示意图。图6示出的为在通道方向上，对conv模型进行拆分的示意图。

设定conv模型依照：输出数据Y＝输入数据X，进行输入输出。则将mlp(Multi-Layer Perceptron，多层感知器)任务在模型的C方向上分成3个子任务。输入数据X拆分成x1，x2，x3，对应的输出数据为y1，y2，y3。

由于神经网络自身特殊结构，拆分后的输入数据除进行处理外还需乘以相应的权值Si，以获取对应的输出数据为y1，y2，y3，其中，i为X拆分数。即：y1＝x1*S1+x2*S2+x3*S3；y2＝x1*S4+x2*S5+x3*S6；y3＝x1*S7+x2*S8+x3*S9。最后通过运算处理y1、y2、y3即可得到输出数据Y。

在hw平面上拆分带模型的操作的输入数据方式与不带模型的操作请求在hw平面上拆分输入数据类似，在此不做详述。

需要说明的是，对带模型的操作请求进行拆分时，既可以仅在模型C方向上拆分，也可以仅在模型hw平面上拆分，还可以同时模型的C方向上和模型hw平面上拆分。虽然多种拆分方式可以增加任务的并行可能性，在理论上减少程序的运行时间，但是其实现难度也会相应加大，此外，实际应用中，运行拆分后的需执行任务，实际运行时间也会稍大于理论运行时间，因此，如何拆分带模型的操作请求还需根据实际场景进行选择，本申请对此不作限定。

使用上述两个情形提供的对获取需执行任务的方法得到的需执行任务的并行可能性高，构建任务有向无环图DAG中并行结点更加丰富，进而使得需执行程序的运行更加高效。

在其中一个实施例中，第一任务并行处理系统600或第二任务并行处理系统700的处理器核，按照获取的所述需执行任务之间的依赖关系，构建任务有向无环图DAG，包括：

按照获取的各需执行任务之间的依赖关系，确定所述任务有向无环图DAG中的并行结点与顺序结点；

根据所述并行结点与顺序结点构建任务有向无环图DAG。

获取的需执行任务之间可能存在依赖关系，也可能无依赖关系。当两需执行任务之间无依赖关系时，两需执行任务一般为可并行任务；当两需执行任务之间存在依赖关系时，两需执行任务一般为串行任务。因此可以根据各需执行任务之间的依赖关系确定任务有向无环图DAG中的并行结点与顺序结点，根据确定的不同类型的节点将各任务填充至任务有向无环图DAG的相应位置，完成任务有向无环图DAG的构建。

需要说明的是，当需要对需执行的程序进行拆分得到需执行任务时，需要保证任务并行处理系统中至少包含一个可以运行拆分算法的处理器，用于拆分程序获取需执行任务。

在其中一个实施例中，第一任务并行处理系统600或第二任务并行处理系统700的处理器核，根据所述任务有向无环图DAG将各所述需执行任务分发至所述处理器的多个工作队列，包括：

步骤S2021：对任务有向无环图DAG进行拓扑排序，获取任务拓扑排序序列。

步骤S2022：根据各所述需执行任务的预设执行时间，对得到的所述拓扑排序序列进行排序，得到最长拓扑排序序列。

步骤S2023：根据所述最长拓扑排序序列以及各所述需执行任务之间的依赖关系，分发各所述需执行任务至所述工作队列。

本实施例中，处理器核进行任务分发时，可以将任务分发至具有运行拆分算法的处理器核的工作队列，例如，将任务分发至第一任务并行处理器系统600中处理器620的处理器核的工作队列；也可以将任务分发至不具有运行拆分算法能力的处理器核的工作队列，例如第二任务并行处理系统700中第二处理器720的处理器核的工作队列。只要保证处理器核能够执行被分发的任务，就可以保证可以以并行的方式运行需执行的程序，运行需执行任务处理器核是否具有运行拆分算法的能力，此时不会影响程序的执行，因此，本申请对此不做限定。

本实施例根据任务拓扑排序序列的最长路径进行需执行任务分发，可以优化程序的执行时间，即理论上执行最长拓扑排序序列中任务的时间即为程序执行时间，这样可以保证需执行程序以最短的时间执行完毕。

在其中一个实施例中，第一任务并行处理系统600或第二任务并行处理系统700的处理器核，根据所述任务有向无环图DAG中各所述需执行任务的依赖关系，调控各所述工作队列中并行的需执行任务的运行，包括：

步骤S3031：根据所述任务有向无环图DAG为各所述需执行任务设置引用计数。

步骤S3032：若被依赖的需执行任务已执行，则修改依赖的需执行任务的引用计数；

步骤S3033：当所述需执行任务的引用计数达到预设值，控制各所述工作队列中引用计数达到预设值的需执行任务运行。

图7示出的为一种任务并行处理方法的步骤流程图。该方法包括：

步骤S701：根据需执行程序中的操作节点对执行程序进行拆分，获取需执行任务A3，B2，C2，D4，E5，F1，并根据需执行任务A3，B2，C2，D4，E5，F1之间的依赖关系构建任务如图8所示的任务有向无环图DAG。

步骤S702：根据图8所示的任务有向无环图DAG，将需执行任务A3，B2，C2，D4，E5，F1分发至所述工作队列1，工作队列2，工作队列3。分发结果如图9所示。

步骤S703：根据任务有向无环图DAG为需执行任务A3，B2，C2，D4，E5设置引用计数，并根据设置的引用计数控制A3，B2，C2，D4，E5，F1的运行。

本实施例中设定当引用计数为0时，工作队列中需执行任务开始运行。如需执行任务A3的引用计数为0，需执行任务A3被放入工作队列可以直接执行；需执行任务E5需依赖需执行任务B2和需执行任务C2的执行结果，因此将需执行任务E5的引用计数设置为2。当需执行任务B2执行完毕，将需执行任务E5的引用计数调整为1，当需执行任务C2执行完毕，再将需执行任务E5的引用计数调整为0，引用计数为0时，引用计数E5可以开始执行，同理控制需执行任务F1的运行，最终运行完成需执行程序。

图10示出了一种任务并行处理方法的步骤流程图。该方法包括：

步骤S6001：获取下述需执行程序中的数据节点，对需执行程序进行拆分，获取需执行任务，并根据需执行任务之间的依赖关系构建任务如图11所示的任务有向无环图DAG。

B＝conv(A)；

C＝pool(B)；

D＝active(B)；

E＝add(C，D)。

其中，A，B，C，D，E为数据节点，conv，pool，active，add为操作节点。

本实施例的中的任务有向无环图DAG中数据E的获得依赖对数据C和数据D的处理结果，数据C和数据D的获得依赖对数据B的处理结果，而数据B的获得依赖对数据A的处理结果。

步骤S6002：根据图11所述的任务有向无环图DAG，将各需执行任务分发至工作队列1’和工作队列2’。分发结果如图12所示。

步骤S6003：根据任务有向无环图DAG为需执行任务设置引用计数，并根据设置的引用计数控制各需执行任务的运行。

本实施例设定引用计数的值为0时，工作队列中的需执行任务开始运行，否则不运行。当被引用的任务被执行后，任务的引用计数会减1，直至减为0，该任务才可被执行。初始设定，需执行任务B＝conv(A)的引用计数为0；需执行任务C＝pool(B)的引用计数为1；需执行任务D＝active(B)的引用计数为1；需执行任务E＝add(C，D)的引用计数为2。当需执行任务B＝conv(A)运行完毕，需执行任务C＝pool(B)和需执行任务D＝active(B)的引用计数均减小1，变为0，此时需执行任务C＝pool(B)和需执行任务D＝active(B)开始运行。同理，当运行任务C＝pool(B)和运行任务D＝active(B)运行完毕后，运行任务E＝add(C，D)的引用计数变为0，此时需执行任务E开始运行，需执行任务E运行完毕即需执行程序运行完毕。

基于同样的申请思想，本申请提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例所提及方法的步骤。

基于同样的申请构思，本申请提出了一种任务并行处理装置，该装置结构如图13所示，包括：DAG图构建模块410、任务分发模块420和调度控制模块430。其中，DAG图构建模块410用于根据需执行任务之间的依赖关系，构建任务有向无环图DAG；任务分发模块420用于根据所述任务有向无环图DAG，将各所述需执行任务分发至处理器的多个工作队列；调度控制模块430用于根据所述任务有向无环图DAG中各所述需执行任务的依赖关系，调控各所述工作队列中并行的需执行任务开始运行。

在其中一个实施例中，DAG图构建模块410用于根据程序中的操作节点和/或数据节点对程序进行拆分，获取所述需执行任务。

在其中一个实施例中，DAG图构建模块410用于若所述程序中包括带模型的操作请求，则对所述带模型的操作请求的模型进行拆分和/或对所述模型的输入数据进行拆分，获取需执行任务。

在其中一个实施例中，DAG图构建模块410用于若所述程序包括不带模型的操作请求，则对所述不带模型的操作请求的输入数据和/或输出数据进行拆分，获取需执行任务。

在其中一个实施例中，所述DAG图构建模块410用于按照获取的需执行任务之间的依赖关系，确定所述任务有向无环图DAG中的并行结点与顺序结点；根据所述并行结点与顺序结点构建任务有向无环图DAG。

在其中一个实施例中，任务分发模块420用于对所述任务有向无环图DAG进行拓扑排序，获取任务拓扑排序序列；根据各所述需执行任务的预设执行时间，对得到的所述拓扑排序序列进行排序，得到最长拓扑排序序列；根据所述最长拓扑排序序列以及各所述需执行任务之间的依赖关系，分发各所述需执行任务至所述工作队列。

在其中一个实施例中，调度控制模块430用于根据所述任务有向无环图DAG为各所述需执行任务设置引用计数；若被依赖的需执行任务已执行，则修改需依赖的需执行任务的引用计数；当所述需执行任务的引用计数达到预设值，控制各所述工作队列中引用计数达到预设值的需执行任务开始运行。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)运行本申请各个实施场景的方法。

在上述处理系统的第一任务并行处理系统中处理器，或者第二任务并行处理系统中第一处理器的处理器核可以根据对应的指令列表并行处理不同的指令，提高该计算机系统的处理效率。但是，上述计算机系统处理系统中各个处理器核对应的指令列表中的指令顺序可能并不合理，例如没有使指令列表中的指令尽可能的并行，这样可能无法提升处理系统的处理效率，或者提升效率的效果不佳。因此，如何提供一种指令列表调度方法、装置、计算机设备及存储介质，进行指令列表中指令顺序调整，使指令列表中各个指令之间的排列更加紧凑，缩短指令列表的执行时间便成为亟需解决的技术问题。

如图14所示，为其中一实施例的计算机系统300可以为多核处理器计算机系统(Multi-core processor Computing System)、异构计算机系统(Heterogeneous Computing System)等包含有多个处理器的多处理器计算机系统(Multi-processor Computing System)。可选地，该计算机系统具体可以包括指令列表调度装置310、多个第一处理器320以及存储器330，多个第一处理器320可以同时连接至指令列表调度装置310，指令列表调度装置310可以用于多个第一处理器320的指令列表重新调度。可选地，该指令列表调度装置310也可以包括第二处理器。可选地，该第二处理器可以包括获取模块、数据依赖分析模块、评估模块、运算模块及控制模块等等，其中，该获取模块可以是IO(Input输入/Output输出)接口等硬件模块，运算模块及控制模块均为硬件模块。

多个第一处理器320可以根据指令列表并行处理不同的指令，以提高该计算机系统的处理效率。可选的，指令列表中可以包含一条或多条指令，每一条指令包含了一组对资源的引用操作，通过对指令的读取或运行，可以获知该指令的引用的资源。即当第一处理器等执行该指令时，可以调用该指令引用的资源，以实现特定的操作。例如，该指令可以是加载指令(Load)、计算指令(computing)或存储指令(store)等等，当然该指令也可以是神经网络的N层计算，N>0，N可以为整数，也可以为非整数。

进一步地，该指令列表中的各个指令按照执行顺序排列，该指令列表中各个指令引用的资源可以是虚拟内存对象，也可以是物理内存对象。该虚拟内存对象可以是内存区块、寄存器或其他能够存储数据的存储装置在软件逻辑上的虚拟存储空间。本实施例中的指令调度过程即是在保证原指令列表语义不变的前提下，对指令列表中的指令重新排序的过程，这可以使得该指令列表中各个指令之间的排列更加紧凑，以便于缩短指令列表的执行时间，提高系统的处理效率。

例如，指令列表中包含N条指令，其中，N≥1，N为正整数，且N条指令按照执行时序标记为第一条指令、第二条指令，……，第N条指令。对该指令列表的调度过程即为重新对上述N条指令进行排序的过程。

具体地，在对指令列表进行调度时，指令列表调度装置310可以首先获得待调度的指令列表中各指令的数据依赖关系。可选的，该数据依赖关系的形式可以包括RAW(Read After Write，读后写)/WAR(Write After Read，写后读)/WAW(Write After Write，写后写)。可选的，该数据依赖关系可以用数据依赖图DDG(Data Dependence Graph，数据依赖图)描述。进一步的，指令列表调度装置310的第二处理器可以通过其获取模块获取待调度的指令列表，通过其数据依赖分析模块对待调度的指令列表中的指令进行数据依赖分析，得到上述指令之间的数据依赖关系。具体的，数据依赖分析模块可以对待调度的指令列表中的各指令进行资源扫描追踪，进而分析各指令之间的数据依赖关系。本实施例中指令之间的数据依赖是指当前指令的执行是否需要依赖其他指令的执行结果。简单举例来讲，若存在指令A“读取写入的指令B所写入的数据”，那么该指令A依赖于指令B的执行结果。之后，获取模块可以根据得到各指令之间的数据依赖关系，获取指令调度过程中每次进行指令选择的所有选择节点。

之后，指令列表调度装置可以通过评估模块按照预设规则，从对应次序的所有选择节点中确定调度后指令列表中各次序的指令。可选的，第二处理器可以通过其评估模块评估当前次序对应的选择节点，得到当前次序的各选择节点的评估结果，根据评估结果确定当前次序对应的指令。每一选择节点记载该选择节点对应的已排序指令和待调度指令集。可选的，评估模块按照各指令的优先级评估当前次序对应的选择节点。可选的，第二处理器还可以根据当前选择节点的具体内容和/或类型设定指令的优先级。

可选的，指令列表调度装置310在进行指令调度时，可以调整待调度的指令列表中指令对应的第一处理器。例如，该待调度指令对应的第一处理器可以根据指令的类型确定，或该待调度指令的具体内容确定对应的第一处理器。

图15为本申请一实施例的指令列表调度方法的步骤流程图，该指令列表调度方法可以应用于图14所示的计算机系统中。上述计算机系统可以包含存储器330及多个第一处理器320。该指令列表调度方法用以实现上述计算机系统中多个第一处理器对应的指令列表中指令的重新调度，以提高计算机的处理效率。具体地，上述方法可以包括如下步骤：

步骤S100：获取待调度指令列表中的待调度指令集，并对待调度指令集进行数据依赖分析，得到所述待调度指令集中各指令之间的数据依赖关系。

具体的，第二处理器可以通过其获取模块获取待调度指令列表的待调度指令集，通过数据依赖分析模块得到上述指令的数据依赖关系。本实施例中的待调度指令集由待调度指令列表中的多条待调度指令组成。可选的，待调度指令集中不包含待调度指令列表中的无语义指令(例如同步指令等)。进一步的，获取模块获取待调度指令列表的待调度指令集的步骤包括：获取待调度指令列表，删除待调度指令列表中无语义指令，得到待调度指令集。

例如，获取模块获取的待调度指令集中包含六条指令{L1、L2、C1、C2、S1、S2}。其中，L1、C1、S1需顺序执行，L2、C2、S2需顺序执行，其余指令无数据依赖关系。L1、L2、S1、S2为I/O指令，C1、C2为计算指令。数据依赖分析模块对上述待调度指令进行数据依赖赖分析，得到待调度指令集中各指令之间的数据依赖关系，使用如图16所示的DDG(Data Dependence Graph，数据依赖图)描述上述数据依赖关系。

上述待调度指令列表中各个待调度指令引用的资源可以是虚拟内存对象，也可以为物理内存对象。该虚拟内存对象可以是内存区块、寄存器或其他能够存储数据的存储装置在软件逻辑上的虚拟存储空间。

步骤S200：根据各指令之间的所述数据依赖关系，得到指令调度过程中每次进行指令选择的所有选择节点。

每个选择节点记载与该选择节点对应的已排序指令和待调度指令集。可选的，得到所有选择的过程可以为：第二处理器通过其获取模块首选获取第一次指令选择时的所有第一选择节点，具体的为，获取各第一选择节点对应的已排序指令和待调度指令集。应当清楚的是这些待调度指令集中各指令存在数据依赖关系。之后第二处理器通过其获取模块根据每个第一选择节点的数据依赖关系，获取每个第一选择节点关联的所有第二选择节点，第二选择节点与第二次指令选择对应。循环上述步骤，得到第三选择节点，……，第N选择节点，N≥3，N为正整数。上述步骤中获取的第一选择节点，……，第N选择节点的总和组成每次进行指令选择的所有选择节点。

例如，获取的待调度指令列表中的待调度指令集共包含六条指令：{L1、L2、C1、C2、S1、S2}，用图3表示这六条指令之间的数据依赖关系。由图16可知清楚的得知上述待调度指令集中的六条指令L1、L2可不依赖其他指令的执行，因此，在进行第一次指令选择时，需从L1、L2中选择，即获取的第一选择节点对应选择指令L1或L2的两种情形。当第一次指令选择时选择L1时，L1为已排序指令，此时第一选择节点记载已排序指令L1，以及删除指令L1的待调度指令集{L2、C1、C2、S1、S2}。同理，得到当第一次指令选择时选择L2时，得到的另一个第一选择节点，该第一选择节点记载已排序指令L2，以及删除指令L2的待调度指令集{L1、C1、C2、S1、S2}。循环上述过程可以得到第二次指令选择时的第二选择节点，……，第六次指令选择时的第六选择节点。

本实施步骤每次进行指令选择时，都需要依照前一指令选择得到的待调度指令指令集，例如图3对应的待调度指令集，当第一次指令选择时选择的指令为L1时(对应其中一个第一选择节点)，得到的待调度指令集{L2、C1、C2、S1、S2}，该第一选择节点的调度指令集中指令L2，C1可不依赖其他指令的执行，此时，在进行第二次指令选择时，需从L2，C1中选择(对应存在两个第二选择节点)；当第一次指令选择时选择的指令为L2时(对应另一个第一选择节点)，得到的待调度指令集{L1、C1、C2、S1、S2}，该第一选择节点的调度指令集中指令L1，C2可不依赖其他指令的执行，此时，在进行第二次指令选择时，需从L1，C2中选择(也对应存在两个第二选择节点)。由此可知，本实施例得到的所有的选择节点之间存在关联，这种各选择节点关联可以用图17来表示。

步骤S300：按照预设规则，根据对应次序的选择节点确定调度后指令列表中各次序的指令。可选的，第二处理器可以通过其评估模块对当前次序对应的选择节点进行评估，得当前次序的各选择节点的评估结果，根据评估结果确定当前次序对应的指令。例如，当前次序为第二指令，此时对应图17中第二选择节点，按照预设规则评估图17中的四个第二选择节点，根据评估结果得到调度的指令列表中第二指令。可选的，评估模块按照各指令的预设优先级评估当前次序对应的选择节点(例如L2的优先级最高，C1次之……)，得到评估结果。可选的，第二处理器根据当前选择节点的具体内容和/或类型设定各指令的优先级。

可选的，评估模块可以根据当前次序的所有选择节点对应的最短执行时间的长短，确定当前次序对应的指令。例如，图17中指令L1对应的第一选择节点，其对应的指令序列的最短执行时间为t ₁，指令L2对应的第一选择节点，对应的指令序列的最短执行时间为t ₂，t ₁＞t ₂，则将L2确定为调度后的指令列表中的第一指令。同理确定调度后的指令列表的第二指令，……，第六指令。

本实施例提出的指令列表调度方法，通过分析待调度指令的数据依赖关系，得到指令调度过程中每次进行指令选择的所有选择节点，再根据对各次序对应的选择节点的评估结果确定调度后的指令列表中各次序的指令。该方法可以保证每次选择指令时，选择的指令为当前状态的最优结果，使用这些最优结果得到的调度后的指令列表，各个指令之间的排列更加紧凑，便于缩短原指令列表中指令序列的执行时间。

作为一种可选的实施方式，评估模块按照预设规则，根据对应次序的选择节点中确定调度后指令列表中各次序的指令的步骤包括：

步骤S210：评估模块访问所述选择节点，并获取当前访问的选择节点对应的最长执行时间。评估模块访问的选择节点可以是第一选择节点、第二选择节点，……，第N选择节点。

步骤S220：若当前访问的选择节点对应的最长执行时间小于初始执行时间T ₀，则将当前访问节点的已排序指令确定为调度后的指令列表中对应的指令。其中，初始执行时间为待调度指令列表中指令序列的执行时间。

本实施步骤中当前访问的选择节点对应的最长执行时间是指，当前访问节点对应的指令序列的排列最不合理时的执行时间。例如，图17中左侧第一个第二选择节点对应的最长执行时间为T ₁＝t ₁+t ₂+t ₃+t ₄+t ₅，其中，t ₁为已排序指令L1-L2 的执行时间，t ₂为指令C1的执行时间；t ₃为指令S1的执行时间，t ₄为指令C2的执行时间，t ₅为指令S2的执行时间，这是该选择节点对应的未排序指令C1、C2、S1、S2完全没有并行，排序最不合理时情形。若T ₁＜T ₀，则分别将L1、L2作为调度后的指令列表中的第一指令和第二指令。

由于在当前访问的选择节点对应的最长执行时间小于初始执行时间时，因此本实施例中提出的指令列表调度方法得到的指令序列的执行时间不会大于待调度指令列表中的指令序列。

由于本实施例的评估模块访问按照预设规则访问的选择节点，不在仅根据当前次序的选择节点调度指令列表中的指令，可以避免确定的当前次序的指令对后续指令选择的影响。尤其适于调度包含计算量大的指令的指令列表，可选的，包含神经网络运算指令的指令列表。例如，指令列表中包含N条指令，该N条指令中包含一个权值加载指令A，和一个神经网络卷积层计算指令B，若使用传统方法，可能无法使该指令A和指令B并行，使系统达到最高处理效率，本实施例的指令列表调度方案可以实现在调度后的指令列表中指令A和指令B并行。

在其中一个实施例中，上述方法还可以包括：若当前访问的选择节点对应的最长执行时间小于初始执行时间，则初始执行时间更新为当前访问的选择节点对应的最长执行时间。例如，上述实施例中，当T ₁＜T ₀时，分别将L1、L2作为调度后的指令列表中的第一指令和第二指令，同时将T ₁更新为初始执行时间。

应当清楚的是，在当前访问的选择节点对应的最长执行时间小于初始执行时间时，将当前访问节点对应的已排序指令确定为调度后的指令列表中对应次序的指令，已经可以保证得到的调度后指令列表中的指令序列的执行时间更短。上述更新初始执行时间的方案是为了进一步优化指令的排序，提高系统的处理效率。

作为一种可选的实施方式，评估模块访问所述选择节点，并获取当前访问的选择节点对应的最长执行时间的步骤包括：

在预设访问时间段内访问选择节点，得到预设访问时间段内每个选择节点对应的最长执行时间。本实施例需结合上述实施例提出的方法确定调度后指令列表的各次序的指令。

由于指令列表中一般存在多条待调度指令，根据这些待调度指令得到的选择节点的数量庞大，在实际操作时，难以有充足的时间遍历所有的选择节点，本申请提出的指令列表调度方法，旨在通过重新排列指令列表中的指令，进一步缩短指令列表的执行时间。基于此，只要通过本申请提出的指令列表调度方法得到的新的指令列表缩短了执行时间即实现本申请的目的。因此，在实际运用本申请提出的指令列表调度方法进行指令重新排序时，一般会根据实际需求，设定访问时间段，控制指令的调度时间。

作为一种可选的实施方式，若当前访问的选择节点对应的最长执行时间不小于初始执行时间，则将待调度指令表中指令序列作为调度后指令表中的指令序列。

本实施例在当前访问的选择节点对应的最长执行时间不小于初始执行时间，将待调度指令表中指令序列作为调度后指令表中的指令序列是对上述实施例提出的指令列表调度方法的优化。可以保证得到的调度后指令列表中的指令序列是，在预设时间段内得到的最优结果。

作为一种可选的实施方式，访问所述选择节点，并获取当前访问的选择节点对应的最长执行时间的步骤：

步骤S230：评估模块获取当前访问的选择节点对应的最短执行时间。

步骤S240：若当前访问的选择节点对应的最短执行时间大于初始执行时间T ₀，则终止访问与当前访问的选择节点关联的选择节点。例如，指令L2对应的第二选择节点的最短执行时间为T ₂，T ₂对应该选择节点对应的未排序指令C1、C2、S1、S2完美并行，排序最合理时情形。若T ₂＞T ₀，则终止访问与该第二选择节点关联的第三选择节点，以及与这些第三选择节点关联的第四选择节点，……，第六选择节点。

由于评估模块每访问一个选择节点均会消耗时间，本实施例的技术方案可以排除对选择节点的无效访问，提高指令列表的调度效率。

作为一种可选的实施方式，评估模块访问所述选择节点，并获取当前选择访问的选择节点对应的最长执行时间的步骤包括：评估模块按照随机优先(例如蒙特卡洛树搜索，MCTS，Monte Carlo Tree Search)的选择所述选择节点进行访问，并获取当前选择访问的选择节点对应的最长执行时间。

作为一种可选的实施方式，评估模块访问所述选择节点，并获取当前访问的选择节点对应的最长执行时间的步骤包括：评估模块按照广度优先(BFS，Breadth First Search)的规则选择所述选择节点进行访问，并获取当前选择访问的选择节点对应的最长执行时间。具体的，本实施例中的广度优先是指优先选择与当前访问的选择节点同一次序的选择节点进行访问。例如当前访问的是第二选择节点，则下一个访问的选择节点优先选择其他的第二选择节点。

作为一种可选的实施方式，评估模块访问所述选择节点，并获取当前访问的选择节点对应的最长执行时间的步骤包括：评估模块按照深度优先(BFS，Depth First Search)的规则选择所述选择节点进行访问，并获取当前选择访问的选择节点对应的最长执行时间。具体的，本实施例中的深度优先是指优先选择当前访问的选择节点关联的下一次序的选择节点进行访问。例如当前访问的是第二选择节点，则下一个访问的选择节点优先选择与该第二选择节点关联的第三选择节点。

可选的，评估模块还可以采用随机优选结合深度优先的规则选择所述选择节点进行访问，或者采用广度优先结合深度优先的规则选择所述选择节点进行访问。具体的，按照广度或随机优先的规则选择小于预设次序的所述选择节点进行访问，得到当前选择访问的选择节点对应的最长执行时间；按照深度优先的规则选择不小于预设次序的所述选择节点进行访问，得到当前选择访问的选择节点对应的最长执行时间。可选的，上述对应次序的预设值根据经验值确定，或者根据预实验结果确定。

在设置访问时间段进行指令列表调度时，指令列表调度装置的评估模块没有足够的时间遍历所有的选择节点，此时，若单一采用深度优先或者广度优先的原则选择所述选择节点进行访问时，最终访问的选择节点的涉及范围可能比较片面(例如仅访问某一选择节点关联的选择节点，或者仅访问了前几次序的选择节点)，而仅采用随机优选的原则选择所述选择节点进行访问时最终访问的选择节点的随机性又太强，因此优选采用上述随机优选结合深度优先的规则选择所述选择节点进行访问，或者采用广度优先结合深度优先的规则选择所述选择节点进行访问的方案。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示显示，但是这些步骤并不是必然按照箭头指示的顺序执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图18示出的为在其中一个实施例中提出的指令列表调度装置结构示意图，该装置包括获取模块510、数据依赖分析模块520及评估模块530，其中，所述获取模块510用于获取待调度指令列表中的待调度指令集，以及根据各指令之间的数据依赖关系，得到指令调度过程中每次进行指令选择的所有选择节点。所述数据依赖分析模块520用于对待调度指令集进行数据依赖分析，得到所述待调度指令集中各指令之间的数据依赖关系。所述评估模块530用于按照预设规则，根据对应次序的选择节点中确定调度后指令列表中各次序的指令。

在其中一个实施例中，所述评估模块530访问所述选择节点，并获取当前访问的选择节点对应的最长执行时间；若当前访问的所述选择节点对应的最长执行时间小于初始执行时间，则将当前访问的选择节点的已排序指令确定为调度后的指令列表中对应次序的指令；其中，初始执行时间为待调度指令列表中指令序列的执行时间。

在其中一个实施例中，所述指令调度装置还包括更新模块，所述更新模块，用于当前访问的选择节点对应的最长执行时间小于初始执行时间，则初始执行时间更新为当前访问的选择节点对应的最长执行时间。

在其中一个实施例中，所述评估模块530用于在预设访问时间段内访问选择节点，并获取当前访问的选择节点对应的最长执行时间；若当前访问的选择节点对应的最长执行时间小于初始执行时间，则将当前访问节点对应的已排序指令确定为调度后的指令列表中对应次序的指令；其中，初始执行时间为待调度指令列表中指令序列的执行时间。

在其中一个实施例中，所述评估模块530用于当前访问的选择节点对应的最长执行时间不小于初始执行时间时，则将待调度指令表中指令序列作为调度后指令表中的指令序列。

在其中一个实施例中，所述评估模块530用于按照随机优先的规则选择所述选择节点进行访问，并获取当前选择访问的选择节点对应的最长执行时间。

在其中一个实施例中，所述评估模块530用于按照广度优先的规则选择所述选择节点进行访问，并获取当前选择访问的选择节点对应的最长执行时间。

在其中一个实施例中，所述评估模块530用于按照深度优先的规则选择所述选择节点进行访问，并获取当前选择访问的选择节点对应的最长执行时间。

在其中一个实施例中，所述评估模块530用于按照广度或随机优先的规则选择小于预设次序的所述选择节点进行访问，得到当前选择访问的选择节点对应的最长执行时间；按照深度优先的规则选择不小于预设次序的所述选择节点进行访问，得到当前选择访问的选择节点对应的最长执行时间。

在其中一个实施例中，所述评估模块530用于获取当前访问的选择节点对应的最短执行时间；若当前访问的选择节点对应的最短执行时间大于初始执行时间，则终止访问与当前访问的选择节点关联选择节点；其中，初始执行时间为待调度指令列表中指令序列的执行时间。

在其中一个实施例中，所述评估模块530用于按照指令的预设优先级评估当前次序对应的所有选择节点，得到当前次序的各选择节点的评估结果，并根据所述评估结果确定当前次序对应的指令。

在其中一个实施例中，所述评估模块530用于根据当前选择节点的具体内容和/或类型设定各指令的优先级。

在其中一个实施例中，所述评估模块530用于根据当前次序所有的选择节点对应的最短执行时间的长短，确定当前次序对应的指令。

关于指令列表调度装置的具体限定可以参见上文中对于指令列表调度方法的限定，在此不再赘述。上述指令列表调度装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图19所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述实施例提及的验证激励的生成方法和/或芯片验证方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图19中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取待调度指令列表中的待调度指令集，并对待调度指令集进行数据依赖分析，得到各指令之间的数据依赖关系；根据各指令之间的所述数据依赖关系，得到指令调度过程中每次进行指令选择的所有选择节点；按照预设规则，根据对应次序的选择节点确定调度后指令列表中各次序的指令。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：访问所述选择节点，并获取当前访问的选择节点对应的最长执行时间；若当前访问的选择节点对应的最长执行时间小于初始执行时间，则将当前访问节点的已排序指令确定为调度后的指令列表中对应次序的指令；其中，初始执行时间为待调度指令列表中指令序列的执行时间。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：若当前访问的选择节点对应的最长执行时间小于初始执行时间，则初始执行时间更新为当前访问的选择节点对应的最长执行时间。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：若当前访问的选择节点对应的最长执行时间小于初始执行时间，则基于当前访问节点对应的已排序指令随机生成指令序列，并使用所述随机生成的指令序列将所述待调度指令列表的指令序列更新。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在预设访问时间段内访问选择节点，并获取当前访问的选择节点对应的最长执行时间；若当前访问的选择节点对应的最长执行时间小于初始执行时间，则将当前访问节点对应的已排序指令确定为调度后的指令列表中对应次序的指令；其中，初始执行时间为待调度指令列表中指令序列的执行时间。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：按照广度优先的规则选择所述选择节点进行访问，并获取当前选择访问的选择节点对应的最长执行时间。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：按照随机优先的规则选择所述选择节点进行访问，并获取当前选择访问的选择节点对应的最长执行时间。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：按照广度或随机优先的规则选择小于预设次序的所述选择节点进行访问，得到当前选择访问的选择节点对应的最长执行时间；按照深度优先的规则选择不小于预设次序的所述选择节点进行访问，得到当前选择访问的选择节点对应的最长执行时间。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取当前访问的选择节点对应的最短执行时间；若当前访问的选择节点对应的最短执行时间大于初始执行时间，则终止访问与当前访问的选择节点关联的选择节点；其中，初始执行时间为待调度指令列表中指令序列的执行时间。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：按照指令的预设优先级评估当前次序对应的所有选择节点，得到当前次序的各选择节点的评估结果，并根据所述评估结果确定当前次序对应的指令。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据当前选择节点的具体内容和/或类型设定各指令的优先级。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据当前次序所有的选择节点对应的最短执行时间的长短，确定当前次序对应的指令。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待调度指令列表中的待调度指令集，并对待调度指令集进行数据依赖分析，得到各指令之间的数据依赖关系；根据各指令之间的所述数据依赖关系，得到指令调度过程中每次进行指令选择的所有选择节点；按照预设规则，根据对应次序的选择节点确定调度后指令列表中各次序的指令。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：访问所述选择节点，并获取当前访问的选择节点对应的最长执行时间；若当前访问的选择节点对应的最长执行时间小于初始执行时间，则将当前访问节点的已排序指令确定为调度后的指令列表中对应次序的指令；其中，初始执行时间为待调度指令列表中指令序列的执行时间。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：若当前访问的选择节点对应的最长执行时间小于初始执行时间，则初始执行时间更新为当前访问的选择节点对应的最长执行时间。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：在预设访问时间段内访问选择节点，并获取当前访问的选择节点对应的最长执行时间；若当前访问的选择节点对应的最长执行时间小于初始执行时间，则将当前访问节点对应的已排序指令确定为调度后的指令列表中对应次序的指令；其中，初始执行时间为待调度指令列表中指令序列的执行时间。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：若当前访问的选择节点对应的最长执行时间不小于初始执行时间，则将待调度指令表中指令序列作为调度后指令表中的指令序列。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：按照随机优先的规则选择所述选择节点进行访问，并获取当前选择访问的选择节点对应的最长执行时间。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：按照深度优先的规则选择所述选择节点进行访问，并获取当前选择访问的选择节点对应的最长执行时间。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：按照广度优先的规则选择所述选择节点进行访问，并获取当前选择访问的选择节点对应的最长执行时间。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：按照广度或随机优先的规则选择小于预设次序的所述选择节点进行访问，得到当前选择访问的选择节点对应的最长执行时间；按照深度优先的规则选择不小于预设次序的所述选择节点进行访问，得到当前选择访问的选择节点对应的最长执行时间。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取当前访问的选择节点对应的最短执行时间；若当前访问的选择节点对应的最短执行时间大于初始执行时间，则终止访问与当前访问的选择节点关联的选择节点；其中，初始执行时间为待调度指令列表中指令序列的执行时间。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：按照指令的预设优先级评估当前次序对应的所有选择节点，得到当前次序的各选择节点的评估结果，并根据所述评估结果确定当前次序对应的指令。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据当前选择节点的具体内容和/或类型设定各指令的优先级。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据当前次序所有的选择节点对应的最短执行时间的长短，确定当前次序对应的指令。

一般地，处理器在运行神经网络模型时，如运行Caffe网络模型时，每次均需要对该神经网络模型中的各个计算节点分别进行编译、解析，之后，按照该神经网络模型的结构形式按照一定的形式执行各个计算节点。其中，神经网络模型以及网络结构可以是已训练好或未训练好的人工神经网络模型数据。上述对神经网络的处理方法会影响处理器的处理速度，处理效率较低。

本申请实施例中还提供了一种离线模型的生成方法，该离线模型的生成方法可以在云端服务器或神经网络专用处理器上运行，并将其获得的原始网络的离线模型存储至存储器130中。该云端服务器或神经网络专用处理器为能够执行神经网络等重量级数据的处理器，其可以不包含于上述的计算机设备中。具体地，如图26所示，在上述步骤S110之前，上述方法包括如下步骤：

S010、获取原始网络的模型数据集及模型结构参数，具体地，可以通过云端服务器或神经网络专用处理器的获取模块获取原始网络的模型数据集及模型结构参数，通过该原始网络的模型数据集及模型结构参数可以获得该原始网络的网络结构图。其中，模型数据集包括原始网络中各个计算节点对应的模型参数等数据，图28所示的神经网络中的W1～W6即用于表示计算节点的模型参数。模型结构参数包括原始网络中多个计算节点的连接关系及各个计算节点的计算属性，其中，计算节点之间的连接关系用于表示计算节点之间是否有数据传递，例如，当多个计算节点之间具有数据流的传递时，则可以说明多个计算节点之间具有连接关系。进一步地，计算节点的连接关系可以包括输入关系和输出关系等等。如图28所示，计算节点F1输出作为计算节点F4和F5的输入，则可以说明计算节点F1和计算节点F4之间具有连接关系，计算节点F1和计算节点F4之间具有连接关系。再如，计算节点F1和计算节点F2之间没有数据传递，则可以说明计算节点F1和计算节点F2之间不存在连接关系。

各个计算节点的计算属性可以包括相应计算节点的计算类型及计算参数，其中计算节点的计算类型是指该计算节点用于完成何种计算，如计算节点的计算类型可以包括加法运算、减法运算及卷积运算等等，相应的，该计算节点可以是用于实现加法运算的计算节点、用于实现减法运算的计算节点或用于实现卷积运算的计算节点等等。计算节点的计算参数可以是完成该计算节点对应的计算类型所需的必要参数。例如，计算节点的计算类型可以是用于实现加法运算的计算节点，相应的，该计算节点的计算参数可以为加法运算中的加数，该加法运算中的被加数可以作为输入数据通过获取模块获取，或者，该加法运算中的被加数可以是该计算节点的上一计算节点的输出数据等等。

可选地，该原始网络可以为基于TensorFlow、MXNet、Caffe和PyTorch等深度学习系统，针对CPU、GPU或DSP等通用处理器建立的人工神经网络。该原始网络还可以是针对IPU等智能处理器建立的人工神经网络。例如，当该原始网络为基于Caffe建立的神经网络时，则可以获取该Caffe网络的模型数据集(caffemodel)及模型结构参数(prototxt)。其中，模型数据集(caffemodel)中包含该Caffe网络的模型参数等数据，模型结构参数(prototxt)中包含该Caffe网络的各个计算节点的计算属性以及多个计算节点之间的连接关系等。

S101、根据原始网络的模型数据集和模型结构参数运行原始网络，获得原始网络中各个计算节点对应的指令。具体地，云端服务器或神经网络专用处理器的运算模块可以根据原始网络的模型数据集和模型结构参数运行该原始网络，并获得原始网络中各个计算节点对应的指令。进一步地，云端服务器或神经网络专用处理器的获取模块还可以获取该原始网络的输入数据，云端服务器或神经网络专用处理器的运算模块可以根据原始网络的输入数据、网络模型数据集和模型结构参数运行原始网络，获得该原始网络中各个计算节点对应的指令。更进一步地，上述运行该原始网络获得各个计算节点的指令的过程实质上是编译的过程，该编译过程可以通过云端服务器或神经网络专用处理器或虚拟设备实现。即云端服务器或神经网络专用处理器或虚拟设备根据原始网络的模型数据集和模型结构参数运行原始网络。其中，虚拟设备指的是在存储器的内存空间中虚拟出一段处理器运行空间。

应当清楚的是，本实施例中的运行原始网络是指，云端服务器或神经网络专用处理器使用人工神经网络模型数据运行某种机器学习算法(如神经网络算法)，通过执行前向运算实现算法的目标应用(如语音识别等人工智能应用)。

S103、根据原始网络的各个计算节点对应的模型参数及指令，生成原始网络对应的离线模型，并将所述原始网络对应的离线模型存储至非易失性存储器中。具体地，云端服务器或神经网络专用处理器的控制模块可以根据原始网络的各个计算节点对应的模型参数和指令，生成该原始网络对应的离线模型，例如，该云端服务器或神经网络专用处理器控制模块可以将原始网络的各个计算节点对应的模型参数和指令存储至非易失性的第二存储器中，以实现离线模型的生成及存储。其中，针对原始网络的每个计算节点，该计算节点的模型参数及指令一一对应进行存储。这样，当再次运行该原始网络时，可以直接从非易失性存储器中获取该原始网络对应的离线模型，并根据与其对应的离线模型运行原始网络，无需在线对该原始网络的各个计算节点进行编译获得指令，提高了系统的运行速度及效率。

应当清楚的是，本实施例中，直接运行该原始网络对应的离线模型是指，使用离线模型运行该原始网络对应的机器学习算法(如神经网络算法)，通过执行前向运算实现算法的目标应用(如语音识别等人工智能应用)。

可选地，如图27所示，上述步骤S102可以包括：

S104、根据原始网络的模型结构参数，获得原始网络中各个计算节点的执行顺序。具体地，云端服务器或神经网络专用处理器的运算模块可以根据原始网络的模型结构参数，获得原始网络中各个计算节点的执行顺序，进一步地，云端服务器或神经网络专用处理器的运算模块可以根据原始网络中各个计算节点的连接关系，获得原始网络中各个计算节点的执行顺序。例如，如图28所示，计算节点F4的输入数据为计算节点F1的输出数据以及计算节点F2的输出数据，计算节点F6的输入数据为计算节点F4的输出数据以及计算节点F5的输出数据。因此，图28所示的神经网络中各个计算节点的执行顺序可以为F1-F2-F3-F4-F5-F6或F1-F3-F2-F5-F4-F6等等。当然，计算节点F1、F2和F3可以并行执行，计算节点F4和F5也可以并行执行，此处仅举例说明，并不具体限定其执行顺序。

S105、按照原始网络中各个计算节点的执行顺序运行原始网络，分别获得原始网络中各个计算节点对应的指令。具体地，云端服务器或神经网络专用处理器的运算模块可以根据原始网络中各个计算节点的执行顺序运行该原始网络，以获得原始网络中各个计算节点对应的指令，即云端服务器或神经网络专用处理器可以将原始网络的模型数据集等数据进行编译获得各个计算节点对应的指令，通过各个计算节点对应的指令可以获知该计算节点用于实现何种计算功能，即可以获得该计算节点的计算类型及计算参数等计算属性。

进一步地，如图27所示，上述步骤S103还包括：

S106、根据原始网络的模型数据集和模型结构参数，获得原始网络的内存分配方式。具体地，云端服务器或神经网络专用处理器的运算模块可以根据原始网络的模型数据集和模型结构参数，获得原始网络的内存分配方式。进一步地，云端服务器或神经网络专用处理器可以根据原始网络的模型结构参数，获得原始网络中各个计算节点的执行顺序，并根据原始网络中各个计算节点的执行顺序确定当前网络的内存分配方式。例如，按各个计算节点的执行顺序将各个计算节点在运行过程中的相关数据保存至一个栈内。其中，内存分配方式是指确定原始网络中各个计算节点相关的数据(包括输入数据、输出数据、模型参数及中间结果数据等等)在内存空间(如第一存储器)上的存储位置。例如，可以采用数据表存储各个计算节点相关的数据(输入数据、输出数据、模型参数及中间结果数据等等)和内存空间的映射关系。

S107、根据原始网络的内存分配方式，将原始网络运行过程中的相关数据存储至第一存储器中，其中，原始网络运行过程中的相关数据包括原始网络的各个计算节点对应的模型参数、指令、输入数据、中间计算结果及输出数据等等。例如，如图28所示，X1和X2表示该神经网络的输入数据，Y表示该神经网络的输出数据，云端服务器或神经网络专用处理器可以将该神经网络的输出数据转换为控制机器人或不同数字接口的控制命令。W1～W6用于表示计算节点F1、F2和F3对应的模型参数，计算节点F1～F5的输出数据可以作为中间计算结果。云端服务器或神经网络专用处理器可以根据已确定的内存分配方式，将原始网络运行过程中的相关数据存储至第一存储器，如内存储器或缓存等易失性存储器，其具体的存储方式可参见图29中左半部分存储空间。

S108、从第一存储器中获取原始网络的各个计算节点对应的模型参数及指令，并将原始网络的各个计算节点对应的模型参数及指令存储于第二存储器中，生成离线模型。其中，第二存储器可以为外部存储器等非易失性存储器。该离线模型的生成过程具体可参见图29所示，图29中右半部分的存储空间内存储的即为原始网络的对应的离线模型。

如图28和图29所示，下面结合附图说明上述的离线模型生成过程：

首先，云端服务器或神经网络专用处理器可以获得该原始网络的模型数据集、模型结构参数以及输入数据，从而根据该原始网络的模型数据集和模型结构参数可以获得该原始网络的网络结构图，如图9所示。

其次，云端服务器或神经网络专用处理器可以根据原始网络的模型结构参数，获得原始网络各个计算节点的连接关系，并根据各个计算节点的连接关系获得原始网络中各个计算节点的执行顺序，以及原始网络在运行过程中的内存分配方式，从而可以获得原始网络在运行过程中相关数据的存储位置。如图29中左半部分存储空间所示，原始网络在运行过程中的相关数据可以按照各个计算节点执行顺序存储在一个栈中。

最后，云端服务器或神经网络专用处理器可以将原始网络的各个计算节点对应的模型参数及指令存储于非易失性的第二存储器中，生成离线模型，该离线模型的存储方式可参见图29中右半部分存储空间所示。并且，该离线模型仅仅包含运行该原始网络所必需的模型参数及指令等数据，而不需对原始网络运行过程中的输入数据、输出数据或中间计算结果等进行存储，从而可以减小第二存储器中的存储空间的消耗。

传统技术中，人工神经网络作为一种重量级的数据，其是由大量的节点(或称为神经元)之间相互连接构成。传统的计算机设备直接读取神经网络，并按照该神经网络的结构形式按照一定的方式依次执行该神经网络的各个计算节点，获得该神经网络的计算结果。即传统的计算设备直接对重量级的神经网络进行数据处理，这将影响计算机设备的数据处理速度及效率。并且，基于人工神经网络数据的特点，在某些只能处理轻量级数据的运行环境中，该人工神经网络数据将无法运行，这将限制神经网络的应用范围。

如图20所示，本申请一实施例提供了一种计算机设备，该计算机设备100可以包括硬件系统和软件系统，其中，硬件系统可以包括第一处理器110、第二处理器120和存储器130。如图21所示，该第一处理器110用于提供计算和控制能力，其可以包括第一获取模块111、第一运算模块113及第一控制模块112等等，该第一获取模块111可以是IO(Input输入/Output输出)接口等硬件模块，第一运算模块113及第一控制模块112均为硬件模块。例如，第一运算模块113及第一控制模块112可以为数字电路或模拟电路等等。上述硬件电路的物理实现包括但不限于物理器件，物理器件包括但不限于晶体管及忆阻器等等。该第二处理器120也可以用于提供计算和控制能力，其可以包括第二获取模块、第二运算模块及第二控制模块等等，该第二获取模块可以是IO(Input输入/Output输出)接口等硬件模块，第二运算模块及第二控制模块均为硬件模块。第二处理器120的各个结构的连接关系及构成可以与第一处理器中各个结构的连接关系及构成相同，具体可参见上文中的描述，此处不再赘述。可选地，第一处理器或第二处理器可以为CPU(Central Processing Unit，中央处理器)、GPU(Graphics Processing Unit，图形处理器)、DSP(Digital Signal Processing，数字信号处理)等通用处理器或IPU(Intelligence Processing Unit,智能处理器)等神经网络专用处理器。

如图20所示，存储器130用于存储有多个原始网络对应的离线模型及输入数据以及该计算机设备的软件系统。该计算机设备的软件系统可以包括操作系统、计算机程序、应用软件及运行时系统131等能够在第一处理器110或第二处理器120上运行的软件。进一步地，该存储器130还可以用于存储各个原始网络的输出数据(即各个原始网络的计算结果)。更进一步地，该存储器130可以包括用于存储离线模型的第一存储模块、用于存储输入数据的第二存储模块、用于存储输出数据的第三存储模块以及用于存储运行时系统的第四存储模块。或者，存储器130的数量可以为两个以上，例如，存储器130的数量可以为两个，分别标记为第一存储器和第二存储器，其中，第一存储器用于存储原始网络对应的离线模型和输入数据，第二存储器用于存储运行时系统。可选地，该存储器130可以是非易失性存储器，如只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。

应当清楚的是，运行时是指一个程序在运行(或被执行)的状态，运行时表明了在某个时间段内，哪个程序正在程序。运行时系统是指进程级别的虚拟机，其用于表示一种程序的运行环境。具体地，运行时系统可以是通过计算机软件建立的一种软件系统，该软件系统可以在CPU(Central Processing Unit，中央处理器)、GPU(Graphics Processing Unit，图形处理器)、DSP(Digital Signal Processing，数字信号处理)或IPU(Intelligence Processing Unit,智能处理器)等处理器上运行，以实现特定的数据数据处理功能。本申请实施例中的运行时系统不同于计算机设备的操作系统，该计算机设备的软件系统可以同时包含上述的运行时系统和操作系统。

如图22所示，本申请实施例中的运行时系统131能够在第一处理器110上运行，该运行时系统131可以包括数据处理装置1310、设备管理装置1314及任务执行装置1315，数据处理装置1310及设备管理装置1314均可以连接至任务执行装置1315。具体地，当第一处理器110运行该运行时系统131时，运行时系统131能够控制第二处理器120运行神经网络等重量级数据，即运行时系统131能够控制第二处理器120根据神经网络的离线模型及输入数据进行计算，获得神经网络的输出数据。其中，数据处理装置1310用于从存储器130中获取当前原始网络对应的离线模型及其输入数据，当前原始网络的离线模型和当前网络的输入数据相对应设置。可选地，当前原始网络对应的离线模型中包含当前原始网络中各个计算节点对应的模型参数、指令以及当前原始网络中的各个计算节点的接口数据等必要的网络结构信息。由于当前原始网络的离线模型中未包含当前原始网络中各个计算节点的中间计算结果、输入数据及输出数据等相关数据，因此，该当前原始网络的离线模型的数据量级远远小于当前原始网络的数据量级，即可以认为该当前原始网络的离线模型为轻量级数据。

具体地，每个计算节点对应的指令可以用于表明该计算节点用于执行何种计算功能，其具体可以包括该原始网络中各个计算节点的计算属性。该当前原始网络的节点接口数据用于表示当前原始网络的各个计算节点的连接关系。具体地，当前原始网络的节点接口数据可以包括各个计算节点的输入数据来源和输出数据来源。例如，如图28所示，X1和X2为当前原始网络对应的输入数据，Y为当前原始网络对应的输出数据，W1～W6分别为当前原始网络中计算节点F1～F3对应的模型参数。当前原始网络的节点接口数据可以包括计算节点F1、F2和F3为起始计算节点，其输入分别为预设的输入数据，计算节点F1的输出数据作为计算节点F4和计算节点F5的输入数据等等。这样，在再次运行该原始网络时，只需获得该当前原始网络的离线模型和输入数据，即可通过运行该当前原始网络对应的离线模型实现该当前原始网络的运行过程。

设备管理装置1314作为第二处理器120的驱动装置，其可以用于控制第二处理器120启动或关闭。其中，当第二处理器120关闭时，第二处理器120不执行任何的任务，当第二处理器120启动时，第二处理器120可以执行计算或控制等任务。本申请实施例中，第二处理器120可以是神经网络加速器，其用于执行当前原始网络的离线模型。任务执行装置1315用于控制第二处理器120运行数据处理装置1310获取的当前原始网络的离线模型及输入数据，以获得当前原始网络的输出数据(即神经网络的计算结果)。应当清楚的是，运行原始网络对应的离线模型是指，使用离线模型运行该原始网络对应的机器学习算法(如神经网络算法)，通过执行前向运算实现算法的目标应用(如语音识别等人工智能应用)。

具体地，当需要在该计算机设备100上运行神经网络等重量级数据时，可以在第一处理器110上运行上述的运行时系统131，以通过该运行时系统131控制第二处理器120运行该神经网络等数据。即，当需要在该计算机设备100上运行神经网络等重量级数据时，可以首先通过数据处理装置1310从存储器130中获取当前原始网络对应的离线模型及输入数据。当完成当前原始网络对应的离线模型及输入数据的加载后，设备管理装置1314可以控制第二处理器120启动。之后，任务执行装置1315可以控制第二处理器120运行当前原始网络的离线模型及输入数据，以实现该当前原始网络的运行过程，获得该当前原始网络的计算结果。

本申请实施例中，由于当前原始网络的离线模型中仅仅存储了当前原始网络中各个计算节点对应的模型参数、指令以及当前原始网络中的各个计算节点的接口数据等必要的网络结构信息。因而该当前原始网络的离线模型的数据量级远远小于该当前原始网络的数据量级，从而通过运行当前原始网络的离线模型，使得计算机设备可以实现对神经网络等重量级数据的处理过程，拓展了神经网络的应用范围。同时，通过在该计算机设备上直接运行该原始网络对应的离线模型，无需对原始网络中的各个计算节点进行编译等处理操作，可以提高该计算机设备的处理速度及效率。

可选地，如图22所示，数据处理装置1310包括离线模型加载模块1311和输入数据加载模块1312。其中，离线模型加载模块1311用于从存储器130中获取当前原始网络对应的离线模型，并对其获取的当前原始网络的离线模型进行解析，以获得当前原始网络中各个计算节点对应的模型参数、指令以及当前原始网络中各个计算节点的接口数据。进一步地，离线模型加载模块1311对当前原始网络的离线模型进行解析的过程，还可以包括对当前原始网络对应的离线模型进行数据预处理(如数据格式转换、归一等预处理)的过程，以便第二处理器120能够执行该当前原始网络的离线模型。

输入数据加载模块1312用于从存储器130中获取输入数据，该输入数据可以是原始网络的起始计算节点对应的输入数据。如图28所示，X1和X2作为原始网络的起始计算节点的输入数据。进一步地，该输入数据可以通过应用软件获得，并存储于存储器130中。该应用软件可以在第一处理器或第二处理器上运行，例如，用户可以通过应用软件的交互界面设置当前原始网络的输入数据，运行时系统可以将该获取的当前原始网络的输入数据存储于存储器130中。

本申请实施例中，离线模型加载模块1311还可以用于实时获取离线模型的加载进度，输入数据加载模块1312还可以用于实时获取输入数据的加载进度。例如，当离线模型加载模块1311完成当前原始网络对应的离线模型的加载(例如，离线模型的数据加载比例为100％)，且输入数据加载模块1312完成当前原始网络对应的输入数据的加载之后(例如，输入数据的加载比例为100％)，离线模型加载模块1311和输入数据加载模块1312可以向设备管理装置1314发送数据加载完成信号，从而设备管理装置1314可以根据其接收到的数据加载完成信号控制第二处理器120启动。当第二处理器120启动后，设备管理装置1314可以向任务执行装置1315发送启动完成信号，任务执行装置1315可以根据其接收到的启动完成信号，控制第二处理器120运行当前原始网络的离线模型。

在其他实施例中，可以提前控制第二处理器启动，以便进一步提高计算机设备的数据处理速度及效率。并且，由于离线模型的数据量级大于输入数据的数据量级，离线模型的所需的加载时间可能大于输入数据的加载时间，因此，若离线模型加载模块1311已完成的数据加载比例大于或等于第一预设比例(如80％)，时，即可向设备管理装置1314发送加载完成信号，以提前启动第二处理器120。进一步地，若离线模型加载模块1311已完成的数据加载比例大于或等于第一预设比例(如80％)，且输入数据加载模块1312已完成的数据加载比例大于或等于第二预设比例(如80％)，则离线模型加载模块1311和输入数据加载模块1312可以向设备管理装置1314发送数据加载完成信号，从而设备管理装置1314可以根据其接收到的数据加载完成信号控制第二处理器120启动。

可选地，如图23所示，数据处理装置1310还可以包括输入数据预处理模块1313，输入数据预处理模块1313用于对输入数据进行预处理(如数据格式转换、归一化等预处理)，以使第二处理器120能够运行输入数据。此时，输入数据加载模块1312完成输入数据的记载后，输入数据加载模块1312可以向输入数据预处理模块1313发送输入数据加载完成信号，输入数据预处理模块1313可以向根据其接收到的输入数据加载完成信号，对当前原始网络对应的输入数据进行归一化、格式转换等数据预处理操作。设备管理装置1314可以根据其接收到的离线模型加载模块1311传送的离线模型加载完成信号，以及输入数据预处理模型1314传送的预处理完成信号，控制第二处理器120启动。

同时，输入数据预处理模块1313还用于将第二处理器120获得的输出数据存储至存储器130，具体地，当第二处理器120完成当前原始网络的离线模型及输入数据的执行过程之后，该第二处理器120可以将当前原始网络的输出数据(即计算结果)传送至输入数据预处理模块1313，输入数据预处理模块1313可以对当前原始网络的输出数据进行数据格式转换等预处理，之后可以将该当前原始网络的输出数据存储至存储器130中。

在一个实施例中，该计算机设备100的软件系统还包括应用软件和操作系统(如安卓操作系统、微软操作系统、Linux操作系统等)，应用软件能够在操作系统或上述的运行时系统上运行，操作系统及上述的运行时系统为各种应用软件提供了可执行环境。具体地，操作系统和应用软件也可以存储于存储器130中，该操作系统可以在第一处理器110或第二处理器120上运行。

该运行时系统131的各个装置可以提供应用软件能够调用的安全API(Application Programming Interface，应用软件接口)，从而使得应用软件能够通过运行时系统131获取当前原始网络的离线模型及输入数据，并控制第二处理器120运行上述当前原始网络的离线模型，获得当前原始网络的输出数据。具体地，数据处理装置1310能够提供离线模型API及输入数据API，进一步地，离线模型加载模块1311能够提供离线模型API，输入数据加载模块1312能够提供输入数据API。当需要运行神经网络等重量级数据时，应用软件可以调用该数据处理装置1310的离线模型API，从而使得离线模型加载模块1311可以从存储器130中获取该当前原始网络对应的离线模型。当完成当前原始网络对应的离线模型的加载后，应用软件可以调用数据处理装置1310的输入数据API，从而可以使得输入数据加载模块1312可以从存储器130中获取当前原始网络对应的输入数据。进一步地，该当前原始网络的输入数据可以通过应用软件获得。例如，用户可以通过应用软件的交互显示界面手动设置当前原始网络对应的输入数据。当然，在其他实施例中，应用软件还可以同时调用上述的离线模型API和输入数据API，从而可以同时对当前原始网络的离线模型和输入数据进行加载，此处仅用于举例说明，并不用于对其具体地执行顺序进行限定。

进一步地，数据处理装置1310的输入数据预处理模块1313还能够提供数据预处理API。当完成当前原始网络的输入数据加载后，应用软件可以调用数据预处理API，从而使得数据预处理模块1313能够对当前原始网络的输入数据进行预处理，使得第二处理器能够运行上述的当前原始网络的输入数据。

设备管理装置1314能够提供第二处理器驱动API，任务执行装置1315能够提供第二处理器运行API。当完成当前原始网络的离线模型及输入数据的加载之后，应用软件可以通过调用该任务执行装置1315提供的第二处理器驱动API，启动第二处理器120。当第二处理器120启动后，应用软件可以调用任务执行装置1315提供的第二处理器运行API，以控制第二处理器120执行当前原始网络对应的离线模型及输入数据，获得当前原始网络的输出数据。当完成当前原始网络对应的离线模型的执行过程之后，应用软件可以通过调用该第二处理器驱动API，关闭第二处理器120。

更进一步地，在完成当前原始网络的离线模型的执行过程之后，应用软件还可以调用数据预处理API，使得输入数据预处理模块1313能够对当前原始网络的输出数据进行数据预处理，并将当前原始网络的输出数据存储至存储器130中。

再进一步地，第二处理器120的数量可以为多个，任务执行装置1315还可以能够提供任务分配API，任务执行装置1315可以用于控制多个第二处理器120，以实现多个第二处理器120之间的任务分配及调度。具体地，应用软件可以通过调用任务执行装置1315提供的任务分配API，从多个第二处理器120中选定执行当前任务的目标第二处理器。当完成当前原始网络的离线模型及输入数据的加载之后，应用软件可以通过调用该目标第二处理器对应的第二处理器驱动API，启动该目标第二处理器。当目标第二处理器启动后，应用软件可以调用任务执行装置1315提供的该目标第二处理器对应的第二处理器运行API，以控制该目标第二处理器执行当前原始网络对应的离线模型及输入数据。当完成当前原始网络对应的离线模型的执行过程之后，可以通过调用该目标第二处理器对应的第二处理器驱动API，关闭该目标第二处理器。

可选地，在其他实施例中，该第二处理器120可以为多核处理器，即该第二处理器120可以包括多个处理模块。任务执行装置1315可以用于控制多个第二处理器120的多个处理模块，以实现多个第二处理器120的多个处理模块之间的任务分配及调度。具体地，应用软件可以通过调用任务执行装置1315提供的任务分配API，从第二处理器120中的多个处理模块中选定执行当前任务的目标处理模块。当完成当前原始网络的离线模型及输入数据的加载之后，应用软件可以通过调用该目标处理模块对应的第二处理器驱动API，启动该目标处理模块。当目标处理模块启动后，应用软件可以调用该目标处理模块对应的第二处理器运行API，以控制该目标处理模块执行当前原始网络对应的离线模型及输入数据。当完成当前原始网络对应的离线模型的执行过程之后，可以通过调用目标处理模块对应的第二处理器驱动API，关闭该目标处理模块。

作为进一步地改进，运行时系统131可以是基于可信运行环境建立的安全的运行时系统。例如，运行时系统131可以是基于TEE(Trusted Execution Environment，可信执行环境)建立的运行时系统。具体地，TEE可以构建一个隔离于操作系统等非安全软件系统的运行时系统，从而实现软件隔离，保障原始网络的离线模型及输入数据和输出数据的安全性。上述的应用软件可以是TA等安全的应用，该TA等安全的应用软件可以运行于基于TEE构建的运行时系统。

存储器130的存储空间可以分为安全存储空间和非安全存储空间。具体地，用于存储当前原始网络的离线模型及输入数据的存储空间为安全的存储空间，用于存储操作系统及应用软件等软件系统的存储空间为非安全存储空间，运行时系统可以存储于存储器的安全存储空间或非安全存储空间。当然，该存储器130也可以为安全存储器。从而，上述的运行时系统、TA以及安全存储空间构成一个完整的TEE运行环境。

在其他实施例中，存储器130的数量可以为两个以上，其中一个存储器130可以作为安全存储空间，用于存储当前原始网络的离线模型及输入数据。其中一个存储器130可以作为非安全存储空间，用于存储操作系统及应用软件等软件系统。又进一步地，操作系统及应用软件等也可以存储于安全的存储空间中。

应当清楚的是，本申请实施例中的安全存储空间是指可信的(Trusted)存储空间，该安全存储空间可以是加密的存储空间，具体可以采用对称加密算法、非对称加密算法或随机加密算法(如采用随机密码生成器获得密码)。当然，安全的存储区间还可以是通过指纹等进行加密的存储空间。上述安全的运行时系统131以及应用软件也可以通过加密算法获得。或者，安全存储空间可以是通过可信度量方法获得的安全存储空间，上述安全的运行时系统131以及应用软件也可以通过可信度量方法获得。

当然，该第一处理器110还可以是安全芯片，如TPM(Trusted Platform Module，可信平台模块)、TCM(Trusted Cryptography Module，可信密码模块)或TPCM(Trusted Platform Control Module，可信平台控制模块)等。进一步地，第二处理器120也可以是TPM、TCM或TPCM等安全芯片。

可选地，本申请实施例的计算机设备还可以仅包括处理器和存储器，其中，该处理器是多核处理器。具体地，该处理器可以包括多个处理模块。例如，该处理器包括第一处理模块和第二处理模块，其中，运行时系统可以在第一处理模块上运行。进一步地，上述运行时系统可以包括数据处理装置、设备管理装置和任务执行装置等结构，其中，数据处理装置用于从存储器中获取当前原始网络对应的离线模型及输入数据，当前原始网络对应的离线模型中包含原始网络中各个计算节点对应的模型参数、指令以及原始网络中的各个计算节点的接口数据。设备管理装置用于控制第二处理模块启动或关闭，任务执行装置用于控制第二处理模块运行当前原始网络的离线模型及输入数据。更进一步地，该运行时系统的其他结构与上述实施例中的运行时系统的架构相同，具体可参见上文的描述，此处不再赘述。

如图24所示，本申请实施例还提供了一种数据处理方法，用于图20所示的计算机设备中，通过离线模型实现对神经网络等重量级数据的处理过程，提高了计算机设备的数据处理速度及效率。具体地，上述方法包括如下步骤：

S110、控制数据处理装置从存储器中获取当前原始网络对应的离线模型及输入数据，当前原始网络对应的离线模型中包含原始网络中各个计算节点对应的模型参数及指令。具体地，当第一处理器110运行该运行时系统131时，可以通过运行时系统131的数据处理装置1310从存储器中读取当前原始网络对应的离线模型及输入数据。进一步地，可以通过数据处理装置1310的离线模型加载模块1311从存储器130中获取当前原始网络对应的离线模型。通过输入数据加载模块1312从存储器130中获取输入数据，该输入数据可以是原始网络的起始计算节点对应的输入数据。

S120、通过设备管理装置控制计算机设备的第二处理器启动。具体地，可以通过运行时系统131的设备管理装置1314控制第二处理器启动或关闭。即，当离线模型加载模块1311完成当前原始网络对应的离线模型的加载，且输入数据加载模块1312完成当前原始网络对应的输入数据的加载之后，离线模型加载模块1311和输入数据加载模块1312可以向设备管理装置1314发送数据加载完成信号，从而设备管理装置1314可以根据其接收到的数据加载完成信号控制第二处理器120启动。

S130、通过任务执行装置控制计算机设备的第二处理器根据当前原始网络对应的离线模型及输入数据，运行当前原始网络，获得当前原始网络的输出数据。具体地，可以通过运行时系统131的任务执行装置1315控制第二处理器120运行当前原始网络的离线模型。应当清楚的是，运行原始网络对应的离线模型是指，使用离线模型运行该原始网络对应的机器学习算法(如神经网络算法)，通过执行前向运算实现算法的目标应用(如语音识别等人工智能应用)。

S140、通过数据处理装置将当前原始网络的输出数据存储至存储器中。具体地，可以通过数据处理装置1310将当前原始网络的输出数据存储至存储器130中。进一步地，该数据处理装置1310能够对当前原始网络的输出数据进行数据格式转换等预处理操作，之后，再将其存储至存储器130中。可选地，数据处理装置1310的输入数据处理模块1313能够对当前原始网络的输出数据进行数据格式转换等预处理操作，之后，再将其存储至存储器130中。

可选地，在完成当前原始网络对应的离线模型及输入数据的加载之后，还可以对获取的离线模型及输入数据进行预处理，以便第二处理器能够执行获取的离线模型及输入数据。具体地，上述步骤S110还可以包括如下步骤：

S111、对获取的当前原始网络对应的离线模型进行解析，以获得当前原始网络中各个计算节点对应的模型参数、指令及当前原始网络中各个计算节点的接口数据。进一步地，具体地，可以通过离线模型加载模块1311对获取的当前原始网络的离线模型进行解析，以获得当前原始网络中各个计算节点对应的模型参数、指令以及当前原始网络中各个计算节点的接口数据。更进一步地，还可以通过离线模型加载模块1311对解析后的数据进行数据格式转换、归一化等预处理操作。

S112、对获取的当前原始网络的输入数据进行预处理，如对输入数据进行数据格式转换、归一化等预处理操作。具体地，可以通过输入数据预处理模块1313对输入数据进行预处理(如数据格式转换、归一化等预处理)，以使第二处理器120能够运行输入数据。

进一步地，上述方法还可以包括如下步骤：

实时获取当前原始网络对应的离线模型的加载进度；具体地，离线模型加载模块1311可以实时获取当前网络对应的离线模型的加载进度，该离线模型的加载进度可以采用数据比例或剩余时长等进行表示。

若当前原始网络对应的离线模型的加载进度大于或等于第一预设比例，则执行所述的控制计算机设备的第二处理器启动的步骤。具体地，该第一预设比例可以为80％～100％。例如，当离线模型加载模块1311完成当前原始网络对应的离线模型的加载(例如，离线模型的数据加载比例为100％)，离线模型加载模块1311可以向设备管理装置1314发送数据加载完成信号，从而设备管理装置1314可以根据其接收到的数据加载完成信号控制第二处理器120启动。或者，若离线模型加载模块1311已完成的数据加载比例大于或等于第一预设比例(如80％)时，即可向设备管理装置1314发送加载完成信号，以提前启动第二处理器120。

由于离线模型的数据量级大于输入数据的数据量级，离线模型的所需的加载时间可能大于输入数据的加载时间，因此，可以仅仅依据离线模型的加载进度判断是否启动第二处理器120。进一步地，输入数据加载模块1312还可以实时获得输入数据的加载进度，若离线模型加载模块1311已完成的数据加载比例大于或等于第一预设比例(如80％)，且输入数据加载模块1312已完成的数据加载比例大于或等于第二预设比例(如80％)，则离线模型加载模块1311和输入数据加载模块1312可以向设备管理装置1314发送数据加载完成信号，从而设备管理装置1314可以根据其接收到的数据加载完成信号控制第二处理器120启动。

此外，如图25所示，本申请实施例还提供了一种数据处理方法，用于图20所示的计算机设备中，通过离线模型实现对神经网络等重量级数据的处理过程，提高了计算机设备的数据处理效率及速度。具体地，上述方法包括如下步骤：

S210、调用离线模型API，获取当前原始网络对应的离线模型，具体地，应用软件可以调用离线模型加载模块1311提供的离线模型API，从而使得离线模型加载模块1311能够从存储器130中读取当前原始网络对应的离线模型。其中，当前原始网络对应的离线模型中包含当前原始网络中各个计算节点对应的模型参数、指令以及当前原始网络中的各个计算节点的接口数据；其中，离线模型的生成过程可参见上文中的描述。

S210、调用输入数据API，获取当前原始网络的输入数据。具体地，应用软件可以调用输入数据加载模块1312提供的输入数据API，通过输入数据加载模块1312从存储器130中获取当前原始网络的输入数据。进一步地，应用软件还可以调用输入数据预处理模块1313提供的数据预处理API，通过输入数据预处理模块1313对输入数据加载模块1312获取的输入数据进行数据格式转换、归一化等预处理操作，以使第二处理器120能够运行上述的当前原始网络的输入数据。

S220、调用第二处理器驱动API，控制计算机设备中的第二处理器启动。具体地，应用软件能够调用设备管理模块1314提供的第二处理器驱动API，通过设备管理模块1314控制第二处理器120启动。

S230、调用第二处理器运行API，控制第二处理器根据当前原始网络对应的离线模型及输入数据，获得当前原始网络的输出数据。具体地，应用软件能够调用任务执行装置1315提供的第二处理器运行API，通过任务执行装置1315控制第二处理器120根据当前原始网络对应的离线模型及输入数据，获得当前原始网络的输出数据。

S240、调用第二处理器驱动API，控制第二处理器关闭。具体地，应用软件能够调用设备管理模块1314提供的第二处理器驱动API，通过设备管理模块1314控制第二处理器120关闭。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。

此外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被一个或多个处理器执行时，实现上述的方法的步骤。该计算机存储介质可以包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

上述的计算机设备、数据处理方法及存储介质，通过数据处理装置可以直接从存储器中获取当前原始网络对应的离线模型及输入数据，从而该计算机设备的第二处理器可以根据其获取的原始网络的离线模型及输入数据运行该当前原始网络，获得当前原始网络的输出数据。由于每个原始网络对应的离线模型中仅包含原始网络中各个计算节点对应的模型参数、指令以及原始网络中各个计算节点的接口数据，因而，原始网络的离线模型的数据量级远远小于该原始网络的数据量级，从而通过在计算机设备上运行该当前原始网络对应的离线模型，可以实现计算机设备对重量级的神经网络数据的处理过程。同时，通过在该计算机设备上直接运行该当前原始网络对应的离线模型，无需对当前原始网络中的各个计算节点进行编译等处理操作，可以提高该计算机设备的处理速度及效率。

本申请的其他实施例中，如图30所示，计算机设备200可以包括第一处理器210、第二处理器220、第一存储器230和第二存储器240，其中，第一存储器230内存储有多个原始网络对应的离线模型及输入数据和能够在第一处理器230上运行的运行时系统，第二存储器240内存储有能够在第一处理器或第二处理器上运行的操作系统。具体地，上述第一存储器230和第二存储器240可以是物理上相互独立的两个存储器。或者，第一存储器230和第二存储器240可以集成为一个整体，第一存储器230和第二存储器240为在逻辑上相互独立的两个存储空间。

进一步地，第一处理器210的数量可以为两个以上。例如，第一处理器210的数量为两个，其中一个第一处理器210用于运行上述安全的运行时系统231，另一个第一处理器210用于运行操作系统。或者，上述的第一处理器210可以是多核处理器，其可以包括两个以上的处理模块，其中一个处理模块可以用于运行上述的运行时系统231，其中一个处理模块用于运行上述的操作系统。这样，可以通过硬件上的隔离将计算机设备划分为安全运行环境和非安全运行环境。更进一步地，上述第一处理器210可以使用TCM、TPM或TPCM等安全芯片实现。

上述的运行时系统为基于可信运行环境建立的安全的运行时系统，例如，运行时系统231可以是基于TEE(Trusted Execution Environment，可信执行环境)建立的运行时系统。具体地，TEE可以构建一个隔离于操作系统等非安全软件系统的运行时系统，从而实现软件隔离，保障原始网络的离线模型及输入数据和输出数据的安全性。进一步地，该安全的运行时系统231可以通过加密算法获得，也可以通过可信度量获得。第一存储器230为安全存储介质。当运行时系统231在第一处理器210上运行时，运行时系统231能够从第一存储器230内获取当前原始网络对应的离线模型及输入数据，并控制第二处理器220运行当前原始网络对应的离线模型。

应当清楚的是，本申请实施例中的安全是指可信(Trusted)，其可以采用预设的加密算法实现，例如，可以采用对称加密算法、非对称加密算法或随机加密算法(如采用随机密码生成器获得密码)。当然，还可以是通过指纹等进行加密。或者，安全也可以通过可信度量方法实现。

可选地，该运行时系统231可以提供应用软件能够调用的安全API(Application Programming Interface，应用软件接口)，API主要包含了密钥管理、密码算法及安全存储等。上述运行时系统231可以包括数据处理装置、设备管理装置和任务执行装置，其结构与上述的运行时系统131的结构类似，可参见图22和图23所示。其中，数据处理装置能够提供离线模型API及输入数据API，用于从第一存储器230中获取当前原始网络对应的离线模型及输入数据，当前原始网络对应的离线模型中包含原始网络中各个计算节点对应的模型参数、指令以及原始网络中的各个计算节点的接口数据。设备管理装置能够提供第二处理器驱动API，用于控制第二处理器220启动或关闭。任务执行装置能够提供第二处理器运行API，用于控制第二处理器220运行当前原始网络的离线模型及输入数据。

进一步地，数据处理装置包括离线模型加载模块和输入数据加载模块。离线模型加载模块能够提供离线模型API，用于从第一存储器230中获取各个当前原始网络对应的离线模型，并对当前原始网络对应的离线模型进行解析。输入数据加载模块能够提供输入数据API，用于从第一存储器230中获取当前原始网络对应的输入数据。

更进一步地，数据处理装置还包括输入数据预处理模块，输入数据预处理模块能够提供数据预处理API，用于对输入数据加载模块获取的输入数据进行预处理，使第二处理器220能够运行当前原始网络的输入数据，并用于将第二处理器220获得的输出数据存储至第一存储器230。

可选地，第二处理器220的数量为多个，或第二处理器220包括多个处理模块；任务执行装置还能够提供任务分配API，用于控制多个第二处理器220，或控制第二处理器220的多个处理模块。

进一步地，计算机设备还包括能够在运行时系统231上运行的安全的应用软件(TA，Trusted Application)，且应用软件能够调用离线模型API及输入数据API、第二处理器驱动API，以及第二处理器运行API。该安全的应用软件可以通过加密算法实现，也可以通过可信度量的方式实现。

应当清楚的是，本申请实施例中的数据处理装置、设备管理装置以及任务执行装置的工作原理，与上述实施例中的各个装置的工作原理基本一致，具体可参见前文中的描述。

如图31所示，本申请实施例还提供了一种数据处理方法，用于如图30所示的计算机设备中，方法包括如下步骤：

S310、从第一存储器中获取当前原始网络对应的离线模型及输入数据，其中，当前原始网络对应的离线模型中包含当前原始网络中各个计算节点对应的模型参数、指令以及当前原始网络中的各个计算节点的接口数据。具体地，当第一处理器运行上述安全的运行时系统231时，安全的运行时系统231可以从安全的第一存储器230中获取当前原始网络对应的离线模型及输入数据。可选地，当第一处理器210运行该运行时系统231时，可以通过运行时系统231的数据处理装置从第一存储器230中读取当前原始网络对应的离线模型及输入数据。进一步地，可以通过数据处理装置的离线模型加载模块从第一存储器230中获取当前原始网络对应的离线模型。通过输入数据加载模块从第一存储器230中获取输入数据，该输入数据可以是原始网络的起始计算节点对应的输入数据。

S320、控制计算机设备的第二处理器启动。具体地，上述安全的运行时系统231可以控制计算机设备的第二处理器220启动。可选地，运行时系统231的设备管理装置可以控制第二处理器启动或关闭。当离线模型加载模块完成当前原始网络对应的离线模型的加载，离线模型加载模块可以向设备管理装置发送数据加载完成信号，从而设备管理装置可以根据其接收到的数据加载完成信号控制第二处理器220启动。

S330、控制计算机设备的第二处理器根据当前原始网络对应的离线模型及输入数据，运行当前原始网络，获得当前原始网络的输出数据。具体地，上述运行时系统231可以控制计算机设备的第二处理器220运行离线模型及其对应的输入数据，以获得当前原始网络的输出数据。可选地，可以通过运行时系统231的任务执行装置控制第二处理器220运行当前原始网络的离线模型。

应当清楚的是，运行原始网络对应的离线模型是指，使用离线模型运行该原始网络对应的机器学习算法(如神经网络算法)，通过执行前向运算实现算法的目标应用(如语音识别等人工智能应用)。

S340、将当前原始网络的输出数据存储至第一存储器中。即运行时系统231能够将当前原始网络的输出数据存储至安全的第一存储器230中。可选地，可以通过运行时系统231的数据处理装置将当前原始网络的输出数据存储至第一存储器230中。进一步地，该数据处理装置能够对当前原始网络的输出数据进行数据格式转换等预处理操作，之后，再将其存储至第一存储器230中。更进一步地，数据处理装置的输入数据处理模块能够对当前原始网络的输出数据进行数据格式转换等预处理操作，之后，再将其存储至第一存储器230中。

如图32所示，本申请实施例还提供了一种数据处理方法，用于如图30所示的计算机设备中，上述方法可以包括如下步骤：

S410、调用离线模型API，从第一存储器中获取当前原始网络对应的离线模型。具体地，安全的应用软件(TA)可以调用离线模型API，从而使得离线模型加载模块能够从第一存储器230中读取当前原始网络对应的离线模型。其中，当前原始网络对应的离线模型中包含当前原始网络中各个计算节点对应的模型参数、指令以及当前原始网络中的各个计算节点的接口数据。

S420、调用输入数据API，获取当前原始网络的输入数据；具体地，安全的应用软件可以调用输入数据API，通过输入数据加载模块从第一存储器230中获取当前原始网络的输入数据。

S430、调用第二处理器驱动API，控制计算机设备中的第二处理器启动；具体地，安全的应用软件能够调用第二处理器驱动API，以通过设备管理模块控制第二处理器220启动。

S440、调用第二处理器运行API，控制第二处理器根据当前原始网络对应的离线模型及输入数据，获得当前原始网络的输出数据。具体地，安全的应用软件能够调用第二处理器运行API，以通过任务执行装置控制第二处理器220根据当前原始网络对应的离线模型及输入数据，获得当前原始网络的输出数据。

S450、调用第二处理器驱动API，控制第二处理器关闭。具体地，安全的应用软件能够调用第二处理器驱动API，以通过设备管理模块控制第二处理器220关闭。

进一步地，上述方法还包括如下步骤：

调用数据预处理API，将当前原始网络的输出数据存储至第一存储器中。具体地，安全的应用软件能够调用运行时系统231提供的数据预处理API，以通过数据处理装置的输入数据预处理模块对输出数据进行数据格式转换、归一化等预处理操作，并将当前原始网络的输出数据存储至第一存储器230中。

更进一步地，在调用输入数据API，获取当前原始网络的输入数据的步骤之后，上述方法还包括如下步骤：

调用数据预处理API，对获取的当前原始网络的输入数据进行预处理，使第二处理器能够运行输入数据。具体地，安全的应用软件还可以调用输入数据预处理模块提供的数据预处理API，以通过输入数据预处理模块对输入数据进行数据格式转换、归一化等预处理操作，以使第二处理器220能够运行上述的当前原始网络的输入数据。

可选地，本申请实施例中还可以包含离线模型的生成过程，该离线模型的生成过程可以在云端服务器或神经网络专用处理器上运行，并将其获得的原始网络的离线模型存储至第一存储器230中。该云端服务器或神经网络专用处理器为能够执行神经网络等重量级数据的处理器，其可以不包含于上述的计算机设备中。离线模型的生成过程具体可参见前文中的描述，此处不再赘述。

此外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被一个或多个处理器执行时，实现上述方法的步骤。该计算机存储介质可以包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本申请实施例中，由于当前原始网络的离线模型中仅仅存储了当前原始网络中各个计算节点对应的模型参数、指令以及当前原始网络中的各个计算节点的接口数据等必要的网络结构信息。因而该当前原始网络的离线模型的数据量级远远小于该当前原始网络的数据量级，从而通过运行当前原始网络的离线模型，能够实现在基于TEE等可信执行环境建立的安全的运行时系统对神经网络等重量级数据的处理过程，拓展了神经网络的应用范围。同时，通过在该计算机设备上直接运行该原始网络对应的离线模型，无需对原始网络中的各个计算节点进行编译等处理操作，可以提高该计算机设备的处理速度及效率。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种任务并行处理方法，其特征在于，包括：

根据需执行任务之间的依赖关系，构建任务有向无环图DAG；

根据所述任务有向无环图DAG，将各所述需执行任务分发至处理器的多个工作队列；

根据所述任务有向无环图DAG中各所述需执行任务的依赖关系，调控各所述工作队列中并行的需执行任务开始运行。
根据权利要求1所述的方法，其特征在于，所述根据需执行任务之间的依赖关系，构建任务有向无环图DAG的步骤之前包括：

根据程序中的操作节点和/或数据节点对程序进行拆分，获取所述需执行任务。
根据权利要求2所述的方法，其特征在于，所述根据程序中的操作节点对程序进行拆分，获取所述需执行任务的步骤包括：

若所述程序包括带模型的操作请求，则对所述带模型的操作请求的模型进行拆分和/或对所述模型的输入数据进行拆分，获取需执行任务。
根据权利要求3所述的方法，其特征在于，所述对所述带模型的操作请求的模型进行拆分，获取需执行任务的步骤包括：

设置拆分模型得到的各所述需执行任务对应的权值；

使用各所述权值，设置所述需执行任务的输入数据与输出数据的对应关系。
根据权利要求3所述的方法，其特征在于，所述对所述带模型的操作请求的模型进行拆分，获取需执行任务的步骤包括：

按照预设规则在模型的窗口方向和/或通道方向上拆分所述带模型的操作的模型，得到需执行任务。
根据权利要求3所述的方法，其特征在于，所述对所述带模型的操作请求的输入数据进行拆分，获取需执行任务的步骤包括：

按照预设规则在数据的窗口方向拆分所述带模型的操作的输入数据，得到需执行任务。
根据权利要求2所述的方法，其特征在于，所述根据程序中的操作节点对程序进行拆分，获取所述需执行任务的步骤包括：

若所述程序包括不带模型的操作请求，则对所述不带模型的操作请求的输入数据和/或输出数据进行拆分，获取需执行任务。
根据权利要求7所述的方法，其特征在于，所述对所述不带模型的操作请求的输入数据和/或输出数据进行拆分，获取需执行任务的在步骤包括：

按照预设规则在数据的窗口方向拆分所述输入数据和/或输出数据，得到需执行任务。
根据权利要求1所述的方法，其特征在于，所述根据需执行任务之间的依赖关系，构建任务有向无环图DAG的步骤包括：

根据获取的各所述需执行任务之间的依赖关系，确定所述任务有向无环图DAG中的并行结点与顺序结点；

根据所述并行结点与顺序结点构建任务有向无环图DAG。
根据权利要求1-9任一项所述的方法，其特征在于，所述根据所述任务有向无环图DAG将各所述需执行任务分发至所述处理器的多个工作队列的步骤包括：

对所述任务有向无环图DAG进行拓扑排序，获取任务拓扑排序序列；

根据各所述需执行任务的预设执行时间，对得到的所述拓扑排序序列进行排序，得到最长拓扑排序序列；

根据所述最长拓扑排序序列以及各所述需执行任务之间的依赖关系，分发各所述需执行任务至所述工作队列。
根据权利要求1-9任一项所述的方法，其特征在于，所述根据所述任务有向无环图DAG中各所述需执行任务的依赖关系，调控各所述工作队列中并行的需执行任务开始运行的步骤包括：

根据所述任务有向无环图DAG为各所述需执行任务设置引用计数；

若被依赖的需执行任务已执行，则修改需依赖的需执行任务的引用计数；

当所述需执行任务的引用计数达到预设值，控制各所述工作队列中引用计数达到预设值的需执行任务开始运行。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-11中任意一项所述方法的步骤。
一种任务并行处理系统，其特征在于，包括存储器、多核处理器，及存储在存储器上并可在处理器上运行的计算机程序，所述多核处理器能够运行拆分算法，其特征在于，所述多核处理器执行所述计算机程序时实现权利要求1-11中任一项所述方法的步骤。
一种任务并行处理系统，其特征在于，包括存储器、第一处理器和第二处理器，所述第一处理器能够运行拆分算法，第二处理器为多核处理器，其特征在于，所述第一处理器和第二处理器执行所述计算机程序时实现权利要求1-11中任一项所述方法的步骤。
一种任务并行处理装置，其特征在于，包括：DAG图构建模块、任务分发模块和调度控制模块，

所述DAG图构建模块，用于根据需执行任务之间的依赖关系，构建任务有向无环图DAG；

所述任务分发模块，用于根据所述任务有向无环图DAG，将各所述需执行任务分发至处理器的多个工作队列；

所述调度控制模块，用于根据所述任务有向无环图DAG中各所述需执行任务的依赖关系，调控各所述工作队列中并行的需执行任务开始运行。