WO2025130539A1

WO2025130539A1 - 模型训练方法和装置

Info

Publication number: WO2025130539A1
Application number: PCT/CN2024/135087
Authority: WO
Inventors: 张浩男; 李贤明; 马川
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2023-12-19
Filing date: 2024-11-28
Publication date: 2025-06-26
Anticipated expiration: 2026-06-19
Also published as: CN120186040A

Abstract

本申请提供了，一种模型训练方法和模型训练装置，该方法包括：第一设备向该第二设备发送第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于生成用于更新第二模型的训练数据集，或者，该第一模型用于与该第二模型融合以更新该第二模型，该第二模型是该第二设备训练得到的；第一设备接收第二信息，该第二信息用于指示更新后的该第二模型。通过该方法，第一设备向第二设备发送第一模型而非训练数据，可以节省第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销。

Description

模型训练方法和装置

本申请要求于2023年12月19日提交中国国家知识产权局、申请号为202311762388.4、发明名称为“模型训练方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信领域，并且更具体地，涉及一种模型训练方法和装置。

背景技术

人工智能(artificial intelligence，AI)是模仿人类认知、学习和推理能力的技术。机器学习(machine learning，ML)模型作为AI的一项关键技术，凭借其对于数据的高效挖掘与处理能力，已经在通信技术研究中获得了广泛的关注。其中，在机器学习训练(ML Training，MLT)中，通常由MLT网络服务(Management Services，MnS)使用者向MLT MnS提供者发送训练数据，以供MLT MnS提供者训练时选择。然而，大模型作为一种新的AI范式，在MLT过程需要海量数据支持，若直接应用当前模型训练方法，将导致较大的通信资源开销。

发明内容

本申请提供一种模型训练方法和装置，能够减少模型训练过程中关于训练数据收集的通信开销。

第一方面，提供了一种模型训练方法，该方法可以由第一设备执行，这里的第一设备既可以指接入网设备本身，也可以指第一设备中实现该方法的处理器、模块、芯片、或芯片系统等，本申请对此不作限定。该方法包括：

第一设备向第二设备发送第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于生成用于更新第二模型的训练数据集，或者，该第一模型用于与该第二模型融合以更新该第二模型，该第二模型是该第二设备训练得到的；第一设备接收来自该第二设备的第二信息，该第二信息用于指示更新后的该第二模型。

作为示例而非限定，该第一设备可以是网络管理服务(例如通信基础大模型)使用者，该第二设备可以是网络管理服务提供者。该第一模型可以是数据生成模型，或者，该第一模型可以是运行在第一设备本地的模型，例如在该第一设备为基站时，该第一模型可以是on-site模型。该第二模型可以是物理网络中实现一种或多种通信功能的AI/ML模型，或称为通信基础大模型。

应理解，本申请实施例对该第一设备获取该第二模型的具体方式不作限定。

作为示例而非限定，该第二模型可以是预配置在第一设备中的。具体的，该第二模型可以是在该第一设备出厂时配置在该第一设备中的，或者，该第二模型可以是在第一设备运行前人工配置在该第一设备上。

作为示例而非限定，该第二模型可以是由第二设备向第一设备发送的。具体的，在第一设备向第二设备发送第一信息前，该第二设备向第一设备发送配置信息，该配置信息用于指示该第二模型。

在一种可能的实现方式中，该第二设备还可以向该第一设备发送该第二模型的性能信息，第二模型的评价指标信息，或者第二模型的功能信息的至少一项，使得该第一设备可以确定该第二模型在运行过程是否满足相应的性能要求。其中，该第二模型的性能信息可以包括该第二模型的参数量、结构和层数描述等信息；该第二模型的评价指标信息可以包括该第二模型在其可用下游任务中的性能表现，如准确率、召回率、均方误差等，该第二模型的功能信息可以包括可以通过该模型可以实现的通信功能的信息。

应理解，本申请实施例对该第一信息指示该第一模型的具体方式不作限定。

作为示例而非限定，该第一信息中包括该第一模型，则该第二设备在接收到第一信息后可以获取该第一模型。

作为示例而非限定，该第一模型中可以包括该第一模型的存储地址，则该第二设备在接收到该第一信息后，可以根据该第一模型的存储地址获取定该第一模型。

可选地，在第一设备向第二设备发送第一信息时，第一设备还可以向第二设备发送第一模型的性能信息，第一模型的评价指标信息，或者第一模型的功能信息的至少一项。

基于上述方案，第一设备向第二设备发送第一模型，使得第二设备可以根据该第一模型生成用于更新第二模型的训练数据集，并基于该训练数据集更新第二模型，或者，使得第二设备可以根据将该第一模型与该第二模型融合以更新第一模型，即第一设备通过发送第一模型而非训练数据，可以节省第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销。

结合第一方面，在第一方面的某些实现方式中，该方法包括：该第一设备向该第二设备发送第三信息，该第三信息用于指示该第一模型的使用方式，该第一模型的使用方式包括基于该第一模型生成该训练数据集，或者，基于该第一模型进行模型融合。

作为示例而非限定，该第三信息可以通过比特0和比特1指示该第一模型的使用方法，例如，比特0用于指示该第一模型用于生成用于更新第二模型的训练数据集，比特1用于指示该第一模型用于与第二模型融合。

基于上述方案，该第一设备可以通过第三信息向第二设备指示第一模型的使用方法，节约第二设备对于该第一模型的使用方法的识别或试错时间，从而提高第二设备对该第一模型的使用效率。

结合第一方面，在第一方面的某些实现方式中，当该第一模型用于生成更新第二模型的训练数据集时，该方法还包括：该第一设备基于全部或部分本地数据进行模型训练，生成该第一模型，该全部或部分本地数据包括第一数据集，该第一数据集包括与第一功能相关的数据，该第一功能为该第一设备期望通过该第二模型实现的一种或多种功能。

作为示例而非限定，该第一功能可以包括该第一设备所需的波束管理、信道测量等功能，或者该第一设备期望的意图管理等功能，或者该第一设备期望的移动性预测等功能。

基于上述方案，第一设备可以根据全部或部分本地数据进行模型训练生成上述第一模型，其中，该全部或部分本地数据包括与第一功能相关的数据，从而减少该第一设备进行模型训练的开销，提高模型训练的准确性。

结合第一方面，在第一方面的某些实现方式中，当该第一模型用于生成更新第二模型的训练数据集时，该方法还包括：该第一设备根据该第一功能，基于第二数据集对该第二模型的参数进行微调，该第二数据集中包括与该第一功能相关的数据，该第二数据集包括于该第一数据集；确定微调后的该第二模型与该第一功能中的至少一种功能相关的性能不满足对应的性能指标要求。

应理解，该第二模型与该第一功能中的至少一种功能相关的性能不满足对应的性能指标要求可以理解为，该第二模型与该第一功能相关的各项性能中包括至少一项不满足对应的性能指标要求的性能。

应理解，该第二数据集包括于该第一数据集可以理解为，采集该第二数据集的时间段包括于采集该第一数据集的时间段。

作为示例而非限定，该第一设备为基站，则该第一设备可以根据所需波束管理、信道测量等功能，基于第二数据集，对该第二模型的参数进行微调。

作为示例而非限定，该第一设备为OAM，则该第一设备可以根据意图管理等功能，基于第二数据集，对该第二模型的参数进行微调。

作为示例而非限定，该第一设备为NWDAF，则该第一设备可以根据移动性预测等功能，基于第二数据集，对该第二模型的参数进行微调。

应理解，该性能指标可以是关键绩效指标(Key Performance Indicator，KPI)要求，该KPI要求是该第一设备在对该第二模型进行微调的过程中确定的。

应理解，在上述微调后的第二模型的性能满足第一功能对应的性能指标要求时，该第一设备可以根据全部或本地数据和第一功能持续对该第二模型的参数进行微调，从而提高该第一设备本地的部署的模型的性能。

基于上述方案，第一设备可以根据第一功能使用全部或部分本地数据对该第二模型进行微调，并在微调后的第二模型的性能不满足第一功能对应的性能指标要求时，对本地数据进行模型训练以生成第一模型，从而保证该第一设备本地部署的模型的可用性。

结合第一方面，在第一方面的某些实现方式中，当该第一模型用于与第二模型融合以更新该第二模型时，该方法还包括：该第一设备根据第一功能，基于全部或部分本地数据对该第二模型的参数进行微调，以生成该第一模型，该第一功能为该第一设备期望通过该第二模型实现的一种或多种功能。

基于上述方案，第一设备可以根据第一功能使用全部或部分本地数据对该第二模型进行微调以生成第一模型，并将该第一模型发送给第二设备，使得第二设备可以将第一模型和第二模型融合以更新第二模型，从而在节省第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销，实现对于第二模型的动态更新。

结合第一方面，在第一方面的某些实现方式中，该第一设备为移动智能网元，该第二设备为支持云服务的设备。

应理解，在此实现方式中，该第一网元的训练数据由其他设备(例如基站)提供，该第一设备本身仅用于进行数据训练。

结合第一方面，在第一方面的某些实现方式中，该第一设备获取第三数据集，该第三数据集包括由基站采集的与第二功能相关的数据，该第二功能包括该基站期望通过该第二模型实现的一种或多种功能；该第一设备根据该第二功能，基于该第三数据集对该第二模型的参数进行微调。

基于上述方案，第一设备可以为不具备算力的设备(例如基站)基于第二功能对第二模型的参数进行微调，从而提高该部署在不具备算力的设备上的模型的性能。

结合第一方面，在第一方面的某些实现方式中，当该第一模型用于生成更新第二模型的训练数据集时，在该第一设备向该第二设备发送该第一信息前，该方法还包括：该第一设备接收第四信息，该第四信息用于指示微调后的该第二模型的性能异常；该第一设备根据该第四信息，确定第四数据集，该第四数据集是该第一设备本地存储的，或者，该第四数据集是该第一设备通过该基站获取的；该第一设备基于该第四数据集进行模型训练，生成该第一模型。

应理解，该第四数据集为与上述第二功能相关的数据的集合。并且，该第四数据集包括该第三数据集，即采集该第四数据集的时间段包括采集该第三数据集的时间段。

应理解，该第一设备进行模型训练的第四数据集可以是第一设备在确定需要生成第一模型时向该基站请求获取的，或者，该第一设备进行模型训练的第四数据集可以是该第一设备本地存储的该基站上报的数据，本申请实施例对此不作限定。

结合第一方面，在第一方面的某些实现方式中，当该第一模型用于生成更新第二模型的训练数据集时，该方法还包括：该第一设备根据该第四信息，向基站发送第五信息，该第五信息用于请求基站采集的数据；该第一设备接收第五信息，该第五信息用于指示该第四数据集。

应理解，该第四信息用于请求基站采集的全部数据，或者，该第四信息用于请求基站采集的与第二功能相关的数据。

应理解，前述基站收集的全部数据可以是该基站投入运行后收集的全部数据，或者，前述基站收集的全部数据可以是该基站在接收两个请求信息的间隔时间内收集的全部数据，或者，前述基站收集到全部数据可以是该第一设备与该基站约定的特定时间段内收集的全部数据，本申请实施例对此不作限定。

应理解，前述该基站收集的与第二功能相关的数据可以是该基站投入运行后收集的与第二功能相关的全部数据，或者，前述该基站收集的与第二功能相关的数据可以是该基站在接收两个请求信息的间隔时间内收集的与第二功能相关的数据，或者，前述该基站收集的与第二功能相关的数据可以是该第一设备与该基站约定的特定时间段内收集的与第二功能相关的数据，本申请实施例对此不作限定。

作为示例而非限定，该第四信息中可以包括标识#1和标识#2的至少一项，其中，该标识#1用于指示特定的时间段，使得每个基站可以基于该标识#1上报在该特定的时间段内采集的数据，该标识#2用于指示特定的功能(例如第二功能)，使得每个基站可以基于该标识#2上报该特定功能相关的数据。

应理解，该第一设备可以在进行模型训练后丢弃基站提供的部分或全部数据，或者，该第一设备可以在进行模型训练后保存基站提供的部分或全部数据，本申请实施例对此不作限定。

基于上述方案，第一设备可以在基站上报其本地部署的模型发生故障时，基于基站采集的数据进行模型训练以生成第一模型，并将该第一模型发送给第二设备，使得第二设备可以基于基站采集的数据对第二模型进行动态更新，从而在保证基站运行的模型性能的同时，节省第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销。

结合第一方面，在第一方面的某些实现方式中，在第一设备向该第二设备发送第一信息前，该方法还包括：该第一设备对该第一模型进行轻量化处理。

基于上述方案，第一设备可以在生成第一模型后对该第一模型进行轻量化处理，从而进一步减小第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销。

第二方面，提供了一种模型训练方法，该方法可以由第二设备执行，这里的第二设备既可以指接入网设备本身，也可以指第二设备中实现该方法的处理器、模块、芯片、或芯片系统等，本申请对此不作限定。该方法包括：

第二设备接收来自第一设备的第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于生成用于更新第二模型的训练数据集，或者，该第一模型用于与该第二模型融合以更新该第二模型，该第二模型是该第二设备训练得到的；该第二设备根据该第一模型，更新该第二模型；该第二设备向该第一设备发送第二信息，该第二信息用于指示更新后的该第二模型。

作为示例而非限定，该第一设备可以是网络管理服务(例如通信基础大模型)使用者，该第二设备可以是网络管理服务提供者。该第一模型可以是数据生成模型，或者，该第一模型可以是运行在第一设备本地的模型，例如在该第一设备为基站时，该第一模型可以是on-site模型。该第二模型可以是物理网络中实现一种或多种通信功能的AI/ML模型，或称为通信基础大模型。应理解，关于第一设备获取第二模型的具体方式，以及第一信息指示第一模型的具体方式，可参考第一方面的相关内容，此处不作赘述。

结合第二方面，在第二方面的某些实现方式中，该方法还包括：该第二设备接收来自在该第一设备的第三信息，该第三信息用于指示该第一模型的使用方式，该第一模型的使用方式包括基于该第一模型生成该训练数据集，或者，基于该第一模型进行模型融合。

应理解，第二设备可以根据该第三信息，确定该第一模型的使用方法，进而根据该第一模型更新第二模型。其中，关于第一模型的类型的具体说明可参考第五方面的相关内容，此处不作赘述。

结合第二方面，在第二方面的某些实现方式中，当该第一模型用于生成更新第二模型的训练数据集时，该第二设备根据该第一模型，更新该第二模型，包括：该第二设备根据该第一模型生成训练数据集；该第二设备根据该训练数据集训练该第二模型，以更新该第二模型。

结合第二方面，在第二方面的某些实现方式中，当第一模型用于与该第二模型融合以更新该第二模型时，该第二设备根据该第一模型，更新该第二模型，包括：该第二设备将该第一模型和该第二模型进行融合，以更新该第二模型。

第三方面，提供了一种模型训练方法，该方法可以由第一设备执行，这里的第一设备既可以指接入网设备本身，也可以指第一设备中实现该方法的处理器、模块、芯片、或芯片系统等，本申请对此不作限定。该方法包括：

第一设备向该第二设备发送第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于生成用于更新第二模型的训练数据集，该第二模型是该第二设备训练得到的；第一设备接收第二信息，该第二信息用于指示更新后的该第二模型。

作为示例而非限定，该第一设备可以是网络管理服务(例如通信基础大模型)使用者，该第二设备可以是网络管理服务提供者。该第一模型可以是数据生成模型，该第二模型可以是物理网络中实现一种或多种通信功能的AI/ML模型，或称为通信基础大模型。

应理解，关于第一设备获取第二模型的具体方式，以及第一信息指示第一模型的具体方式，可参考第一方面的相关内容，此处不作赘述。

基于上述方案，第一设备向第二设备发送第一模型，使得第二设备可以根据该第一模型生成用于更新第二模型的训练数据集，并基于该训练数据集更新第二模型，即第一设备通过发送第一模型而非训练数据，可以节省第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销。

结合第三方面，在第三方面的某些实现方式中，在该第一设备向该第二设备发送该第一信息前，该方法还包括：该第一设备基于全部或部分本地数据进行模型训练，生成该第一模型，该全部或部分本地数据包括第一数据集，该第一数据集包括与第一功能相关的数据，该第一功能为该第一设备期望通过该第二模型实现的一种或多种功能。

结合第三方面，在第三方面的某些实现方式中，在该第一设备基于全部或部分本地数据进行模型训练前，该方法还包括：该第一设备根据该第一功能，基于第二数据集对该第二模型的参数进行微调，该第二数据集中包括与该第一功能相关的数据，该第二数据集包括于该第一数据集；确定微调后的该第二模型的与该第一功能中的至少一种功能相关的性能不满足对应的性能指标要求。

应理解，该第二模型的与该第一功能中的至少一种功能相关的性能不满足对应的性能指标要求可以理解为，该第二模型与该第一功能相关的各项性能中包括至少一项不满足对应的性能指标要求的性能。

结合第三方面，在第三方面的某些实现方式中，该第一设备为移动智能网元，该第二设备为支持云服务的设备。

结合第三方面，在第三方面的某些实现方式中，该方法还包括：该第一设备获取第三数据集，该第三数据集包括由基站采集的与第二功能相关的数据，该第二功能包括该基站期望通过该第二模型实现的一种或多种功能；该第一设备根据该第二功能，基于该第三数据集对该第二模型的参数进行微调。

结合第三方面，在第三方面的某些实现方式中，在该第一设备向该第二设备发送该第一信息前，该方法还包括：该第一设备接收第四信息，该第四信息用于指示微调后的该第二模型的性能异常；该第一设备根据该第四信息，确定第四数据集，该第四数据集是该第一设备本地存储的，或者，该第四数据集是该第一设备通过该基站获取的，其中，该第四数据集包括该第三数据集；该第一设备基于该第四数据集进行模型训练，生成该第一模型。

结合第三方面，在第三方面的某些实现方式中，该方法还包括：该第一设备根据该第四信息，向基站发送第五信息，该第五信息用于请求基站采集的数据；该第一设备接收第六信息，该第六信息用于指示该第四数据集。

结合第三方面，在第三方面的某些实现方式中，在第一设备向该第二设备发送第一信息前，该方法还包括：该第一设备对该第一模型进行轻量化处理。

第四方面，提供了一种模型训练方法，该方法可以由第二设备执行，这里的第二设备既可以指接入网设备本身，也可以指第二设备中实现该方法的处理器、模块、芯片、或芯片系统等，本申请对此不作限定。该方法包括：

第二设备接收第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于生成用于更新该第二模型的训练数据集，该第二模型是该第二设备训练得到的；该第二设备根据该第一模型，更新该第二模型；该第二设备向该第一设备发送第二信息，该第二信息用于指示更新后的该第二模型。

结合第四方面，在第四方面的某些实现方式中，该第二设备根据该第一模型，更新该第二模型，包括：该第二设备根据该第一模型生成训练数据集；该第二设备根据该训练数据集训练该第二模型，以更新该第二模型。

第五方面，提供了一种模型训练方法，该方法可以由第一设备执行，这里的第一设备既可以指接入网设备本身，也可以指第一设备中实现该方法的处理器、模块、芯片、或芯片系统等，本申请对此不作限定。该方法包括：

第一设备向该第二设备发送第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于与第二模型融合以更新该第二模型，该第二模型是该第二设备训练得到的；第一设备接收第二信息，该第二信息用于指示更新后的该第二模型。

作为示例而非限定，该第一设备可以是网络管理服务(例如通信基础大模型)使用者，该第二设备可以是网络管理服务提供者，该第一模型可以是运行在第一设备本地的模型，例如在该第一设备为基站时，该第一模型可以是on-site模型，该第二模型可以是物理网络中实现一种或多种通信功能的AI/ML模型，或称为通信基础大模型。

基于上述方案，第一设备向第二设备发送第一模型，使得第二设备可以将该第一模型与该第二模型融合以更新第一模型，即第一设备通过发送第二模型而非训练数据，可以节省第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销。

结合第五方面，在第五方面的某些实现方式中，该方法还包括：该第一设备根据第一功能，基于全部或部分本地数据对该第二模型的参数进行微调，以生成该第一模型，该第一功能为该第一设备期望通过该第二模型实现的一种或多种功能。

结合第五方面，在第五方面的某些实现方式中，该全部或本地数据至少包括第二数据集，该第二数据集为与该第一功能相关的数据的集合。

第六方面，提供了一种模型训练方法，该方法可以由第二设备执行，这里的第二设备既可以指接入网设备本身，也可以指第二设备中实现该方法的处理器、模块、芯片、或芯片系统等，本申请对此不作限定。该方法包括：

第二设备接收来自第一设备的第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于与第二模型融合以更新第二模型，该第二模型是该第一设备训练得到的；该第二设备根据该第一模型，更新该第二模型；该第二设备向该第一设备发送第二信息，该第二信息用于指示更新后的该第二模型。

结合第六方面，在第六方面的某些实现方式中，该第二设备根据该第一模型，更新该第二模型，包括：该第二设备将该第一模型和该第二模型进行融合，以更新该第二模型。

第七方面，提供了一种模型训练装置，该装置包括：收发单元，用于接收第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于与第二模型融合以更新该第二模型，该第二模型是该第一设备训练得到的；处理单元，用于根据该第一模型，更新该第二模型；该收发单元还用于，向该第一设备发送第二信息，该第二信息用于指示更新后的该第二模型。

结合第七方面，在第七方面的某些实现方式中，该收发单元还用于，向该第二设备发送第三信息，该第三信息用于指示该第一模型的使用方式，该第一模型的使用方式包括基于该第一模型生成该训练数据集，或者，基于该第一模型进行模型融合。

结合第七方面，在第七方面的某些实现方式中，该模型训练装置还包括处理单元，该处理单元用于基于全部或部分本地数据进行模型训练，生成该第一模型，该全部或部分本地数据包括第一数据集，该第一数据集包括与第一功能相关的数据，该第一功能为该模型训练装置期望通过该第二模型实现的一种或多种功能。

结合第七方面，在第七方面的某些实现方式中，该处理单元还用于：根据该第一功能，基于第二数据集对该第二模型的参数进行微调，该第二数据集中包括与该第一功能相关的数据，该第二数据集包括于该第一数据集；确定微调后的该第二模型的与该第一功能中的至少一种功能相关的性能不满足对应的性能指标要求。

结合第七方面，在第七方面的某些实现方式中，该处理单元还用于：根据第一功能，基于全部或部分本地数据对该第二模型的参数进行微调，以生成该第一模型，该第一功能为该第一设备期望通过该第二模型实现的一种或多种功能。

结合第七方面，在第七方面的某些实现方式中，该模型训练装置为移动智能网元，该第二设备为支持云服务的设备。

结合第七方面，在第七方面的某些实现方式中，该收发单元还用于，接收第四信息，该第四信息用于指示微调后的该第二模型的性能异常；该处理单元还用于，根据该第四信息，确定第四数据集，该第四数据集是该第一设备本地存储的，或者，该第四数据集是该第一设备通过该基站获取的，其中，该第四数据集包括该第三数据集；该处理单元还用于，基于该第四数据集进行模型训练，生成该第一模型。

结合第七方面，在第七方面的某些实现方式中，该处理单元还用于，根据该第四信息，向该基站发送第五信息，该第五信息用于请求基站采集的数据；该收发单元还用于，接收第五信息，该第五信息用于指示该第四数据集。

结合第七方面，在第七方面的某些实现方式中，在第一设备向该第二设备发送第一信息前，该处理单元还用于，对该第一模型进行轻量化处理。

第八方面，提供了一种模型训练装置，该装置包括：收发单元，用于接收第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于生成用于更新该第二模型的训练数据集，或者，该第一模型用于与该第二模型融合以更新该第二模型，该第二模型是该第二设备训练得到的；处理单元，用于根据该第一模型，更新该第二模型；该收发单元还用于，向该第一设备发送第二信息，该第二信息用于指示更新后的该第二模型。

结合第八方面，在第八方面的某些实现方式中，该收发单元还用于，接收来自该第一设备的第三信息，该第三信息用于指示该第一模型的使用方式，该第一模型的使用方式包括基于该第一模型生成该训练数据集，或者，基于该第一模型进行模型融合。

结合第八方面，在第八方面的某些实现方式中，该模型训练装置还包括处理单元，该处理单元用于：根据该第一模型生成训练数据集；根据该训练数据集训练该第二模型，以更新该第二模型。

结合第八方面，在第八方面的某些实现方式中，该处理单元还用于将该第一模型和该第二模型进行融合，以更新该第二模型。

第九方面，提供了一种模型训练装置，该装置包括：收发单元，该收发单元用于向第二设备发送第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于生成用于更新第二模型的训练数据集，该第二模型是该第二设备训练得到的；该收发单元还用于接收第二信息，该第二信息用于指示更新后的该第二模型。

应理解，第九方面为与第三方面对应的装置侧的实现方式，关于第三方面的补充、解释和有益效果的说明同样适用于第九方面，不再赘述。

第十方面，提供了一种模型训练装置，该装置包括：收发单元，用于接收第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于生成用于更新该第二模型的训练数据集，该第二模型是该第二设备训练得到的；处理单元，用于根据该第一模型，更新该第二模型；该收发单元还用于，向该第一设备发送第二信息，该第二信息用于指示更新后的该第二模型。

应理解，第十方面为与第四方面对应的装置侧的实现方式，关于第四方面的补充、解释和有益效果的说明同样适用于第十方面，不再赘述。

第十一方面，提供了一种模型训练装置，该装置包括：收发单元，该收发单元用于向第二设备发送第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于与第二模型融合以更新该第二模型，该第二模型是该第二设备训练得到的；该收发单元还用于接收第二信息，该第二信息用于指示更新后的该第二模型。

应理解，第十一方面为与第五方面对应的装置侧的实现方式，关于第五方面的补充、解释和有益效果的说明同样适用于第十一方面，不再赘述。

第十二方面，提供了一种模型训练装置，该装置包括：收发单元，用于接收第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于与第二模型融合以更新该第二模型，该第二模型是该第二设备训练得到的；处理单元，用于根据该第一模型，更新该第二模型；该收发单元还用于，向该第一设备发送第二信息，该第二信息用于指示更新后的该第二模型。

应理解，第十二方面为与第六方面对应的装置侧的实现方式，关于第六方面的补充、解释和有益效果的说明同样适用于第十二方面，不再赘述。

第十三方面，本申请提供一种模型训练装置，所述模型训练装置包括处理器，用于实现上述第一方面至第六方面、或者第一方面至第六方面的任一实现方式中所述的方法。处理器与存储器耦合，存储器用于存储指令和数据，所述处理器执行所述存储器中存储的指令时，可以实现上述第一方面至第六方面、或者第一方面至第六方面的任一实现方式中所述的方法。

可选地，所述通信装置还可以包括存储器。可选地，存储器可以与处理器耦合。可选地，所述通信装置还可以包括通信接口，所述通信接口用于该装置与其它设备进行通信，示例性的，通信接口可以是收发器、硬件电路、总线、模块、管脚或其它类型的通信接口。

在一个示例中，该通信装置可以是第一设备，也可以是设置于第一设备中的装置、模块或芯片等，或者是可以和该第一设备匹配使用的装置。

在另一个示例中，该通信装置可以是第二设备，也可以是设置于第二设备中的装置、模块或芯片等，或者是可以和该第二设备匹配使用的装置。

第十四方面，本申请提供了一种系统，包括：第一设备，用于执行第一方面或第三方面或第五方面，或者第一方面或第三方面或第五方面的任一实现方式中所述的方法；第二设备，用于执行第二方面或第四方面或第六方面，或者第二方面或第四方面或第六方面的任一实现方式中所述的方法。

第十五方面，本申请还提供了一种计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述第一方面至第六方面、或者第一方面至第六方面的任一实现方式中所述的方法。

第十六方面，本申请还提供了一种计算机程序产品，包括指令，当所述指令在计算机上运行时，使得计算机执行上述第一方面至第六方面、或者第一方面至第六方面的任一实现方式中所述的方法。

第十七方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序或指令，当所述计算机程序或者指令在计算机上运行时，使得所述计算机执行上述第一方面至第六方面、或者第一方面至第六方面的任一实现方式中所述的方法。

第十八方面，本申请还提供了一种芯片，所述芯片用于读取存储器中存储的计算机程序，执行上述第一方面至第六方面、或者第一方面至第六方面的任一实现方式中所述的方法；或者，所述芯片包括用于执行上述第一方面至第六方面、或者第一方面至第六方面的任一实现方式中所述的方法。

第十九方面，本申请还提供了一种芯片系统，该芯片系统包括处理器，用于支持装置实现上述第一方面至第六方面、或者第一方面至第六方面的任一实现方式中所述的方法。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器用于保存该装置必要的程序和数据。该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

关于第七方面至第十九方面中任一方面的有益效果的描述可以参照第一方面至第六方面的有益效果的描述，此处不作赘述。

附图说明

图1是一种网络架构的示意图；

图2是当前MLT流程示意图；

图3是本申请实施例提供的一种模型训练方法300的示意图；

图4是本申请实施例提供的一种模型训练流程400的示意图；

图5是本申请实施例提供的一种模型训练流程500的示意图；

图6是本申请实施例提供的一种模型训练流程600的示意图；

图7是是本申请实施例提供的一种模型训练装置1000的示意图；

图8是本申请实施例提供的另一种模型训练装置1100示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

为了便于理解，首先对可以应用本申请的实施例的通信系统进行描述。

本申请的实施例可以应用于各种通信系统。例如：长期演进(long term evolution，LTE)系统、LTE频分双工(frequency division duplex，FDD)系统、LTE时分双工(time division duplex，TDD)、公共陆地移动网络(public land mobile network，PLMN)、第五代(5th generation，5G)系统、第六代(6th generation，6G)系统或未来的通信系统等。本申请中的5G系统包括非独立组网(non-standalone，NSA)的5G移动通信系统或独立组网(standalone，SA)的5G移动通信系统。本申请的实施例还可以应用于卫星通信系统等非陆地通信网络(non-terrestrial network，NTN)通信系统。本申请的实施例还可以应用于设备到设备(device to device，D2D)通信系统、侧行链路(sidelink，SL)通信系统、机器到机器(machine to machine，M2M)通信系统、机器类型通信(machine type communication，MTC)系统、物联网(Internet of things，IoT)通信系统、车联万物(vehicle to everything，V2X)通信系统、无人机(uncrewed aerial vehicle，UAV)通信系统或者其他通信系统。

作为示例，图1示出了一种网络架构的示意图。

如图1所示，该网络架构以5G系统(the 5th generation system，5GS)为例。该网络架构中可包括三部分，分别是用户设备(user equipment，UE)部分、数据网络(data network，DN)部分和运营商网络部分。其中，运营商网络可包括以下网元中的一个或多个：(无线)接入网((radio)access network，(R)AN)设备、用户面功能(user plane function，UPF)网元、接入和移动性管理功能(access and mobility management function，AMF)网元、会话管理功能(session management function，SMF)网元、网络数据分析功能(network data analytics function，NWDAF)网元、策略控制功能(policy control function，PCF)网元、应用功能(application function，AF)网元、移动智能功能(Mobile Intelligence Function，MIF)网元和网络管理(Operations,Administration And Management，OAM)网元。上述运营商网络中，除RAN部分之外的部分可以称为核心网部分。

在本申请中，将用户设备、(无线)接入网设备、UPF网元、AMF网元、SMF网元、NWDAF网元、PCF网元、AF网元、MIF网元、OAM网元分别简称为UE、(R)AN、UPF、AMF、SMF、NWDAF、PCF、AF、MIF、OAM。

下面对图1中涉及的各网元进行简单描述。

1、UE

本申请中的UE也可以称为终端、用户、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端设备、无线通信设备、用户代理或用户装置等，为了描述方便，下文统一称为终端。

终端是一种可以接入网络的设备。终端与(R)AN之间可以采用某种空口技术(如NR或LTE技术)相互通信。终端与终端之间也可以采用某种空口技术(如NR或LTE技术)相互通信。终端可以是手机(mobile phone)、平板电脑(pad)、带无线收发功能的电脑、虚拟现实(virtual reality，VR)终端、增强现实(augmented reality，AR)终端、卫星通信中的终端、接入回传一化链路(integrated access and backhaul，IAB)系统中的终端、WiFi通信系统中的终端、工业控制(industrial control)中的终端、无人驾驶(self driving)中的终端、远程医疗(remote medical)中的终端、智能电网(smart grid)中的终端、运输安全(transportation safety)中的终端、智慧城市(smart city)中的终端、智慧家庭(smart home)中的终端等。

本申请的实施例对UE所采用的具体技术和具体设备形态不做限定。

2、(R)AN

本申请中的(R)AN可以是用于与终端通信的设备，也可以是一种将终端接入到无线网络的设备。

(R)AN可以为无线接入网中的节点。(R)AN可以是基站(base station)、演进型基站(evolved NodeB，eNodeB)、发送接收点(transmission reception point，TRP)、家庭基站(例如，home evolved NodeB，或home Node B，HNB)、Wi-Fi接入点(access point，AP)、移动交换中心、5G移动通信系统中的下一代基站(next generation NodeB，gNB)、开放无线接入网(open radio access network，O-RAN或open RAN)中的接入网设备、第六代(6th generation，6G)移动通信系统中的下一代基站、或未来移动通信系统中的基站等。网络设备还可以是完成基站部分功能的模块或单元，例如，可以是集中式单元(central unit，CU)、分布式单元(distributed unit，DU)、射频拉远单元(remote radio unit，RRU)或基带单元(baseband unit，BBU)等。(R)AN还可以是D2D通信系统、V2X通信系统、M2M通信系统以及IoT通信系统中承担基站功能的设备等。(R)AN还可以是NTN中的网络设备，即(R)AN可以部署于高空平台或者卫星。(R)AN可以是宏基站，也可以是微基站或室内站，还可以是中继节点或施主节点等。

本申请的实施例对(R)AN所采用的具体技术、设备形态以及名称不做限定。

3、UPF

UPF主要功能使数据包路由和转发、移动性锚点、上行分类器来支持路由业务流到数据网络、分支点来支持多归属PDU会话等。

4、DN

DN主要用于为终端提供数据服务的运营商网络。例如，因特网(Internet)、第三方的业务网络、或IP多媒体服务业务(IP multi-media service，IMS)网络等。

5、AMF

AMF主要功能包含管理用户注册、可达性检测、SMF节点的选择、移动状态转换管理等。

6、SMF

SMF主要功能是控制会话的建立、修改和删除，用户面节点的选择等。

7、NWDAF

其具备数据收集、模型训练、数据分析、模型推理等功能，可以用于收集来自网络网元、第三方业务服务器、终端设备或网管系统中的相关数据，基于相关数据做数据分析或模型训练，并向网络网元、第三方业务服务器、终端设备或网管系统提供数据分析结果，或者向其它数据分析功能网元提供训练的模型。

8、PCF

PCF主要负责策略控制的决策、提供控制平面功能的策略规则、以及基于流量的计费控制功能等。

9、AF

AF主要支持与3GPP核心网交互来提供服务，例如影响数据路由决策、策略控制功能或者向网络提供第三方的服务。AF可是运营商网络自身部署的AF，也可以是第三方AF。DCAF是一种特殊的AF，主要负责从UE application收集数据，并开放给网络中的NWDAF等网元。

10、OAM

主要完成日常网络和业务的分析、预测、规划和配置工作，以及对网络及其业务的测试和故障管理等。OAM可以和RAN交互，获取RAN侧由RAN测量的或者UE测量上报的UE位置信息。

11、MIF

负责基站的人工智能(ArtificialIntelligence，AI)或机器学习(MachineLearning，ML)功能，包括数据管理功能、算力管理功能和模型管理功能，其中，数据管理功能可以包括：数据采集、数据存储和数据分析；算力管理功能可以包括：算力感知、算力调度、以及算力和传输协同；模型管理功能可以包括：模型训练、模型推理和模型生命周期管理。MIF的形态可以是：基站、独立于基站的一个网元、独立于基站的一个网络功能、基站内部的一个子模块、或者基站内部的一个子功能，例如在图1中MIF为独立于基站的一个网元/网络功能。

在图1所示的网络架构中，各网元之间可以接口通信。各网元之间的接口可以是点对点接口，也可以是服务化接口，本申请不予限制。

应理解，上述所示的网络架构仅是示例性说明，适用本申请实施例的网络架构并不局限于此，任何能够实现上述各个网元的功能的网络架构都适用于本申请实施例。

还应理解，图1中所示的UE、(R)AN、UPF、AMF、SMF、NWDAF、PCF、AF、MIF、OAM等功能或者网元，可以理解为用于实现不同功能的网元，例如可以按需组合成网络切片。这些网元可以各自独立的设备，也可以集成于同一设备中实现不同的功能，或者可以是硬件设备中的网络元件，也可以是在专用硬件上运行的软件功能，或者是平台(例如，云平台)上实例化的虚拟化功能，本申请对于上述网元的具体形态不作限定。

还应理解，上述命名仅为便于区分不同的功能而定义，不应对本申请构成任何限定。本申请并不排除在6G网络以及未来其它的网络中采用其他命名的可能。例如，在6G网络中，上述各个网元中的部分或全部可以沿用5G中的术语，也可能采用其他名称等。

为便于理解本申请实施例，对本申请实施例中涉及的几个基本概念做简单说明。

1、机器学习(MachineLearning，ML)

机器学习(ML)模型作为人工智能(ArtificialIntelligence，AI)的一项关键技术，凭借其对于数据的高效挖掘与处理能力，已经在通信技术研究中获得了广泛的关注。ML模型在通信网络中的训练流程是第三代合作伙伴计划(3rd Generation Partnership Project，3GPP)R18标准研究的重要方向之一。通过对ML模型进行高效训练，可以提高其在实际通信应用中的性能，同时有利于后续进行ML模型部署、管理和大规模应用。其中，SA5 TS28.105明确了ML模型训练的整体流程框架和数据要求。其中，机器学习训练(MLTraining，MLT)网络服务(Management Services，MnS)提供者利用当前和历史相关数据来监控与ML模型相关的网络或服务、准备数据、触发并执行训练。

2、大模型

大模型是一种包含至少亿级参数量的人工神经网络模型，需要通过计算机和海量现有数据进行优化训练。具有强大的推理能力和泛化能力。大模型作为一种新的ML范式，为包括自然语言处理(Natural Language Processing，NLP)在内的多个应用领域实现性能突破。大模型利用巨大参数规模、海量数据和计算资源，以及能够捕捉全局数据关系的模型结构，可以获得前所未有的推理能力和泛化性能。只需一个经过预训练的模型，就可以适应广泛的各类应用任务，并通过微调、或小/零样本学习实现最佳性能。鉴于3GPP R19标准研究开始关注自然语言意图，大模型可能作为自然语言意图翻译的潜在技术方案。此外，大模型依托其强大的推理能力在通信网络中的物理层无线资源分配、网络管理面运行优化以及核心网智能控制等场景中具有较大应用潜力。

3、微调

指为了某一/些特定任务对经过预训练后的人工神经网络模型使用该任务的特有信息进行训练的过程。例如，为了使某一人工神经网络模型具有机器翻译的能力，需要使用不同语言对照关系表来对经过预训练后的模型进行下一步训练。

4、数据生成模型

具有拟合数据分布能力的人工神经网络模型。在训练后，对于特定输入，能够获得更多符合该分布的输出结果。例如，生成对抗网络模型在文本生成任务中的应用，通过使用大量的自然语言来训练该模型，使其给定任意白噪声输入，能够输出一组与训练语料相似的自然语言输出结果。

图2是当前MLT流程示意图，考虑到当前MLT MnS使用者侧的算力部署不充分，且MLT MnS提供者侧(例如OAM)方便进行算力部署，因此通常由MLTMnS提供者完成模型训练。如图2所示，由MLT MnS使用者向MLT MnS提供者发送训练请求以发起ML实体(模型)训练流程，同时由MLT MnS使用者提供历史或现有可用训练数据供MLT MnS提供者选择。MLT MnS提供者响应MLT MnS使用者的训练请求，选择训练数据进行模型训练，完成后将训练结果发送给MLT MnS使用者，供后者进行选择使用。

由上可见，ML模型训练过程中需要MLTMnS使用者向MLTMnS提供者发送训练数据，以供MLTMnS提供者训练时选择。然而，大模型训练过程中需要海量数据，若直接应用当前ML模型训练方法，其中的数据收集过程会导致网元间(特别是MLTMnS使用者和MLTMnS提供者之间)通信资源开销较大。例如，在考虑高时间敏感性场景下的可靠无线传输中，对10万用户级无线网络中对用户进行周期为10ms的数据采样，假设所需用户特征数为100，每个特征需要4比特进行表示，那么在该网络中每分钟所需上传用户数据量约为4GB，通信资源开销较大。

有鉴于此，本申请提出一种模型训练方法和装置，可以在大模型训练过程中避免MLTMnS提供者直接加载MLTMnS使用者的海量训练数据，从而节省数据收集过程所带来的通信开销。

为便于理解本申请实施例，在介绍本申请的实施例之前，先做出以下几点说明。

在本申请中，“用于指示”或“指示”可以包括用于直接指示和用于间接指示，或者说“用于指示”或“指示”可以显式地和/或隐式地指示。例如，当描述某一信息用于指示信息I时，可以包括该信息直接指示I或间接指示I，而并不代表该信息中一定携带有I。又例如，隐式指示可以基于用于传输的位置和/或资源；显式指示可以基于一个或多个参数，和/或一个或多个索引，和/或一个或多个它所表示的位模式。

本申请对很多特性所列出的定义仅用于以举例方式来解释该特性的功能，其详细内容可以参考现有技术。

下文示出的实施例中，第一、第二、第三、第四以及各种数字编号仅为描述方便进行的区分，并不用来限制本申请实施例的范围。例如，区分不同的字段、不同的信息等。

“预先定义”可以通过在设备中预先保存相应的代码、表格或其他可用于指示相关信息的方式来实现，本申请对于其具体的实现方式不做限定。其中，“保存”可以是指，保存在一个或者多个存储器中。存储器的类型可以是任意形式的存储介质，本申请并不对此限定。

本申请实施例中涉及的“协议”可以是指通信领域的标准协议，例如可以包括长期演进(long term evolution，LTE)协议、新无线(new radio，NR)协议以及应用于未来的通信系统中的相关协议，本申请对此不做限定。

本申请将围绕包括多个设备、组件、模块等的系统来呈现各个方面、实施例或特征。应当理解和明白的是，各个系统可以包括另外的设备、组件、模块等，并且/或者可以并不包括结合附图讨论的所有设备、组件、模块等。此外，还可以使用这些方案的组合。

在本申请实施例中，“示例的”、“例如”、“示例性地”、“作为(另)一个示例”等词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用示例的一词旨在以具体方式呈现概念。

术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a、b和c中的至少一项(个)，可以表示：a，或，b，或，c，或，a和b，或，a和c，或，b和c，或，a、b和c。其中a、b和c分别可以是单个，也可以是多个。

在本申请实施例中，涉及网元A向网元B发送消息、信息或数据，以及网元B接收来自网元A的消息、信息或数据的相关描述，旨在说明该消息、信息或数据是要发给哪个网元，而并不限定它们之间是直接发送还是经由其他网元间接发送。

在本申请实施例中，“当……时”、“在……的情况下”、“若”以及“如果”等描述均指在某种客观情况下设备会做出相应的处理，并非是限定时间，且也不要求设备在实现时一定要有判断的动作，也不意味着存在其它限定。

应理解，在本申请实施例中，基站和接入网设备可以是相同概念，二者可以互相替换使用。

图3是本申请实施例提供的一种模型训练方法300的示意图。如图所示，该方法300包括下述步骤：

S310，第一设备向第二设备发送第一信息，对应的，第二设备接收该第一信息。其中，该第一信息用于指示第一模型，该第一模型用于生成更新第二模型的训练数据集。

在本申请实施例中，该第一设备可以是网络管理服务(例如通信基础大模型)使用者，该第二设备可以是网络管理服务提供者，该第一模型可以是数据生成模型，该第二模型可以是物理网络中实现一种或多种通信功能的AI/ML模型，或称为通信基础大模型。

作为示例而非限定，该第二模型可以是由第二设备向第一设备发送的。具体的，在上述步骤S310前，该第二设备向第一设备发送配置信息，该配置信息用于指示该第二模型。

可选地，该第二设备还可以向该第一设备发送该第二模型的性能信息，第二模型的评价指标信息，或者第二模型的功能信息的至少一项，使得该第一设备可以确定该第二模型在运行过程是否满足相应的性能要求。其中，该第二模型的性能信息可以包括该第二模型的参数量、结构和层数描述等信息；该第二模型的评价指标信息可以包括该第二模型在其可用下游任务中的性能表现，如准确率、召回率、均方误差等，该第二模型的功能信息可以包括可以通过该模型可以实现的通信功能的信息。

在一些可能的实现方式汇总，该第一设备可以向该第二设备发送第三信息，该第三信息用于指示该第一模型的使用方法，该第一模型的使用方法包括基于该第一模型生成训练数据集，或者，基于该第一模型进行模型融合。

应理解，本申请实施例对该第三信息指示该第一模型的使用方法的具体方式不作限定。

作为示例而非限定，该第三信息可以通过比特0和比特1指示该第一模型的使用方法，例如，比特0用于指示该基于该第一模型生成训练数据集，比特1用于指示基于该第一模型进行模型融合。

应理解，第一设备可以在发送上述第一信息的同时发送该第三信息，例如将第一信息和第三信息携带在同一消息中，或者，第一设备可以在发送上述第一信息后发送该第三信息，本申请实施例对此不作限定。

容易理解的是，以该第一模型的使用方法为区分，在上述步骤S310前，上述方法300还包括下述步骤：

方式一，基于该第一模型生成训练数据集：

S305，第一设备基于全部或部分本地数据进行模型训练，生成该第一模型。

其中，该第一设备的全部或部分数据中至少包括第一数据集，该第一数据集为与第一功能相关的数据的集合，该第一功能包括该第一设备期望通过该第二模型实现的一种或多种功能。

应理解，本申请实施例对于该第一设备执行步骤S305的触发条件不作限定。

在一种可能的实现方式中，该第一设备周期性地根据本地数据进行模型训练。其中，本申请实施例对于该第一设备进行模型训练的周期不作限定，示例性的，该周期可以是500s。

在另一种可能的实现方式中，在上述步骤S305前，上述方法300还包括下述步骤(图中未示出)：

S301，第一设备根据第一功能，基于第二数据集对该第二模型的参数进行微调。其中，该第二数据集包括于该第一数据集。

应理解，该第二数据集包括与上述第一功能相关的数据，该第二数据集包括于该第一数据集可以理解为，采集该第二数据集的时间段包括于采集该第一数据集的时间段。

S302，第一设备判断微调后的第二模型的性能是否满足上述第一功能的对应的关键绩效指标(Key Performance Indicator，KPI)要求。

应理解，上述KPI要求是该第一设备在对该第二模型进行微调的过程中确定的。

在一种可能的实现方式中，通过上述步骤S302微调后的第一模型的至少一种性能不满足对应的KPI要求，则该第一设备执行上述步骤S305。

在另一种可能的实现方式中，通过上述步骤S302微调后的第一模型的性能均满足对应的KPI要求，则该第一设备依次重复执行上述步骤S301和S302，通过这样的方式，该第一设备可以根据该第一功能和本地数据对该第一模型的参数进行微调，提高该第一设备本地运行的模型的性能。

方式二，基于该第一模型进行模型融合：

S307，第一设备根据第一功能，基于全部或部分本地数据对该第二模型的参数进行微调以生成该第一模型。

在一种可能的实现方式中，该第一设备在步骤S307中进行参数微调的该第二模型可以是该第一设备根据上述第一功能对第二模型进行轻量化处理后得到的模型。

应理解，上述第一设备使用的全部或部分本地数据包括与该第一功能相关的数据。

应理解，该全部或部分本地数据可以是该第一设备自身收集并存储在本地的，或者，是通过其他设备处获取后存储在本地的，本申请实施例对此不作限定。

基于上述方式一或方式二，第一设备可以生成第一模型并通过步骤S310发送该第一模型。

S320，第二设备根据第二模型，更新该第一模型。

在一种可能的实现方式中，当第三信息指示该第一模型用于生成训练数据集时，第二设备根据该第二模型，生成用于更新该第一模型的训练数据集，并根据该训练数据集对该第二模型进行模型训练，从而更新该第二模型。

在另一种可能的实现方式中，当该第三信息指示该第一模型用于与第二模型融合时，第二设备将该第二模型和该第一模型融合以更新该第二模型。其中，该第二模型和第一模型融合的具体方式将在下文中详细说明，此处不作赘述。

S330，第二设备向第一设备发送第二信息，对应的，该第一设备接收该第二信息。其中，该第二信息用于指示更新后的该第二模型。

应理解，本申请实施例对该第二信息指示更新后的第二模型的具体方式不作限定。

作为示例而非限定，该第二信息中包括更新后的该第二模型，则该第一设备在接收到第一信息后可以获取更新后的该第二模型。

作为示例而非限定，该第二信息中可以包括更新后的该第二模型的存储地址，则该第一设备在接收到该第二信息后，可以根据更新后的该第二模型的存储地址获取定该第一模型。

可选地，在第一设备还可以向第二设备发送第二模型的性能信息，第二模型的评价指标信息，或者第二模型的功能信息的至少一项。

容易理解的是，上述步骤S310至S330中的第一设备可以进行数据收集并基于收集的数据进行模型训练。在一些可能的实施例中，该第一设备为MIF，即该第一网元的训练数据由其他设备(例如基站)提供，该第一设备本身仅用于进行数据训练。

在这些实施例中，上述方法300还可以包括下述步骤(图中未示出)：

S301’：第一设备根据第二功能，基于第三数据集对该第二模型的参数进行微调。

应理解，该第四数据集为与第二功能相关的数据的集合，该第二功能包括该基站期望通过该第二模型实现的一种或多种功能。

应理解，上述第四数据集是该第一设备从该基站请求获取的，即在执行上述步骤S301’前，第一设备需要向该基站请求基站采集的数据。

S302’：第一设备向该基站发送微调后的该第二模型，对应的，该基站接收微调后的该第二模型。

S303’：第一设备接收来自该基站的第四信息，该第四信息用于指示微调后的第二模型的性能异常。

在这些实施例中，上述步骤S305可以替换为：

S305’：该第一设备基于基站收集的全部或部分数据进行模型训练，生成该第一模型。

其中，该基站收集的全部或部分数据中至少包括第四数据集，该第四数据集为与上述第二功能相关的数据的集合。并且，该第四数据集包括该第三数据集，即采集该第四数据集的时间段包括采集该第三数据集的时间段。

应理解，该第一设备进行模型训练的数据可以是第一设备在确定需要生成第一模型时向该基站请求获取的，或者，该第一设备进行模型训练的数据可以是该第一设备本地存储的该基站上报的数据，本申请实施例对此不作限定。

在一些可能的实施例中，在该第一设备执行该S305’前，该第一设备需要向基站请求该基站收集的全部或部分数据。

本申请实施例对于该第一设备向基站请求该基站收集的全部或部分数据的具体方式不作限定。

作为示例而非限定，该第一设备周期性的向该基站发送第四信息，该第四信息用于请求该基站收集的全部数据，或者，该第四信息用于请求该基站收集的与第二功能相关的数据。

应理解，本申请实施例对于该第一设备执行步骤S305’的触发条件不作限定。

在一种可能的实现方式中，该步骤S305’的触发条件为接收上述第三信息。

进一步地，在第一设备接收该第三信息后，该第一设备可以根据本地存储的基站采集的数据进行模型训练以生成第一模型，或者，该第一设备可以向该基站发送第四信息以请求基站采集的数据，并根据该数据进行模型训练以生成第一模型。

在另一种可能的实现方式中，该第一设备周期性地根据本地数据进行模型训练。其中，本申请实施例对于该第一设备进行模型训练的周期不作限定，示例性的，该周期可以是500s。

基于上述方案，第一设备向第二设备发送第一模型，使得第二设备可以根据该第一模型生成用于更新第二模型的训练数据集，并基于该训练数据集更新第一模型，即第一设备通过发送第二模型而非训练数据，可以节省第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销。

以下通过图4所示的第一设备能够进行数据收集以及模型训练的场景，对上述方法300的具体流程进行说明。在此场景中，该第一设备可以为基站，OAM，NWDAF中的任一项，以下以该第一设备为基站，第二设备为支持云服务的设备(以下称为Cloud)为例进行说明。

图4是本申请实施例提供的一种模型训练流程400的示意图。如图所示，该流程400包括下列步骤：

S401，Cloud向一个或多个基站发送信息#1，对应的，该一个或多个基站接收该信息#1。

其中，该信息#1用于指示模型#1(第二模型的一例)，示例性的，该模型#1可以是无线通信基础大模型。在本申请实施例中，上述步骤S401可以理解为Cloud使无线通信基础大模型在基站端可用。

应理解，本申请实施例对该信息#1指示模型#1的具体方式不作限定，具体方式可参考步骤S310的相关内容，此处不作赘述。

可选地，Cloud在发送信息#1时还可以向该一个多个基站发送模型#1的模型性能信息，模型#1的评价指标信息以及模型#1的模型功能信息中的至少一项，关于上述信息的具体说明可参考步骤S310的相关内容，此处不作赘述。

S402，每个基站根据所需功能使用全部或部分本地采集数据对模型#2的参数进行微调。

在一种可能的实现方式中，该模型#2可以是该基站通过信息#1确定的模型。

在另一种可能的实现方式中，该模型#2可以是该基站根据所需功能(即第一功能)对模型#1进行轻量化处理后得到的模型。其中，该基站所需功能可以理解为该基站期望通过模型#1实现的一种或多种功能。

应理解，上述全部或部分本地采集数据至少包括数据集#1，该数据集#1为该基站采集的与自身所需功能相关的数据的集合。

作为示例而非限定，该模型所需功能可以包括该基站所需的波束管理、信道测量等功能。：

在本申请实施例中，该模型#2可以是on-site模型。

应理解，在该基站对该模型#2的参数进行微调的过程中，可以确定该基站所需功能对应的KPI要求。

S403，每个基站判断微调后的模型#2的性能是否满足上述基站所需功能对应的KPI要求。

在一种可能的实现方式中，该模型#2的性能满足上述基站所需功能的KPI要求，则基站重复上述步骤S402和S403，通过这样的方式，该基站可以根据该自身所需功能和本地数据对该模型#2的参数进行微调，提高该基站本地部署的模型的性能。

在另一种可能的实现方式中，该模型#2的性能未满足基站所需功能的至少一项KPI要求，则基站执行下述步骤S404。

S404，基站使用全部或部分本地数据进行模型训练，生成模型#3。

其中，该基站的全部或部分本地数据中至少包括数据集#2，该数据集#2为该基站收集的与该自身所需功能相关的数据的集合。

在本申请实施例中，该模型#3可以是数据生成模型。

S405，基站向Cloud发送信息#2(第一信息的一例)和信息#3(第三信息的一例)，对应的，Cloud接收该信息#2和信息#3。

其中，该信息#2用于指示模型#3，该信息#3用于指示模型#3用于生成训练数据集。在本申请实施例中，上述步骤S405可以理解为基站使模型#3在Cloud端可用。

在一些可能的实现方式中，上述信息#2和信息#3可以包括于无线大模型训练请求消息中，该无线大模型训练请求消息用于请求更新上述模型#1。

可选地，该基站可以在发送信息#2时向Cloud发送模型#3的模型性能信息，模型#3的评价指标信息以及模型#3的模型功能信息中的至少一项。

可选地，在基站在发送信息#2前，可以对步骤S404生成的模型#3进行轻量化处理，并通过信息#2指示轻量化处理后的模型#3。

S406，Cloud根据从一个或多个基站获取的模型#3，更新模型#1。

具体的，Cloud根据从一个或多个基站获取的模型#3，生成训练数据集，并根据该训练数据集对模型#1进行模型训练，以更新模型#1。

S407，Cloud向一个或多个基站发送信息#4(第二信息的一例)，对应的，该一个或多个基站接收信息#4。

其中，该信息#4用于指示更新后的模型#1。在本申请实施例中，上述步骤S407可以理解为Cloud使更新后的模型#1在基站端可用。

可选地，Cloud在发送信息#4时还可以向该一个多个基站发送更新后的模型#1的模型性能信息，更新后的模型#1的评价指标信息以及更新后的模型#1的模型功能信息中的至少一项。

基于上述方案，基站/OAM/NWDAF可以基于本地数据生成并向Cloud发送模型#3，使得Cloud可以根据该模型#3生成用于更新模型#1的训练数据集，并基于该训练数据集更新模型#1，即基站/OAM/NWDAF可以通过向Cloud发送用于生成更新模型#1的训练数据集的模型#3而非训练数据，节省基站/OAM/NWDAF和Cloud间与该模型#1的训练数据收集相关的通信开销。

以下通过图5所示的第一设备用于为其他设备提供算力(例如进行模型训练)的场景，对上述方法300的具体流程进行说明。以下以该第一设备为MIF，第二设备为支持云服务的设备(以下称为Cloud)为例进行说明。

图5是本申请实施例提供的一种模型训练流程500的示意图。如图所示，该流程500包括下列步骤：

S501，Cloud向一个或多个MIF发送信息#1’，对应的，该一个或多个MIF接收信息#1’。

其中，该信息#1’用于指示模型#1’(第二模型的另一例)，示例性的，该模型#1’可以是无线通信基础大模型。在本申请实施例中，上述步骤S401可以理解为Cloud使无线通信基础大模型在MIF端可用。

应理解，本申请实施例对该信息#1’指示模型#1’的具体方式不作限定，具体方式可参考步骤S310的相关内容，此处不作赘述。

可选地，Cloud在发送信息#1’时还可以向该一个多个基站发送模型#1’的模型性能信息，模型#1’的评价指标信息以及模型#1’的模型功能信息中的至少一项。

应理解，上述每个MIF可以用于为对应的一个或多个基站提供算力，即每个MIF可以用于为对应的一个或多个基站进行模型训练，本申请对此不作限定。

作为示例而非限定，Cloud向MIF#1和MIF#2发送上述信息#1’，其中，MIF#1可以为基站#1和基站#2提供算力，MIF#2可以为基站#3提供算力。

应理解，在上述步骤S501前，该一个或多个MIF对应的基站上配置有模型#2’，该模型#2’可以是上述模型#1，或者，该模型#2’可以基于基站所需功能进行参数微调后的模型#1’，且本申请对为该一个或多个MIF对应的基站配置该模型#2’的具体方式不作限定，具体方式可参考步骤S310的相关内容，此处不作赘述。

S502，每个MIF向对应的一个或多个基站发送信息#5，对应的，该一个或多个基站接收信息#5。其中，该信息#5用于请求该一个或多个基站采集的数据。

在一种可能的实现方式中，该信息#5中包括标识#1和标识#2的至少一项，其中，该标识#1用于指示特定的时间段，使得每个基站可以基于该标识#1上报在该特定的时间段内采集的数据，该标识#2用于指示特定的功能，使得每个基站可以基于该标识#2上报该特定功能相关的数据。

S503，每个基站向对应的MIF发送全部或部分本地数据。

具体的，每个基站根据上述信息#5对本地数据进行采样，并向对应的MIF发送采样得到的训练数据。其中，该基站向对应的MIF发送的全部或本地数据至少包括数据集#3，该数据集#3为与该基站所需功能相关的数据。其中，该基站所需功能可以理解为该基站期望通过模型#1实现的一种或多种功能。

应理解，当该信息#5中包括上述标识#1时，该基站将根据该标识#1对本地数据进行采样，并将该标识#1指示的特定的时间段内采集的全部或部分数据发送给对应的MIF。

应理解，当该信息#5中包括上述标识#2时，该基站将根据该标识#2对本地数据进行采样，并将该标识#2指示的特定功能相关的全部或部分数据发送给对应的MIF。

S504，MIF根据基站所需功能，使用基站提供的全部或部分本地数据对对模型#1’的参数进行微调。

具体的，MIF对该模型#1’进行微调的具体过程可参考方法300的相关内容，此处不作赘述。

S505，每个MIF向对应的一个或多个基站发送信息#6，该信息#6用于指示微调后的模型#1’。

对应的，该一个或多个基站在接收到微调后的模型#1’后，更新本地部署。

S506，每个基站判断微调后的模型#1’是否满足所需功能对应的KPI要求。

在一些可能的实现方式中，该模型#1’的性能满足上述基站所需功能的KPI要求，则重复上述步骤S502至步骤S506，通过这样的方式，该MIF可以根据该基站所需功能和基站采集的数据对该模型#1’的参数进行微调，提高该基站本地部署的模型的性能。

在另一种可能的实现方式中，该模型#1’的性能未满足基站所需功能的至少一项KPI要求，则基站执行下述步骤S507。

S507，基站向对应的MIF发送信息#7(第四信息的一例)，对应的，对应的MIF接收该信息#7。其中，该信息#6用于指示该基站部署的模型异常。

S508，MIF使用对应的一个或多个基站提供的全部或部分数据进行模型训练，生成模型#3’。

其中，该一个或多个基站提供的全部或部分数据至少包括数据集#4，该数据集#4该一个或多个基站上报的与基站所需功能相关的数据的集合。并且，该数据集#4包括上述数据集#3，即采集该数据集#4的时间段包括采集该数据集#3的时间段。

应理解，本申请实施例对MIF获取该数据集#4的具体方式不作限定。

作为示例而非限定，该MIF通过前述步骤S503接收到基站上报的数据后在本地存储该数据，从而在执行步骤S508时基于本地存储的数据进行模型训练。

作为示例而非限定，该MIF在执行上述步骤S507前，执行下述步骤(图中未示出)：

S5081，MIF向对应的一个或多个基站发送信息#8(第五信息的一例)，对应的，该一个或多个基站接收该信息#8。其中，该信息#8用于请求基站上报所采集的数据。

可选地，该信息#8中包括上述标识#1或标识#2中的至少一项，使得基站可以基于该标识#1或标识#2发送对应的数据。

S5082，每个基站向MIF上报全部或部分本地数据。

可选地，该MIF还可以周期性地向对应的一个或多个基站发送信息#8，以请求基站上报采集的数据。

基于上述方式，MIF可以获取基站采集的数据，并基于该数据进行模型训练，以生成模型#3’。示例性的，该模型#3’是数据生成模型。

S509，MIF向Cloud发送信息#2’(第二信息的另一例)和信息#3’(第三信息的另一例)，对应的，Cloud接收该信息#2’和信息#3’。

其中，该信息#2’用于指示模型#3’，该信息#3’用于指示该第一模型用于与第二模型融合。在本申请实施例中，上述步骤S509可以理解为MIF使模型#3’在Cloud端可用。

在一些可能的实现方式中，上述信息#2’和信息#3’可以包括于无线大模型训练请求消息中，该无线大模型训练请求消息用于请求更新上述模型#1’。

可选地，该MIF可以在发送信息#2’时向Cloud发送模型#3’的模型性能信息，模型#3’的评价指标信息以及模型#3’的模型功能信息中的至少一项。

可选地，在基站在发送信息#2’前，可以对步骤S408生成的模型#3’进行轻量化处理，并通过信息#2’指示轻量化处理后的模型#3’。

S510，Cloud根据从一个或多个MIF获取的模型#3’，更新模型#1’。

具体的，Cloud根据从一个或多个MIF获取的模型#3’，生成训练数据集，并根据该训练数据集对模型#1’进行模型训练，以更新模型#1’。

S511，Cloud向一个或多个MIF发送信息#4’，对应的，该一个或多个基站接收信息#4’。

其中，该信息#4’用于指示更新后的模型#1’。在本申请实施例中，上述步骤S407可以理解为Cloud使更新后的模型#1’在MIF端可用。

可选地，Cloud在发送信息#4’时还可以向该一个多个MIF发送更新后的模型#1’的模型性能信息，更新后的模型#1’的评价指标信息以及更新后的模型#1’的模型功能信息中的至少一项。

进一步地，该一个或多个MIF可以向对应的一个或多个基站发送该更新后的模型#1。

可选的，在每个MIF向对应的一个或多个基站发送更新后的模型#1’前，该MIF还可以根据基站所需功能对更新后的模型#1’进行轻量化处理，和/或，根据基站所需功能使用基站采集的数据对更新后的模型#1’的参数进行微调。其中，该MIF可以通过重复上述步骤S502获取基站采集的数据。

基于上述方案，MIF可以基于基站上报的数据向Cloud发送模型#3’，使得Cloud可以根据该模型#3’生成用于更新模型#1’的训练数据集，并基于该训练数据集更新模型#1’，即MIF可以通过向Cloud发送用于生成更新模型#1’的训练数据集的模型#3’而非训练数据，节省MIF和Cloud间与该模型#1’的训练数据收集相关的通信开销。

以下将结合图6对本申请实施例提供的模型训练方法600进行说明。在方法600中，第一设备可以通过向第二设备发送本地部署的模型，使得第二设备可以基于该第一设备本地部署的模型更新第二模型。在方法600中，该第一设备可以是基站，OAM，NWDAF，MIF中的任一项，以下以该第一设备为基站，第二设备为Cloud为例进行说明。

图6是本申请实施例提供的一种模型训练流程600的示意图。如图所示，该流程600包括下列步骤：

S601，Cloud向一个或多个基站发送信息#8，对应的，该一个或多个基站接收该信息#8。

其中，该信息#8用于指示模型#4(第二模型的一例)，示例性的，该模型#4可以是无线通信基础大模型。在本申请实施例中，上述步骤S601可以理解为Cloud使无线通信基础大模型在基站端可用。

应理解，本申请实施例对该信息#8指示模型#4的具体方式不作限定，具体方式可参考步骤S310的相关内容，此处不作赘述。

可选地，Cloud在发送信息#8时还可以向该一个多个基站发送模型#4的模型性能信息，模型#4的评价指标信息以及模型#4的模型功能信息中的至少一项，关于上述信息的具体说明可参考步骤S310的相关内容，此处不作赘述。

S602，每个基站根据所需功能使用全部或部分本地采集数据对模型#5的参数进行微调，以生成模型#6(第一模型的一例)。

在一种可能的实现方式中，该模型#5可以是该基站通过信息#1确定的模型。

在另一种可能的实现方式中，该模型#5可以是该基站根据所需功能(即第一功能)对模型#4进行轻量化处理后得到的模型。其中，该基站所需功能可以理解为该基站期望通过模型#4实现的一种或多种功能。

应理解，上述全部或部分本地数据至少包括数据集#5，该数据集#5为该第一设备采集的与自身所需功能相关的数据的集合。

在本申请实施例中，该模型#5可以是on-site模型。

S603，基站向Cloud发送信息#9(第一信息的一例)和信息#10(第三信息的一例)，对应的，Cloud接收该信息#9和信息#10。

其中，该信息#9用于指示模型#6，该信息#10用于指示模型#6用于与模型#4融合。在本申请实施例中，上述步骤S405可以理解为基站使模型#6在Cloud端可用。

在一些可能的实现方式中，上述信息#9和信息#10可以包括于无线大模型训练请求消息中，该无线大模型训练请求消息用于请求更新上述模型#4。

可选地，该基站可以在发送信息#9时向Cloud发送模型#6的模型性能信息，模型#6的评价指标信息以及模型#6的模型功能信息中的至少一项。

可选地，在基站在发送信息#9前，可以对步骤S404生成的模型#6进行轻量化处理，并通过信息#9指示轻量化处理后的模型#6。

S604，Cloud根据从一个或多个基站获取的模型#6，更新模型#4。

具体的，Cloud将从一个或多个基站获取的模型#6与该模型#4进行融合，以更新第二模型。

应理解，本申请实施例对模型#6和模型#4的融合方式不作限定。

作为示例而非限定，该模型#6和模型#4可以进行知识蒸馏，即将模型#6和模型#4的模型参数通过求和、平均等计算方法，直接对模型#4的模型参数进行更新。

S605，Cloud向一个或多个基站发送信息#11(第二信息的一例)，对应的，该一个或多个基站接收信息#11。

其中，该信息#11用于指示更新后的模型#4。在本申请实施例中，上述步骤S605可以理解为Cloud使更新后的模型#4在基站端可用。

可选地，Cloud在发送信息#11时还可以向该一个多个基站发送更新后的模型#4的模型性能信息，更新后的模型#4的评价指标信息以及更新后的模型#4的模型功能信息中的至少一项。

基于上述方案，基站/OAM/NWDAF/MIF可以基于自身所需功能使用全部或部分本地数据对模型#4的参数进行微调并生成模型#6，使得Cloud可以将该模型#6与模型#4融合以更新模型#4，即基站/OAM/NWDAF/MIF可以通过向Cloud发送用于与模型#4融合的模型#6而非训练数据，节省基站/OAM/NWDAF/MIF和Cloud间与该模型#4的训练数据收集相关的通信开销。

下文对本申请方法实施例对应的装置实施例进行介绍。下文仅对装置做简要介绍，方案具体实现步骤和细节可参考前文方法实施例。

为了实现本申请提供的方法中的各功能，第一设备、第二设备均可以包括硬件结构和/或软件模块，以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行，取决于技术方案的特定应用和设计约束条件。

图7是是本申请实施例提供的一种模型训练装置1000的示意图，该装置1000可以包括收发单元1010、存储单元1020和处理单元1030。收发单元1010用于接收或发送指令和/或数据，收发单元1010还可以称为通信接口或通信单元；存储单元1020用于实现相应的存储功能，存储相应的指令和/或数据；处理单元1030用于进行数据处理，以使得装置1000实现前述模型训练方法。

在一种可能的实现方式中，装置1000可以仅包括收发单元1010和处理单元1030，不包括存储单元1020。

作为一种设计，装置1000可以执行上述方法实施例中第一设备所执行的动作。

一个实施例中，该装置1000包括：收发单元1010，用于向第二设备发送第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于生成用于更新第二模型的训练数据集，该第二模型是该第二设备训练得到的；该收发单元还用于接收第二信息，该第二信息用于指示更新后的该第二模型。

一种可能的实现方式中，该装置1000还包括：处理单元1020，用于基于全部或部分本地数据进行模型训练，生成该第一模型，该全部或部分本地数据包括第一数据集，该第一数据集包括与第一功能相关的数据，该第一功能为该模型训练装置期望通过该第二模型实现的一种或多种功能。

一个实施例中，该装置1000包括：收发单元1010，用于向第二设备发送第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于与第二模型融合以更新该第二模型，该第二模型是该第二设备训练得到的；该收发单元还用于接收第二信息，该第二信息用于指示更新后的该第二模型。

一种可能的实现方式中，该装置1000还包括：处理单元1030，用于根据第一功能，基于全部或部分本地数据对该第二模型的参数进行微调，以生成该第一模型，该第一功能为该第一设备期望通过该第二模型实现的一种或多种功能。

一个实施例中，该装置1000包括：收发单元1010，用于向第二设备发送第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于生成用于更新第二模型的训练数据集，或者，该第一模型用于与第二模型融合以更新该第二模型，该第二模型是该第二设备训练得到的；该收发单元还用于接收第二信息，该第二信息用于指示更新后的该第二模型。

一种可能的实现方式中，该装置1000还包括：处理单元1030，用于基于全部或部分本地数据进行模型训练，生成该第一模型，该全部或部分本地数据包括第一数据集，该第一数据集包括与第一功能相关的数据，该第一功能为该模型训练装置期望通过该第二模型实现的一种或多种功能。

一种可能的实现方式中，处理单元1030还用于根据第一功能，基于全部或部分本地数据对该第二模型的参数进行微调，以生成该第一模型，该第一功能为该第一设备期望通过该第二模型实现的一种或多种功能。

作为一种设计，装置1000可以执行上述方法实施例中第二设备所执行的动作。

一个实施例中，该装置1000包括：收发单元1010和处理单元1030，收发单元1010用于接收第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于生成用于更新该第二模型的训练数据集，该第二模型是该第一设备训练得到的；处理单元1030用于根据该第一模型，更新该第二模型；收发单元1010还用于向该第一设备发送第二信息，该第二信息用于指示更新后的该第二模型。

一个实施例中，该装置1000包括：收发单元1010和处理单元1030，收发单元1010用于接收第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于与第二模型融合以更新该第二模型，该第二模型是该第一设备训练得到的；处理单元1030用于根据该第一模型，更新该第二模型；收发单元1010还用于向该第一设备发送第二信息，该第二信息用于指示更新后的该第二模型。

一个实施例中，该装置1000包括：收发单元1010和处理单元1030，收发单元1010用于接收第一信息，该第一信息用于指示第一模型，该第一模型是该第一设备训练得到的，该第一模型用于生成用于更新该第二模型的训练数据集，或者，该第一模型用于与第二模型融合以更新该第二模型，该第二模型是该第一设备训练得到的；处理单元1030用于根据该第一模型，更新该第二模型；收发单元1010还用于向该第一设备发送第二信息，该第二信息用于指示更新后的该第二模型。

图8是本申请实施例提供的另一种模型训练装置1100示意图。

该装置1100包括：存储器1110、处理器1120、以及通信接口1130。其中，存储器1110、处理器1120，通信接口1130通过内部连接通路相连，该存储器1110用于存储指令，该处理器1120用于执行该存储器1110存储的指令，以控制通信接口1130获取信息，或者使得装置1100实现前述模型训练方法。可选地，存储器1110既可以和处理器1120通过接口耦合，也可以和处理器1120集成在一起。

需要说明的是，上述通信接口1130使用例如但不限于收发器一类的收发装置。上述通信接口1130还可以包括输入/输出接口(input/output interface)。

处理器1120存储有一个或多个计算机程序，该一个或多个计算机程序包括指令。当该指令被所述处理器1120运行时，使得该装置1100执行上述各实施例中模型训练方法。

在实现过程中，上述方法的各步骤可以通过处理器1120中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1110，处理器1120读取存储器1110中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

在一种可能的实现方式中，装置1100可以仅包括处理器1120和通信接口1130，不包括存储器1110。

可选地，图8中的通信接口1130可以实现图7中的收发单元1010，图8中的处理器1120可以实现图7中的处理单元1030。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有程序代码，当所述计算机程序代码在计算机上运行时，使得所述计算机执行上述图3至图7中的任一种方法。

本申请实施例还提供一种计算机程序产品，该计算机产品包括计算机程序，当所述计算机程序被运行时，使得计算机执行上述图3至图7中的任一种方法。

本申请实施例还提供一种芯片，包括：电路，该电路用于执行上述图3至图7中的任一种方法。

本申请实施例还提供一种系统，包括：第一设备和第二设备，第一设备用于执行图3至图7中第一设备所执行的动作/步骤；第二设备用于执行图3至图7中第二设备所执行的动作/步骤。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种模型训练方法，其特征在于，包括：

第一设备向第二设备发送第一信息，所述第一信息用于指示第一模型，所述第一模型是所述第一设备训练得到的，所述第一模型用于生成用于更新第二模型的训练数据集，或者，所述第一模型用于与所述第二模型融合以更新所述第二模型，所述第二模型是所述第二设备训练得到的；

第一设备接收来自所述第二设备的第二信息，所述第二信息用于指示更新后的所述第二模型。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述第一设备向所述第二设备发送第三信息，所述第三信息用于指示所述第一模型的使用方式，所述第一模型的使用方式包括基于所述第一模型生成所述训练数据集，或者，基于所述第一模型进行模型融合。
根据权利要求1或2所述的方法，其特征在于，当所述第一模型用于生成用于更新第二模型的训练数据集时，在所述第一设备向第二设备发送第一信息前，所述方法还包括：

所述第一设备基于全部或部分本地数据进行模型训练，生成所述第一模型，所述全部或部分本地数据包括第一数据集，所述第一数据集为与第一功能相关的数据的集合，所述第一功能为所述第一设备期望通过所述第二模型实现的一种或多种功能。
根据权利要求3所述的方法，其特征在于，在所述第一设备基于全部或部分本地数据进行模型训练前，所述方法还包括：

所述第一设备根据所述第一功能，基于第二数据集对所述第二模型的参数进行微调，所述第二数据集中包括与所述第一功能相关的数据，所述第二数据集包括于所述第一数据集；

所述第一设备确定微调后的所述第二模型与该第一功能中的至少一种功能相关的性能不满足对应的性能指标要求。
根据权利要求1或2所述的方法，其特征在于，当所述第一模型用于与所述第二模型合并以更新所述第二模型时，在所述第一设备向所述第二设备发送所述第一信息前，所述方法还包括：

所述第一设备根据第一功能，基于全部或部分本地数据对所述第二模型的参数进行微调，以生成所述第一模型，所述第一功能为所述第一设备期望通过所述第二模型实现的一种或多种功能。
根据权利要求1或2所述的方法，其特征在于，所述第一设备为移动智能网元，所述第二设备为支持云服务的设备。
根据权利要求6所述的方法，其特征在于，所述方法还包括：

所述第一设备获取第三数据集，所述第三数据集包括由基站采集的与第二功能相关的数据，所述第二功能包括所述基站期望通过所述第二模型实现的一种或多种功能；

所述第一设备根据所述第二功能，基于所述第三数据集对所述第二模型的参数进行微调。
根据权利要求7所述的方法，其特征在于，在所述第一设备向所述第二设备发送所述第一信息前，所述方法还包括：

所述第一设备接收第四信息，所述第四信息用于指示微调后的所述第二模型的性能异常；

所述第一设备根据所述第四信息，确定第四数据集，所述第四数据集是所述第一设备本地存储的，或者，所述第四数据集是所述第一设备通过所述基站获取的；

所述第一设备基于所述第四数据集进行模型训练，生成所述第一模型。
根据权利要求8所述的方法，其特征在于，当所述第四数据集是所述第一设备通过所述基站获取的时，所述第一设备根据所述第四信息，确定第四数据集，包括：

所述第一设备根据所述第四信息，向基站发送第五信息，所述第五信息用于请求基站采集的数据；

所述第一设备接收第六信息，所述第六信息用于指示所述第四数据集。
根据权利要求1至9中任一项所述的方法，其特征在于，在第一设备向所述第二设备发送第一信息前，所述方法还包括：

所述第一设备对所述第一模型进行轻量化处理。
一种模型训练方法，其特征在于，包括：

第二设备接收来自第一设备的第一信息，所述第一信息用于指示第一模型，所述第一模型是所述第一设备训练得到的，所述第一模型用于生成用于更新第二模型的训练数据集，或者，所述第一模型用于与所述第二模型融合以更新所述第二模型，所述第二模型是所述第二设备训练得到的；

所述第二设备根据所述第一模型，更新所述第二模型；

所述第二设备向所述第一设备发送第二信息，所述第二信息用于指示更新后的所述第二模型。
根据权利要求11所述的方法，其特征在于，所述方法还包括：

所述第二设备接收来自所述第一设备的第三信息，所述第三信息用于指示所述第一模型的使用方式，所述第一模型的使用方式包括基于所述第一模型生成所述训练数据集，或者，基于所述第一模型进行模型融合。
根据权利要求11或12所述的方法，其特征在于，当所述第一模型用于生成用于更新第二模型的训练数据集时，所述第二设备根据所述第一模型，更新所述第二模型，包括：

所述第二设备根据所述第一模型生成训练数据集；

所述第二设备根据所述训练数据集训练所述第二模型，以更新所述第二模型。
根据权利要求11或12所述的方法，其特征在于，当所述第一模型用于与所述第二模型融合以更新所述第二模型时，所述第二设备根据所述第一模型，更新所述第二模型，包括：

所述第二设备将所述第一模型和所述第二模型进行融合，以更新所述第二模型。
一种模型训练方法，其特征在于，包括：

第一设备向第二设备发送第一信息，所述第一信息用于指示第一模型，所述第一模型是所述第一设备训练得到的，所述第一模型用于生成用于更新第二模型的训练数据集，所述第二模型是所述第二设备训练得到的；

第一设备接收来自所述第二设备的第二信息，所述第二信息用于指示更新后的所述第二模型。
根据权利要求15所述的方法，其特征在于，在所述第一设备向所述第二设备发送所述第一信息前，所述方法还包括：

所述第一设备基于全部或部分本地数据进行模型训练，生成所述第一模型，所述全部或部分本地数据包括第一数据集，所述第一数据集包括与第一功能相关的数据，所述第一功能为所述第一设备期望通过所述第二模型实现的一种或多种功能。
根据权利要求16所述的方法，其特征在于，在所述第一设备基于全部或部分本地数据进行模型训练前，所述方法还包括：

所述第一设备根据所述第一功能，基于第二数据集对所述第二模型的参数进行微调，所述第二数据集中包括与所述第一功能相关的数据，所述第二数据集包括于所述第一数据集；

确定微调后的所述第二模型的与所述第一功能中的至少一种功能相关的性能不满足对应的性能指标要求。
根据权利要求15至17中任一项所述的方法，其特征在于，所述第一设备为移动智能网元，所述第二设备为支持云服务的设备。
根据权利要求18所述的方法，其特征在于，所述方法还包括：

所述第一设备获取第三数据集，所述第三数据集包括由基站采集的与第二功能相关的数据，所述第二功能包括所述基站期望通过所述第二模型实现的一种或多种功能；

所述第一设备根据所述第二功能，基于所述第三数据集对所述第二模型的参数进行微调。
根据权利要求19所述的方法，其特征在于，在所述第一设备向所述第二设备发送所述第一信息前，所述方法还包括：

所述第一设备接收第四信息，所述第四信息用于指示微调后的所述第二模型的性能异常；

所述第一设备根据所述第四信息，确定第四数据集，所述第四数据集是所述第一设备本地存储的，或者，所述第四数据集是所述第一设备通过所述基站获取的，其中，所述第四数据集包括所述第三数据集；

所述第一设备基于所述第四数据集进行模型训练，生成所述第一模型。
根据权利要求20所述的方法，其特征在于，所述方法还包括：

所述第一设备根据所述第四信息，向基站发送第五信息，所述第五信息用于请求基站采集的数据；

所述第一设备接收第六信息，所述第六信息用于指示所述第四数据集。
根据权利要求15至21中任一项所述的方法，其特征在于，在第一设备向所述第二设备发送第一信息前，所述方法还包括：

所述第一设备对所述第一模型进行轻量化处理。
一种模型训练方法，其特征在于，包括：

第二设备接收第一信息，所述第一信息用于指示第一模型，所述第一模型是所述第一设备训练得到的，所述第一模型用于生成用于更新所述第二模型的训练数据集，所述第二模型是所述第二设备训练得到的；

所述第二设备根据所述第一模型，更新所述第二模型；

所述第二设备向所述第一设备发送第二信息，所述第二信息用于指示更新后的所述第二模型。
根据权利要求23所述的方法，其特征在于，所述第二设备根据所述第一模型，更新所述第二模型，包括：

所述第二设备根据所述第一模型生成训练数据集；

所述第二设备根据所述训练数据集训练所述第二模型，以更新所述第二模型。
一种模型训练方法，其特征在于，包括：

第一设备向所述第二设备发送第一信息，所述第一信息用于指示第一模型，所述第一模型是所述第一设备训练得到的，所述第一模型用于与第二模型融合以更新所述第二模型，所述第二模型是所述第二设备训练得到的；

第一设备接收第二信息，所述第二信息用于指示更新后的所述第二模型。
根据权利要求25所述的方法，其特征在于，所述方法还包括：

所述第一设备根据第一功能，基于全部或部分本地数据对所述第二模型的参数进行微调，以生成所述第一模型，所述第一功能为所述第一设备期望通过所述第二模型实现的一种或多种功能。
根据权利要求26所述的方法，其特征在于，所述全部或本地数据至少包括第二数据集，所述第二数据集为与所述第一功能相关的数据的集合。
一种模型训练方法，其特征在于，包括：

第二设备接收来自第一设备的第一信息，所述第一信息用于指示第一模型，所述第一模型是所述第一设备训练得到的，所述第一模型用于与第二模型融合以更新第二模型，所述第二模型是所述第一设备训练得到的；

所述第二设备根据所述第一模型，更新所述第二模型；

所述第二设备向所述第一设备发送第二信息，所述第二信息用于指示更新后的所述第二模型。
根据权利要求28所述的方法，其特征在于，所述第二设备根据所述第一模型，更新所述第二模型，包括：所述第二设备将所述第一模型和所述第二模型进行融合，以更新所述第二模型。
一种模型训练装置，其特征在于，包括用于执行权利要求1至10中任一项所述的方法的模块或单元，或者，包括用于执行权利要求11至14中任一项所述的方法的模块或单元，或者，包括用于执行权利要求15至22中任一项所述的方法的模块或单元，或者，包括用于执行权利要求23或24所述的方法的模块或单元，或者，包括用于执行权利要求25至27中任一项所述的方法的模块或单元，或者，包括用于执行权利要求28或29所述的方法的模块或单元。
一种模型训练装置，其特征在于，包括处理器，所述处理器用于，通过执行计算机程序或指令，或者，通过逻辑电路，

使得所述模型训练装置执行权利要求1至10中任一项所述的方法，或者，

使得所述模型训练装置执行权利要求11至14中任一项所述的方法，或者，

使得所述模型训练装置执行权利要求15至22中任一项所述的方法，或者，

使得所述模型训练装置执行权利要求23或24所述的方法，或者，

使得所述模型训练装置执行权利要求25至27中任一项所述的方法，或者，

使得所述模型训练装置执行权利要求28或29所述的方法。
根据权利要求31所述的装置，其特征在于，所述通信装置还包括存储器，所述存储器用于存储所述计算机程序或指令。
根据权利要求31或32所述的装置，其特征在于，所述模型训练装置还包括通信接口，所述通信接口用于输入和/或输出信号。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序或指令，当所述计算机程序或所述指令在计算机上运行时，

使得权利要求1至10中任一项所述的方法被执行，或者，

使得权利要求11至14中任一项所述的方法被执行，或者，

使得权利要求15至22中任一项所述的方法被执行，或者，

使得权利要求23或24所述的方法被执行，或者，

使得权利要求25至27中任一项所述的方法被执行，或者，

使得权利要求28或29所述的方法被执行。
一种计算机程序产品，其特征在于，包含指令，当所述指令在计算机上运行时，

使得权利要求1至10中任一项所述的方法被执行，或者，

使得权利要求11至14中任一项所述的方法被执行，或者，

使得权利要求15至22中任一项所述的方法被执行，或者，

使得权利要求23或24所述的方法被执行，或者，

使得权利要求25至27中任一项所述的方法被执行，或者，

使得权利要求28或29所述的方法被执行。
一种系统，其特征在于，包括：第一设备和第二设备，所述第一设备用于执行如权利要求1至10、15至22、25至27中任一项所述的方法；所述第二设备用于执行如权利要求11至14、23或者24、28或者29中任一项所述的方法。