[go: up one dir, main page]

WO2025130539A1 - 模型训练方法和装置 - Google Patents

模型训练方法和装置 Download PDF

Info

Publication number
WO2025130539A1
WO2025130539A1 PCT/CN2024/135087 CN2024135087W WO2025130539A1 WO 2025130539 A1 WO2025130539 A1 WO 2025130539A1 CN 2024135087 W CN2024135087 W CN 2024135087W WO 2025130539 A1 WO2025130539 A1 WO 2025130539A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
information
data set
training
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
PCT/CN2024/135087
Other languages
English (en)
French (fr)
Inventor
张浩男
李贤明
马川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of WO2025130539A1 publication Critical patent/WO2025130539A1/zh
Pending legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/22Processing or transfer of terminal data, e.g. status or physical capabilities
    • H04W8/24Transfer of terminal data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/18Service support devices; Network management devices

Definitions

  • the present application relates to the field of communications, and more specifically, to a model training method and device.
  • AI Artificial intelligence
  • MLT machine learning training
  • MnS Management Services
  • the present application provides a model training method and device, which can reduce the communication overhead related to training data collection during the model training process.
  • a model training method is provided, which can be performed by a first device.
  • the first device here can refer to the access network device itself, or to a processor, module, chip, or chip system in the first device that implements the method, and this application does not limit this.
  • the method includes:
  • the first device sends first information to the second device, where the first information is used to indicate a first model, where the first model is trained by the first device, and where the first model is used to generate a training data set for updating a second model, or where the first model is used to be fused with the second model to update the second model, where the second model is trained by the second device; the first device receives second information from the second device, where the second information is used to indicate the updated second model.
  • the first device may be a user of a network management service (e.g., a communication infrastructure model), and the second device may be a network management service provider.
  • the first model may be a data generation model, or the first model may be a model running locally on the first device, for example, when the first device is a base station, the first model may be an on-site model.
  • the second model may be an AI/ML model that implements one or more communication functions in a physical network, or may be called a communication infrastructure model.
  • the second model may be pre-configured in the first device.
  • the second model may be configured in the first device when the first device leaves the factory, or the second model may be manually configured on the first device before the first device is operated.
  • the second model may be sent by the second device to the first device. Specifically, before the first device sends the first information to the second device, the second device sends configuration information to the first device, and the configuration information is used to indicate the second model.
  • the second device may also send at least one of the performance information of the second model, the evaluation index information of the second model, or the functional information of the second model to the first device, so that the first device can determine whether the second model meets the corresponding performance requirements during operation.
  • the performance information of the second model may include information such as the parameter quantity, structure and number of layers of the second model; the evaluation index information of the second model may include the performance of the second model in its available downstream tasks, such as accuracy, recall rate, mean square error, etc., and the functional information of the second model may include information on communication functions that can be implemented by the model.
  • the first information includes the first model
  • the second device can obtain the first model after receiving the first information.
  • the first model may include a storage address of the first model. Then, after receiving the first information, the second device may obtain the first model according to the storage address of the first model.
  • the first device when the first device sends the first information to the second device, the first device may also send at least one item of performance information of the first model, evaluation index information of the first model, or function information of the first model to the second device.
  • the first device sends the first model to the second device, so that the second device can generate a training data set for updating the second model based on the first model, and update the second model based on the training data set, or, the second device can update the first model by fusing the first model with the second model. That is, the first device can save the communication overhead caused by the collection of training data for the second model between the first device and the second device by sending the first model instead of training data.
  • the method includes: the first device sends third information to the second device, the third information is used to indicate the manner of using the first model, and the manner of using the first model includes generating the training data set based on the first model, or performing model fusion based on the first model.
  • the third information can indicate the usage method of the first model through bit 0 and bit 1.
  • bit 0 is used to indicate that the first model is used to generate a training data set for updating the second model
  • bit 1 is used to indicate that the first model is used to merge with the second model.
  • the first device can indicate the usage of the first model to the second device through the third information, saving the time of the second device in identifying or trial-and-erroring the usage of the first model, thereby improving the efficiency of the second device in using the first model.
  • the method when the first model is used to generate a training data set for updating the second model, the method also includes: the first device performs model training based on all or part of the local data to generate the first model, and the all or part of the local data includes a first data set, and the first data set includes data related to a first function, and the first function is one or more functions that the first device expects to implement through the second model.
  • the first function may include functions such as beam management and channel measurement required by the first device, or functions such as intent management expected by the first device, or functions such as mobility prediction expected by the first device.
  • the first device can perform model training based on all or part of the local data to generate the above-mentioned first model, wherein all or part of the local data includes data related to the first function, thereby reducing the overhead of model training for the first device and improving the accuracy of model training.
  • the method when the first model is used to generate a training data set for updating the second model, the method also includes: the first device fine-tunes the parameters of the second model based on the second data set according to the first function, the second data set including data related to the first function, and the second data set is included in the first data set; and determines that the performance of the fine-tuned second model related to at least one of the first functions does not meet the corresponding performance indicator requirements.
  • the performance of the second model related to at least one of the first functions does not meet the corresponding performance index requirements, which can be understood as the various performances of the second model related to the first function include at least one performance that does not meet the corresponding performance index requirements.
  • the second data set being included in the first data set can be understood as the time period for collecting the second data set being included in the time period for collecting the first data set.
  • the first device is a base station, and the first device can fine-tune the parameters of the second model based on the second data set according to the required beam management, channel measurement and other functions.
  • the first device is an OAM, and the first device can fine-tune the parameters of the second model based on the second data set according to functions such as intent management.
  • the first device is a NWDAF, and the first device can fine-tune the parameters of the second model based on the second data set according to functions such as mobility prediction.
  • the performance indicator can be a key performance indicator (KPI) requirement, which is determined by the first device during the process of fine-tuning the second model.
  • KPI key performance indicator
  • the first device can continue to fine-tune the parameters of the second model based on all or local data and the first function, so as to improve the performance of the model deployed locally on the first device.
  • the first device can use all or part of the local data to fine-tune the second model according to the first function, and when the performance of the fine-tuned second model does not meet the performance indicator requirements corresponding to the first function, perform model training on the local data to generate the first model, thereby ensuring the availability of the model locally deployed on the first device.
  • the method when the first model is used to merge with the second model to update the second model, the method also includes: the first device fine-tunes the parameters of the second model based on all or part of the local data according to the first function to generate the first model, and the first function is one or more functions that the first device expects to achieve through the second model.
  • the first device can use all or part of the local data to fine-tune the second model according to the first function to generate the first model, and send the first model to the second device, so that the second device can fuse the first model and the second model to update the second model, thereby saving the communication overhead caused by the collection of training data for the second model between the first device and the second device, and realizing dynamic update of the second model.
  • the first device is a mobile intelligent network element
  • the second device is a device supporting cloud services.
  • the training data of the first network element is provided by other devices (such as a base station), and the first device itself is only used for data training.
  • the first device obtains a third data set, which includes data related to a second function collected by a base station, and the second function includes one or more functions that the base station expects to implement through the second model; the first device fine-tunes the parameters of the second model based on the third data set according to the second function.
  • the first device can fine-tune the parameters of the second model based on the second function for a device that does not have computing power (such as a base station), thereby improving the performance of the model deployed on the device that does not have computing power.
  • a device that does not have computing power such as a base station
  • the method when the first model is used to generate a training data set for updating the second model, before the first device sends the first information to the second device, the method also includes: the first device receives fourth information, and the fourth information is used to indicate that the performance of the second model after fine-tuning is abnormal; the first device determines a fourth data set based on the fourth information, and the fourth data set is locally stored by the first device, or the fourth data set is obtained by the first device through the base station; the first device performs model training based on the fourth data set to generate the first model.
  • the fourth data set is a collection of data related to the second function. Furthermore, the fourth data set includes the third data set, that is, the time period for collecting the fourth data set includes the time period for collecting the third data set.
  • the fourth data set for the first device to perform model training may be the data that the first device requests from the base station when determining that the first model needs to be generated, or the fourth data set for the first device to perform model training may be the data reported by the base station and stored locally by the first device. This embodiment of the present application is not limited to this.
  • the method when the first model is used to generate a training data set for updating the second model, the method also includes: the first device sends fifth information to the base station based on the fourth information, and the fifth information is used to request data collected by the base station; the first device receives the fifth information, and the fifth information is used to indicate the fourth data set.
  • the fourth information is used to request the base station to collect all data, or the fourth information is used to request the base station to collect data related to the second function.
  • all the data collected by the aforementioned base station may be all the data collected after the base station is put into operation, or, all the data collected by the aforementioned base station may be all the data collected by the base station during the interval between receiving two request messages, or, all the data collected by the aforementioned base station may be all the data collected within a specific time period agreed upon by the first device and the base station.
  • the embodiments of the present application are not limited to this.
  • the data related to the second function collected by the base station may be all the data related to the second function collected after the base station is put into operation, or, the data related to the second function collected by the base station may be the data related to the second function collected by the base station during the interval between receiving two request messages, or, the data related to the second function collected by the base station may be the data related to the second function collected within a specific time period agreed upon by the first device and the base station.
  • the embodiments of the present application are not limited to this.
  • the fourth information may include at least one of an identifier #1 and an identifier #2, wherein the identifier #1 is used to indicate a specific time period so that each base station can report data collected within the specific time period based on the identifier #1, and the identifier #2 is used to indicate a specific function (e.g., the second function), so that each base station can report data related to the specific function based on the identifier #2.
  • the identifier #1 is used to indicate a specific time period so that each base station can report data collected within the specific time period based on the identifier #1
  • the identifier #2 is used to indicate a specific function (e.g., the second function), so that each base station can report data related to the specific function based on the identifier #2.
  • the first device may discard part or all of the data provided by the base station after model training, or the first device may save part or all of the data provided by the base station after model training. This embodiment of the present application is not limited to this.
  • the first device when the base station reports that the locally deployed model has a fault, can perform model training based on the data collected by the base station to generate a first model, and send the first model to the second device, so that the second device can dynamically update the second model based on the data collected by the base station, thereby saving the communication overhead caused by the collection of training data for the second model between the first device and the second device while ensuring the model performance of the base station operation.
  • the method before the first device sends the first information to the second device, the method further includes: the first device performing lightweight processing on the first model.
  • the first device can perform lightweight processing on the first model after generating the first model, thereby further reducing the communication overhead caused by the collection of training data about the second model between the first device and the second device.
  • a model training method is provided, which can be performed by a second device.
  • the second device here can refer to the access network device itself, or a processor, module, chip, or chip system that implements the method in the second device, and this application does not limit this.
  • the method includes:
  • the second device receives first information from the first device, where the first information is used to indicate a first model, where the first model is trained by the first device, and where the first model is used to generate a training data set for updating a second model, or where the first model is used to be merged with the second model to update the second model, where the second model is trained by the second device; the second device updates the second model based on the first model; and the second device sends second information to the first device, where the second information is used to indicate the updated second model.
  • the first device may be a user of a network management service (e.g., a communication infrastructure model), and the second device may be a network management service provider.
  • the first model may be a data generation model, or the first model may be a model running locally on the first device, for example, when the first device is a base station, the first model may be an on-site model.
  • the second model may be an AI/ML model that implements one or more communication functions in a physical network, or may be referred to as a communication infrastructure model. It should be understood that regarding the specific manner in which the first device obtains the second model, and the specific manner in which the first information indicates the first model, reference may be made to the relevant content of the first aspect, which will not be elaborated here.
  • the first device sends the first model to the second device, so that the second device can generate a training data set for updating the second model based on the first model, and update the second model based on the training data set, or, the second device can update the first model by fusing the first model with the second model. That is, the first device can save the communication overhead caused by the collection of training data for the second model between the first device and the second device by sending the first model instead of training data.
  • the method also includes: the second device receives third information from the first device, the third information is used to indicate how the first model is used, and the way of using the first model includes generating the training data set based on the first model, or performing model fusion based on the first model.
  • the second device can determine the usage method of the first model according to the third information, and then update the second model according to the first model.
  • the specific description of the type of the first model can refer to the relevant content of the fifth aspect, which will not be repeated here.
  • the first device may be a user of a network management service (e.g., a communication infrastructure model), and the second device may be a network management service provider.
  • the first model may be a data generation model
  • the second model may be an AI/ML model that implements one or more communication functions in a physical network, or a communication infrastructure model.
  • the method also includes: the first device obtains a third data set, the third data set includes data related to a second function collected by a base station, and the second function includes one or more functions that the base station expects to implement through the second model; the first device fine-tunes the parameters of the second model based on the third data set according to the second function.
  • the method before the first device sends the first information to the second device, the method also includes: the first device receives fourth information, and the fourth information is used to indicate that the performance of the second model after fine-tuning is abnormal; the first device determines a fourth data set based on the fourth information, and the fourth data set is locally stored in the first device, or the fourth data set is obtained by the first device through the base station, wherein the fourth data set includes the third data set; the first device performs model training based on the fourth data set to generate the first model.
  • the method also includes: the first device sends fifth information to the base station based on the fourth information, and the fifth information is used to request data collected by the base station; the first device receives sixth information, and the sixth information is used to indicate the fourth data set.
  • the method before the first device sends the first information to the second device, the method further includes: the first device performing lightweight processing on the first model.
  • a model training method is provided, which can be performed by a second device.
  • the second device here can refer to the access network device itself, or a processor, module, chip, or chip system that implements the method in the second device, and this application does not limit this.
  • the method includes:
  • the second device receives first information, where the first information is used to indicate a first model, where the first model is trained by the first device, and where the first model is used to generate a training data set for updating the second model, where the second model is trained by the second device; the second device updates the second model based on the first model; and the second device sends second information to the first device, where the second information is used to indicate the updated second model.
  • the first device may be a user of a network management service (e.g., a communication infrastructure model), and the second device may be a network management service provider.
  • the first model may be a data generation model
  • the second model may be an AI/ML model that implements one or more communication functions in a physical network, or a communication infrastructure model.
  • the first device sends the first model to the second device, so that the second device can generate a training data set for updating the second model according to the first model, and update the second model based on the training data set. That is, the first device can save the communication overhead caused by the collection of training data for the second model between the first device and the second device by sending the first model instead of training data.
  • the second device updates the second model based on the first model, including: the second device generates a training data set based on the first model; and the second device trains the second model based on the training data set to update the second model.
  • a model training method is provided, which can be performed by a first device.
  • the first device here can refer to the access network device itself, or a processor, module, chip, or chip system that implements the method in the first device, and this application does not limit this.
  • the method includes:
  • the first device sends first information to the second device, where the first information is used to indicate a first model, where the first model is trained by the first device, and where the first model is used to be merged with a second model to update the second model, where the second model is trained by the second device; the first device receives second information, where the second information is used to indicate the updated second model.
  • the first device may be a user of a network management service (e.g., a communications infrastructure big model)
  • the second device may be a network management service provider
  • the first model may be a model running locally on the first device, for example, when the first device is a base station
  • the first model may be an on-site model
  • the second model may be an AI/ML model that implements one or more communication functions in a physical network, or is called a communications infrastructure big model.
  • the first device sends the first model to the second device, so that the second device can merge the first model with the second model to update the first model. That is, the first device can save the communication overhead caused by the collection of training data for the second model between the first device and the second device by sending the second model instead of training data.
  • the method also includes: the first device fine-tunes the parameters of the second model based on all or part of the local data according to the first function to generate the first model, and the first function is one or more functions that the first device expects to implement through the second model.
  • the all or local data includes at least a second data set, which is a collection of data related to the first function.
  • a model training method is provided, which can be performed by a second device.
  • the second device here can refer to the access network device itself, or a processor, module, chip, or chip system that implements the method in the second device, and this application does not limit this.
  • the method includes:
  • the second device receives first information from the first device, where the first information is used to indicate a first model, where the first model is trained by the first device, and where the first model is used to be merged with a second model to update the second model, where the second model is trained by the first device; the second device updates the second model based on the first model; and the second device sends second information to the first device, where the second information is used to indicate the updated second model.
  • the first device may be a user of a network management service (e.g., a communications infrastructure big model)
  • the second device may be a network management service provider
  • the first model may be a model running locally on the first device, for example, when the first device is a base station
  • the first model may be an on-site model
  • the second model may be an AI/ML model that implements one or more communication functions in a physical network, or is called a communications infrastructure big model.
  • the first device sends the first model to the second device, so that the second device can merge the first model with the second model to update the first model. That is, the first device can save the communication overhead caused by the collection of training data for the second model between the first device and the second device by sending the second model instead of training data.
  • the second device updates the second model based on the first model, including: the second device fuses the first model and the second model to update the second model.
  • a model training device which includes: a transceiver unit for receiving first information, the first information is used to indicate a first model, the first model is trained by the first device, the first model is used to merge with a second model to update the second model, the second model is trained by the first device; a processing unit is used to update the second model according to the first model; the transceiver unit is also used to send second information to the first device, the second information is used to indicate the updated second model.
  • the transceiver unit is also used to send third information to the second device, where the third information is used to indicate how the first model is used, and the way of using the first model includes generating the training data set based on the first model, or performing model fusion based on the first model.
  • the model training device also includes a processing unit, which is used to perform model training based on all or part of the local data to generate the first model, and the all or part of the local data includes a first data set, and the first data set includes data related to a first function, and the first function is one or more functions that the model training device expects to achieve through the second model.
  • the processing unit is also used to: according to the first function, fine-tune the parameters of the second model based on a second data set, the second data set including data related to the first function, and the second data set included in the first data set; determine that the performance of the fine-tuned second model related to at least one of the first functions does not meet the corresponding performance indicator requirements.
  • the processing unit is also used to: according to the first function, fine-tune the parameters of the second model based on all or part of the local data to generate the first model, and the first function is one or more functions that the first device expects to implement through the second model.
  • the model training device is a mobile intelligent network element
  • the second device is a device that supports cloud services.
  • the transceiver unit is also used to receive fourth information, where the fourth information is used to indicate that the performance of the second model after fine-tuning is abnormal; the processing unit is also used to determine a fourth data set based on the fourth information, where the fourth data set is locally stored on the first device, or the fourth data set is obtained by the first device through the base station, wherein the fourth data set includes the third data set; the processing unit is also used to perform model training based on the fourth data set to generate the first model.
  • the processing unit before the first device sends the first information to the second device, the processing unit is further used to perform lightweight processing on the first model.
  • a model training device which includes: a transceiver unit for receiving first information, the first information is used to indicate a first model, the first model is trained by the first device, and the first model is used to generate a training data set for updating the second model, and the second model is trained by the second device; a processing unit is used to update the second model according to the first model; the transceiver unit is also used to send second information to the first device, and the second information is used to indicate the updated second model.
  • the eleventh aspect is an implementation method on the device side corresponding to the fifth aspect, and the supplement, explanation and beneficial effects of the fifth aspect are also applicable to the eleventh aspect and will not be repeated here.
  • the communication device may further include a memory.
  • the memory may be coupled to the processor.
  • the communication device may further include a communication interface, which is used for the device to communicate with other devices.
  • the communication interface may be a transceiver, a hardware circuit, a bus, a module, a pin or other types of communication interfaces.
  • the communication device may be the second device, or may be a device, a module, a chip, etc. disposed in the second device, or may be a device that can be used in conjunction with the second device.
  • the present application provides a system, comprising: a first device, used to execute the method described in the first aspect, the third aspect, or the fifth aspect, or any implementation of the first aspect, the third aspect, or the fifth aspect; a second device, used to execute the method described in the second aspect, the fourth aspect, or the sixth aspect, or any implementation of the second aspect, the fourth aspect, or the sixth aspect.
  • the present application also provides a computer program, which, when executed on a computer, enables the computer to execute the method described in any one of the implementations of the first to sixth aspects or the first to sixth aspects.
  • the present application also provides a computer program product, comprising instructions, which, when executed on a computer, enable the computer to execute the method described in any one of the implementations of the first to sixth aspects above, or the first to sixth aspects.
  • the present application also provides a computer-readable storage medium, in which a computer program or instructions are stored.
  • a computer program or instructions are stored.
  • the computer program or instructions When the computer program or instructions are run on a computer, the computer executes the method described in any one of the implementations of the first to sixth aspects above, or the first to sixth aspects.
  • FIG3 is a schematic diagram of a model training method 300 provided in an embodiment of the present application.
  • FIG4 is a schematic diagram of a model training process 400 provided in an embodiment of the present application.
  • FIG5 is a schematic diagram of a model training process 500 provided in an embodiment of the present application.
  • FIG. 7 is a schematic diagram of a model training device 1000 provided in an embodiment of the present application.
  • FIG8 is a schematic diagram of another model training device 1100 provided in an embodiment of the present application.
  • the embodiments of the present application can be applied to various communication systems. For example: long term evolution (LTE) system, LTE frequency division duplex (FDD) system, LTE time division duplex (TDD), public land mobile network (PLMN), fifth generation (5G) system, sixth generation (6G) system or future communication system.
  • LTE long term evolution
  • FDD frequency division duplex
  • TDD time division duplex
  • PLMN public land mobile network
  • 5G fifth generation
  • 6G sixth generation
  • the 5G system in the present application includes a non-standalone (NSA) 5G mobile communication system or a standalone (SA) 5G mobile communication system.
  • SA standalone
  • the embodiments of the present application can also be applied to non-terrestrial network (NTN) communication systems such as satellite communication systems.
  • NTN non-terrestrial network
  • D2D device to device
  • S2D sidelink
  • M2M machine to machine
  • MTC machine type communication
  • IoT Internet of things
  • V2X vehicle to everything
  • UAV uncrewed aerial vehicle
  • FIG1 shows a schematic diagram of a network architecture.
  • the network architecture takes the 5G system (5GS) as an example.
  • the network architecture may include three parts, namely the user equipment (UE), the data network (DN) and the operator network.
  • the operator network may include one or more of the following network elements: (radio) access network (R)AN) equipment, user plane function (UPF) network element, access and mobility management function (AMF) network element, session management function (SMF) network element, network data analysis function (NWDAF) network element, policy control function (PCF) network element, application function (AF) network element, mobile intelligence function (MIF) network element and network management (Operations, Administration and Management, OAM) network element.
  • R radio access network
  • UPF user plane function
  • AMF access and mobility management function
  • SMF session management function
  • NWDAF network data analysis function
  • PCF policy control function
  • AF application function
  • MIF mobile intelligence function
  • OAM network management
  • user equipment In this application, user equipment, (wireless) access network equipment, UPF network element, AMF network element, SMF network element, NWDAF network element, PCF network element, AF network element, MIF network element, and OAM network element are respectively referred to as UE, (R)AN, UPF, AMF, SMF, NWDAF, PCF, AF, MIF, and OAM.
  • the UE in this application may also be referred to as a terminal, user, access terminal, user unit, user station, mobile station, mobile station, remote station, remote terminal, mobile device, user terminal, terminal equipment, wireless communication equipment, user agent or user device, etc.
  • a terminal For the convenience of description, it is collectively referred to as a terminal below.
  • a terminal is a device that can access the network.
  • the terminal and (R)AN can communicate with each other using some air interface technology (such as NR or LTE technology).
  • Terminals can also communicate with each other using some air interface technology (such as NR or LTE technology).
  • Terminals can be mobile phones, tablet computers, computers with wireless transceiver functions, virtual reality (VR) terminals, augmented reality (AR) terminals, terminals in satellite communications, terminals in integrated access and backhaul (IAB) systems, terminals in WiFi communication systems, terminals in industrial control, terminals in self-driving, terminals in remote medical, terminals in smart grids, terminals in transportation safety, terminals in smart cities, terminals in smart homes, etc.
  • VR virtual reality
  • AR augmented reality
  • IAB integrated access and backhaul
  • the embodiments of the present application do not limit the specific technology and specific device form adopted by the UE.
  • the (R)AN in the present application may be a device used to communicate with a terminal, or may be a device for connecting a terminal to a wireless network.
  • (R)AN may be a node in a radio access network.
  • (R)AN may be a base station, an evolved NodeB (eNodeB), a transmission reception point (TRP), a home base station (e.g., home evolved NodeB, or home Node B, HNB), a Wi-Fi access point (AP), a mobile switching center, a next generation NodeB (gNB) in a 5G mobile communication system, an access network device in an open radio access network (O-RAN or open RAN), a next generation base station in a sixth generation (6G) mobile communication system, or a base station in a future mobile communication system.
  • eNodeB evolved NodeB
  • TRP transmission reception point
  • HNB home base station
  • AP Wi-Fi access point
  • gNB next generation NodeB
  • 5G mobile communication system an access network device in an open radio access network (O-RAN or open RAN)
  • OFD open radio access network
  • 6G sixth generation
  • a network device may also be a module or unit that performs some functions of a base station, for example, a central unit (CU), a distributed unit (DU), a remote radio unit (RRU), or a baseband unit (BBU).
  • R can also be a device that performs base station functions in D2D communication systems, V2X communication systems, M2M communication systems, and IoT communication systems.
  • R can also be a network device in NTN, that is, (R)AN can be deployed on a high-altitude platform or satellite.
  • (R)AN can be a macro base station, a micro base station, an indoor station, a relay node, or a donor node.
  • UPF The main functions of UPF are packet routing and forwarding, mobility anchor point, uplink classifier to support routing service flows to data networks, branch point to support multi-homed PDU sessions, etc.
  • DN is mainly used for operator networks that provide data services to terminals, such as the Internet, third-party service networks, or IP multimedia service (IMS) networks.
  • terminals such as the Internet, third-party service networks, or IP multimedia service (IMS) networks.
  • IMS IP multimedia service
  • the first information includes the first model
  • the second device can obtain the first model after receiving the first information.
  • the second information may include an updated storage address of the second model.
  • the first device may obtain the first model according to the updated storage address of the second model.
  • Cloud sends information #1’ to one or more MIFs, and correspondingly, the one or more MIFs receive information #1’.
  • MIF sends information #8 (an example of the fifth information) to one or more corresponding base stations, and correspondingly, the one or more base stations receive the information #8.
  • the information #8 is used to request the base station to report the collected data.
  • the MIF may also periodically send information #8 to one or more corresponding base stations to request the base stations to report collected data.
  • MIF can obtain the data collected by the base station and perform model training based on the data to generate model #3'.
  • the model #3' is a data generation model.
  • MIF sends information #2’ (another example of the second information) and information #3’ (another example of the third information) to Cloud, and Cloud receives information #2’ and information #3’ accordingly.
  • the information #2' is used to indicate the model #3', and the information #3' is used to indicate that the first model is used to be merged with the second model.
  • the above step S509 can be understood as MIF making the model #3' available on the Cloud side.
  • the above information #2’ and information #3’ may be included in a wireless large model training request message, which is used to request an update of the above model #1’.
  • the MIF may send at least one of the model performance information of model #3’, the evaluation index information of model #3’ and the model function information of model #3’ to the Cloud when sending information #2’.
  • the base station may perform lightweight processing on the model #3’ generated in step S408, and indicate the lightweight model #3’ through information #2’.
  • Cloud generates a training data set based on model #3' obtained from one or more MIFs, and performs model training on model #1' based on the training data set to update model #1'.
  • Cloud sends information #4’ to one or more MIFs, and correspondingly, the one or more base stations receive information #4’.
  • MIF can send model #3’ to Cloud based on the data reported by the base station, so that Cloud can generate a training data set for updating model #1’ according to model #3’, and update model #1’ based on the training data set. That is, MIF can save the communication overhead related to the collection of training data for model #1’ between MIF and Cloud by sending model #3’ instead of training data to Cloud for generating a training data set for updating model #1’.
  • FIG6 is a schematic diagram of a model training process 600 provided in an embodiment of the present application. As shown in the figure, the process 600 includes the following steps:
  • the information #8 is used to indicate the model #4 (an example of the second model).
  • the model #4 may be a wireless communication basic large model.
  • the above step S601 may be understood as the Cloud making the wireless communication basic large model available at the base station.
  • step S310 does not limit the specific manner in which the information #8 indicates the model #4.
  • the specific manner can be referred to the relevant content of step S310 and will not be elaborated here.
  • Cloud may also send model performance information of model #4, evaluation index information of model #4 and at least one item of model function information of model #4 to the one or more base stations.
  • model performance information of model #4 evaluation index information of model #4
  • at least one item of model function information of model #4 to the one or more base stations.
  • each base station uses all or part of the locally collected data to fine-tune the parameters of model #5 according to the required functions to generate model #6 (an example of the first model).
  • the model #5 may be a model determined by the base station through information #1.
  • the model #5 may be a model obtained by the base station after light-weighting the model #4 according to the required function (i.e., the first function).
  • the required function of the base station may be understood as one or more functions that the base station expects to implement through the model #4.
  • all or part of the above-mentioned local data includes at least data set #5, which is a collection of data collected by the first device and related to the functions required by itself.
  • the model #5 may be an on-site model.
  • the base station sends information #9 (an example of the first information) and information #10 (an example of the third information) to Cloud, and Cloud receives the information #9 and information #10 accordingly.
  • the above information #9 and information #10 may be included in a wireless large model training request message, where the wireless large model training request message is used to request an update of the above model #4.
  • the base station may send at least one of the model performance information of model #6, the evaluation index information of model #6, and the model function information of model #6 to the Cloud when sending information #9.
  • Cloud merges model #6 obtained from one or more base stations with model #4 to update the second model.
  • model #6 and model #4 can perform knowledge distillation, that is, the model parameters of model #6 and model #4 are directly updated by summing, averaging, and other calculation methods to update the model parameters of model #4.
  • Cloud sends information #11 (an example of second information) to one or more base stations, and correspondingly, the one or more base stations receive information #11.
  • the information #11 is used to indicate the updated model #4.
  • the above step S605 can be understood as the Cloud making the updated model #4 available at the base station.
  • Cloud may also send at least one of the updated model performance information of model #4, the updated evaluation index information of model #4, and the updated model function information of model #4 to the one or more base stations.
  • the first device and the second device may include a hardware structure and/or a software module, and implement the above functions in the form of a hardware structure, a software module, or a hardware structure plus a software module. Whether one of the above functions is executed in the form of a hardware structure, a software module, or a hardware structure plus a software module depends on the specific application and design constraints of the technical solution.
  • the device 1000 may include a transceiver unit 1010, a storage unit 1020, and a processing unit 1030.
  • the transceiver unit 1010 is used to receive or send instructions and/or data, and the transceiver unit 1010 may also be called a communication interface or a communication unit;
  • the storage unit 1020 is used to implement the corresponding storage function and store the corresponding instructions and/or data;
  • the processing unit 1030 is used to perform data processing, so that the device 1000 implements the aforementioned model training method.
  • the apparatus 1000 may include only the transceiver unit 1010 and the processing unit 1030 , but not the storage unit 1020 .
  • the apparatus 1000 may execute the actions executed by the first device in the above method embodiment.
  • the apparatus 1000 includes: a transceiver unit 1010, for sending first information to a second device, the first information being used to indicate a first model, the first model being trained by the first device, the first model being used to generate a training data set for updating a second model, the second model being trained by the second device; the transceiver unit is also used to receive second information, the second information being used to indicate the updated second model.
  • the device 1000 also includes: a processing unit 1020, which is used to perform model training based on all or part of the local data to generate the first model, wherein all or part of the local data includes a first data set, and the first data set includes data related to a first function, and the first function is one or more functions that the model training device expects to achieve through the second model.
  • a processing unit 1020 which is used to perform model training based on all or part of the local data to generate the first model, wherein all or part of the local data includes a first data set, and the first data set includes data related to a first function, and the first function is one or more functions that the model training device expects to achieve through the second model.
  • the apparatus 1000 includes: a transceiver unit 1010, for sending first information to a second device, the first information being used to indicate a first model, the first model being trained by the first device, the first model being used to merge with a second model to update the second model, the second model being trained by the second device; the transceiver unit is also used to receive second information, the second information being used to indicate the updated second model.
  • the device 1000 also includes: a processing unit 1030, which is used to fine-tune the parameters of the second model based on all or part of the local data according to the first function to generate the first model, and the first function is one or more functions that the first device expects to implement through the second model.
  • a processing unit 1030 which is used to fine-tune the parameters of the second model based on all or part of the local data according to the first function to generate the first model
  • the first function is one or more functions that the first device expects to implement through the second model.
  • the apparatus 1000 includes: a transceiver unit 1010, for sending first information to a second device, the first information being used to indicate a first model, the first model being trained by the first device, the first model being used to generate a training data set for updating a second model, or the first model being used to merge with a second model to update the second model, the second model being trained by the second device; the transceiver unit is also used to receive second information, the second information being used to indicate the updated second model.
  • the device 1000 includes: a transceiver unit 1010 and a processing unit 1030, the transceiver unit 1010 is used to receive first information, the first information is used to indicate a first model, the first model is trained by the first device, the first model is used to generate a training data set for updating the second model, the second model is trained by the first device; the processing unit 1030 is used to update the second model according to the first model; the transceiver unit 1010 is also used to send second information to the first device, the second information is used to indicate the updated second model.
  • the apparatus 1100 may include only the processor 1120 and the communication interface 1130 , but not the memory 1110 .
  • each functional unit in each embodiment of the present application may be integrated into one processing unit, or each unit may exist physically separately, or two or more units may be integrated into one unit.
  • the functions are implemented in the form of software functional units and sold or used as independent products, they can be stored in a computer-readable storage medium.
  • the technical solution of the present application can be essentially or partly embodied in the form of a software product that contributes to the prior art.
  • the computer software product is stored in a storage medium and includes several instructions for a computer device (which can be a personal computer, server, or network device, etc.) to perform all or part of the steps of the methods described in each embodiment of the present application.
  • the aforementioned storage media include: U disk, mobile hard disk, read-only memory (ROM), random access memory (RAM), disk or optical disk, and other media that can store program codes.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本申请提供了,一种模型训练方法和模型训练装置,该方法包括:第一设备向该第二设备发送第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于生成用于更新第二模型的训练数据集,或者,该第一模型用于与该第二模型融合以更新该第二模型,该第二模型是该第二设备训练得到的;第一设备接收第二信息,该第二信息用于指示更新后的该第二模型。通过该方法,第一设备向第二设备发送第一模型而非训练数据,可以节省第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销。

Description

模型训练方法和装置
本申请要求于2023年12月19日提交中国国家知识产权局、申请号为202311762388.4、发明名称为“模型训练方法和装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及通信领域,并且更具体地,涉及一种模型训练方法和装置。
背景技术
人工智能(artificial intelligence,AI)是模仿人类认知、学习和推理能力的技术。机器学习(machine learning,ML)模型作为AI的一项关键技术,凭借其对于数据的高效挖掘与处理能力,已经在通信技术研究中获得了广泛的关注。其中,在机器学习训练(ML Training,MLT)中,通常由MLT网络服务(Management Services,MnS)使用者向MLT MnS提供者发送训练数据,以供MLT MnS提供者训练时选择。然而,大模型作为一种新的AI范式,在MLT过程需要海量数据支持,若直接应用当前模型训练方法,将导致较大的通信资源开销。
发明内容
本申请提供一种模型训练方法和装置,能够减少模型训练过程中关于训练数据收集的通信开销。
第一方面,提供了一种模型训练方法,该方法可以由第一设备执行,这里的第一设备既可以指接入网设备本身,也可以指第一设备中实现该方法的处理器、模块、芯片、或芯片系统等,本申请对此不作限定。该方法包括:
第一设备向第二设备发送第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于生成用于更新第二模型的训练数据集,或者,该第一模型用于与该第二模型融合以更新该第二模型,该第二模型是该第二设备训练得到的;第一设备接收来自该第二设备的第二信息,该第二信息用于指示更新后的该第二模型。
作为示例而非限定,该第一设备可以是网络管理服务(例如通信基础大模型)使用者,该第二设备可以是网络管理服务提供者。该第一模型可以是数据生成模型,或者,该第一模型可以是运行在第一设备本地的模型,例如在该第一设备为基站时,该第一模型可以是on-site模型。该第二模型可以是物理网络中实现一种或多种通信功能的AI/ML模型,或称为通信基础大模型。
应理解,本申请实施例对该第一设备获取该第二模型的具体方式不作限定。
作为示例而非限定,该第二模型可以是预配置在第一设备中的。具体的,该第二模型可以是在该第一设备出厂时配置在该第一设备中的,或者,该第二模型可以是在第一设备运行前人工配置在该第一设备上。
作为示例而非限定,该第二模型可以是由第二设备向第一设备发送的。具体的,在第一设备向第二设备发送第一信息前,该第二设备向第一设备发送配置信息,该配置信息用于指示该第二模型。
在一种可能的实现方式中,该第二设备还可以向该第一设备发送该第二模型的性能信息,第二模型的评价指标信息,或者第二模型的功能信息的至少一项,使得该第一设备可以确定该第二模型在运行过程是否满足相应的性能要求。其中,该第二模型的性能信息可以包括该第二模型的参数量、结构和层数描述等信息;该第二模型的评价指标信息可以包括该第二模型在其可用下游任务中的性能表现,如准确率、召回率、均方误差等,该第二模型的功能信息可以包括可以通过该模型可以实现的通信功能的信息。
应理解,本申请实施例对该第一信息指示该第一模型的具体方式不作限定。
作为示例而非限定,该第一信息中包括该第一模型,则该第二设备在接收到第一信息后可以获取该第一模型。
作为示例而非限定,该第一模型中可以包括该第一模型的存储地址,则该第二设备在接收到该第一信息后,可以根据该第一模型的存储地址获取定该第一模型。
可选地,在第一设备向第二设备发送第一信息时,第一设备还可以向第二设备发送第一模型的性能信息,第一模型的评价指标信息,或者第一模型的功能信息的至少一项。
基于上述方案,第一设备向第二设备发送第一模型,使得第二设备可以根据该第一模型生成用于更新第二模型的训练数据集,并基于该训练数据集更新第二模型,或者,使得第二设备可以根据将该第一模型与该第二模型融合以更新第一模型,即第一设备通过发送第一模型而非训练数据,可以节省第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销。
结合第一方面,在第一方面的某些实现方式中,该方法包括:该第一设备向该第二设备发送第三信息,该第三信息用于指示该第一模型的使用方式,该第一模型的使用方式包括基于该第一模型生成该训练数据集,或者,基于该第一模型进行模型融合。
作为示例而非限定,该第三信息可以通过比特0和比特1指示该第一模型的使用方法,例如,比特0用于指示该第一模型用于生成用于更新第二模型的训练数据集,比特1用于指示该第一模型用于与第二模型融合。
基于上述方案,该第一设备可以通过第三信息向第二设备指示第一模型的使用方法,节约第二设备对于该第一模型的使用方法的识别或试错时间,从而提高第二设备对该第一模型的使用效率。
结合第一方面,在第一方面的某些实现方式中,当该第一模型用于生成更新第二模型的训练数据集时,该方法还包括:该第一设备基于全部或部分本地数据进行模型训练,生成该第一模型,该全部或部分本地数据包括第一数据集,该第一数据集包括与第一功能相关的数据,该第一功能为该第一设备期望通过该第二模型实现的一种或多种功能。
作为示例而非限定,该第一功能可以包括该第一设备所需的波束管理、信道测量等功能,或者该第一设备期望的意图管理等功能,或者该第一设备期望的移动性预测等功能。
基于上述方案,第一设备可以根据全部或部分本地数据进行模型训练生成上述第一模型,其中,该全部或部分本地数据包括与第一功能相关的数据,从而减少该第一设备进行模型训练的开销,提高模型训练的准确性。
结合第一方面,在第一方面的某些实现方式中,当该第一模型用于生成更新第二模型的训练数据集时,该方法还包括:该第一设备根据该第一功能,基于第二数据集对该第二模型的参数进行微调,该第二数据集中包括与该第一功能相关的数据,该第二数据集包括于该第一数据集;确定微调后的该第二模型与该第一功能中的至少一种功能相关的性能不满足对应的性能指标要求。
应理解,该第二模型与该第一功能中的至少一种功能相关的性能不满足对应的性能指标要求可以理解为,该第二模型与该第一功能相关的各项性能中包括至少一项不满足对应的性能指标要求的性能。
应理解,该第二数据集包括于该第一数据集可以理解为,采集该第二数据集的时间段包括于采集该第一数据集的时间段。
作为示例而非限定,该第一设备为基站,则该第一设备可以根据所需波束管理、信道测量等功能,基于第二数据集,对该第二模型的参数进行微调。
作为示例而非限定,该第一设备为OAM,则该第一设备可以根据意图管理等功能,基于第二数据集,对该第二模型的参数进行微调。
作为示例而非限定,该第一设备为NWDAF,则该第一设备可以根据移动性预测等功能,基于第二数据集,对该第二模型的参数进行微调。
应理解,该性能指标可以是关键绩效指标(Key Performance Indicator,KPI)要求,该KPI要求是该第一设备在对该第二模型进行微调的过程中确定的。
应理解,在上述微调后的第二模型的性能满足第一功能对应的性能指标要求时,该第一设备可以根据全部或本地数据和第一功能持续对该第二模型的参数进行微调,从而提高该第一设备本地的部署的模型的性能。
基于上述方案,第一设备可以根据第一功能使用全部或部分本地数据对该第二模型进行微调,并在微调后的第二模型的性能不满足第一功能对应的性能指标要求时,对本地数据进行模型训练以生成第一模型,从而保证该第一设备本地部署的模型的可用性。
结合第一方面,在第一方面的某些实现方式中,当该第一模型用于与第二模型融合以更新该第二模型时,该方法还包括:该第一设备根据第一功能,基于全部或部分本地数据对该第二模型的参数进行微调,以生成该第一模型,该第一功能为该第一设备期望通过该第二模型实现的一种或多种功能。
基于上述方案,第一设备可以根据第一功能使用全部或部分本地数据对该第二模型进行微调以生成第一模型,并将该第一模型发送给第二设备,使得第二设备可以将第一模型和第二模型融合以更新第二模型,从而在节省第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销,实现对于第二模型的动态更新。
结合第一方面,在第一方面的某些实现方式中,该第一设备为移动智能网元,该第二设备为支持云服务的设备。
应理解,在此实现方式中,该第一网元的训练数据由其他设备(例如基站)提供,该第一设备本身仅用于进行数据训练。
结合第一方面,在第一方面的某些实现方式中,该第一设备获取第三数据集,该第三数据集包括由基站采集的与第二功能相关的数据,该第二功能包括该基站期望通过该第二模型实现的一种或多种功能;该第一设备根据该第二功能,基于该第三数据集对该第二模型的参数进行微调。
基于上述方案,第一设备可以为不具备算力的设备(例如基站)基于第二功能对第二模型的参数进行微调,从而提高该部署在不具备算力的设备上的模型的性能。
结合第一方面,在第一方面的某些实现方式中,当该第一模型用于生成更新第二模型的训练数据集时,在该第一设备向该第二设备发送该第一信息前,该方法还包括:该第一设备接收第四信息,该第四信息用于指示微调后的该第二模型的性能异常;该第一设备根据该第四信息,确定第四数据集,该第四数据集是该第一设备本地存储的,或者,该第四数据集是该第一设备通过该基站获取的;该第一设备基于该第四数据集进行模型训练,生成该第一模型。
应理解,该第四数据集为与上述第二功能相关的数据的集合。并且,该第四数据集包括该第三数据集,即采集该第四数据集的时间段包括采集该第三数据集的时间段。
应理解,该第一设备进行模型训练的第四数据集可以是第一设备在确定需要生成第一模型时向该基站请求获取的,或者,该第一设备进行模型训练的第四数据集可以是该第一设备本地存储的该基站上报的数据,本申请实施例对此不作限定。
结合第一方面,在第一方面的某些实现方式中,当该第一模型用于生成更新第二模型的训练数据集时,该方法还包括:该第一设备根据该第四信息,向基站发送第五信息,该第五信息用于请求基站采集的数据;该第一设备接收第五信息,该第五信息用于指示该第四数据集。
应理解,该第四信息用于请求基站采集的全部数据,或者,该第四信息用于请求基站采集的与第二功能相关的数据。
应理解,前述基站收集的全部数据可以是该基站投入运行后收集的全部数据,或者,前述基站收集的全部数据可以是该基站在接收两个请求信息的间隔时间内收集的全部数据,或者,前述基站收集到全部数据可以是该第一设备与该基站约定的特定时间段内收集的全部数据,本申请实施例对此不作限定。
应理解,前述该基站收集的与第二功能相关的数据可以是该基站投入运行后收集的与第二功能相关的全部数据,或者,前述该基站收集的与第二功能相关的数据可以是该基站在接收两个请求信息的间隔时间内收集的与第二功能相关的数据,或者,前述该基站收集的与第二功能相关的数据可以是该第一设备与该基站约定的特定时间段内收集的与第二功能相关的数据,本申请实施例对此不作限定。
作为示例而非限定,该第四信息中可以包括标识#1和标识#2的至少一项,其中,该标识#1用于指示特定的时间段,使得每个基站可以基于该标识#1上报在该特定的时间段内采集的数据,该标识#2用于指示特定的功能(例如第二功能),使得每个基站可以基于该标识#2上报该特定功能相关的数据。
应理解,该第一设备可以在进行模型训练后丢弃基站提供的部分或全部数据,或者,该第一设备可以在进行模型训练后保存基站提供的部分或全部数据,本申请实施例对此不作限定。
基于上述方案,第一设备可以在基站上报其本地部署的模型发生故障时,基于基站采集的数据进行模型训练以生成第一模型,并将该第一模型发送给第二设备,使得第二设备可以基于基站采集的数据对第二模型进行动态更新,从而在保证基站运行的模型性能的同时,节省第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销。
结合第一方面,在第一方面的某些实现方式中,在第一设备向该第二设备发送第一信息前,该方法还包括:该第一设备对该第一模型进行轻量化处理。
基于上述方案,第一设备可以在生成第一模型后对该第一模型进行轻量化处理,从而进一步减小第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销。
第二方面,提供了一种模型训练方法,该方法可以由第二设备执行,这里的第二设备既可以指接入网设备本身,也可以指第二设备中实现该方法的处理器、模块、芯片、或芯片系统等,本申请对此不作限定。该方法包括:
第二设备接收来自第一设备的第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于生成用于更新第二模型的训练数据集,或者,该第一模型用于与该第二模型融合以更新该第二模型,该第二模型是该第二设备训练得到的;该第二设备根据该第一模型,更新该第二模型;该第二设备向该第一设备发送第二信息,该第二信息用于指示更新后的该第二模型。
作为示例而非限定,该第一设备可以是网络管理服务(例如通信基础大模型)使用者,该第二设备可以是网络管理服务提供者。该第一模型可以是数据生成模型,或者,该第一模型可以是运行在第一设备本地的模型,例如在该第一设备为基站时,该第一模型可以是on-site模型。该第二模型可以是物理网络中实现一种或多种通信功能的AI/ML模型,或称为通信基础大模型。应理解,关于第一设备获取第二模型的具体方式,以及第一信息指示第一模型的具体方式,可参考第一方面的相关内容,此处不作赘述。
基于上述方案,第一设备向第二设备发送第一模型,使得第二设备可以根据该第一模型生成用于更新第二模型的训练数据集,并基于该训练数据集更新第二模型,或者,使得第二设备可以根据将该第一模型与该第二模型融合以更新第一模型,即第一设备通过发送第一模型而非训练数据,可以节省第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销。
结合第二方面,在第二方面的某些实现方式中,该方法还包括:该第二设备接收来自在该第一设备的第三信息,该第三信息用于指示该第一模型的使用方式,该第一模型的使用方式包括基于该第一模型生成该训练数据集,或者,基于该第一模型进行模型融合。
应理解,第二设备可以根据该第三信息,确定该第一模型的使用方法,进而根据该第一模型更新第二模型。其中,关于第一模型的类型的具体说明可参考第五方面的相关内容,此处不作赘述。
基于上述方案,该第一设备可以通过第三信息向第二设备指示第一模型的使用方法,节约第二设备对于该第一模型的使用方法的识别或试错时间,从而提高第二设备对该第一模型的使用效率。
结合第二方面,在第二方面的某些实现方式中,当该第一模型用于生成更新第二模型的训练数据集时,该第二设备根据该第一模型,更新该第二模型,包括:该第二设备根据该第一模型生成训练数据集;该第二设备根据该训练数据集训练该第二模型,以更新该第二模型。
结合第二方面,在第二方面的某些实现方式中,当第一模型用于与该第二模型融合以更新该第二模型时,该第二设备根据该第一模型,更新该第二模型,包括:该第二设备将该第一模型和该第二模型进行融合,以更新该第二模型。
第三方面,提供了一种模型训练方法,该方法可以由第一设备执行,这里的第一设备既可以指接入网设备本身,也可以指第一设备中实现该方法的处理器、模块、芯片、或芯片系统等,本申请对此不作限定。该方法包括:
第一设备向该第二设备发送第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于生成用于更新第二模型的训练数据集,该第二模型是该第二设备训练得到的;第一设备接收第二信息,该第二信息用于指示更新后的该第二模型。
作为示例而非限定,该第一设备可以是网络管理服务(例如通信基础大模型)使用者,该第二设备可以是网络管理服务提供者。该第一模型可以是数据生成模型,该第二模型可以是物理网络中实现一种或多种通信功能的AI/ML模型,或称为通信基础大模型。
应理解,关于第一设备获取第二模型的具体方式,以及第一信息指示第一模型的具体方式,可参考第一方面的相关内容,此处不作赘述。
基于上述方案,第一设备向第二设备发送第一模型,使得第二设备可以根据该第一模型生成用于更新第二模型的训练数据集,并基于该训练数据集更新第二模型,即第一设备通过发送第一模型而非训练数据,可以节省第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销。
结合第三方面,在第三方面的某些实现方式中,在该第一设备向该第二设备发送该第一信息前,该方法还包括:该第一设备基于全部或部分本地数据进行模型训练,生成该第一模型,该全部或部分本地数据包括第一数据集,该第一数据集包括与第一功能相关的数据,该第一功能为该第一设备期望通过该第二模型实现的一种或多种功能。
结合第三方面,在第三方面的某些实现方式中,在该第一设备基于全部或部分本地数据进行模型训练前,该方法还包括:该第一设备根据该第一功能,基于第二数据集对该第二模型的参数进行微调,该第二数据集中包括与该第一功能相关的数据,该第二数据集包括于该第一数据集;确定微调后的该第二模型的与该第一功能中的至少一种功能相关的性能不满足对应的性能指标要求。
应理解,该第二模型的与该第一功能中的至少一种功能相关的性能不满足对应的性能指标要求可以理解为,该第二模型与该第一功能相关的各项性能中包括至少一项不满足对应的性能指标要求的性能。
结合第三方面,在第三方面的某些实现方式中,该第一设备为移动智能网元,该第二设备为支持云服务的设备。
结合第三方面,在第三方面的某些实现方式中,该方法还包括:该第一设备获取第三数据集,该第三数据集包括由基站采集的与第二功能相关的数据,该第二功能包括该基站期望通过该第二模型实现的一种或多种功能;该第一设备根据该第二功能,基于该第三数据集对该第二模型的参数进行微调。
结合第三方面,在第三方面的某些实现方式中,在该第一设备向该第二设备发送该第一信息前,该方法还包括:该第一设备接收第四信息,该第四信息用于指示微调后的该第二模型的性能异常;该第一设备根据该第四信息,确定第四数据集,该第四数据集是该第一设备本地存储的,或者,该第四数据集是该第一设备通过该基站获取的,其中,该第四数据集包括该第三数据集;该第一设备基于该第四数据集进行模型训练,生成该第一模型。
结合第三方面,在第三方面的某些实现方式中,该方法还包括:该第一设备根据该第四信息,向基站发送第五信息,该第五信息用于请求基站采集的数据;该第一设备接收第六信息,该第六信息用于指示该第四数据集。
结合第三方面,在第三方面的某些实现方式中,在第一设备向该第二设备发送第一信息前,该方法还包括:该第一设备对该第一模型进行轻量化处理。
第四方面,提供了一种模型训练方法,该方法可以由第二设备执行,这里的第二设备既可以指接入网设备本身,也可以指第二设备中实现该方法的处理器、模块、芯片、或芯片系统等,本申请对此不作限定。该方法包括:
第二设备接收第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于生成用于更新该第二模型的训练数据集,该第二模型是该第二设备训练得到的;该第二设备根据该第一模型,更新该第二模型;该第二设备向该第一设备发送第二信息,该第二信息用于指示更新后的该第二模型。
作为示例而非限定,该第一设备可以是网络管理服务(例如通信基础大模型)使用者,该第二设备可以是网络管理服务提供者。该第一模型可以是数据生成模型,该第二模型可以是物理网络中实现一种或多种通信功能的AI/ML模型,或称为通信基础大模型。
基于上述方案,第一设备向第二设备发送第一模型,使得第二设备可以根据该第一模型生成用于更新第二模型的训练数据集,并基于该训练数据集更新第二模型,即第一设备通过发送第一模型而非训练数据,可以节省第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销。
结合第四方面,在第四方面的某些实现方式中,该第二设备根据该第一模型,更新该第二模型,包括:该第二设备根据该第一模型生成训练数据集;该第二设备根据该训练数据集训练该第二模型,以更新该第二模型。
第五方面,提供了一种模型训练方法,该方法可以由第一设备执行,这里的第一设备既可以指接入网设备本身,也可以指第一设备中实现该方法的处理器、模块、芯片、或芯片系统等,本申请对此不作限定。该方法包括:
第一设备向该第二设备发送第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于与第二模型融合以更新该第二模型,该第二模型是该第二设备训练得到的;第一设备接收第二信息,该第二信息用于指示更新后的该第二模型。
作为示例而非限定,该第一设备可以是网络管理服务(例如通信基础大模型)使用者,该第二设备可以是网络管理服务提供者,该第一模型可以是运行在第一设备本地的模型,例如在该第一设备为基站时,该第一模型可以是on-site模型,该第二模型可以是物理网络中实现一种或多种通信功能的AI/ML模型,或称为通信基础大模型。
应理解,关于第一设备获取第二模型的具体方式,以及第一信息指示第一模型的具体方式,可参考第一方面的相关内容,此处不作赘述。
基于上述方案,第一设备向第二设备发送第一模型,使得第二设备可以将该第一模型与该第二模型融合以更新第一模型,即第一设备通过发送第二模型而非训练数据,可以节省第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销。
结合第五方面,在第五方面的某些实现方式中,该方法还包括:该第一设备根据第一功能,基于全部或部分本地数据对该第二模型的参数进行微调,以生成该第一模型,该第一功能为该第一设备期望通过该第二模型实现的一种或多种功能。
结合第五方面,在第五方面的某些实现方式中,该全部或本地数据至少包括第二数据集,该第二数据集为与该第一功能相关的数据的集合。
第六方面,提供了一种模型训练方法,该方法可以由第二设备执行,这里的第二设备既可以指接入网设备本身,也可以指第二设备中实现该方法的处理器、模块、芯片、或芯片系统等,本申请对此不作限定。该方法包括:
第二设备接收来自第一设备的第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于与第二模型融合以更新第二模型,该第二模型是该第一设备训练得到的;该第二设备根据该第一模型,更新该第二模型;该第二设备向该第一设备发送第二信息,该第二信息用于指示更新后的该第二模型。
作为示例而非限定,该第一设备可以是网络管理服务(例如通信基础大模型)使用者,该第二设备可以是网络管理服务提供者,该第一模型可以是运行在第一设备本地的模型,例如在该第一设备为基站时,该第一模型可以是on-site模型,该第二模型可以是物理网络中实现一种或多种通信功能的AI/ML模型,或称为通信基础大模型。
基于上述方案,第一设备向第二设备发送第一模型,使得第二设备可以将该第一模型与该第二模型融合以更新第一模型,即第一设备通过发送第二模型而非训练数据,可以节省第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销。
结合第六方面,在第六方面的某些实现方式中,该第二设备根据该第一模型,更新该第二模型,包括:该第二设备将该第一模型和该第二模型进行融合,以更新该第二模型。
第七方面,提供了一种模型训练装置,该装置包括:收发单元,用于接收第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于与第二模型融合以更新该第二模型,该第二模型是该第一设备训练得到的;处理单元,用于根据该第一模型,更新该第二模型;该收发单元还用于,向该第一设备发送第二信息,该第二信息用于指示更新后的该第二模型。
结合第七方面,在第七方面的某些实现方式中,该收发单元还用于,向该第二设备发送第三信息,该第三信息用于指示该第一模型的使用方式,该第一模型的使用方式包括基于该第一模型生成该训练数据集,或者,基于该第一模型进行模型融合。
结合第七方面,在第七方面的某些实现方式中,该模型训练装置还包括处理单元,该处理单元用于基于全部或部分本地数据进行模型训练,生成该第一模型,该全部或部分本地数据包括第一数据集,该第一数据集包括与第一功能相关的数据,该第一功能为该模型训练装置期望通过该第二模型实现的一种或多种功能。
结合第七方面,在第七方面的某些实现方式中,该处理单元还用于:根据该第一功能,基于第二数据集对该第二模型的参数进行微调,该第二数据集中包括与该第一功能相关的数据,该第二数据集包括于该第一数据集;确定微调后的该第二模型的与该第一功能中的至少一种功能相关的性能不满足对应的性能指标要求。
结合第七方面,在第七方面的某些实现方式中,该处理单元还用于:根据第一功能,基于全部或部分本地数据对该第二模型的参数进行微调,以生成该第一模型,该第一功能为该第一设备期望通过该第二模型实现的一种或多种功能。
结合第七方面,在第七方面的某些实现方式中,该模型训练装置为移动智能网元,该第二设备为支持云服务的设备。
结合第七方面,在第七方面的某些实现方式中,该收发单元还用于,接收第四信息,该第四信息用于指示微调后的该第二模型的性能异常;该处理单元还用于,根据该第四信息,确定第四数据集,该第四数据集是该第一设备本地存储的,或者,该第四数据集是该第一设备通过该基站获取的,其中,该第四数据集包括该第三数据集;该处理单元还用于,基于该第四数据集进行模型训练,生成该第一模型。
结合第七方面,在第七方面的某些实现方式中,该处理单元还用于,根据该第四信息,向该基站发送第五信息,该第五信息用于请求基站采集的数据;该收发单元还用于,接收第五信息,该第五信息用于指示该第四数据集。
结合第七方面,在第七方面的某些实现方式中,在第一设备向该第二设备发送第一信息前,该处理单元还用于,对该第一模型进行轻量化处理。
第八方面,提供了一种模型训练装置,该装置包括:收发单元,用于接收第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于生成用于更新该第二模型的训练数据集,或者,该第一模型用于与该第二模型融合以更新该第二模型,该第二模型是该第二设备训练得到的;处理单元,用于根据该第一模型,更新该第二模型;该收发单元还用于,向该第一设备发送第二信息,该第二信息用于指示更新后的该第二模型。
结合第八方面,在第八方面的某些实现方式中,该收发单元还用于,接收来自该第一设备的第三信息,该第三信息用于指示该第一模型的使用方式,该第一模型的使用方式包括基于该第一模型生成该训练数据集,或者,基于该第一模型进行模型融合。
结合第八方面,在第八方面的某些实现方式中,该模型训练装置还包括处理单元,该处理单元用于:根据该第一模型生成训练数据集;根据该训练数据集训练该第二模型,以更新该第二模型。
结合第八方面,在第八方面的某些实现方式中,该处理单元还用于将该第一模型和该第二模型进行融合,以更新该第二模型。
第九方面,提供了一种模型训练装置,该装置包括:收发单元,该收发单元用于向第二设备发送第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于生成用于更新第二模型的训练数据集,该第二模型是该第二设备训练得到的;该收发单元还用于接收第二信息,该第二信息用于指示更新后的该第二模型。
应理解,第九方面为与第三方面对应的装置侧的实现方式,关于第三方面的补充、解释和有益效果的说明同样适用于第九方面,不再赘述。
第十方面,提供了一种模型训练装置,该装置包括:收发单元,用于接收第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于生成用于更新该第二模型的训练数据集,该第二模型是该第二设备训练得到的;处理单元,用于根据该第一模型,更新该第二模型;该收发单元还用于,向该第一设备发送第二信息,该第二信息用于指示更新后的该第二模型。
应理解,第十方面为与第四方面对应的装置侧的实现方式,关于第四方面的补充、解释和有益效果的说明同样适用于第十方面,不再赘述。
第十一方面,提供了一种模型训练装置,该装置包括:收发单元,该收发单元用于向第二设备发送第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于与第二模型融合以更新该第二模型,该第二模型是该第二设备训练得到的;该收发单元还用于接收第二信息,该第二信息用于指示更新后的该第二模型。
应理解,第十一方面为与第五方面对应的装置侧的实现方式,关于第五方面的补充、解释和有益效果的说明同样适用于第十一方面,不再赘述。
第十二方面,提供了一种模型训练装置,该装置包括:收发单元,用于接收第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于与第二模型融合以更新该第二模型,该第二模型是该第二设备训练得到的;处理单元,用于根据该第一模型,更新该第二模型;该收发单元还用于,向该第一设备发送第二信息,该第二信息用于指示更新后的该第二模型。
应理解,第十二方面为与第六方面对应的装置侧的实现方式,关于第六方面的补充、解释和有益效果的说明同样适用于第十二方面,不再赘述。
第十三方面,本申请提供一种模型训练装置,所述模型训练装置包括处理器,用于实现上述第一方面至第六方面、或者第一方面至第六方面的任一实现方式中所述的方法。处理器与存储器耦合,存储器用于存储指令和数据,所述处理器执行所述存储器中存储的指令时,可以实现上述第一方面至第六方面、或者第一方面至第六方面的任一实现方式中所述的方法。
可选地,所述通信装置还可以包括存储器。可选地,存储器可以与处理器耦合。可选地,所述通信装置还可以包括通信接口,所述通信接口用于该装置与其它设备进行通信,示例性的,通信接口可以是收发器、硬件电路、总线、模块、管脚或其它类型的通信接口。
在一个示例中,该通信装置可以是第一设备,也可以是设置于第一设备中的装置、模块或芯片等,或者是可以和该第一设备匹配使用的装置。
在另一个示例中,该通信装置可以是第二设备,也可以是设置于第二设备中的装置、模块或芯片等,或者是可以和该第二设备匹配使用的装置。
第十四方面,本申请提供了一种系统,包括:第一设备,用于执行第一方面或第三方面或第五方面,或者第一方面或第三方面或第五方面的任一实现方式中所述的方法;第二设备,用于执行第二方面或第四方面或第六方面,或者第二方面或第四方面或第六方面的任一实现方式中所述的方法。
第十五方面,本申请还提供了一种计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述第一方面至第六方面、或者第一方面至第六方面的任一实现方式中所述的方法。
第十六方面,本申请还提供了一种计算机程序产品,包括指令,当所述指令在计算机上运行时,使得计算机执行上述第一方面至第六方面、或者第一方面至第六方面的任一实现方式中所述的方法。
第十七方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序或指令,当所述计算机程序或者指令在计算机上运行时,使得所述计算机执行上述第一方面至第六方面、或者第一方面至第六方面的任一实现方式中所述的方法。
第十八方面,本申请还提供了一种芯片,所述芯片用于读取存储器中存储的计算机程序,执行上述第一方面至第六方面、或者第一方面至第六方面的任一实现方式中所述的方法;或者,所述芯片包括用于执行上述第一方面至第六方面、或者第一方面至第六方面的任一实现方式中所述的方法。
第十九方面,本申请还提供了一种芯片系统,该芯片系统包括处理器,用于支持装置实现上述第一方面至第六方面、或者第一方面至第六方面的任一实现方式中所述的方法。在一种可能的设计中,所述芯片系统还包括存储器,所述存储器用于保存该装置必要的程序和数据。该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。
关于第七方面至第十九方面中任一方面的有益效果的描述可以参照第一方面至第六方面的有益效果的描述,此处不作赘述。
附图说明
图1是一种网络架构的示意图;
图2是当前MLT流程示意图;
图3是本申请实施例提供的一种模型训练方法300的示意图;
图4是本申请实施例提供的一种模型训练流程400的示意图;
图5是本申请实施例提供的一种模型训练流程500的示意图;
图6是本申请实施例提供的一种模型训练流程600的示意图;
图7是是本申请实施例提供的一种模型训练装置1000的示意图;
图8是本申请实施例提供的另一种模型训练装置1100示意图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
为了便于理解,首先对可以应用本申请的实施例的通信系统进行描述。
本申请的实施例可以应用于各种通信系统。例如:长期演进(long term evolution,LTE)系统、LTE频分双工(frequency division duplex,FDD)系统、LTE时分双工(time division duplex,TDD)、公共陆地移动网络(public land mobile network,PLMN)、第五代(5th generation,5G)系统、第六代(6th generation,6G)系统或未来的通信系统等。本申请中的5G系统包括非独立组网(non-standalone,NSA)的5G移动通信系统或独立组网(standalone,SA)的5G移动通信系统。本申请的实施例还可以应用于卫星通信系统等非陆地通信网络(non-terrestrial network,NTN)通信系统。本申请的实施例还可以应用于设备到设备(device to device,D2D)通信系统、侧行链路(sidelink,SL)通信系统、机器到机器(machine to machine,M2M)通信系统、机器类型通信(machine type communication,MTC)系统、物联网(Internet of things,IoT)通信系统、车联万物(vehicle to everything,V2X)通信系统、无人机(uncrewed aerial vehicle,UAV)通信系统或者其他通信系统。
作为示例,图1示出了一种网络架构的示意图。
如图1所示,该网络架构以5G系统(the 5th generation system,5GS)为例。该网络架构中可包括三部分,分别是用户设备(user equipment,UE)部分、数据网络(data network,DN)部分和运营商网络部分。其中,运营商网络可包括以下网元中的一个或多个:(无线)接入网((radio)access network,(R)AN)设备、用户面功能(user plane function,UPF)网元、接入和移动性管理功能(access and mobility management function,AMF)网元、会话管理功能(session management function,SMF)网元、网络数据分析功能(network data analytics function,NWDAF)网元、策略控制功能(policy control function,PCF)网元、应用功能(application function,AF)网元、移动智能功能(Mobile Intelligence Function,MIF)网元和网络管理(Operations,Administration And Management,OAM)网元。上述运营商网络中,除RAN部分之外的部分可以称为核心网部分。
在本申请中,将用户设备、(无线)接入网设备、UPF网元、AMF网元、SMF网元、NWDAF网元、PCF网元、AF网元、MIF网元、OAM网元分别简称为UE、(R)AN、UPF、AMF、SMF、NWDAF、PCF、AF、MIF、OAM。
下面对图1中涉及的各网元进行简单描述。
1、UE
本申请中的UE也可以称为终端、用户、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端设备、无线通信设备、用户代理或用户装置等,为了描述方便,下文统一称为终端。
终端是一种可以接入网络的设备。终端与(R)AN之间可以采用某种空口技术(如NR或LTE技术)相互通信。终端与终端之间也可以采用某种空口技术(如NR或LTE技术)相互通信。终端可以是手机(mobile phone)、平板电脑(pad)、带无线收发功能的电脑、虚拟现实(virtual reality,VR)终端、增强现实(augmented reality,AR)终端、卫星通信中的终端、接入回传一化链路(integrated access and backhaul,IAB)系统中的终端、WiFi通信系统中的终端、工业控制(industrial control)中的终端、无人驾驶(self driving)中的终端、远程医疗(remote medical)中的终端、智能电网(smart grid)中的终端、运输安全(transportation safety)中的终端、智慧城市(smart city)中的终端、智慧家庭(smart home)中的终端等。
本申请的实施例对UE所采用的具体技术和具体设备形态不做限定。
2、(R)AN
本申请中的(R)AN可以是用于与终端通信的设备,也可以是一种将终端接入到无线网络的设备。
(R)AN可以为无线接入网中的节点。(R)AN可以是基站(base station)、演进型基站(evolved NodeB,eNodeB)、发送接收点(transmission reception point,TRP)、家庭基站(例如,home evolved NodeB,或home Node B,HNB)、Wi-Fi接入点(access point,AP)、移动交换中心、5G移动通信系统中的下一代基站(next generation NodeB,gNB)、开放无线接入网(open radio access network,O-RAN或open RAN)中的接入网设备、第六代(6th generation,6G)移动通信系统中的下一代基站、或未来移动通信系统中的基站等。网络设备还可以是完成基站部分功能的模块或单元,例如,可以是集中式单元(central unit,CU)、分布式单元(distributed unit,DU)、射频拉远单元(remote radio unit,RRU)或基带单元(baseband unit,BBU)等。(R)AN还可以是D2D通信系统、V2X通信系统、M2M通信系统以及IoT通信系统中承担基站功能的设备等。(R)AN还可以是NTN中的网络设备,即(R)AN可以部署于高空平台或者卫星。(R)AN可以是宏基站,也可以是微基站或室内站,还可以是中继节点或施主节点等。
本申请的实施例对(R)AN所采用的具体技术、设备形态以及名称不做限定。
3、UPF
UPF主要功能使数据包路由和转发、移动性锚点、上行分类器来支持路由业务流到数据网络、分支点来支持多归属PDU会话等。
4、DN
DN主要用于为终端提供数据服务的运营商网络。例如,因特网(Internet)、第三方的业务网络、或IP多媒体服务业务(IP multi-media service,IMS)网络等。
5、AMF
AMF主要功能包含管理用户注册、可达性检测、SMF节点的选择、移动状态转换管理等。
6、SMF
SMF主要功能是控制会话的建立、修改和删除,用户面节点的选择等。
7、NWDAF
其具备数据收集、模型训练、数据分析、模型推理等功能,可以用于收集来自网络网元、第三方业务服务器、终端设备或网管系统中的相关数据,基于相关数据做数据分析或模型训练,并向网络网元、第三方业务服务器、终端设备或网管系统提供数据分析结果,或者向其它数据分析功能网元提供训练的模型。
8、PCF
PCF主要负责策略控制的决策、提供控制平面功能的策略规则、以及基于流量的计费控制功能等。
9、AF
AF主要支持与3GPP核心网交互来提供服务,例如影响数据路由决策、策略控制功能或者向网络提供第三方的服务。AF可是运营商网络自身部署的AF,也可以是第三方AF。DCAF是一种特殊的AF,主要负责从UE application收集数据,并开放给网络中的NWDAF等网元。
10、OAM
主要完成日常网络和业务的分析、预测、规划和配置工作,以及对网络及其业务的测试和故障管理等。OAM可以和RAN交互,获取RAN侧由RAN测量的或者UE测量上报的UE位置信息。
11、MIF
负责基站的人工智能(ArtificialIntelligence,AI)或机器学习(MachineLearning,ML)功能,包括数据管理功能、算力管理功能和模型管理功能,其中,数据管理功能可以包括:数据采集、数据存储和数据分析;算力管理功能可以包括:算力感知、算力调度、以及算力和传输协同;模型管理功能可以包括:模型训练、模型推理和模型生命周期管理。MIF的形态可以是:基站、独立于基站的一个网元、独立于基站的一个网络功能、基站内部的一个子模块、或者基站内部的一个子功能,例如在图1中MIF为独立于基站的一个网元/网络功能。
在图1所示的网络架构中,各网元之间可以接口通信。各网元之间的接口可以是点对点接口,也可以是服务化接口,本申请不予限制。
应理解,上述所示的网络架构仅是示例性说明,适用本申请实施例的网络架构并不局限于此,任何能够实现上述各个网元的功能的网络架构都适用于本申请实施例。
还应理解,图1中所示的UE、(R)AN、UPF、AMF、SMF、NWDAF、PCF、AF、MIF、OAM等功能或者网元,可以理解为用于实现不同功能的网元,例如可以按需组合成网络切片。这些网元可以各自独立的设备,也可以集成于同一设备中实现不同的功能,或者可以是硬件设备中的网络元件,也可以是在专用硬件上运行的软件功能,或者是平台(例如,云平台)上实例化的虚拟化功能,本申请对于上述网元的具体形态不作限定。
还应理解,上述命名仅为便于区分不同的功能而定义,不应对本申请构成任何限定。本申请并不排除在6G网络以及未来其它的网络中采用其他命名的可能。例如,在6G网络中,上述各个网元中的部分或全部可以沿用5G中的术语,也可能采用其他名称等。
为便于理解本申请实施例,对本申请实施例中涉及的几个基本概念做简单说明。
1、机器学习(MachineLearning,ML)
机器学习(ML)模型作为人工智能(ArtificialIntelligence,AI)的一项关键技术,凭借其对于数据的高效挖掘与处理能力,已经在通信技术研究中获得了广泛的关注。ML模型在通信网络中的训练流程是第三代合作伙伴计划(3rd Generation Partnership Project,3GPP)R18标准研究的重要方向之一。通过对ML模型进行高效训练,可以提高其在实际通信应用中的性能,同时有利于后续进行ML模型部署、管理和大规模应用。其中,SA5 TS28.105明确了ML模型训练的整体流程框架和数据要求。其中,机器学习训练(MLTraining,MLT)网络服务(Management Services,MnS)提供者利用当前和历史相关数据来监控与ML模型相关的网络或服务、准备数据、触发并执行训练。
2、大模型
大模型是一种包含至少亿级参数量的人工神经网络模型,需要通过计算机和海量现有数据进行优化训练。具有强大的推理能力和泛化能力。大模型作为一种新的ML范式,为包括自然语言处理(Natural Language Processing,NLP)在内的多个应用领域实现性能突破。大模型利用巨大参数规模、海量数据和计算资源,以及能够捕捉全局数据关系的模型结构,可以获得前所未有的推理能力和泛化性能。只需一个经过预训练的模型,就可以适应广泛的各类应用任务,并通过微调、或小/零样本学习实现最佳性能。鉴于3GPP R19标准研究开始关注自然语言意图,大模型可能作为自然语言意图翻译的潜在技术方案。此外,大模型依托其强大的推理能力在通信网络中的物理层无线资源分配、网络管理面运行优化以及核心网智能控制等场景中具有较大应用潜力。
3、微调
指为了某一/些特定任务对经过预训练后的人工神经网络模型使用该任务的特有信息进行训练的过程。例如,为了使某一人工神经网络模型具有机器翻译的能力,需要使用不同语言对照关系表来对经过预训练后的模型进行下一步训练。
4、数据生成模型
具有拟合数据分布能力的人工神经网络模型。在训练后,对于特定输入,能够获得更多符合该分布的输出结果。例如,生成对抗网络模型在文本生成任务中的应用,通过使用大量的自然语言来训练该模型,使其给定任意白噪声输入,能够输出一组与训练语料相似的自然语言输出结果。
图2是当前MLT流程示意图,考虑到当前MLT MnS使用者侧的算力部署不充分,且MLT MnS提供者侧(例如OAM)方便进行算力部署,因此通常由MLTMnS提供者完成模型训练。如图2所示,由MLT MnS使用者向MLT MnS提供者发送训练请求以发起ML实体(模型)训练流程,同时由MLT MnS使用者提供历史或现有可用训练数据供MLT MnS提供者选择。MLT MnS提供者响应MLT MnS使用者的训练请求,选择训练数据进行模型训练,完成后将训练结果发送给MLT MnS使用者,供后者进行选择使用。
由上可见,ML模型训练过程中需要MLTMnS使用者向MLTMnS提供者发送训练数据,以供MLTMnS提供者训练时选择。然而,大模型训练过程中需要海量数据,若直接应用当前ML模型训练方法,其中的数据收集过程会导致网元间(特别是MLTMnS使用者和MLTMnS提供者之间)通信资源开销较大。例如,在考虑高时间敏感性场景下的可靠无线传输中,对10万用户级无线网络中对用户进行周期为10ms的数据采样,假设所需用户特征数为100,每个特征需要4比特进行表示,那么在该网络中每分钟所需上传用户数据量约为4GB,通信资源开销较大。
有鉴于此,本申请提出一种模型训练方法和装置,可以在大模型训练过程中避免MLTMnS提供者直接加载MLTMnS使用者的海量训练数据,从而节省数据收集过程所带来的通信开销。
为便于理解本申请实施例,在介绍本申请的实施例之前,先做出以下几点说明。
在本申请中,“用于指示”或“指示”可以包括用于直接指示和用于间接指示,或者说“用于指示”或“指示”可以显式地和/或隐式地指示。例如,当描述某一信息用于指示信息I时,可以包括该信息直接指示I或间接指示I,而并不代表该信息中一定携带有I。又例如,隐式指示可以基于用于传输的位置和/或资源;显式指示可以基于一个或多个参数,和/或一个或多个索引,和/或一个或多个它所表示的位模式。
本申请对很多特性所列出的定义仅用于以举例方式来解释该特性的功能,其详细内容可以参考现有技术。
下文示出的实施例中,第一、第二、第三、第四以及各种数字编号仅为描述方便进行的区分,并不用来限制本申请实施例的范围。例如,区分不同的字段、不同的信息等。
“预先定义”可以通过在设备中预先保存相应的代码、表格或其他可用于指示相关信息的方式来实现,本申请对于其具体的实现方式不做限定。其中,“保存”可以是指,保存在一个或者多个存储器中。存储器的类型可以是任意形式的存储介质,本申请并不对此限定。
本申请实施例中涉及的“协议”可以是指通信领域的标准协议,例如可以包括长期演进(long term evolution,LTE)协议、新无线(new radio,NR)协议以及应用于未来的通信系统中的相关协议,本申请对此不做限定。
本申请将围绕包括多个设备、组件、模块等的系统来呈现各个方面、实施例或特征。应当理解和明白的是,各个系统可以包括另外的设备、组件、模块等,并且/或者可以并不包括结合附图讨论的所有设备、组件、模块等。此外,还可以使用这些方案的组合。
在本申请实施例中,“示例的”、“例如”、“示例性地”、“作为(另)一个示例”等词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用示例的一词旨在以具体方式呈现概念。
术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a、b和c中的至少一项(个),可以表示:a,或,b,或,c,或,a和b,或,a和c,或,b和c,或,a、b和c。其中a、b和c分别可以是单个,也可以是多个。
在本申请实施例中,涉及网元A向网元B发送消息、信息或数据,以及网元B接收来自网元A的消息、信息或数据的相关描述,旨在说明该消息、信息或数据是要发给哪个网元,而并不限定它们之间是直接发送还是经由其他网元间接发送。
在本申请实施例中,“当……时”、“在……的情况下”、“若”以及“如果”等描述均指在某种客观情况下设备会做出相应的处理,并非是限定时间,且也不要求设备在实现时一定要有判断的动作,也不意味着存在其它限定。
应理解,在本申请实施例中,基站和接入网设备可以是相同概念,二者可以互相替换使用。
图3是本申请实施例提供的一种模型训练方法300的示意图。如图所示,该方法300包括下述步骤:
S310,第一设备向第二设备发送第一信息,对应的,第二设备接收该第一信息。其中,该第一信息用于指示第一模型,该第一模型用于生成更新第二模型的训练数据集。
在本申请实施例中,该第一设备可以是网络管理服务(例如通信基础大模型)使用者,该第二设备可以是网络管理服务提供者,该第一模型可以是数据生成模型,该第二模型可以是物理网络中实现一种或多种通信功能的AI/ML模型,或称为通信基础大模型。
应理解,本申请实施例对该第一设备获取该第二模型的具体方式不作限定。
作为示例而非限定,该第二模型可以是预配置在第一设备中的。具体的,该第二模型可以是在该第一设备出厂时配置在该第一设备中的,或者,该第二模型可以是在第一设备运行前人工配置在该第一设备上。
作为示例而非限定,该第二模型可以是由第二设备向第一设备发送的。具体的,在上述步骤S310前,该第二设备向第一设备发送配置信息,该配置信息用于指示该第二模型。
可选地,该第二设备还可以向该第一设备发送该第二模型的性能信息,第二模型的评价指标信息,或者第二模型的功能信息的至少一项,使得该第一设备可以确定该第二模型在运行过程是否满足相应的性能要求。其中,该第二模型的性能信息可以包括该第二模型的参数量、结构和层数描述等信息;该第二模型的评价指标信息可以包括该第二模型在其可用下游任务中的性能表现,如准确率、召回率、均方误差等,该第二模型的功能信息可以包括可以通过该模型可以实现的通信功能的信息。
应理解,本申请实施例对该第一信息指示该第一模型的具体方式不作限定。
作为示例而非限定,该第一信息中包括该第一模型,则该第二设备在接收到第一信息后可以获取该第一模型。
作为示例而非限定,该第一模型中可以包括该第一模型的存储地址,则该第二设备在接收到该第一信息后,可以根据该第一模型的存储地址获取定该第一模型。
可选地,在第一设备向第二设备发送第一信息时,第一设备还可以向第二设备发送第一模型的性能信息,第一模型的评价指标信息,或者第一模型的功能信息的至少一项。
在一些可能的实现方式汇总,该第一设备可以向该第二设备发送第三信息,该第三信息用于指示该第一模型的使用方法,该第一模型的使用方法包括基于该第一模型生成训练数据集,或者,基于该第一模型进行模型融合。
应理解,本申请实施例对该第三信息指示该第一模型的使用方法的具体方式不作限定。
作为示例而非限定,该第三信息可以通过比特0和比特1指示该第一模型的使用方法,例如,比特0用于指示该基于该第一模型生成训练数据集,比特1用于指示基于该第一模型进行模型融合。
应理解,第一设备可以在发送上述第一信息的同时发送该第三信息,例如将第一信息和第三信息携带在同一消息中,或者,第一设备可以在发送上述第一信息后发送该第三信息,本申请实施例对此不作限定。
容易理解的是,以该第一模型的使用方法为区分,在上述步骤S310前,上述方法300还包括下述步骤:
方式一,基于该第一模型生成训练数据集:
S305,第一设备基于全部或部分本地数据进行模型训练,生成该第一模型。
其中,该第一设备的全部或部分数据中至少包括第一数据集,该第一数据集为与第一功能相关的数据的集合,该第一功能包括该第一设备期望通过该第二模型实现的一种或多种功能。
作为示例而非限定,该第一功能可以包括该第一设备所需的波束管理、信道测量等功能,或者该第一设备期望的意图管理等功能,或者该第一设备期望的移动性预测等功能。
应理解,本申请实施例对于该第一设备执行步骤S305的触发条件不作限定。
在一种可能的实现方式中,该第一设备周期性地根据本地数据进行模型训练。其中,本申请实施例对于该第一设备进行模型训练的周期不作限定,示例性的,该周期可以是500s。
在另一种可能的实现方式中,在上述步骤S305前,上述方法300还包括下述步骤(图中未示出):
S301,第一设备根据第一功能,基于第二数据集对该第二模型的参数进行微调。其中,该第二数据集包括于该第一数据集。
应理解,该第二数据集包括与上述第一功能相关的数据,该第二数据集包括于该第一数据集可以理解为,采集该第二数据集的时间段包括于采集该第一数据集的时间段。
作为示例而非限定,该第一设备为基站,则该第一设备可以根据所需波束管理、信道测量等功能,基于第二数据集,对该第二模型的参数进行微调。
作为示例而非限定,该第一设备为OAM,则该第一设备可以根据意图管理等功能,基于第二数据集,对该第二模型的参数进行微调。
作为示例而非限定,该第一设备为NWDAF,则该第一设备可以根据移动性预测等功能,基于第二数据集,对该第二模型的参数进行微调。
S302,第一设备判断微调后的第二模型的性能是否满足上述第一功能的对应的关键绩效指标(Key Performance Indicator,KPI)要求。
应理解,上述KPI要求是该第一设备在对该第二模型进行微调的过程中确定的。
在一种可能的实现方式中,通过上述步骤S302微调后的第一模型的至少一种性能不满足对应的KPI要求,则该第一设备执行上述步骤S305。
在另一种可能的实现方式中,通过上述步骤S302微调后的第一模型的性能均满足对应的KPI要求,则该第一设备依次重复执行上述步骤S301和S302,通过这样的方式,该第一设备可以根据该第一功能和本地数据对该第一模型的参数进行微调,提高该第一设备本地运行的模型的性能。
方式二,基于该第一模型进行模型融合:
S307,第一设备根据第一功能,基于全部或部分本地数据对该第二模型的参数进行微调以生成该第一模型。
在一种可能的实现方式中,该第一设备在步骤S307中进行参数微调的该第二模型可以是该第一设备根据上述第一功能对第二模型进行轻量化处理后得到的模型。
应理解,上述第一设备使用的全部或部分本地数据包括与该第一功能相关的数据。
应理解,该全部或部分本地数据可以是该第一设备自身收集并存储在本地的,或者,是通过其他设备处获取后存储在本地的,本申请实施例对此不作限定。
基于上述方式一或方式二,第一设备可以生成第一模型并通过步骤S310发送该第一模型。
S320,第二设备根据第二模型,更新该第一模型。
在一种可能的实现方式中,当第三信息指示该第一模型用于生成训练数据集时,第二设备根据该第二模型,生成用于更新该第一模型的训练数据集,并根据该训练数据集对该第二模型进行模型训练,从而更新该第二模型。
在另一种可能的实现方式中,当该第三信息指示该第一模型用于与第二模型融合时,第二设备将该第二模型和该第一模型融合以更新该第二模型。其中,该第二模型和第一模型融合的具体方式将在下文中详细说明,此处不作赘述。
S330,第二设备向第一设备发送第二信息,对应的,该第一设备接收该第二信息。其中,该第二信息用于指示更新后的该第二模型。
应理解,本申请实施例对该第二信息指示更新后的第二模型的具体方式不作限定。
作为示例而非限定,该第二信息中包括更新后的该第二模型,则该第一设备在接收到第一信息后可以获取更新后的该第二模型。
作为示例而非限定,该第二信息中可以包括更新后的该第二模型的存储地址,则该第一设备在接收到该第二信息后,可以根据更新后的该第二模型的存储地址获取定该第一模型。
可选地,在第一设备还可以向第二设备发送第二模型的性能信息,第二模型的评价指标信息,或者第二模型的功能信息的至少一项。
容易理解的是,上述步骤S310至S330中的第一设备可以进行数据收集并基于收集的数据进行模型训练。在一些可能的实施例中,该第一设备为MIF,即该第一网元的训练数据由其他设备(例如基站)提供,该第一设备本身仅用于进行数据训练。
在这些实施例中,上述方法300还可以包括下述步骤(图中未示出):
S301’:第一设备根据第二功能,基于第三数据集对该第二模型的参数进行微调。
应理解,该第四数据集为与第二功能相关的数据的集合,该第二功能包括该基站期望通过该第二模型实现的一种或多种功能。
应理解,上述第四数据集是该第一设备从该基站请求获取的,即在执行上述步骤S301’前,第一设备需要向该基站请求基站采集的数据。
S302’:第一设备向该基站发送微调后的该第二模型,对应的,该基站接收微调后的该第二模型。
S303’:第一设备接收来自该基站的第四信息,该第四信息用于指示微调后的第二模型的性能异常。
在这些实施例中,上述步骤S305可以替换为:
S305’:该第一设备基于基站收集的全部或部分数据进行模型训练,生成该第一模型。
其中,该基站收集的全部或部分数据中至少包括第四数据集,该第四数据集为与上述第二功能相关的数据的集合。并且,该第四数据集包括该第三数据集,即采集该第四数据集的时间段包括采集该第三数据集的时间段。
应理解,该第一设备进行模型训练的数据可以是第一设备在确定需要生成第一模型时向该基站请求获取的,或者,该第一设备进行模型训练的数据可以是该第一设备本地存储的该基站上报的数据,本申请实施例对此不作限定。
在一些可能的实施例中,在该第一设备执行该S305’前,该第一设备需要向基站请求该基站收集的全部或部分数据。
本申请实施例对于该第一设备向基站请求该基站收集的全部或部分数据的具体方式不作限定。
作为示例而非限定,该第一设备周期性的向该基站发送第四信息,该第四信息用于请求该基站收集的全部数据,或者,该第四信息用于请求该基站收集的与第二功能相关的数据。
应理解,前述基站收集的全部数据可以是该基站投入运行后收集的全部数据,或者,前述基站收集的全部数据可以是该基站在接收两个请求信息的间隔时间内收集的全部数据,或者,前述基站收集到全部数据可以是该第一设备与该基站约定的特定时间段内收集的全部数据,本申请实施例对此不作限定。
应理解,前述该基站收集的与第二功能相关的数据可以是该基站投入运行后收集的与第二功能相关的全部数据,或者,前述该基站收集的与第二功能相关的数据可以是该基站在接收两个请求信息的间隔时间内收集的与第二功能相关的数据,或者,前述该基站收集的与第二功能相关的数据可以是该第一设备与该基站约定的特定时间段内收集的与第二功能相关的数据,本申请实施例对此不作限定。
应理解,该第一设备可以在进行模型训练后丢弃基站提供的部分或全部数据,或者,该第一设备可以在进行模型训练后保存基站提供的部分或全部数据,本申请实施例对此不作限定。
应理解,本申请实施例对于该第一设备执行步骤S305’的触发条件不作限定。
在一种可能的实现方式中,该步骤S305’的触发条件为接收上述第三信息。
进一步地,在第一设备接收该第三信息后,该第一设备可以根据本地存储的基站采集的数据进行模型训练以生成第一模型,或者,该第一设备可以向该基站发送第四信息以请求基站采集的数据,并根据该数据进行模型训练以生成第一模型。
在另一种可能的实现方式中,该第一设备周期性地根据本地数据进行模型训练。其中,本申请实施例对于该第一设备进行模型训练的周期不作限定,示例性的,该周期可以是500s。
基于上述方案,第一设备向第二设备发送第一模型,使得第二设备可以根据该第一模型生成用于更新第二模型的训练数据集,并基于该训练数据集更新第一模型,即第一设备通过发送第二模型而非训练数据,可以节省第一设备和第二设备间关于该第二模型的训练数据收集带来的通信开销。
以下通过图4所示的第一设备能够进行数据收集以及模型训练的场景,对上述方法300的具体流程进行说明。在此场景中,该第一设备可以为基站,OAM,NWDAF中的任一项,以下以该第一设备为基站,第二设备为支持云服务的设备(以下称为Cloud)为例进行说明。
图4是本申请实施例提供的一种模型训练流程400的示意图。如图所示,该流程400包括下列步骤:
S401,Cloud向一个或多个基站发送信息#1,对应的,该一个或多个基站接收该信息#1。
其中,该信息#1用于指示模型#1(第二模型的一例),示例性的,该模型#1可以是无线通信基础大模型。在本申请实施例中,上述步骤S401可以理解为Cloud使无线通信基础大模型在基站端可用。
应理解,本申请实施例对该信息#1指示模型#1的具体方式不作限定,具体方式可参考步骤S310的相关内容,此处不作赘述。
可选地,Cloud在发送信息#1时还可以向该一个多个基站发送模型#1的模型性能信息,模型#1的评价指标信息以及模型#1的模型功能信息中的至少一项,关于上述信息的具体说明可参考步骤S310的相关内容,此处不作赘述。
S402,每个基站根据所需功能使用全部或部分本地采集数据对模型#2的参数进行微调。
在一种可能的实现方式中,该模型#2可以是该基站通过信息#1确定的模型。
在另一种可能的实现方式中,该模型#2可以是该基站根据所需功能(即第一功能)对模型#1进行轻量化处理后得到的模型。其中,该基站所需功能可以理解为该基站期望通过模型#1实现的一种或多种功能。
应理解,上述全部或部分本地采集数据至少包括数据集#1,该数据集#1为该基站采集的与自身所需功能相关的数据的集合。
作为示例而非限定,该模型所需功能可以包括该基站所需的波束管理、信道测量等功能。:
在本申请实施例中,该模型#2可以是on-site模型。
应理解,在该基站对该模型#2的参数进行微调的过程中,可以确定该基站所需功能对应的KPI要求。
S403,每个基站判断微调后的模型#2的性能是否满足上述基站所需功能对应的KPI要求。
在一种可能的实现方式中,该模型#2的性能满足上述基站所需功能的KPI要求,则基站重复上述步骤S402和S403,通过这样的方式,该基站可以根据该自身所需功能和本地数据对该模型#2的参数进行微调,提高该基站本地部署的模型的性能。
在另一种可能的实现方式中,该模型#2的性能未满足基站所需功能的至少一项KPI要求,则基站执行下述步骤S404。
S404,基站使用全部或部分本地数据进行模型训练,生成模型#3。
其中,该基站的全部或部分本地数据中至少包括数据集#2,该数据集#2为该基站收集的与该自身所需功能相关的数据的集合。
在本申请实施例中,该模型#3可以是数据生成模型。
S405,基站向Cloud发送信息#2(第一信息的一例)和信息#3(第三信息的一例),对应的,Cloud接收该信息#2和信息#3。
其中,该信息#2用于指示模型#3,该信息#3用于指示模型#3用于生成训练数据集。在本申请实施例中,上述步骤S405可以理解为基站使模型#3在Cloud端可用。
在一些可能的实现方式中,上述信息#2和信息#3可以包括于无线大模型训练请求消息中,该无线大模型训练请求消息用于请求更新上述模型#1。
可选地,该基站可以在发送信息#2时向Cloud发送模型#3的模型性能信息,模型#3的评价指标信息以及模型#3的模型功能信息中的至少一项。
可选地,在基站在发送信息#2前,可以对步骤S404生成的模型#3进行轻量化处理,并通过信息#2指示轻量化处理后的模型#3。
S406,Cloud根据从一个或多个基站获取的模型#3,更新模型#1。
具体的,Cloud根据从一个或多个基站获取的模型#3,生成训练数据集,并根据该训练数据集对模型#1进行模型训练,以更新模型#1。
S407,Cloud向一个或多个基站发送信息#4(第二信息的一例),对应的,该一个或多个基站接收信息#4。
其中,该信息#4用于指示更新后的模型#1。在本申请实施例中,上述步骤S407可以理解为Cloud使更新后的模型#1在基站端可用。
可选地,Cloud在发送信息#4时还可以向该一个多个基站发送更新后的模型#1的模型性能信息,更新后的模型#1的评价指标信息以及更新后的模型#1的模型功能信息中的至少一项。
基于上述方案,基站/OAM/NWDAF可以基于本地数据生成并向Cloud发送模型#3,使得Cloud可以根据该模型#3生成用于更新模型#1的训练数据集,并基于该训练数据集更新模型#1,即基站/OAM/NWDAF可以通过向Cloud发送用于生成更新模型#1的训练数据集的模型#3而非训练数据,节省基站/OAM/NWDAF和Cloud间与该模型#1的训练数据收集相关的通信开销。
以下通过图5所示的第一设备用于为其他设备提供算力(例如进行模型训练)的场景,对上述方法300的具体流程进行说明。以下以该第一设备为MIF,第二设备为支持云服务的设备(以下称为Cloud)为例进行说明。
图5是本申请实施例提供的一种模型训练流程500的示意图。如图所示,该流程500包括下列步骤:
S501,Cloud向一个或多个MIF发送信息#1’,对应的,该一个或多个MIF接收信息#1’。
其中,该信息#1’用于指示模型#1’(第二模型的另一例),示例性的,该模型#1’可以是无线通信基础大模型。在本申请实施例中,上述步骤S401可以理解为Cloud使无线通信基础大模型在MIF端可用。
应理解,本申请实施例对该信息#1’指示模型#1’的具体方式不作限定,具体方式可参考步骤S310的相关内容,此处不作赘述。
可选地,Cloud在发送信息#1’时还可以向该一个多个基站发送模型#1’的模型性能信息,模型#1’的评价指标信息以及模型#1’的模型功能信息中的至少一项。
应理解,上述每个MIF可以用于为对应的一个或多个基站提供算力,即每个MIF可以用于为对应的一个或多个基站进行模型训练,本申请对此不作限定。
作为示例而非限定,Cloud向MIF#1和MIF#2发送上述信息#1’,其中,MIF#1可以为基站#1和基站#2提供算力,MIF#2可以为基站#3提供算力。
应理解,在上述步骤S501前,该一个或多个MIF对应的基站上配置有模型#2’,该模型#2’可以是上述模型#1,或者,该模型#2’可以基于基站所需功能进行参数微调后的模型#1’,且本申请对为该一个或多个MIF对应的基站配置该模型#2’的具体方式不作限定,具体方式可参考步骤S310的相关内容,此处不作赘述。
S502,每个MIF向对应的一个或多个基站发送信息#5,对应的,该一个或多个基站接收信息#5。其中,该信息#5用于请求该一个或多个基站采集的数据。
在一种可能的实现方式中,该信息#5中包括标识#1和标识#2的至少一项,其中,该标识#1用于指示特定的时间段,使得每个基站可以基于该标识#1上报在该特定的时间段内采集的数据,该标识#2用于指示特定的功能,使得每个基站可以基于该标识#2上报该特定功能相关的数据。
S503,每个基站向对应的MIF发送全部或部分本地数据。
具体的,每个基站根据上述信息#5对本地数据进行采样,并向对应的MIF发送采样得到的训练数据。其中,该基站向对应的MIF发送的全部或本地数据至少包括数据集#3,该数据集#3为与该基站所需功能相关的数据。其中,该基站所需功能可以理解为该基站期望通过模型#1实现的一种或多种功能。
应理解,当该信息#5中包括上述标识#1时,该基站将根据该标识#1对本地数据进行采样,并将该标识#1指示的特定的时间段内采集的全部或部分数据发送给对应的MIF。
应理解,当该信息#5中包括上述标识#2时,该基站将根据该标识#2对本地数据进行采样,并将该标识#2指示的特定功能相关的全部或部分数据发送给对应的MIF。
S504,MIF根据基站所需功能,使用基站提供的全部或部分本地数据对对模型#1’的参数进行微调。
具体的,MIF对该模型#1’进行微调的具体过程可参考方法300的相关内容,此处不作赘述。
S505,每个MIF向对应的一个或多个基站发送信息#6,该信息#6用于指示微调后的模型#1’。
对应的,该一个或多个基站在接收到微调后的模型#1’后,更新本地部署。
S506,每个基站判断微调后的模型#1’是否满足所需功能对应的KPI要求。
在一些可能的实现方式中,该模型#1’的性能满足上述基站所需功能的KPI要求,则重复上述步骤S502至步骤S506,通过这样的方式,该MIF可以根据该基站所需功能和基站采集的数据对该模型#1’的参数进行微调,提高该基站本地部署的模型的性能。
在另一种可能的实现方式中,该模型#1’的性能未满足基站所需功能的至少一项KPI要求,则基站执行下述步骤S507。
S507,基站向对应的MIF发送信息#7(第四信息的一例),对应的,对应的MIF接收该信息#7。其中,该信息#6用于指示该基站部署的模型异常。
S508,MIF使用对应的一个或多个基站提供的全部或部分数据进行模型训练,生成模型#3’。
其中,该一个或多个基站提供的全部或部分数据至少包括数据集#4,该数据集#4该一个或多个基站上报的与基站所需功能相关的数据的集合。并且,该数据集#4包括上述数据集#3,即采集该数据集#4的时间段包括采集该数据集#3的时间段。
应理解,本申请实施例对MIF获取该数据集#4的具体方式不作限定。
作为示例而非限定,该MIF通过前述步骤S503接收到基站上报的数据后在本地存储该数据,从而在执行步骤S508时基于本地存储的数据进行模型训练。
作为示例而非限定,该MIF在执行上述步骤S507前,执行下述步骤(图中未示出):
S5081,MIF向对应的一个或多个基站发送信息#8(第五信息的一例),对应的,该一个或多个基站接收该信息#8。其中,该信息#8用于请求基站上报所采集的数据。
可选地,该信息#8中包括上述标识#1或标识#2中的至少一项,使得基站可以基于该标识#1或标识#2发送对应的数据。
S5082,每个基站向MIF上报全部或部分本地数据。
可选地,该MIF还可以周期性地向对应的一个或多个基站发送信息#8,以请求基站上报采集的数据。
基于上述方式,MIF可以获取基站采集的数据,并基于该数据进行模型训练,以生成模型#3’。示例性的,该模型#3’是数据生成模型。
S509,MIF向Cloud发送信息#2’(第二信息的另一例)和信息#3’(第三信息的另一例),对应的,Cloud接收该信息#2’和信息#3’。
其中,该信息#2’用于指示模型#3’,该信息#3’用于指示该第一模型用于与第二模型融合。在本申请实施例中,上述步骤S509可以理解为MIF使模型#3’在Cloud端可用。
在一些可能的实现方式中,上述信息#2’和信息#3’可以包括于无线大模型训练请求消息中,该无线大模型训练请求消息用于请求更新上述模型#1’。
可选地,该MIF可以在发送信息#2’时向Cloud发送模型#3’的模型性能信息,模型#3’的评价指标信息以及模型#3’的模型功能信息中的至少一项。
可选地,在基站在发送信息#2’前,可以对步骤S408生成的模型#3’进行轻量化处理,并通过信息#2’指示轻量化处理后的模型#3’。
S510,Cloud根据从一个或多个MIF获取的模型#3’,更新模型#1’。
具体的,Cloud根据从一个或多个MIF获取的模型#3’,生成训练数据集,并根据该训练数据集对模型#1’进行模型训练,以更新模型#1’。
S511,Cloud向一个或多个MIF发送信息#4’,对应的,该一个或多个基站接收信息#4’。
其中,该信息#4’用于指示更新后的模型#1’。在本申请实施例中,上述步骤S407可以理解为Cloud使更新后的模型#1’在MIF端可用。
可选地,Cloud在发送信息#4’时还可以向该一个多个MIF发送更新后的模型#1’的模型性能信息,更新后的模型#1’的评价指标信息以及更新后的模型#1’的模型功能信息中的至少一项。
进一步地,该一个或多个MIF可以向对应的一个或多个基站发送该更新后的模型#1。
可选的,在每个MIF向对应的一个或多个基站发送更新后的模型#1’前,该MIF还可以根据基站所需功能对更新后的模型#1’进行轻量化处理,和/或,根据基站所需功能使用基站采集的数据对更新后的模型#1’的参数进行微调。其中,该MIF可以通过重复上述步骤S502获取基站采集的数据。
基于上述方案,MIF可以基于基站上报的数据向Cloud发送模型#3’,使得Cloud可以根据该模型#3’生成用于更新模型#1’的训练数据集,并基于该训练数据集更新模型#1’,即MIF可以通过向Cloud发送用于生成更新模型#1’的训练数据集的模型#3’而非训练数据,节省MIF和Cloud间与该模型#1’的训练数据收集相关的通信开销。
以下将结合图6对本申请实施例提供的模型训练方法600进行说明。在方法600中,第一设备可以通过向第二设备发送本地部署的模型,使得第二设备可以基于该第一设备本地部署的模型更新第二模型。在方法600中,该第一设备可以是基站,OAM,NWDAF,MIF中的任一项,以下以该第一设备为基站,第二设备为Cloud为例进行说明。
图6是本申请实施例提供的一种模型训练流程600的示意图。如图所示,该流程600包括下列步骤:
S601,Cloud向一个或多个基站发送信息#8,对应的,该一个或多个基站接收该信息#8。
其中,该信息#8用于指示模型#4(第二模型的一例),示例性的,该模型#4可以是无线通信基础大模型。在本申请实施例中,上述步骤S601可以理解为Cloud使无线通信基础大模型在基站端可用。
应理解,本申请实施例对该信息#8指示模型#4的具体方式不作限定,具体方式可参考步骤S310的相关内容,此处不作赘述。
可选地,Cloud在发送信息#8时还可以向该一个多个基站发送模型#4的模型性能信息,模型#4的评价指标信息以及模型#4的模型功能信息中的至少一项,关于上述信息的具体说明可参考步骤S310的相关内容,此处不作赘述。
S602,每个基站根据所需功能使用全部或部分本地采集数据对模型#5的参数进行微调,以生成模型#6(第一模型的一例)。
在一种可能的实现方式中,该模型#5可以是该基站通过信息#1确定的模型。
在另一种可能的实现方式中,该模型#5可以是该基站根据所需功能(即第一功能)对模型#4进行轻量化处理后得到的模型。其中,该基站所需功能可以理解为该基站期望通过模型#4实现的一种或多种功能。
应理解,上述全部或部分本地数据至少包括数据集#5,该数据集#5为该第一设备采集的与自身所需功能相关的数据的集合。
在本申请实施例中,该模型#5可以是on-site模型。
S603,基站向Cloud发送信息#9(第一信息的一例)和信息#10(第三信息的一例),对应的,Cloud接收该信息#9和信息#10。
其中,该信息#9用于指示模型#6,该信息#10用于指示模型#6用于与模型#4融合。在本申请实施例中,上述步骤S405可以理解为基站使模型#6在Cloud端可用。
在一些可能的实现方式中,上述信息#9和信息#10可以包括于无线大模型训练请求消息中,该无线大模型训练请求消息用于请求更新上述模型#4。
可选地,该基站可以在发送信息#9时向Cloud发送模型#6的模型性能信息,模型#6的评价指标信息以及模型#6的模型功能信息中的至少一项。
可选地,在基站在发送信息#9前,可以对步骤S404生成的模型#6进行轻量化处理,并通过信息#9指示轻量化处理后的模型#6。
S604,Cloud根据从一个或多个基站获取的模型#6,更新模型#4。
具体的,Cloud将从一个或多个基站获取的模型#6与该模型#4进行融合,以更新第二模型。
应理解,本申请实施例对模型#6和模型#4的融合方式不作限定。
作为示例而非限定,该模型#6和模型#4可以进行知识蒸馏,即将模型#6和模型#4的模型参数通过求和、平均等计算方法,直接对模型#4的模型参数进行更新。
S605,Cloud向一个或多个基站发送信息#11(第二信息的一例),对应的,该一个或多个基站接收信息#11。
其中,该信息#11用于指示更新后的模型#4。在本申请实施例中,上述步骤S605可以理解为Cloud使更新后的模型#4在基站端可用。
可选地,Cloud在发送信息#11时还可以向该一个多个基站发送更新后的模型#4的模型性能信息,更新后的模型#4的评价指标信息以及更新后的模型#4的模型功能信息中的至少一项。
基于上述方案,基站/OAM/NWDAF/MIF可以基于自身所需功能使用全部或部分本地数据对模型#4的参数进行微调并生成模型#6,使得Cloud可以将该模型#6与模型#4融合以更新模型#4,即基站/OAM/NWDAF/MIF可以通过向Cloud发送用于与模型#4融合的模型#6而非训练数据,节省基站/OAM/NWDAF/MIF和Cloud间与该模型#4的训练数据收集相关的通信开销。
下文对本申请方法实施例对应的装置实施例进行介绍。下文仅对装置做简要介绍,方案具体实现步骤和细节可参考前文方法实施例。
为了实现本申请提供的方法中的各功能,第一设备、第二设备均可以包括硬件结构和/或软件模块,以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行,取决于技术方案的特定应用和设计约束条件。
图7是是本申请实施例提供的一种模型训练装置1000的示意图,该装置1000可以包括收发单元1010、存储单元1020和处理单元1030。收发单元1010用于接收或发送指令和/或数据,收发单元1010还可以称为通信接口或通信单元;存储单元1020用于实现相应的存储功能,存储相应的指令和/或数据;处理单元1030用于进行数据处理,以使得装置1000实现前述模型训练方法。
在一种可能的实现方式中,装置1000可以仅包括收发单元1010和处理单元1030,不包括存储单元1020。
作为一种设计,装置1000可以执行上述方法实施例中第一设备所执行的动作。
一个实施例中,该装置1000包括:收发单元1010,用于向第二设备发送第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于生成用于更新第二模型的训练数据集,该第二模型是该第二设备训练得到的;该收发单元还用于接收第二信息,该第二信息用于指示更新后的该第二模型。
一种可能的实现方式中,该装置1000还包括:处理单元1020,用于基于全部或部分本地数据进行模型训练,生成该第一模型,该全部或部分本地数据包括第一数据集,该第一数据集包括与第一功能相关的数据,该第一功能为该模型训练装置期望通过该第二模型实现的一种或多种功能。
一个实施例中,该装置1000包括:收发单元1010,用于向第二设备发送第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于与第二模型融合以更新该第二模型,该第二模型是该第二设备训练得到的;该收发单元还用于接收第二信息,该第二信息用于指示更新后的该第二模型。
一种可能的实现方式中,该装置1000还包括:处理单元1030,用于根据第一功能,基于全部或部分本地数据对该第二模型的参数进行微调,以生成该第一模型,该第一功能为该第一设备期望通过该第二模型实现的一种或多种功能。
一个实施例中,该装置1000包括:收发单元1010,用于向第二设备发送第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于生成用于更新第二模型的训练数据集,或者,该第一模型用于与第二模型融合以更新该第二模型,该第二模型是该第二设备训练得到的;该收发单元还用于接收第二信息,该第二信息用于指示更新后的该第二模型。
一种可能的实现方式中,该装置1000还包括:处理单元1030,用于基于全部或部分本地数据进行模型训练,生成该第一模型,该全部或部分本地数据包括第一数据集,该第一数据集包括与第一功能相关的数据,该第一功能为该模型训练装置期望通过该第二模型实现的一种或多种功能。
一种可能的实现方式中,处理单元1030还用于根据第一功能,基于全部或部分本地数据对该第二模型的参数进行微调,以生成该第一模型,该第一功能为该第一设备期望通过该第二模型实现的一种或多种功能。
作为一种设计,装置1000可以执行上述方法实施例中第二设备所执行的动作。
一个实施例中,该装置1000包括:收发单元1010和处理单元1030,收发单元1010用于接收第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于生成用于更新该第二模型的训练数据集,该第二模型是该第一设备训练得到的;处理单元1030用于根据该第一模型,更新该第二模型;收发单元1010还用于向该第一设备发送第二信息,该第二信息用于指示更新后的该第二模型。
一个实施例中,该装置1000包括:收发单元1010和处理单元1030,收发单元1010用于接收第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于与第二模型融合以更新该第二模型,该第二模型是该第一设备训练得到的;处理单元1030用于根据该第一模型,更新该第二模型;收发单元1010还用于向该第一设备发送第二信息,该第二信息用于指示更新后的该第二模型。
一个实施例中,该装置1000包括:收发单元1010和处理单元1030,收发单元1010用于接收第一信息,该第一信息用于指示第一模型,该第一模型是该第一设备训练得到的,该第一模型用于生成用于更新该第二模型的训练数据集,或者,该第一模型用于与第二模型融合以更新该第二模型,该第二模型是该第一设备训练得到的;处理单元1030用于根据该第一模型,更新该第二模型;收发单元1010还用于向该第一设备发送第二信息,该第二信息用于指示更新后的该第二模型。
图8是本申请实施例提供的另一种模型训练装置1100示意图。
该装置1100包括:存储器1110、处理器1120、以及通信接口1130。其中,存储器1110、处理器1120,通信接口1130通过内部连接通路相连,该存储器1110用于存储指令,该处理器1120用于执行该存储器1110存储的指令,以控制通信接口1130获取信息,或者使得装置1100实现前述模型训练方法。可选地,存储器1110既可以和处理器1120通过接口耦合,也可以和处理器1120集成在一起。
需要说明的是,上述通信接口1130使用例如但不限于收发器一类的收发装置。上述通信接口1130还可以包括输入/输出接口(input/output interface)。
处理器1120存储有一个或多个计算机程序,该一个或多个计算机程序包括指令。当该指令被所述处理器1120运行时,使得该装置1100执行上述各实施例中模型训练方法。
在实现过程中,上述方法的各步骤可以通过处理器1120中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1110,处理器1120读取存储器1110中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
在一种可能的实现方式中,装置1100可以仅包括处理器1120和通信接口1130,不包括存储器1110。
可选地,图8中的通信接口1130可以实现图7中的收发单元1010,图8中的处理器1120可以实现图7中的处理单元1030。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序代码,当所述计算机程序代码在计算机上运行时,使得所述计算机执行上述图3至图7中的任一种方法。
本申请实施例还提供一种计算机程序产品,该计算机产品包括计算机程序,当所述计算机程序被运行时,使得计算机执行上述图3至图7中的任一种方法。
本申请实施例还提供一种芯片,包括:电路,该电路用于执行上述图3至图7中的任一种方法。
本申请实施例还提供一种系统,包括:第一设备和第二设备,第一设备用于执行图3至图7中第一设备所执行的动作/步骤;第二设备用于执行图3至图7中第二设备所执行的动作/步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (36)

  1. 一种模型训练方法,其特征在于,包括:
    第一设备向第二设备发送第一信息,所述第一信息用于指示第一模型,所述第一模型是所述第一设备训练得到的,所述第一模型用于生成用于更新第二模型的训练数据集,或者,所述第一模型用于与所述第二模型融合以更新所述第二模型,所述第二模型是所述第二设备训练得到的;
    第一设备接收来自所述第二设备的第二信息,所述第二信息用于指示更新后的所述第二模型。
  2. 根据权利要求1所述的方法,其特征在于,所述方法还包括:
    所述第一设备向所述第二设备发送第三信息,所述第三信息用于指示所述第一模型的使用方式,所述第一模型的使用方式包括基于所述第一模型生成所述训练数据集,或者,基于所述第一模型进行模型融合。
  3. 根据权利要求1或2所述的方法,其特征在于,当所述第一模型用于生成用于更新第二模型的训练数据集时,在所述第一设备向第二设备发送第一信息前,所述方法还包括:
    所述第一设备基于全部或部分本地数据进行模型训练,生成所述第一模型,所述全部或部分本地数据包括第一数据集,所述第一数据集为与第一功能相关的数据的集合,所述第一功能为所述第一设备期望通过所述第二模型实现的一种或多种功能。
  4. 根据权利要求3所述的方法,其特征在于,在所述第一设备基于全部或部分本地数据进行模型训练前,所述方法还包括:
    所述第一设备根据所述第一功能,基于第二数据集对所述第二模型的参数进行微调,所述第二数据集中包括与所述第一功能相关的数据,所述第二数据集包括于所述第一数据集;
    所述第一设备确定微调后的所述第二模型与该第一功能中的至少一种功能相关的性能不满足对应的性能指标要求。
  5. 根据权利要求1或2所述的方法,其特征在于,当所述第一模型用于与所述第二模型合并以更新所述第二模型时,在所述第一设备向所述第二设备发送所述第一信息前,所述方法还包括:
    所述第一设备根据第一功能,基于全部或部分本地数据对所述第二模型的参数进行微调,以生成所述第一模型,所述第一功能为所述第一设备期望通过所述第二模型实现的一种或多种功能。
  6. 根据权利要求1或2所述的方法,其特征在于,所述第一设备为移动智能网元,所述第二设备为支持云服务的设备。
  7. 根据权利要求6所述的方法,其特征在于,所述方法还包括:
    所述第一设备获取第三数据集,所述第三数据集包括由基站采集的与第二功能相关的数据,所述第二功能包括所述基站期望通过所述第二模型实现的一种或多种功能;
    所述第一设备根据所述第二功能,基于所述第三数据集对所述第二模型的参数进行微调。
  8. 根据权利要求7所述的方法,其特征在于,在所述第一设备向所述第二设备发送所述第一信息前,所述方法还包括:
    所述第一设备接收第四信息,所述第四信息用于指示微调后的所述第二模型的性能异常;
    所述第一设备根据所述第四信息,确定第四数据集,所述第四数据集是所述第一设备本地存储的,或者,所述第四数据集是所述第一设备通过所述基站获取的;
    所述第一设备基于所述第四数据集进行模型训练,生成所述第一模型。
  9. 根据权利要求8所述的方法,其特征在于,当所述第四数据集是所述第一设备通过所述基站获取的时,所述第一设备根据所述第四信息,确定第四数据集,包括:
    所述第一设备根据所述第四信息,向基站发送第五信息,所述第五信息用于请求基站采集的数据;
    所述第一设备接收第六信息,所述第六信息用于指示所述第四数据集。
  10. 根据权利要求1至9中任一项所述的方法,其特征在于,在第一设备向所述第二设备发送第一信息前,所述方法还包括:
    所述第一设备对所述第一模型进行轻量化处理。
  11. 一种模型训练方法,其特征在于,包括:
    第二设备接收来自第一设备的第一信息,所述第一信息用于指示第一模型,所述第一模型是所述第一设备训练得到的,所述第一模型用于生成用于更新第二模型的训练数据集,或者,所述第一模型用于与所述第二模型融合以更新所述第二模型,所述第二模型是所述第二设备训练得到的;
    所述第二设备根据所述第一模型,更新所述第二模型;
    所述第二设备向所述第一设备发送第二信息,所述第二信息用于指示更新后的所述第二模型。
  12. 根据权利要求11所述的方法,其特征在于,所述方法还包括:
    所述第二设备接收来自所述第一设备的第三信息,所述第三信息用于指示所述第一模型的使用方式,所述第一模型的使用方式包括基于所述第一模型生成所述训练数据集,或者,基于所述第一模型进行模型融合。
  13. 根据权利要求11或12所述的方法,其特征在于,当所述第一模型用于生成用于更新第二模型的训练数据集时,所述第二设备根据所述第一模型,更新所述第二模型,包括:
    所述第二设备根据所述第一模型生成训练数据集;
    所述第二设备根据所述训练数据集训练所述第二模型,以更新所述第二模型。
  14. 根据权利要求11或12所述的方法,其特征在于,当所述第一模型用于与所述第二模型融合以更新所述第二模型时,所述第二设备根据所述第一模型,更新所述第二模型,包括:
    所述第二设备将所述第一模型和所述第二模型进行融合,以更新所述第二模型。
  15. 一种模型训练方法,其特征在于,包括:
    第一设备向第二设备发送第一信息,所述第一信息用于指示第一模型,所述第一模型是所述第一设备训练得到的,所述第一模型用于生成用于更新第二模型的训练数据集,所述第二模型是所述第二设备训练得到的;
    第一设备接收来自所述第二设备的第二信息,所述第二信息用于指示更新后的所述第二模型。
  16. 根据权利要求15所述的方法,其特征在于,在所述第一设备向所述第二设备发送所述第一信息前,所述方法还包括:
    所述第一设备基于全部或部分本地数据进行模型训练,生成所述第一模型,所述全部或部分本地数据包括第一数据集,所述第一数据集包括与第一功能相关的数据,所述第一功能为所述第一设备期望通过所述第二模型实现的一种或多种功能。
  17. 根据权利要求16所述的方法,其特征在于,在所述第一设备基于全部或部分本地数据进行模型训练前,所述方法还包括:
    所述第一设备根据所述第一功能,基于第二数据集对所述第二模型的参数进行微调,所述第二数据集中包括与所述第一功能相关的数据,所述第二数据集包括于所述第一数据集;
    确定微调后的所述第二模型的与所述第一功能中的至少一种功能相关的性能不满足对应的性能指标要求。
  18. 根据权利要求15至17中任一项所述的方法,其特征在于,所述第一设备为移动智能网元,所述第二设备为支持云服务的设备。
  19. 根据权利要求18所述的方法,其特征在于,所述方法还包括:
    所述第一设备获取第三数据集,所述第三数据集包括由基站采集的与第二功能相关的数据,所述第二功能包括所述基站期望通过所述第二模型实现的一种或多种功能;
    所述第一设备根据所述第二功能,基于所述第三数据集对所述第二模型的参数进行微调。
  20. 根据权利要求19所述的方法,其特征在于,在所述第一设备向所述第二设备发送所述第一信息前,所述方法还包括:
    所述第一设备接收第四信息,所述第四信息用于指示微调后的所述第二模型的性能异常;
    所述第一设备根据所述第四信息,确定第四数据集,所述第四数据集是所述第一设备本地存储的,或者,所述第四数据集是所述第一设备通过所述基站获取的,其中,所述第四数据集包括所述第三数据集;
    所述第一设备基于所述第四数据集进行模型训练,生成所述第一模型。
  21. 根据权利要求20所述的方法,其特征在于,所述方法还包括:
    所述第一设备根据所述第四信息,向基站发送第五信息,所述第五信息用于请求基站采集的数据;
    所述第一设备接收第六信息,所述第六信息用于指示所述第四数据集。
  22. 根据权利要求15至21中任一项所述的方法,其特征在于,在第一设备向所述第二设备发送第一信息前,所述方法还包括:
    所述第一设备对所述第一模型进行轻量化处理。
  23. 一种模型训练方法,其特征在于,包括:
    第二设备接收第一信息,所述第一信息用于指示第一模型,所述第一模型是所述第一设备训练得到的,所述第一模型用于生成用于更新所述第二模型的训练数据集,所述第二模型是所述第二设备训练得到的;
    所述第二设备根据所述第一模型,更新所述第二模型;
    所述第二设备向所述第一设备发送第二信息,所述第二信息用于指示更新后的所述第二模型。
  24. 根据权利要求23所述的方法,其特征在于,所述第二设备根据所述第一模型,更新所述第二模型,包括:
    所述第二设备根据所述第一模型生成训练数据集;
    所述第二设备根据所述训练数据集训练所述第二模型,以更新所述第二模型。
  25. 一种模型训练方法,其特征在于,包括:
    第一设备向所述第二设备发送第一信息,所述第一信息用于指示第一模型,所述第一模型是所述第一设备训练得到的,所述第一模型用于与第二模型融合以更新所述第二模型,所述第二模型是所述第二设备训练得到的;
    第一设备接收第二信息,所述第二信息用于指示更新后的所述第二模型。
  26. 根据权利要求25所述的方法,其特征在于,所述方法还包括:
    所述第一设备根据第一功能,基于全部或部分本地数据对所述第二模型的参数进行微调,以生成所述第一模型,所述第一功能为所述第一设备期望通过所述第二模型实现的一种或多种功能。
  27. 根据权利要求26所述的方法,其特征在于,所述全部或本地数据至少包括第二数据集,所述第二数据集为与所述第一功能相关的数据的集合。
  28. 一种模型训练方法,其特征在于,包括:
    第二设备接收来自第一设备的第一信息,所述第一信息用于指示第一模型,所述第一模型是所述第一设备训练得到的,所述第一模型用于与第二模型融合以更新第二模型,所述第二模型是所述第一设备训练得到的;
    所述第二设备根据所述第一模型,更新所述第二模型;
    所述第二设备向所述第一设备发送第二信息,所述第二信息用于指示更新后的所述第二模型。
  29. 根据权利要求28所述的方法,其特征在于,所述第二设备根据所述第一模型,更新所述第二模型,包括:所述第二设备将所述第一模型和所述第二模型进行融合,以更新所述第二模型。
  30. 一种模型训练装置,其特征在于,包括用于执行权利要求1至10中任一项所述的方法的模块或单元,或者,包括用于执行权利要求11至14中任一项所述的方法的模块或单元,或者,包括用于执行权利要求15至22中任一项所述的方法的模块或单元,或者,包括用于执行权利要求23或24所述的方法的模块或单元,或者,包括用于执行权利要求25至27中任一项所述的方法的模块或单元,或者,包括用于执行权利要求28或29所述的方法的模块或单元。
  31. 一种模型训练装置,其特征在于,包括处理器,所述处理器用于,通过执行计算机程序或指令,或者,通过逻辑电路,
    使得所述模型训练装置执行权利要求1至10中任一项所述的方法,或者,
    使得所述模型训练装置执行权利要求11至14中任一项所述的方法,或者,
    使得所述模型训练装置执行权利要求15至22中任一项所述的方法,或者,
    使得所述模型训练装置执行权利要求23或24所述的方法,或者,
    使得所述模型训练装置执行权利要求25至27中任一项所述的方法,或者,
    使得所述模型训练装置执行权利要求28或29所述的方法。
  32. 根据权利要求31所述的装置,其特征在于,所述通信装置还包括存储器,所述存储器用于存储所述计算机程序或指令。
  33. 根据权利要求31或32所述的装置,其特征在于,所述模型训练装置还包括通信接口,所述通信接口用于输入和/或输出信号。
  34. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序或指令,当所述计算机程序或所述指令在计算机上运行时,
    使得权利要求1至10中任一项所述的方法被执行,或者,
    使得权利要求11至14中任一项所述的方法被执行,或者,
    使得权利要求15至22中任一项所述的方法被执行,或者,
    使得权利要求23或24所述的方法被执行,或者,
    使得权利要求25至27中任一项所述的方法被执行,或者,
    使得权利要求28或29所述的方法被执行。
  35. 一种计算机程序产品,其特征在于,包含指令,当所述指令在计算机上运行时,
    使得权利要求1至10中任一项所述的方法被执行,或者,
    使得权利要求11至14中任一项所述的方法被执行,或者,
    使得权利要求15至22中任一项所述的方法被执行,或者,
    使得权利要求23或24所述的方法被执行,或者,
    使得权利要求25至27中任一项所述的方法被执行,或者,
    使得权利要求28或29所述的方法被执行。
  36. 一种系统,其特征在于,包括:第一设备和第二设备,所述第一设备用于执行如权利要求1至10、15至22、25至27中任一项所述的方法;所述第二设备用于执行如权利要求11至14、23或者24、28或者29中任一项所述的方法。
PCT/CN2024/135087 2023-12-19 2024-11-28 模型训练方法和装置 Pending WO2025130539A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202311762388.4 2023-12-19
CN202311762388.4A CN120186040A (zh) 2023-12-19 2023-12-19 模型训练方法和装置

Publications (1)

Publication Number Publication Date
WO2025130539A1 true WO2025130539A1 (zh) 2025-06-26

Family

ID=96041015

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2024/135087 Pending WO2025130539A1 (zh) 2023-12-19 2024-11-28 模型训练方法和装置

Country Status (2)

Country Link
CN (1) CN120186040A (zh)
WO (1) WO2025130539A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115718868A (zh) * 2021-08-23 2023-02-28 华为技术有限公司 模型训练方法、装置及系统
CN115802370A (zh) * 2021-09-10 2023-03-14 华为技术有限公司 一种通信方法及装置
CN116249166A (zh) * 2021-12-07 2023-06-09 华为技术有限公司 一种无线通信的方法和装置
CN116432013A (zh) * 2021-12-30 2023-07-14 维沃移动通信有限公司 模型训练方法、装置及通信设备
WO2023187522A1 (en) * 2022-03-30 2023-10-05 Sony Group Corporation Machine learning model update based on dataset or feature unlearning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115718868A (zh) * 2021-08-23 2023-02-28 华为技术有限公司 模型训练方法、装置及系统
CN115802370A (zh) * 2021-09-10 2023-03-14 华为技术有限公司 一种通信方法及装置
CN116249166A (zh) * 2021-12-07 2023-06-09 华为技术有限公司 一种无线通信的方法和装置
CN116432013A (zh) * 2021-12-30 2023-07-14 维沃移动通信有限公司 模型训练方法、装置及通信设备
WO2023187522A1 (en) * 2022-03-30 2023-10-05 Sony Group Corporation Machine learning model update based on dataset or feature unlearning

Also Published As

Publication number Publication date
CN120186040A (zh) 2025-06-20

Similar Documents

Publication Publication Date Title
US11805022B2 (en) Method and device for providing network analytics information in wireless communication network
WO2022226713A1 (zh) 策略确定的方法和装置
WO2022041285A1 (zh) 一种模型数据传输方法及通信装置
CN113079541B (zh) 一种报告信息的发送方法、装置及系统
EP4072071A1 (en) Slice control method and apparatus
WO2023114017A1 (en) Network resource model based solutions for ai-ml model training
KR20240060722A (ko) 논리적 tsn 브리지를 위한 방법 및 장치
CN115334571A (zh) QoE测量配置方法、接入网设备及存储介质
CN114205866A (zh) 确定性信息上报、下发方法、装置、存储介质及电子设备
JP2022521088A (ja) ポリシー管理方法及び装置
EP4415403A1 (en) Data collection method and communication apparatus
CN117279003A (zh) 意图管理的方法与装置
WO2025130494A1 (zh) 一种通信方法及装置
WO2025130539A1 (zh) 模型训练方法和装置
EP4609575A1 (en) Managing service-level energy efficiency in a communication network
WO2024032552A1 (zh) 通信方法、装置及存储介质
WO2023169101A1 (zh) 一种通信方法和通信装置
WO2023246267A1 (zh) 通信方法、通信装置和系统
da Silva et al. Demonstration of open radio access network intelligent controllers
EP4539418A1 (en) Communication method, and apparatus
WO2023185496A1 (zh) 冗余传输请求方法及装置
WO2025139213A1 (zh) 一种通信方法通信装置
WO2025209296A1 (zh) 通信方法、装置和系统
WO2025139640A1 (zh) 信息处理方法和装置
CN120786452A (zh) 通信方法及通信装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 24906024

Country of ref document: EP

Kind code of ref document: A1