[go: up one dir, main page]

CN111222553B - 机器学习模型的训练数据处理方法、装置和计算机设备 - Google Patents

机器学习模型的训练数据处理方法、装置和计算机设备 Download PDF

Info

Publication number
CN111222553B
CN111222553B CN201911403575.7A CN201911403575A CN111222553B CN 111222553 B CN111222553 B CN 111222553B CN 201911403575 A CN201911403575 A CN 201911403575A CN 111222553 B CN111222553 B CN 111222553B
Authority
CN
China
Prior art keywords
machine learning
learning model
characteristic
parameters
characteristic parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911403575.7A
Other languages
English (en)
Other versions
CN111222553A (zh
Inventor
饶慧林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Cubesili Information Technology Co Ltd
Original Assignee
Guangzhou Cubesili Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Cubesili Information Technology Co Ltd filed Critical Guangzhou Cubesili Information Technology Co Ltd
Priority to CN201911403575.7A priority Critical patent/CN111222553B/zh
Publication of CN111222553A publication Critical patent/CN111222553A/zh
Application granted granted Critical
Publication of CN111222553B publication Critical patent/CN111222553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请提供一种机器学习模型的训练数据处理方法、装置和计算机设备,其涉及机器学习模型训练技术领域,所述机器学习模型的训练数据处理方法,包括以下步骤:获取更新后的机器学习模型的训练数据的特征参数集合;其中,所述特征参数集合包括多个备选的特征参数;根据所述机器学习模型的类型和特征参数的类型确定需要选择的所述特征参数的范围;在所述特征参数的范围内,依次从所述特征参数集合中选择特征参数输入所述机器学习模型进行训练;获取所述机器学习模型的输出结果,计算所述输出结果的AUC值,根据所述AUC值从所述特征参数集合中选择目标特征参数作为训练数据。本申请所提供的机器学习模型的训练数据处理方案能提高模型训练的效率。

Description

机器学习模型的训练数据处理方法、装置和计算机设备
技术领域
本申请涉及机器学习模型训练技术领域,具体而言,本申请涉及一种机器学习模型的训练数据处理方法、装置和计算机设备。
背景技术
在机器学习模型的训练过程中,需要向机器学习模型新增或修改特征。为了增加机器学习的训练样本,需要对特征增加不同的变量,或者是通过不同的特征的组合,并逐一输入至机器学习模型,经过繁琐的训练和等待,训练效率低。
发明内容
为了克服目前机器学习模型训练效率低的问题,特提出以下技术方案:
第一方面,本申请提供的机器学习模型的训练数据处理方法,包括以下步骤:
获取更新后的机器学习模型的训练数据的特征参数集合;其中,所述特征参数集合包括多个备选的特征参数;
根据所述机器学习模型的类型和特征参数的类型确定需要选择的所述特征参数的范围;
在所述特征参数的范围内,依次从所述特征参数集合中选择特征参数输入所述机器学习模型进行训练;
获取所述机器学习模型的输出结果,计算所述输出结果的AUC值,根据所述AUC值从所述特征参数集合中选择目标特征参数作为训练数据。
在其中一个实施例中,所述获取更新后的机器学习模型的训练数据的特征参数集合的步骤,包括:
获取所述机器学习模型的训练数据的新增或修改的特征参数,对特征参数集合进行更新。
在其中一个实施例中,所述特征参数的范围内,依次从所述特征参数集合中选择特征参数输入所述机器学习模型进行训练的步骤,包括:
根据所述特征参数的颗粒度,确定所述特征参数的范围内的相邻两次获取的特征参数的间隔;
根据所述特征参数的间隔,在所述特征参数的范围内依次获取各个特征参数。
在其中一个实施例中,所述根据所述机器学习模型的类型和特征参数的类型确定需要选择的所述特征参数的范围的步骤,包括:
根据所述机器学习模型的类型,确认新增或修改的特征参数的取值特征;
根据所述新增或修改的特征参数的取值特征,确定需要选择的所述特征参数的范围。
在其中一个实施例中,所述根据所述特征参数的间隔,在所述特征参数的范围内依次获取各个特征参数的步骤,包括:
当所述机器学习模型的训练数据新增或修改的特征参数为连续的特征参数,在所述特征参数的范围内,根据特征参数的间隔依次获取每个特征参数;
将每个特征参数输入所述机器学习模型进行训练。
在其中一个实施例中,所述根据所述特征参数的间隔,在所述特征参数的范围内依次获取各个特征参数的步骤,包括:
所述机器学习模型的训练需要多个特征参数进行训练时,所述特征参数包括是离散型的特征数量;
在所述特征参数的范围内,依次从所述特征参数集合中获取对应特征数量的特征参数的组合,并输入所述机器学习模型进行训练。
在其中一个实施例中,所述在所述特征参数的范围内,依次从所述特征参数集合中获取对应特征数量的特征参数的组合,并输入所述机器学习模型进行训练的步骤,包括:
根据对应特征数量,依次从所述特征参数集合中获取的特征参数的所有组合,并逐一输入所述机器学习模型进行训练。
第二方面,本申请还提供一种机器学习模型的训练数据处理装置,其包括:
获取模块,用于获取更新后的机器学习模型的训练数据的特征参数集合;其中,所述特征参数集合包括多个备选的特征参数;
范围确定模块,用于根据所述机器学习模型的类型和特征参数的类型确定需要选择的所述特征参数的范围;
训练模块,用于在所述特征参数的范围内,依次从所述特征参数集合中选择特征参数输入所述机器学习模型进行训练;
选择模块,用于获取所述机器学习模型的输出结果,计算所述输出结果的AUC值,根据所述AUC值从所述特征参数集合中选择目标特征参数作为训练数据。
第三方面,本申请还提供一种计算机设备,其包括:
一个或多个处理器;
存储器;
一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于执行第一方面所提供的任一项所述的机器学习模型的训练数据处理方法。
第四方面,本申请还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现第一方面所提供的任一项所述的机器学习模型的训练数据处理方法。
上述的机器学习模型的训练数据处理方法、装置和计算机设备,其有益效果为:
本申请提供的一种机器学习模型的训练数据处理方法、装置和计算机设备,计算机设备对特征集合进行更新和对机器学习模型进行训练的过程中,对特征参数的范围进行设定,并根据设定自动从中逐一获取对应的训练数据,并根据每一次训练的结果对应的AUC值,得到最佳的特征参数作为训练数据。这样,从而改善了目前需要根据人工的经验,对特征参数的训练样本逐一训练并等待,造成训练效率低下的问题,提高的机器学习中模型训练的效率。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请中一个实施例所提供的机器学习模型的训练数据处理方法的流程示意图;
图2为本申请中一个实施例所提供的机器学习模型的训练数据处理方法步骤S130的详细流程示意图;
图3为本申请中另一个实施例所提供的机器学习模型的训练数据处理方法的流程示意图;
图4为本申请中又一个实施例所提供的机器学习模型的训练数据处理方法的流程示意图;
图5为对应图4的一具体实施例的流程示意图;
图6为本申请中再一个实施例所提供的机器学习模型的训练数据处理方法的流程示意图;
图7为对应图6的一具体实施例的流程示意图;
图8为本申请一个实施例所提供的机器学习模型的训练数据处装置的结构示意图;
图9为本申请一个实施例中所提供的计算机设备的内部结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
参照图1,图1为本申请中一个实施例所提供的机器学习模型的训练数据处理方法的流程示意图。
本申请所提供的机器学习模型的训练数据处理方法,包括以下步骤:
S110、获取待更新的机器学习模型的训练数据的特征参数集合;其中,所述特征参数集合包括多个备选的特征参数;
S120、根据所述机器学习模型的类型和特征参数的类型确定需要选择的所述特征参数的范围;
S130、在所述特征参数的范围内,依次从所述特征参数集合中选择特征参数输入所述机器学习模型进行训练;
S140、获取所述机器学习模型的输出结果,计算所述输出结果的AUC值,根据所述AUC值从所述特征参数集合中选择目标特征参数作为训练数据。
在步骤S110-S140中,在机器学习模型训练的训练中,根据不同使用目的、需求和机器学习模型的测试要求,向机器学习模型增加备选的特征参数。利用该备选的特征参数对机器学习模型的训练数据进行更新。更机器学习模型的训练数据的特征参数形成特征参数结合。该特征参数集合包括机器学习模型的训练数据中原有的特征参数和更新后的特征参数。该特征参数集合为所述机器学习模型的训练提供备选的特征参数。
对于不同的机器学习模型的类型,以及需要更新的特征参数的类型,对应的特征参数的范围不同。而且,该特征参数的范围除了包括最小值和最大值所形成的区间以外,还包括在该范围内的各个特征参数之间的组合形式。该组合形式可以包括离散型和连续型。
根据所述特征参数的类型和组合形式,在该特征参数的范围内,依次从该特征参数集合中选择特征参数,并将每一次获得的特征参数输入至机器学习模型中,进行训练。所述特征参数的范围,可以是只针对该特征参数的取值,也可以是通过该特征参数的取值,确定其他特征参数的获取。
根据每一次所选择的特征参数,并逐一进行训练后,得到该机器学习模型的训练的每一个输出结果。根据所述每一个输出结果,分别求其对应AUC值。根据上述所获取的每一个输出结果的AUC值,并所得到的多个AUC值进行比较,在所述特征参数集合中,选择最优的特征参数作为目标特征参数,并以该目标特征参数输入更新后的机器学习模型,作为训练数据。
本申请所提供的机器学习模型的训练数据处理方法,计算机设备在对所述机器学习模型进行训练并对特征参数集合进行更新的过程中,设定特征参数的范围,并在该范围内,根据特征参数的类型依次从所述特征参数集合中选择特征参数输入所述机器学习模型进行训练,获取目标特征参数。本申请所提供的机器学习模型的训练数据处理方法,改善了现有机器学习模型的训练过程中,根据操作人员的经验,得到特征参数的训练样本,并逐一训练和等待,所造成的训练效率低下的问题。
对于步骤S110可进一步包括:
S111、获取所述机器学习模型的训练数据的新增或修改的特征参数,对特征参数集合进行更新。
在机器学习模型训练的训练中,根据不同使用目的、需求和机器学习模型的测试要求,对所述机器学习模型原有的训练数据的特征参数集合进行更新,该更新的方式包括对原有的特征参数集合进行特征参数的修改,或者是向原有的特征参数集合增加新的特征参数集合。将更新后的特征参数集合,在所述特征参数的范围内,依次从所述特征参数集合中选择特征参数输入所述机器学习模型进行训练。
参照图2,图2为本申请中一个实施例所提供的机器学习模型的训练数据处理方法步骤S130的详细流程示意图。
对于步骤S130,可进一步包括:
S131、根据所述特征参数的颗粒度,确定所述特征参数的范围内的相邻两次获取的特征参数的间隔;
S132、根据所述特征参数的间隔,在所述特征参数的范围内依次获取各个特征参数。
在步骤S131-S132的过程中,所述特征参数的表现形式为数值。根据测试需求,确定所述特征参数的颗粒度,根据所述颗粒度,确定所述特征参数的范围内,相邻两次进行训练所获取特征参数的间隔。该特征参数的颗粒度需要结合特征参数的类型。如该特征参数是用于表征权重,其区间为(0,1),则颗粒度的大小为大于0且小于1;若该特征参数是用于表征训练时所获取特征参数的数量,则该颗粒度为大于等于1的正整数。
根据该特征参数的间隔,在所述特征参数的范围内,依次所对应的各个特征参数,并输入至机器学习模型进行训练。
参照图3,图3为本申请中另一个实施例所提供的机器学习模型的训练数据处理方法的流程示意图。
在步骤S110扩展的基础上,步骤S120可进一步包括:
S121、根据所述机器学习模型的类型,确认新增或修改的特征参数的取值特征;
S122、根据所述新增或修改的特征参数的取值特征,确定需要选择的所述特征参数的范围。
在步骤S121-S122中,计算机设备获取机器学习模型的模型文件,获取该机器学习模型的类型。根据该机器学习模型的类型,以及模型训练的目的,确定更新的特征参数,其中包括新增的特征参数和修改的特征参数。并根据所新增或修改的特征参数的类型,确定其取值特征。该取值特征包括该特征参数对应的取值范围,也可以包括在训练数据中,对其他特征参数的获取数量。
根据该新增或修改的特征参数的取值特征,确定需要选择的特征参数的范围。
参照图4,图4为本申请中又一个实施例所提供的机器学习模型的训练数据处理方法的流程示意图。
在此基础上,步骤S132可以进一步包括:
S11、当所述机器学习模型的训练数据新增或修改的特征参数为连续的特征参数,在所述特征参数的范围内,根据特征参数的间隔依次获取每个特征参数;
S12、将每个特征参数输入所述机器学习模型进行训练。
在步骤S11-S12中,当机器学习模型的训练数据中新增或修改的特征参数为连续型时,在所述特征参数的范围内,根据该特征参数的相邻两次获取的特征参数的间隔,依次获取每个特征参数,并将每个特征参数输入机器学习模型进行训练。
为了能更清楚对该步骤S11-S12的执行过程进行更清楚地说明,下面以一个具体实施例进行说明:
利用LS模型对垃圾邮件进行检测。该LS模型的具体的函数为:x1y1+x2y2+……+xnyn。该函数求和后的取值范围(0,1)。若垃圾邮件,函数的结果趋向于1;对于非垃圾邮件,函数的结果趋向于0。根据该函数的计算结果,对垃圾邮件进行检测。其中,x1,x2,……,xn为变量,y1,y2,……,yn为针对邮件不同部分评估的样本的值。例如,y1,y2,……,yn可分别表征邮件的发件人、主题、正文等邮件部分。为了检测邮件的不同部分对垃圾邮件影响的情况,向该模型增加权重的特征参数,输入至该模型中,对邮件的不同部分分配不同的权重,所得到的函数的结果与预测样本的情况进行对比。
在该例子中,计算机设备对邮件的不同部分分配不同的权重分别为a,b,c,而且0<a+b+c<1,a,b,c的取值范围分别为(0,1)。根据检测经验,将特征参数的间隔,也就是a,b,c的取值范围的间隔分别是0.02,也就是a,b,c的取值范围最小可从0.02起取值。根据a,b,c的关系,该特征参数a,b,c进行组合,形成特征参数(a,b,c)。而该a,b,c分别为特征参数(a,b,c)的子参数,每个子参数均为连续型的特征参数。只要是符合上述取值条件,可对特征参数(a,b,c)进行任意组合。每个子参数均从0.02开始,向数值为1的趋势进行连续型取值,以其中子参数a为例进行取值,a的取值为0.02,0.04,0.06,……,而子参数b和c的取值情况同a,并且依据0<a+b+c<1的条件,从a,b,c的所有取值中获取所有符合条件的组合,并将该组合注意输入至所述机器学习模型,进行训练。
参照图5,图5为对应图4的一具体实施例的流程示意图。
针对该机器学习模型的训练数据处理和训练的过程,可以包括以下步骤:
S51、根据模型的训练目的,增加特征参数;
S52、若该增加特征参数的为连续型,则根据在该特征参数的范围内,并且符合该增加特征参数的取值条件,依次形成各个特征参数组合;
S53、将各个特征参数组合逐一输入至机器学习模型;
S54、获取所述机器学习模型每一次训练的输出结果,计算对应输出结果的AUC值。
若修改的特征参数为连续的特征参数,计算机设备可以根据指令,在所述特征参数的范围内,对所修改的特征参数进行连续性取值,并逐一输入所述机器学习模型进行训练。
如上述实施例可得,在机器学习模型训练的过程中,所涉及的特征参数的数量较大,若需要操作人员逐一凭经验进行获取,甚至是对特征参数的多个子参数进行组合取值的情况下,训练所涉及的数据量更为庞大,若需要操作人员逐一凭经验进行获取,而且容易出现遗漏,影响模型训练的结果。而本申请中,计算机设备可以在特征参数的范围内,根据特征参数的间隔,对连续的特征参数依次进行获取,并输入机器学习模型中进行训练,有利于提高模型训练的效率,而且提高训练的完整性。
参照图6,图6为本申请中再一个实施例所提供的机器学习模型的训练数据处理方法的流程示意图。
另外,步骤S132也可以进一步包括:
S21、所述机器学习模型的训练需要多个特征参数进行训练时,所述特征参数包括是离散型的特征数量;
S22、在所述特征参数的范围内,依次从所述特征参数集合中获取对应特征数量的特征参数的组合,并输入所述机器学习模型进行训练。
在步骤S21-S22中,在本实施例中,所述机器学习模型的训练需要的特征参数集合中包括多个备选的特征参数。在该特征参数集合中,包括离散型的特征数量,其是决定在机器学习模型训练的过程中,需要提取其他特征参数的数量。如,在机器学习模型的特征参数中,除了该离散型的特征数量的特征参数外,还包括5个备选的特征参数,但对于机器学习模型的训练,可以提取其中若干个特征参数进行训练,而该离散型的特征数量的特征参数则是确定在机器学习模型的训练中,是提取1至3个的特征参数进行训练,还是提取2至5个的特征参数进行训练。而该离散型的特征数量的特征参数对应的所述特征参数的范围分别是[1,3]或者是[2,5]。而在这特征参数的范围内的取值,则是离散型的数量取值。
在此基础上,对于步骤S22可进一步包括:
S221、根据对应特征数量,依次从所述特征参数集合中获取的特征参数的所有组合,并逐一输入所述机器学习模型进行训练。
在该步骤S221中,根据在该特征参数的范围内,依次从特征参数集合中获取对应特征数量的特征参数的组合。以所述特征参数的范围为[1,3]为例,所得到的特征数量可为1,2,3中的一种情况,即从特征参数集合提取1、2、3个特征参数,并将所提取得到对应数量的特征参数至该机器学习模型中进行训练。
为了能更清楚对所述特征参数包括离散型的特征数量的情况下,步骤S21-S22的执行过程进行更清楚地说明,下面以一个具体实施例进行说明:
利用模型对观众于直播间的在线时间的影响因素进行检测。在本实施例中,该机器学习模型可以包括直播间的布置主题、主播的直播项目、直播时间段,以及主播的类型等4个特征参数。
而该离散型的特征数量为4,而根据一般的机器学习模型训练需要,对于该离散型的特征数量的特征参数的范围为[1,4],在模型训练的过程中,在该特征参数的范围内依次提取对应特征数量的特征参数,并将该特征参数所形成的组合输入至机器学习模型进行训练。而每次提取的特征参数是不同的组合方式。
而且,该特征参数集合还可以包括必要的特征参数,例如,观众的在线频率、观众的在线时长、观众的历史偏好等因素。这时,该机器学习模型的特征参数集合包括必要的特征参数、备选的特征参数以及该离散型的特征数量的特征参数,而该离散型的特征数量的特征参数只针对备选的特征参数的特征数量。
将每一次提取备选的特征参数和必要的特征参数形成的特征参数组合,输入至机器学习模型中,进行逐一训练。
参照图7,图7为对应图6的一具体实施例的流程示意图。
针对该机器学习模型的训练数据处理和训练的过程,可以包括以下步骤:
S71、依据模型的调整目的,获取必要的特征参数和备选的特征参数;
S72、根据备选的特征参数,确定离散型的特征数量的特征参数;
S73、参考经验值,确定该离散型的特征数量的特征参数中的最小值和最大值,并形成该离散型的特征数量的特征参数的范围;
S74、根据该范围,在所述特征参数组合中,依次获取对应特征数量的备选的特征参数;
S75、将每次提取的备选的特征参数与必要的特征参数进行特征参数的组合,并逐一输入至机器学习模型;
S76、获取所述机器学习模型每一次训练的输出结果,计算对应输出结果的AUC值;
S77、根据所述AUC值从所述特征参数集合中选择目标特征参数作为训练数据。
本申请所提供的机器学习模型的训练数据处理方法,通过计算机设备对模型训练的特征数量的范围进行限定,根据该特征数量的范围,对备选的特征参数进行提取,对机器学习模型进行逐一训练。这样,计算机设备可以在备选的特征参数的允许数量范围内,得到所有可用于训练的特征参数组合,并输入至该机器学习模型中。可以快速获取训练数据,并对所述机器学习模型进行训练。根据每个训练结果的AUC值进行比较后,将最接近1的AUC值所对应的特征参数作为目标特征参数,并作为后续模型检测数据的训练数据。
参照图8,图8为本申请一个实施例所提供的机器学习模型的训练数据处装置的结构示意图。
基于与上述机器学习模型的训练数据处理方法相同的发明构思,本申请实施例还提供了一种机器学习模型的训练数据处理装置,包括:
获取模块81,用于获取更新后的机器学习模型的训练数据的特征参数集合;其中,所述特征参数集合包括多个备选的特征参数;
范围确定模块82,用于根据所述机器学习模型的类型和特征参数的类型确定需要选择的所述特征参数的范围;
训练模块83,用于在所述特征参数的范围内,依次从所述特征参数集合中选择特征参数输入所述机器学习模型进行训练;
选择模块84,用于获取所述机器学习模型的输出结果,计算所述输出结果的AUC值,根据所述AUC值从所述特征参数集合中选择目标特征参数作为训练数据。
请参考图9,图9为本申请一个实施例中所提供的计算机设备的内部结构示意图。如图9所示,该计算机设备包括通过系统总线连接的处理器91、存储介质92、存储器93和网络接口94。其中,该计算机设备的存储介质92存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器91执行时,可使得处理器91实现一种数据传输方法,处理器91能实现图8所示实施例中的一种机器学习模型的训练数据处理装置中的获取模块81、范围确定模块82、训练模块83和选择模块84的功能。该计算机设备的处理器91用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器93中可存储有计算机可读指令,该计算机可读指令被处理器91执行时,可使得处理器91执行一种数据传输方法。该计算机设备的网络接口94用于与终端连接通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请还提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:获取更新后的机器学习模型的训练数据的特征参数集合;其中,所述特征参数集合包括多个备选的特征参数;根据所述机器学习模型的类型和特征参数的类型确定需要选择的所述特征参数的范围;在所述特征参数的范围内,依次从所述特征参数集合中选择特征参数输入所述机器学习模型进行训练;获取所述机器学习模型的输出结果,计算所述输出结果的AUC值,根据所述AUC值从所述特征参数集合中选择目标特征参数作为训练数据。
综合上述实施例可知,本申请最大的有益效果在于:
本申请提供的一种机器学习模型的训练数据处理方法,计算机设备对特征集合进行更新和对机器学习模型进行训练的过程中,对特征参数的范围进行设定,并根据设定自动从中逐一获取对应的训练数据,并根据每一次训练的结果对应的AUC值,得到最佳的特征参数作为训练数据。这样,从而改善了目前需要根据人工的经验,对特征参数的训练样本逐一训练并等待,造成训练效率低下的问题,提高的机器学习中模型训练的效率。
进一步地,所更新的特征参数包括新增或修改的特征参数。
根据所述特征参数的颗粒度,确定所述特征参数的范围内的相邻两次获取的特征参数的间隔。
当所述机器学习模型的训练数据新增或修改的特征参数为连续的特征参数时,可以在特征参数的范围内,依据特征参数的间隔依次获取每个特征参数,并逐一输入所述机器学习模型进行训练。这样,可适用于特征参数对应的训练样本量较多的情况,而且也可避免了人工逐一输入可能出现遗漏的情况,在提高机器学习中模型训练效率的前提下,还能提高模型训练的准确度。
当所述机器学习模型的训练需要多个特征参数进行训练时,增加离散型的特征数量的特征参数,可以根据该特征参数的范围内,依次从所述特征参数集合中获取对应特征数量的特征参数的组合,将不同的特征参数组合输入至所述机器学习模型进行训练,这样,能够快速获取所有的特征参数的组合,对所有特征参数的组合进行训练,使得训练能够更为全面,提高训练的效率和准确性。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (7)

1.一种机器学习模型的训练数据处理方法,其特征在于,包括以下步骤:
获取更新后的机器学习模型的训练数据的特征参数集合;其中,所述特征参数集合包括多个备选的特征参数,所述特征参数包括以下任意一项或组合:直播间的布置主题、主播的直播项目、直播时间段以及主播的类型;
根据所述机器学习模型的类型和特征参数的类型确定需要选择的所述特征参数的范围;
在所述特征参数的范围内,依次从所述特征参数集合中选择特征参数输入所述机器学习模型进行训练,包括:根据特征参数的类型确定所述特征参数的颗粒度,确定所述特征参数的范围内的相邻两次获取的特征参数的间隔,根据所述特征参数的间隔,在所述特征参数的范围内依次获取各个特征参数;
获取所述机器学习模型的输出结果,计算所述输出结果的AUC值,根据所述AUC值从所述特征参数集合中选择目标特征参数作为训练数据,通过训练后的机器学习模型对观众于直播间的在线时间的影响因素进行检测;
所述根据所述特征参数的间隔,在所述特征参数的范围内依次获取各个特征参数的步骤,包括:
所述机器学习模型的训练需要多个特征参数进行训练时,所述特征参数包括是离散型的特征数量;
根据对应特征数量,依次从所述特征参数集合中获取的特征参数的所有组合,并逐一输入所述机器学习模型进行训练。
2.根据权利要求1所述的方法,其特征在于,
所述获取更新后的机器学习模型的训练数据的特征参数集合的步骤,包括:
获取所述机器学习模型的训练数据的新增或修改的特征参数,对特征参数集合进行更新。
3.根据权利要求2所述的方法,其特征在于,
所述根据所述机器学习模型的类型和特征参数的类型确定需要选择的所述特征参数的范围的步骤,包括:
根据所述机器学习模型的类型,确认新增或修改的特征参数的取值特征;
根据所述新增或修改的特征参数的取值特征,确定需要选择的所述特征参数的范围。
4.根据权利要求2所述的方法,其特征在于,
所述根据所述特征参数的间隔,在所述特征参数的范围内依次获取各个特征参数的步骤,包括:
当所述机器学习模型的训练数据新增或修改的特征参数为连续的特征参数,在所述特征参数的范围内,根据特征参数的间隔依次获取每个特征参数;
将每个特征参数输入所述机器学习模型进行训练。
5.一种机器学习模型的训练数据处理装置,其特征在于,包括:
获取模块,用于获取更新后的机器学习模型的训练数据的特征参数集合;其中,所述特征参数集合包括多个备选的特征参数,所述特征参数包括以下任意一项或组合:直播间的布置主题、主播的直播项目、直播时间段以及主播的类型;
范围确定模块,用于根据所述机器学习模型的类型和特征参数的类型确定需要选择的所述特征参数的范围;
训练模块,用于在所述特征参数的范围内,依次从所述特征参数集合中选择特征参数输入所述机器学习模型进行训练,包括:根据特征参数的类型确定所述特征参数的颗粒度,确定所述特征参数的范围内的相邻两次获取的特征参数的间隔,根据所述特征参数的间隔,在所述特征参数的范围内依次获取各个特征参数;
所述根据所述特征参数的间隔,在所述特征参数的范围内依次获取各个特征参数的步骤,包括:
所述机器学习模型的训练需要多个特征参数进行训练时,所述特征参数包括是离散型的特征数量;
根据对应特征数量,依次从所述特征参数集合中获取的特征参数的所有组合,并逐一输入所述机器学习模型进行训练;
选择模块,用于获取所述机器学习模型的输出结果,计算所述输出结果的AUC值,根据所述AUC值从所述特征参数集合中选择目标特征参数作为训练数据,通过训练后的机器学习模型对观众于直播间的在线时间的影响因素进行检测。
6.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于执行根据权利要求1至4任一项所述的机器学习模型的训练数据处理方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至4任一项所述的机器学习模型的训练数据处理方法。
CN201911403575.7A 2019-12-30 2019-12-30 机器学习模型的训练数据处理方法、装置和计算机设备 Active CN111222553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911403575.7A CN111222553B (zh) 2019-12-30 2019-12-30 机器学习模型的训练数据处理方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911403575.7A CN111222553B (zh) 2019-12-30 2019-12-30 机器学习模型的训练数据处理方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN111222553A CN111222553A (zh) 2020-06-02
CN111222553B true CN111222553B (zh) 2023-08-29

Family

ID=70830968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911403575.7A Active CN111222553B (zh) 2019-12-30 2019-12-30 机器学习模型的训练数据处理方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN111222553B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783872B (zh) * 2020-06-30 2024-02-02 北京百度网讯科技有限公司 训练模型的方法、装置、电子设备及计算机可读存储介质
CN112686388B (zh) * 2020-12-10 2024-12-03 广州广电运通信息科技有限公司 一种在联邦学习场景下的数据集划分方法及系统
CN112853470A (zh) * 2020-12-31 2021-05-28 杭州富加镓业科技有限公司 一种基于深度学习和提拉法的氧化镓的质量预测方法、制备方法及系统
CN112863617A (zh) 2020-12-31 2021-05-28 杭州富加镓业科技有限公司 一种基于深度学习和坩埚下降法的高阻型氧化镓制备方法
US20230196378A1 (en) * 2021-12-21 2023-06-22 International Business Machines Corporation Carbon emission bounded machine learning
CN114528488A (zh) * 2022-02-17 2022-05-24 杭州网易竹书信息技术有限公司 数据处理方法、装置、计算设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325541A (zh) * 2018-09-30 2019-02-12 北京字节跳动网络技术有限公司 用于训练模型的方法和装置
CN109409528A (zh) * 2018-09-10 2019-03-01 平安科技(深圳)有限公司 模型生成方法、装置、计算机设备及存储介质
JP2019049975A (ja) * 2017-09-07 2019-03-28 富士通株式会社 ディープラーニング分類モデルの訓練装置及び方法
CN109800884A (zh) * 2017-11-14 2019-05-24 阿里巴巴集团控股有限公司 模型参数的处理方法、装置、设备和计算机存储介质
CN109816116A (zh) * 2019-01-17 2019-05-28 腾讯科技(深圳)有限公司 机器学习模型中超参数的优化方法及装置
CN110532466A (zh) * 2019-08-21 2019-12-03 广州华多网络科技有限公司 直播平台训练数据的处理方法、装置、存储介质及设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10318882B2 (en) * 2014-09-11 2019-06-11 Amazon Technologies, Inc. Optimized training of linear machine learning models
CN110520871B (zh) * 2017-02-24 2023-11-07 渊慧科技有限公司 使用学习进度测量训练机器学习模型
US12462151B2 (en) * 2018-05-22 2025-11-04 Adobe Inc. Generating new machine learning models based on combinations of historical feature-extraction rules and historical machine-learning models

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019049975A (ja) * 2017-09-07 2019-03-28 富士通株式会社 ディープラーニング分類モデルの訓練装置及び方法
CN109800884A (zh) * 2017-11-14 2019-05-24 阿里巴巴集团控股有限公司 模型参数的处理方法、装置、设备和计算机存储介质
CN109409528A (zh) * 2018-09-10 2019-03-01 平安科技(深圳)有限公司 模型生成方法、装置、计算机设备及存储介质
CN109325541A (zh) * 2018-09-30 2019-02-12 北京字节跳动网络技术有限公司 用于训练模型的方法和装置
CN109816116A (zh) * 2019-01-17 2019-05-28 腾讯科技(深圳)有限公司 机器学习模型中超参数的优化方法及装置
CN110532466A (zh) * 2019-08-21 2019-12-03 广州华多网络科技有限公司 直播平台训练数据的处理方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN111222553A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN111222553B (zh) 机器学习模型的训练数据处理方法、装置和计算机设备
CN108537289B (zh) 数据识别模型的训练方法、装置及存储介质
CN112860756A (zh) 基于习题测试的学习资源推荐方法、装置及计算机设备
CN113807452B (zh) 一种基于注意力机制的业务过程异常检测方法
CN108833458A (zh) 一种应用推荐方法、装置、介质及设备
CN111625467B (zh) 自动化测试方法、装置、计算机设备和存储介质
US20220230028A1 (en) Determination method, non-transitory computer-readable storage medium, and information processing device
EP3352121A1 (en) Content delivery method and device
CN116842440B (zh) 基于情境感知的自适应链路切换方法及系统、设备、介质
CN112559868B (zh) 信息召回方法、装置、存储介质及电子设备
CN113762382A (zh) 模型的训练及场景识别方法、装置、设备及介质
CN115550259B (zh) 基于白名单的流量分配方法及相关设备
CN114090854B (zh) 基于信息熵的标签权重智能更新方法、系统及计算机设备
CN118350965A (zh) 一种基于居住信息关键词的水电气一体化检测方法及系统
CN110502715B (zh) 点击概率的预测方法及装置
CN112380204B (zh) 一种数据质量的评估方法及装置
CN117312855A (zh) 用于选择训练数据的方法、装置、电子设备和介质
CN115393100A (zh) 资源推荐方法及装置
CN112785000A (zh) 面向大规模机器学习系统的机器学习模型训练方法及系统
CN113934871A (zh) 多媒体推荐模型的训练方法、装置、电子设备及存储介质
CN116719992B (zh) 资源推荐方法、装置、电子设备及存储介质
CN113254734B (zh) 点击模型确定方法、搜索方法、装置、服务器及介质
CN120562597B (zh) 一种任务处理方法和装置
CN114708202B (zh) 图像检测方法、装置、存储介质、电子设备及产品
CN117215928A (zh) 灰度路由策略的更新方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210115

Address after: 511442 3108, 79 Wanbo 2nd Road, Nancun Town, Panyu District, Guangzhou City, Guangdong Province

Applicant after: GUANGZHOU CUBESILI INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 29th floor, building B-1, Wanda Plaza, Wanbo business district, Nancun Town, Panyu District, Guangzhou City, Guangdong Province

Applicant before: GUANGZHOU HUADUO NETWORK TECHNOLOGY Co.,Ltd.

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200602

Assignee: GUANGZHOU HUADUO NETWORK TECHNOLOGY Co.,Ltd.

Assignor: GUANGZHOU CUBESILI INFORMATION TECHNOLOGY Co.,Ltd.

Contract record no.: X2021440000054

Denomination of invention: Training data processing method, device and computer equipment of machine learning model

License type: Common License

Record date: 20210208

GR01 Patent grant
GR01 Patent grant