CN116976408A - 对二分类机器学习模型的预测分数进行校准的方法及装置 - Google Patents
对二分类机器学习模型的预测分数进行校准的方法及装置 Download PDFInfo
- Publication number
- CN116976408A CN116976408A CN202310845405.4A CN202310845405A CN116976408A CN 116976408 A CN116976408 A CN 116976408A CN 202310845405 A CN202310845405 A CN 202310845405A CN 116976408 A CN116976408 A CN 116976408A
- Authority
- CN
- China
- Prior art keywords
- model
- prediction score
- data set
- machine learning
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种对二分类机器学习模型的预测分数进行校准的方法及装置,涉及人工智能技术领域,方法包括:将特征数据输入二分类校准模型,获得校准后的输出预测分数;二分类校准模型构建:收集特征数据,构建第一数据集;训练获得第一类二分类机器学习模型,作为上游模型;将第一数据集中的特征宽表输入上游模型,得到第一预测分数列;将第一预测分数列与第一数据集进行拼接,获得第二数据集;训练获得第二类二分类机器学习模型,作为中游模型;将第二数据集中的特征宽表输入至中游模型,得到第二预测分数列;根据第二预测分数列与第二数据集,获得第三数据集;训练获得逻辑回归模型,作为下游模型。本发明可以提升二分类机器学习模型的校准性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种对二分类机器学习模型的预测分数进行校准的方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着大数据、人工智能技术的进步,越来越多的大型企业使用机器学习模型辅助经营决策。其中基于集成方法的二分类预测模型(如GBDT类模型)、基于深度方法的二分类预测模型(如LSTM模型),由于其排序能力(可通过AUC等指标衡量)在实践中往往优于传统的线性模型,在银行业的风险防控和智能营销领域应用尤其广泛。
然而,基于集成方法、深度方法的二分类机器学习模型的内部结构比较复杂,根据实际经验,此类黑盒模型对样本进行预测,得到的模型输出分数与样本中实际事件发生的概率之间的差异普遍较大,即复杂模型的校准性往往较弱。
银行业的风险防控和智能营销领域中,某些场景对机器学习模型的校准性有比较高的要求。例如风险防控领域中的贷后预警场景,如果能准确预测客户发生风险的概率,则能进一步估算在险价值等指标,从而辅助业务人员进行决策;智能营销领域中的营销活动推送场景,如果能准确预测客户参与活动的概率,则能进一步测算该活动的成本、收益,合理配置营销资源。
因此,需要寻找一种适用于二分类机器学习模型的概率校准方法,在尽量保持原模型排序能力的前提下,将模型的预测输出分数转换为实际事件发生的概率(如风控领域的风险事件发生概率,营销领域的营销成功概率)。提升模型输出的可信性,深化模型应用场景。
发明内容
本发明实施例提供一种对二分类机器学习模型的预测分数进行校准的方法,用以在尽量保持原二分类机器学习模型排序能力的前提下,将二分类机器学习模型的预测输出值转换为实际事件发生的概率,从而提升二分类机器学习模型的校准性,该方法包括:
获得针对目标领域的待分析特征数据;
将待分析特征数据输入至二分类校准模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数,其中,所述二分类校准模型将待分析特征数据输入上游模型,得到第一预测分数,将第一预测分数输入中游模型,获得第二预测分数,将第二预测分数输入下游模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数;
所述二分类校准模型采用如下步骤构建:
收集针对目标领域要建模的二分类机器学习模型的特征数据,构建第一数据集;
基于第一数据集,训练获得第一类二分类机器学习模型,作为上游模型;
将第一数据集中的特征宽表输入至上游模型,得到第一预测分数列;
将所述第一预测分数列与所述第一数据集进行拼接,获得第二数据集;
基于第二数据集,训练获得第二类二分类机器学习模型,作为中游模型;
将第二数据集中的特征宽表输入至中游模型,得到第二预测分数列;
根据所述第二预测分数列与所述第二数据集,获得第三数据集;
基于第三数据集,训练获得逻辑回归模型,作为下游模型。
本发明实施例还提供一种对二分类机器学习模型的预测分数进行校准的装置,用以在尽量保持原二分类机器学习模型排序能力的前提下,将二分类机器学习模型的预测输出值转换为实际事件发生的概率,从而提升二分类机器学习模型的校准性,该装置包括:
预测分数校准模块,用于获得针对目标领域的待分析特征数据;将待分析特征数据输入至二分类校准模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数,其中,所述二分类校准模型将待分析特征数据输入上游模型,得到第一预测分数,将第一预测分数输入中游模型,获得第二预测分数,将第二预测分数输入下游模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数;
二分类校准模型构建模块,包括:
第一数据集构建模块,用于收集针对目标领域要建模的二分类机器学习模型的特征数据,构建第一数据集;
上游模型训练模块,用于基于第一数据集,训练获得第一类二分类机器学习模型,作为上游模型;
第一预测分数获得模块,用于将第一数据集中的特征宽表输入至上游模型,得到第一预测分数列;
第二数据集构建模块,用于将所述第一预测分数列与所述第一数据集进行拼接,获得第二数据集;
中游模型训练模块,用于基于第二数据集,训练获得第二类二分类机器学习模型,作为中游模型;
第二预测分数获得模块,用于将第二数据集中的特征宽表输入至中游模型,得到第二预测分数列;
第三数据集构建模块,用于根据所述第二预测分数列与所述第二数据集,获得第三数据集;
下游模型训练模块,用于基于第三数据集,训练获得逻辑回归模型,作为下游模型。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述对二分类机器学习模型的预测分数进行校准的方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述对二分类机器学习模型的预测分数进行校准的方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述对二分类机器学习模型的预测分数进行校准的方法。
本发明实施例中,获得针对目标领域的待分析特征数据;将待分析特征数据输入至二分类校准模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数,其中,所述二分类校准模型将待分析特征数据输入上游模型,得到第一预测分数,将第一预测分数输入中游模型,获得第二预测分数,将第二预测分数输入下游模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数;所述二分类校准模型采用如下步骤构建:收集针对目标领域要建模的二分类机器学习模型的特征数据,构建第一数据集;基于第一数据集,训练获得第一类二分类机器学习模型,作为上游模型;将第一数据集中的特征宽表输入至上游模型,得到第一预测分数列;将所述第一预测分数列与所述第一数据集进行拼接,获得第二数据集;基于第二数据集,训练获得第二类二分类机器学习模型,作为中游模型;将第二数据集中的特征宽表输入至中游模型,得到第二预测分数列;根据所述第二预测分数列与所述第二数据集,获得第三数据集;基于第三数据集,训练获得逻辑回归模型,作为下游模型。通过上述方案,进行多次预测分数的校准,包括获得第一预测分数后通过中游模型进行校准,得到第二预测分数,再输入下游模型进行校准,得到最终的输出预测分数;其中,逻辑回归模型逻辑回归模型在线性模型的基础上通过Sigmoid函数将输入函数值映射到0到1区间,作为二分类判别的概率,该模型建立在二项分布假设下并利用统计学中的极大似然法进行参数估计,其输出概率在统计学下与样本实际属于1的比例较为近似,即逻辑回归模型具有良好的校准性,因此,上述步骤在尽量保持原二分类机器学习模型排序能力的前提下,将二分类机器学习模型的预测输出值转换为实际事件发生的概率,从而提升二分类机器学习模型的校准性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中对二分类机器学习模型的预测分数进行校准的方法的流程图;
图2为本发明实施例中二分类校准模型构建的流程图;
图3为本发明实施例中构建二分类校准模型的原理图;
图4为本发明实施例中对二分类机器学习模型的预测分数进行校准的装置的示意图;
图5为本发明实施例中计算机设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
首先,对本发明实施例涉及的术语进行解释。
二分类机器学习模型是指:预测结果可以形式化表述为0(负类)或1(正类)的分类机器学习模型。
模型输出分数是指:将待预测样本输入二分类机器学习模型后,得到的模型输出分数。该分数的形式是分布在0至1之间的小数,表示样本属于正类的可能性大小,分数越接近1则样本属于正类的可能性越大。按照某0-1划分阈值对模型输出分数进行划分后,即可得到二分类模型最终的0或1预测结果。
模型融合是指:是指将多个不同类型的机器学习模型结合起来,形成一个新的机器学习模型。本文中的模型融合,特指根据初始数据集训练出上游模型,之后将初始训练集、以及上游模型对于初始训练集的输出分数进行组合,形成新训练集并训练出下游模型。
概率校准是指:对于二分类模型的输出分数进行再学习,使得二分类模型的输出分数转化为概率,从而提升模型的概率校准性。模型的概率校准性通常可用Brier分数、概率校准曲线进行衡量。由于逻辑回归模型基于二项分布假设对模型参数进行最大似然估计,通常具有优秀的概率校准性。
本发明利用逻辑回归模型的优秀概率校准性、以及二分类机器学习模型的优秀排序能力(对样本属于正类的可能性大小进行排序的能力),将两类模型进行融合,从而在尽量保持二分类机器学习模型排序能力的前提下,对二分类机器学习模型的输出分数进行概率校准。
本发明实施例中,目标领域为风险防控领域、智能营销领域,当然,还可以有其他领域,只要涉及到二分类机器学习模型应用即可。
图1为本发明实施例中对二分类机器学习模型的预测分数进行校准的方法的流程图,图2为本发明实施例中二分类校准模型构建的流程图,其中,对二分类机器学习模型的预测分数进行校准,包括:
步骤101,获得针对目标领域的待分析特征数据;
步骤102,将待分析特征数据输入至二分类校准模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数,其中,所述二分类校准模型将待分析特征数据输入上游模型,得到第一预测分数,将第一预测分数输入中游模型,获得第二预测分数,将第二预测分数输入下游模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数;
所述二分类校准模型采用如下步骤构建:
步骤201,收集针对目标领域要建模的二分类机器学习模型的特征数据,构建第一数据集;
步骤202,基于第一数据集,训练获得第一类二分类机器学习模型,作为上游模型;
步骤203,将第一数据集中的特征宽表输入至上游模型,得到第一预测分数列;
步骤204,将所述第一预测分数列与所述第一数据集进行拼接,获得第二数据集;
步骤205,基于第二数据集,训练获得第二类二分类机器学习模型,作为中游模型;
步骤206,将第二数据集中的特征宽表输入至中游模型,得到第二预测分数列;
步骤207,根据所述第二预测分数列与所述第二数据集,获得第三数据集;
步骤208,基于第三数据集,训练获得逻辑回归模型,作为下游模型。
本发明实施例进行多次预测分数的校准,包括获得第一预测分数后通过中游模型进行校准,得到第二预测分数,再输入下游模型进行校准,得到最终的输出预测分数;其中,逻辑回归模型逻辑回归模型在线性模型的基础上通过Sigmoid函数将输入函数值映射到0到1区间,作为二分类判别的概率,该模型建立在二项分布假设下并利用统计学中的极大似然法进行参数估计,其输出概率在统计学下与样本实际属于1的比例较为近似,即逻辑回归模型具有良好的校准性,因此,上述步骤在尽量保持原二分类机器学习模型排序能力的前提下,将二分类机器学习模型的预测输出值转换为实际事件发生的概率,从而提升二分类机器学习模型的校准性。
本发明实施例方案的重点是构建二分类校准模型,
在一实施例中,收集针对目标领域要建模的二分类机器学习模型的特征数据,构建第一数据集,包括:
收集针对目标领域要建模的二分类机器学习模型的特征数据,并形成特征宽表;
基于特征宽表,构建第一数据集。
在一实施例中,收集针对目标领域要建模的二分类机器学习模型的特征数据,并形成特征宽表,包括:
针对目标领域,确定采用的要建模的二分类机器学习模型;
收集针对目标领域的特征数据;
对所述特征数据进行预处理,所述预处理包括过滤异常值、缺失值;
对预处理后的特征数据进行特征工程处理,所述特征工程处理包括聚合、衍生;
根据特征工程处理后的特征数据,形成特征宽表X。
在一实施例中,基于特征宽表,构建第一数据集,包括:
针对二分类机器学习模型的建模目标,为特征宽表中每个特征数据打上标签,标签取值为0或1,形成标签列y;
将特征宽表和标签列形成第一数据集。具体地,将X与y按照主键进行关联,形成建模所需数据集{X,y}。
在一实施例中,基于第一数据集,训练获得第一类二分类机器学习模型,作为上游模型,包括:
将第一数据集{X,y}按照预设比例n:1拆分为第一训练集{X_t,y_t}和第一验证集{X_v,y_v};
采用第一训练集训练第一类二分类机器学习模型;其中,第一类二分类机器学习模型架构采用集成模型或深度模型等复杂架构;
采用第一验证集对训练的第一类二分类机器学习模型进行验证;
在验证通过后,获得第一类二分类机器学习模型,作为上游模型M1。
在一实施例中,将第一数据集中的特征宽表输入至上游模型,得到第一预测分数列,包括:
获得第一数据集中的第一训练集{X_t,y_t};
将第一训练集中的特征宽表X_t输入至上游模型M1,预测第一训练集中每一个特征数据属于第一类别1的概率,得到第一预测分数列p_t。
其中对于训练集中每一个特征数据,预测分数取值是0到1之间的小数。
在一实施例中,将所述第一预测分数列与所述第一数据集进行拼接,获得第二数据集,包括:
将所述第一预测分数列p_t与第一数据集中的第一训练集{X_t,y_t}的特征宽表X_t进行拼接,获得新的特征宽表Y_t={X_t,p_t};
将新的特征宽表Y_t={X_t,p_t}与第一训练集的标签列y_t形成第二数据集{Y_t,y_t}。
基于第二数据集,训练获得第二类二分类机器学习模型时,第二类二分类机器学习模型与第一类二分类机器学习模型采用不同的集成模型或深度模型等复杂架构。
在一实施例中,所述方法还包括:
将第一验证集{X_v,y_v}中的特征宽表X_v输入至上游模型,预测第一验证集中每一个特征数据属于第一类别1的概率,得到第三预测分数列p_v;
将所述第三预测分数列p_v与第一数据集中的第一验证集进行拼接,获得新的特征宽表Y_v={X_v,p_v};
将新的特征宽表与第一验证集中的标签列y_v形成第二验证集{Y_v,y_v};
在获得中游模型之后,采用第二验证集对中游模型进行验证;
在验证通过后,输出通过验证的中游模型M2;
将第二数据集中的特征宽表输入至中游模型,得到第二预测分数列,包括:将第二数据集中的特征宽表输入至通过验证的中游模型,得到第二预测分数列。
在一实施例中,根据所述第二预测分数列与所述第二数据集,获得第三数据集,包括:
将所述第二预测分数列q_t与所述第二数据集{Y_t,y_t}进行拼接;
在拼接后的集合中加入第一组合特征p_t*q_t,获得第三数据集Z_t={X_t,p_t,q_t,p_t*q_t},所述第一组合特征中每个元素为该元素对应位置的第一预测分数列的元素、第二预测分数列的元素的乘积。
由于p_t、q_t包含了上游模型M1和中游模型M2对于原始的特征宽表的判别信息,下游模型M3可获得较高的判别准确度。
在一实施例中,所述方法还包括:
将第二验证集中的特征宽表Y_v输入至中游模型M2,预测第二验证集中每一个特征数据属于第一类别1的概率,得到第四预测分数列q_v;
将所述第四预测分数列q_v、第一验证集中的标签列y_v、第二验证集中的特征宽表Y_v={X_v,p_v}、第二组合特征进行拼接,获得第三验证集Z_v,所述第二组合特征中每个元素为该元素对应位置的第三预测分数列的元素、第四预测分数列的元素的乘积;
在获得中游模型之后,采用第三验证集Z_v对下游模型进行验证;
在验证通过后,输出通过验证的下游模型。
其中,M3在尽量保持M1、M2区分能力的基础上提升了校准性。
下面给出一个具体实施例,来说明本发明方法的应用。
参见图3为本发明实施例中构建二分类校准模型的原理图。
在一个具体的实施例中,某商业银行使用历史信贷风险数据建立二分类机器学习模型,来预测当笔贷款发生不良的概率。训练集特征X为MM年贷款特征数据,共100万行75列,包含客户财务信息、交易信息等等。训练集标签y为这些贷款在MM年的下一年发生违约的情况,共100万行1列,由0或1构成。
在另一个具体的实施例中,某商业银行使用金融市场交易员交易记录数据建立二分类机器学习模型,来预测当笔交易发生违规的概率。训练集特征X为MM年交易特征数据,共50万行40列,包含市场价格时点、最高市场价格、最低市场价格、全集团所有交易的成交价的波动、该笔交易所属机构内所有交易的成交价的波动等等。训练集标签y为这些交易记录被事后检测违规的情况,共50万行1列,由0或1构成。
构建二分类校准模型时,首先使用X和对应的y训练第一类二分类机器学习模型。本次采用LightGBM算法训练二分类提升树模型,第一类二分类机器学习模型为二分类提升树模型,得到上游模型M1。
之后,将X输入到上游模型M1中进行预测,得到输出分数p,共100万行1列,由分布在0至1之间的小数构成。
将X与p进行横向拼接,得到新的特征数据Y,共100万行76列。使用Y和对应的y训练第二类二分类机器学习模型,第二类二分类机器学习模型采用深度神经网络算法,得到中游模型M2。
将Y输入到中游模型M2中进行预测,得到输出分数q,共100万行1列,由分布在0至1之间的小数构成。
将Y与q进行横向拼接,且加入p与q的组合特征p*q,得到新的特征数据Z,共100万行78列。使用Z和对应的y拟合逻辑回归模型,得到下游模型M3。
本发明实施例提出的方法实现了在不需要额外数据输入的情况下,利用与逻辑回归模型进行融合,将复杂二分类机器学习模型的预测输出分数转换为实际事件发生的概率,从而提升复杂模型的校准性。根据某商业银行实际风控数据检验,下游逻辑回归模型与上游LightGBM模型相比,衡量模型区分能力的指标AUC下降小于1%,而衡量模型校准性的指标Brier Score得到显著优化。
银行业的风险防控和智能营销场景中,时常需要对决策的风险或收益进行量化估计,而不单是对风险或收益的相对大小进行排序。例如贷款风险预警场景中,业务方不只关注一批贷款中哪些贷款易发生违约,更希望结合贷款额度估算在线价值,并根据在险价值的大小来进行决策、处置。这类场景对于人工智能模型的校准度提出了要求。本专利创新性的提出了一种利用逻辑回归模型融合对二分类机器学习模型输出分数进行概率校准的方法及装置,将复杂二分类机器学习模型的预测输出分数转换为实际事件发生的概率,深化了智能模型的应用场景。
综上所述,本发明实施例提出的方法中,获得针对目标领域的待分析特征数据;将待分析特征数据输入至二分类校准模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数,其中,所述二分类校准模型将待分析特征数据输入上游模型,得到第一预测分数,将第一预测分数输入中游模型,获得第二预测分数,将第二预测分数输入下游模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数;所述二分类校准模型采用如下步骤构建:收集针对目标领域要建模的二分类机器学习模型的特征数据,构建第一数据集;基于第一数据集,训练获得第一类二分类机器学习模型,作为上游模型;将第一数据集中的特征宽表输入至上游模型,得到第一预测分数列;将所述第一预测分数列与所述第一数据集进行拼接,获得第二数据集;基于第二数据集,训练获得第二类二分类机器学习模型,作为中游模型;将第二数据集中的特征宽表输入至中游模型,得到第二预测分数列;根据所述第二预测分数列与所述第二数据集,获得第三数据集;基于第三数据集,训练获得逻辑回归模型,作为下游模型。通过上述方案,进行多次预测分数的校准,包括获得第一预测分数后通过中游模型进行校准,得到第二预测分数,再输入下游模型进行校准,得到最终的输出预测分数;其中,逻辑回归模型逻辑回归模型在线性模型的基础上通过Sigmoid函数将输入函数值映射到0到1区间,作为二分类判别的概率,该模型建立在二项分布假设下并利用统计学中的极大似然法进行参数估计,其输出概率在统计学下与样本实际属于1的比例较为近似,即逻辑回归模型具有良好的校准性,因此,上述步骤在尽量保持原二分类机器学习模型排序能力的前提下,将二分类机器学习模型的预测输出值转换为实际事件发生的概率,从而提升二分类机器学习模型的校准性。
本发明实施例中还提供了一种对二分类机器学习模型的预测分数进行校准的装置,如下面的实施例所述。由于该装置解决问题的原理与对二分类机器学习模型的预测分数进行校准的方法相似,因此该装置的实施可以参见对二分类机器学习模型的预测分数进行校准的方法的实施,重复之处不再赘述。
图4为本发明实施例中对二分类机器学习模型的预测分数进行校准的装置的示意图,包括:
预测分数校准模块401,用于获得针对目标领域的待分析特征数据;将待分析特征数据输入至二分类校准模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数,其中,所述二分类校准模型将待分析特征数据输入上游模型,得到第一预测分数,将第一预测分数输入中游模型,获得第二预测分数,将第二预测分数输入下游模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数;
二分类校准模型构建模块402,包括:
第一数据集构建模块4021,用于收集针对目标领域要建模的二分类机器学习模型的特征数据,构建第一数据集;
上游模型训练模块4022,用于基于第一数据集,训练获得第一类二分类机器学习模型,作为上游模型;
第一预测分数获得模块4023,用于将第一数据集中的特征宽表输入至上游模型,得到第一预测分数列;
第二数据集构建模块4024,用于将所述第一预测分数列与所述第一数据集进行拼接,获得第二数据集;
中游模型训练模块4025,用于基于第二数据集,训练获得第二类二分类机器学习模型,作为中游模型;
第二预测分数获得模块4026,用于将第二数据集中的特征宽表输入至中游模型,得到第二预测分数列;
第三数据集构建模块4027,用于根据所述第二预测分数列与所述第二数据集,获得第三数据集;
下游模型训练模块4028,用于基于第三数据集,训练获得逻辑回归模型,作为下游模型。
在一实施例中,第一数据集构建模块具体用于:
收集针对目标领域要建模的二分类机器学习模型的特征数据,并形成特征宽表;
基于特征宽表,构建第一数据集。
在一实施例中,第一数据集构建模块具体用于:
针对目标领域,确定采用的要建模的二分类机器学习模型;
收集针对目标领域的特征数据;
对所述特征数据进行预处理,所述预处理包括过滤异常值、缺失值;
对预处理后的特征数据进行特征工程处理,所述特征工程处理包括聚合、衍生;
根据特征工程处理后的特征数据,形成特征宽表。
在一实施例中,第一数据集构建模块具体用于:
针对二分类机器学习模型的建模目标,为特征宽表中每个特征数据打上标签,形成标签列;
将特征宽表和标签列形成第一数据集。
在一实施例中,上游模型训练模块具体用于:
将第一数据集按照预设比例拆分为第一训练集和第一验证集;
采用第一训练集训练第一类二分类机器学习模型;
采用第一验证集对训练的第一类二分类机器学习模型进行验证;
在验证通过后,获得第一类二分类机器学习模型,作为上游模型。
在一实施例中,第一预测分数获得模块具体用于:
获得第一数据集中的第一训练集;
将第一训练集中的特征宽表输入至上游模型,预测第一训练集中每一个特征数据属于第一类别的概率,得到第一预测分数列。
在一实施例中,第二数据集构建模块具体用于:
将所述第一预测分数列与第一数据集中的第一训练集的特征宽表进行拼接,获得新的特征宽表;
将新的特征宽表与第一训练集的标签列形成第二数据集。
在一实施例中,第一预测分数获得模块还用于:
将第一验证集中的特征宽表输入至上游模型,预测第一验证集中每一个特征数据属于第一类别的概率,得到第三预测分数列;
第二数据集构建模块还用于:
将所述第三预测分数列与第一数据集中的第一验证集进行拼接,获得新的特征宽表;
将新的特征宽表与第一验证集中的标签列形成第二验证集;
中游模型训练模块还用于:
在获得中游模型之后,采用第二验证集对中游模型进行验证;
在验证通过后,输出通过验证的中游模型;
第二预测分数获得模块具体用于:将第二数据集中的特征宽表输入至通过验证的中游模型,得到第二预测分数列。
在一实施例中,第三数据集构建模块具体用于:
将所述第二预测分数列与所述第二数据集进行拼接;
在拼接后的集合中加入第一组合特征,获得第三数据集,所述组合特征中每个元素为该元素对应位置的第一预测分数列的元素、第二预测分数列的元素的乘积。
在一实施例中,第二预测分数获得模块还用于:
将第二验证集中的特征宽表输入至中游模型,预测第二验证集中每一个特征数据属于第一类别的概率,得到第四预测分数列;
第三数据集构建模块还用于:
将所述第四预测分数列、第一验证集中的标签列、第二验证集中的特征宽表、第二组合特征进行拼接,获得第三验证集,所述组合特征中每个元素为该元素对应位置的第三预测分数列的元素、第四预测分数列的元素的乘积;
下游模型训练模块还用于:
在获得中游模型之后,采用第三验证集对下游模型进行验证;
在验证通过后,输出通过验证的下游模型。
综上所述,本发明实施例提出的装置中,获得针对目标领域的待分析特征数据;将待分析特征数据输入至二分类校准模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数,其中,所述二分类校准模型将待分析特征数据输入上游模型,得到第一预测分数,将第一预测分数输入中游模型,获得第二预测分数,将第二预测分数输入下游模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数;所述二分类校准模型采用如下步骤构建:收集针对目标领域要建模的二分类机器学习模型的特征数据,构建第一数据集;基于第一数据集,训练获得第一类二分类机器学习模型,作为上游模型;将第一数据集中的特征宽表输入至上游模型,得到第一预测分数列;将所述第一预测分数列与所述第一数据集进行拼接,获得第二数据集;基于第二数据集,训练获得第二类二分类机器学习模型,作为中游模型;将第二数据集中的特征宽表输入至中游模型,得到第二预测分数列;根据所述第二预测分数列与所述第二数据集,获得第三数据集;基于第三数据集,训练获得逻辑回归模型,作为下游模型。通过上述方案,进行多次预测分数的校准,包括获得第一预测分数后通过中游模型进行校准,得到第二预测分数,再输入下游模型进行校准,得到最终的输出预测分数;其中,逻辑回归模型逻辑回归模型在线性模型的基础上通过Sigmoid函数将输入函数值映射到0到1区间,作为二分类判别的概率,该模型建立在二项分布假设下并利用统计学中的极大似然法进行参数估计,其输出概率在统计学下与样本实际属于1的比例较为近似,即逻辑回归模型具有良好的校准性,因此,上述步骤在尽量保持原二分类机器学习模型排序能力的前提下,将二分类机器学习模型的预测输出值转换为实际事件发生的概率,从而提升二分类机器学习模型的校准性。
本发明实施例还提供一种计算机设备,图5为本发明实施例中计算机设备的示意图,所述计算机设备500包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序530,所述处理器520执行所述计算机程序530时实现上述对二分类机器学习模型的预测分数进行校准的方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述对二分类机器学习模型的预测分数进行校准的方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述对二分类机器学习模型的预测分数进行校准的方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (13)
1.一种对二分类机器学习模型的预测分数进行校准的方法,其特征在于,包括:
获得针对目标领域的待分析特征数据;
将待分析特征数据输入至二分类校准模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数,其中,所述二分类校准模型将待分析特征数据输入上游模型,得到第一预测分数,将第一预测分数输入中游模型,获得第二预测分数,将第二预测分数输入下游模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数;
所述二分类校准模型采用如下步骤构建:
收集针对目标领域要建模的二分类机器学习模型的特征数据,构建第一数据集;
基于第一数据集,训练获得第一类二分类机器学习模型,作为上游模型;
将第一数据集中的特征宽表输入至上游模型,得到第一预测分数列;
将所述第一预测分数列与所述第一数据集进行拼接,获得第二数据集;
基于第二数据集,训练获得第二类二分类机器学习模型,作为中游模型;
将第二数据集中的特征宽表输入至中游模型,得到第二预测分数列;
根据所述第二预测分数列与所述第二数据集,获得第三数据集;
基于第三数据集,训练获得逻辑回归模型,作为下游模型。
2.如权利要求1所述的方法,其特征在于,收集针对目标领域要建模的二分类机器学习模型的特征数据,构建第一数据集,包括:
收集针对目标领域要建模的二分类机器学习模型的特征数据,并形成特征宽表;
基于特征宽表,构建第一数据集。
3.如权利要求2所述的方法,其特征在于,收集针对目标领域要建模的二分类机器学习模型的特征数据,并形成特征宽表,包括:
针对目标领域,确定采用的要建模的二分类机器学习模型;
收集针对目标领域的特征数据;
对所述特征数据进行预处理,所述预处理包括过滤异常值、缺失值;
对预处理后的特征数据进行特征工程处理,所述特征工程处理包括聚合、衍生;
根据特征工程处理后的特征数据,形成特征宽表。
4.如权利要求2所述的方法,其特征在于,基于特征宽表,构建第一数据集,包括:
针对二分类机器学习模型的建模目标,为特征宽表中每个特征数据打上标签,形成标签列;
将特征宽表和标签列形成第一数据集。
5.如权利要求1所述的方法,其特征在于,基于第一数据集,训练获得第一类二分类机器学习模型,作为上游模型,包括:
将第一数据集按照预设比例拆分为第一训练集和第一验证集;
采用第一训练集训练第一类二分类机器学习模型;
采用第一验证集对训练的第一类二分类机器学习模型进行验证;
在验证通过后,获得第一类二分类机器学习模型,作为上游模型。
6.如权利要求1所述的方法,其特征在于,将第一数据集中的特征宽表输入至上游模型,得到第一预测分数列,包括:
获得第一数据集中的第一训练集;
将第一训练集中的特征宽表输入至上游模型,预测第一训练集中每一个特征数据属于第一类别的概率,得到第一预测分数列。
7.如权利要求1所述的方法,其特征在于,将所述第一预测分数列与所述第一数据集进行拼接,获得第二数据集,包括:
将所述第一预测分数列与第一数据集中的第一训练集的特征宽表进行拼接,获得新的特征宽表;
将新的特征宽表与第一训练集的标签列形成第二数据集。
8.如权利要求1所述的方法,其特征在于,还包括:
将第一验证集中的特征宽表输入至上游模型,预测第一验证集中每一个特征数据属于第一类别的概率,得到第三预测分数列;
将所述第三预测分数列与第一数据集中的第一验证集进行拼接,获得新的特征宽表;
将新的特征宽表与第一验证集中的标签列形成第二验证集;
在获得中游模型之后,采用第二验证集对中游模型进行验证;
在验证通过后,输出通过验证的中游模型;
将第二数据集中的特征宽表输入至中游模型,得到第二预测分数列,包括:将第二数据集中的特征宽表输入至通过验证的中游模型,得到第二预测分数列。
9.如权利要求1所述的方法,其特征在于,根据所述第二预测分数列与所述第二数据集,获得第三数据集,包括:
将所述第二预测分数列与所述第二数据集进行拼接;
在拼接后的集合中加入第一组合特征,获得第三数据集,所述组合特征中每个元素为该元素对应位置的第一预测分数列的元素、第二预测分数列的元素的乘积。
10.如权利要求7所述的方法,其特征在于,还包括:
将第二验证集中的特征宽表输入至中游模型,预测第二验证集中每一个特征数据属于第一类别的概率,得到第四预测分数列;
将所述第四预测分数列、第一验证集中的标签列、第二验证集中的特征宽表、第二组合特征进行拼接,获得第三验证集,所述组合特征中每个元素为该元素对应位置的第三预测分数列的元素、第四预测分数列的元素的乘积;
在获得中游模型之后,采用第三验证集对下游模型进行验证;
在验证通过后,输出通过验证的下游模型。
11.一种对二分类机器学习模型的预测分数进行校准的装置,其特征在于,包括:
预测分数校准模块,用于获得针对目标领域的待分析特征数据;将待分析特征数据输入至二分类校准模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数,其中,所述二分类校准模型将待分析特征数据输入上游模型,得到第一预测分数,将第一预测分数输入中游模型,获得第二预测分数,将第二预测分数输入下游模型,获得对二分类机器学习模型的预测分数进行校准后的输出预测分数;
二分类校准模型构建模块,包括:
第一数据集构建模块,用于收集针对目标领域要建模的二分类机器学习模型的特征数据,构建第一数据集;
上游模型训练模块,用于基于第一数据集,训练获得第一类二分类机器学习模型,作为上游模型;
第一预测分数获得模块,用于将第一数据集中的特征宽表输入至上游模型,得到第一预测分数列;
第二数据集构建模块,用于将所述第一预测分数列与所述第一数据集进行拼接,获得第二数据集;
中游模型训练模块,用于基于第二数据集,训练获得第二类二分类机器学习模型,作为中游模型;
第二预测分数获得模块,用于将第二数据集中的特征宽表输入至中游模型,得到第二预测分数列;
第三数据集构建模块,用于根据所述第二预测分数列与所述第二数据集,获得第三数据集;
下游模型训练模块,用于基于第三数据集,训练获得逻辑回归模型,作为下游模型。
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10任一所述方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至10任一所述方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310845405.4A CN116976408A (zh) | 2023-07-11 | 2023-07-11 | 对二分类机器学习模型的预测分数进行校准的方法及装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310845405.4A CN116976408A (zh) | 2023-07-11 | 2023-07-11 | 对二分类机器学习模型的预测分数进行校准的方法及装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN116976408A true CN116976408A (zh) | 2023-10-31 |
Family
ID=88477611
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202310845405.4A Pending CN116976408A (zh) | 2023-07-11 | 2023-07-11 | 对二分类机器学习模型的预测分数进行校准的方法及装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN116976408A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119357010A (zh) * | 2024-12-26 | 2025-01-24 | 浙江空港数字科技有限公司 | 基于应用聚类的应用性能预测与故障检测方法、系统及存储介质 |
-
2023
- 2023-07-11 CN CN202310845405.4A patent/CN116976408A/zh active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119357010A (zh) * | 2024-12-26 | 2025-01-24 | 浙江空港数字科技有限公司 | 基于应用聚类的应用性能预测与故障检测方法、系统及存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN113095927B (zh) | 一种反洗钱可疑交易识别方法及设备 | |
| Arundina et al. | The predictive accuracy of Sukuk ratings; Multinomial Logistic and Neural Network inferences | |
| CN113706258B (zh) | 基于组合模型的产品推荐方法、装置、设备及存储介质 | |
| Callejón et al. | A System of Insolvency Prediction for industrial companies using a financial alternative model with neural networks | |
| US20050125434A1 (en) | System and method for scalable cost-sensitive learning | |
| US20240144050A1 (en) | Stacked machine learning models for transaction categorization | |
| CN117455681A (zh) | 业务风险预测方法和装置 | |
| CN120182006B (zh) | 基于大数据的金融合规风险评估方法、系统及存储介质 | |
| CN116976408A (zh) | 对二分类机器学习模型的预测分数进行校准的方法及装置 | |
| Lee et al. | Application of machine learning in credit risk scorecard | |
| CN116777506A (zh) | 一种基于生成式ai服务的大宗品交易决策方法及系统 | |
| Abbas et al. | Algorithm comparison for data mining classification: Assessing bank customer credit scoring default risk | |
| Jan et al. | Detection of fraudulent financial statements using decision tree and artificial neural network | |
| Caplescu et al. | Will they repay their debt? Identification of borrowers likely to be charged off. | |
| CN114581209A (zh) | 财务分析模型的训练方法、装置、设备及存储介质 | |
| TWM622331U (zh) | 風險預測系統及其設備 | |
| Terzi et al. | Comparison of financial distress prediction models: evidence from Turkey | |
| CN119831753B (zh) | 基于多维数据驱动的策略自动挖掘方法、装置、设备以及介质 | |
| US12321839B1 (en) | Systems and methods for intelligent generation and assessment of candidate less discriminatory alternative machine learning models | |
| CN119963202B (zh) | AI Agent的数字货币交易异常行为检测方法 | |
| CN119722294B (zh) | 信贷风险检测方法及装置、电子设备、程序产品 | |
| CN118628114B (zh) | 一种供应链金融风险评估方法及系统 | |
| CN114036208B (zh) | 一种模型训练和敏感度分析方法、装置、设备及介质 | |
| Lee et al. | Application of Machine Learning in Credit Risk | |
| CN120181859A (zh) | 异常交易数据的确定方法、装置及存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |