[go: up one dir, main page]

CN111090677A - 数据对象类型的确定方法及装置 - Google Patents

数据对象类型的确定方法及装置 Download PDF

Info

Publication number
CN111090677A
CN111090677A CN201811237122.7A CN201811237122A CN111090677A CN 111090677 A CN111090677 A CN 111090677A CN 201811237122 A CN201811237122 A CN 201811237122A CN 111090677 A CN111090677 A CN 111090677A
Authority
CN
China
Prior art keywords
user
data object
probability
sample set
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811237122.7A
Other languages
English (en)
Inventor
李思旭
杨文君
李奘
成石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201811237122.7A priority Critical patent/CN111090677A/zh
Publication of CN111090677A publication Critical patent/CN111090677A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种数据对象类型的确定方法及装置,所述方法包括:将第一用户的特征信息输入至敏感转化模型,获取所述第一用户在不同类型的数据对象下的敏感转化概率;将所述第一用户的特征信息输入至自然转化模型,获取所述第一用户的自然转化概率;根据所述敏感转化概率和所述自然转化概率,分别获取所述不同类型的数据对象对应的回报指数,将最大回报指数对应的数据对象类型确定为所述第一用户的目标数据对象类型。本发明提供的数据对象类型的确定方法及装置,根据第一用户的特征信息确定数据对象的类型,能够在保证预算和收益的前提下,最大概率的使其转化为第二用户,提高平台的运营效率。

Description

数据对象类型的确定方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种数据对象类型的确定方法及装置。
背景技术
随着电子商务的发展,网络消费已成为人们的主要消费方式。以网络打车软件为例,用户可以便捷地通过手机发布打车信息,并与接单司机直接沟通,使得人们的出行更加方便。在网络消费平台中,有部分用户被称为沉默用户,例如:近3个月内在该平台下单过,但在最近1个月内未在该平台下单过的用户,或者,在该平台登陆过但未完成下单的用户;沉默用户之外的其他用户,通常被称为活动用户。对于网络消费平台来说,这些沉默用户是非常珍贵的现有资源,如何通过某些运营措施使这些沉默用户转化为活动用户,使其重新使用该平台下单,是平台运营急需解决的问题。
使沉默用户转化为活动用户,最常用的方法就是给沉默用户提供优惠,通常采用给沉默用户发放优惠券的方式。优惠券包括现金券、体验券和折扣券等。
然而,当给沉默用户发放的优惠券的优惠力度较小时,可能无法使沉默用户转化为活动用户,当给沉默用户发放的优惠券的优惠力度较大时,可能会影响平台收益。因此,针对每个沉默用户,如何确定对其发放的优惠券的优惠力度,能够在保证预算和收益的前提下,最大概率的使其转化为活动用户,是需要研究和解决的问题。
发明内容
本发明提供一种数据对象类型的确定方法及装置,根据第一用户的特征信息确定数据对象的类型,能够在保证预算和收益的前提下,最大概率的使其转化为第二用户。
第一方面,本发明提供的数据对象的确定方法,包括:
将第一用户的特征信息输入至敏感转化模型,获取所述第一用户在不同类型的数据对象下的敏感转化概率,所述敏感转化概率是指所述第一用户在拥有所述数据对象情况下转化为第二用户的概率;
将所述第一用户的特征信息输入至自然转化模型,获取所述第一用户的自然转化概率,所述自然转化概率是指所述第一用户在未拥有任何数据对象情况下转化为第二用户的概率;
根据所述敏感转化概率和所述自然转化概率,分别获取所述不同类型的数据对象对应的回报指数;
根据所述回报指数,将最大回报指数对应的数据对象类型确定为所述第一用户的目标数据对象类型。
可选的,所述根据所述敏感转化概率和所述自然转化概率,分别获取所述不同类型的数据对象对应的回报指数,包括:
根据公式
Figure BDA0001838455780000021
分别获取所述不同类型的数据对象对应的回报指数;
其中,dt为所述数据对象的类型,pt为所述数据对象对应的敏感转化概率,pc为自然转化概率,ROI为所述数据对象对应的回报指数。
可选的,所述将第一用户的特征信息输入至敏感转化模型之前,还包括:
对历史数据进行采样,生成第一训练样本集,所述第一训练样本集中的样本由采样时刻拥有数据对象的第一用户组成;
对所述第一训练样本集进行预处理;
以所述第一训练样本集中的样本的特征信息和所述数据对象的类型作为输入,以所述第一训练样本集中的样本在观察时间窗内是否转化为第二用户作为输出,对所述第一训练样本集进行训练,得到敏感转化模型。
可选的,所述对所述第一训练样本集进行预处理,包括:
若所述第一训练样本集中的样本在所述观察时间窗内又收到了新的数据对象,则将所述样本从所述第一训练样本集中去除。
可选的,所述对所述第一训练样本集进行预处理,还包括:
对所述第一训练样本集中数据对象类型占比多的样本进行下采样,对所述第一训练样本集中数据对象类型占比少的样本进行上采样。
可选的,所述将所述第一用户的特征信息输入至自然转化模型之前,还包括:
对历史数据进行采样,生成第二训练样本集,所述第二训练样本集中的样本由采样时刻未拥有任何数据对象的第一用户组成;
若所述第二训练样本集中的样本在观察时间窗内收到了数据对象,则将所述样本从所述第二训练样本集中去除;
以所述第二训练样本集中的样本的特征信息作为输入,以所述第二训练样本集中的样本在所述观察时间窗内是否转化为第二用户作为输出,对所述第二训练样本集进行训练,得到自然转化模型。
可选的,所述特征信息包括:所述第一用户的沉默前特征、沉默期的行为特征和沉默期的状态特征;
所述沉默前特征包括:所述第一用户在沉默前预设时长内的人口学信息、喜好信息、交易信息和评价信息;所述沉默期的行为特征包括:所述第一用户在沉默期是否尝试交易;所述沉默期的状态特征包括:所述第一用户在沉默期的订单状态和账户状态。
第二方面,本发明提供的数据对象类型的确定装置,包括:
第一获取模块,用于将第一用户的特征信息输入至敏感转化模型,获取所述第一用户在不同类型的数据对象下的敏感转化概率,所述敏感转化概率是指所述第一用户在拥有所述数据对象情况下转化为第二用户的概率;
第二获取模块,用于将所述第一用户的特征信息输入至自然转化模型,获取所述第一用户的自然转化概率,所述自然转化概率是指所述第一用户在未拥有任何数据对象情况下转化为第二用户的概率;
第三获取模块,用于根据所述敏感转化概率和所述自然转化概率,分别获取所述不同类型的数据对象对应的回报指数;
确定模块,用于根据所述回报指数,将最大回报指数对应的数据对象类型确定为所述第一用户的目标数据对象类型。
可选的,所述第三获取模块,具体用于根据公式
Figure BDA0001838455780000031
分别获取所述不同类型的数据对象对应的回报指数;
其中,dt为所述数据对象的类型,pt为所述数据对象对应的敏感转化概率,pc为自然转化概率,ROI为所述数据对象对应的回报指数。
可选的,所述装置还包括:第一训练模块,用于:
对历史数据进行采样,生成第一训练样本集,所述第一训练样本集中的样本由采样时刻拥有数据对象的第一用户组成;
对所述第一训练样本集进行预处理;
以所述第一训练样本集中的样本的特征信息和所述数据对象的类型作为输入,以所述第一训练样本集中的样本在观察时间窗内是否转化为第二用户作为输出,对所述第一训练样本集进行训练,得到敏感转化模型。
可选的,所述第一训练模块,具体用于若所述第一训练样本集中的样本在所述观察时间窗内又收到了新的数据对象,则将所述样本从所述第一训练样本集中去除。
可选的,所述第一训练模块,具体用于对所述第一训练样本集中数据对象类型占比多的样本进行下采样,对所述第一训练样本集中数据对象类型占比少的样本进行上采样。
可选的,所述装置还包括:第二训练模块,用于:
对历史数据进行采样,生成第二训练样本集,所述第二训练样本集中的样本由采样时刻未拥有任何数据对象的第一用户组成;
若所述第二训练样本集中的样本在观察时间窗内收到了数据对象,则将所述样本从所述第二训练样本集中去除;
以所述第二训练样本集中的样本的特征信息作为输入,以所述第二训练样本集中的样本在所述观察时间窗内是否转化为第二用户作为输出,对所述第二训练样本集进行训练,得到自然转化模型。
可选的,所述特征信息包括:所述第一用户的沉默前特征、沉默期的行为特征和沉默期的状态特征;
所述沉默前特征包括:所述第一用户在沉默前预设时长内的人口学信息、喜好信息、交易信息和评价信息;所述沉默期的行为特征包括:所述第一用户在沉默期是否尝试交易;所述沉默期的状态特征包括:所述第一用户在沉默期的订单状态和账户状态。
第三方面,本发明提供的数据对象类型的确定装置,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面任一项所述的方法。
第四方面,本发明提供的计算机可读存储介质,其上存储有计算机程序;所述计算机程序被处理器执行以实现如第一方面任一项所述的方法。
本发明提供的数据对象类型的确定方法及装置,将第一用户的特征信息输入至敏感转化模型,获取所述第一用户在不同类型的数据对象下的敏感转化概率,将所述第一用户的特征信息输入至自然转化模型,获取所述第一用户的自然转化概率,根据所述敏感转化概率和所述自然转化概率,分别获取所述不同类型的数据对象对应的回报指数,将最大回报指数对应的数据对象类型确定为所述第一用户的目标数据对象类型,由于在针对第一用户确定目标数据对象类型时,同时考虑了敏感转化概率、自然转化概率以及回报指数,使得最终确定的数据对象类型,能够在保证预算和收益的前提下,最大概率的使其转化为第二用户,提高网络平台的运营效率。
附图说明
图1为本发明提供的数据对象类型的确定方法实施例一的流程图;
图2为本发明提供的数据对象类型的确定方法实施例中获取敏感转化模型的流程图;
图3为本发明实施例中对第一训练样本集进行预处理的流程图;
图4为本发明提供的数据对象类型的确定方法实施例中获取自然转化模型的流程图;
图5为本发明提供的数据对象类型的确定装置实施例一的结构示意图;
图6为本发明提供的数据对象类型的确定装置实施例二的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如前所述,网络消费平台中,刺激用户下单,最常用的方法就是给用户提供优惠,通常采用给用户发放优惠券的方式。优惠券包括现金券、体验券和折扣券等。
然而,当给用户发放的优惠券的优惠力度较小时,可能无法刺激用户下单,当给用户发放的优惠券的优惠力度较大时,可能会影响平台收益。因此,针对每个沉默用户,如何确定对其发放的优惠券的优惠力度,能够在保证预算和收益的前提下,最大概率的使其转化为活动用户,是需要研究和解决的问题。
本发明提供一种数据对象类型的确定方法及装置,根据沉默用户的特征信息确定数据对象的类型,能够在保证预算和收益的前提下,最大概率的使其转化为活动用户。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
首先,本发明提供的数据对象类型的确定方法可以适用于需要进行网络营销的任一网络消费平台,包括但不限于:网络打车平台、网络购物平台、网络教育平台、网络支付平台等。其中,数据对象可以具体为优惠券,更具体的,优惠券可以有多种类型,包括但不限于现金券、体验券、折扣券等。为了描述方便,后续实施例均以网络打车平台发放折扣券的场景为例进行描述。
另外,本发明提供的发放数据对象类型的确定方法可以确定针对某一沉默用户发放的优惠券的类型,其中,优惠券的类型具体是指优惠券的优惠力度。可以理解的,优惠券的优惠力度可以有多种表示方式,为了描述方便,后续实施例均采用折扣率进行表示。例如不同类型的优惠券可以包括7.0折、7.5折、8.0折、8.5折、9.0折和9.5折的优惠券,其中,7.0折优惠券的折扣率为0.3,7.5折优惠券的折扣率为0.25,8.0折优惠券的折扣率为0.2,8.5折优惠券的折扣率为0.15,9.0折优惠券的折扣率为0.1,9.5折优惠券的折扣率为0.05。也就是说,本发明提供的发放优惠券的方法可以确定针对某一沉默用户应该发放哪种折扣率的折扣券,能够在保证预算和收益的前提下,最大概率的使其转化为活动用户。
图1为本发明提供的数据对象类型的确定方法实施例一的流程图,如图1所示,本实施例提供数据对象类型的确定方法,包括:
S11:将第一用户的特征信息输入至敏感转化模型,获取所述第一用户在不同类型的数据对象下的敏感转化概率,所述敏感转化概率是指所述第一用户在拥有所述数据对象情况下转化为第二用户的概率。
其中,第一用户为沉默用户,第二用户为活动用户,对于某一网络平台来说,沉默用户和活动用户具有不同的行为特征,例如,沉默用户的下单频率低,活动用户的下单频率高。需要说明的是,对于不同的网络平台,沉默用户和活动用户可以有不同的定义方式,本发明对此并不作具体限定,例如:对于打车平台来说,沉默用户是指近3个月内在该平台下单过,但在最近1个月内未在该平台下单过的用户,或者,在该平台登陆过但未完成下单的用户;沉默用户之外的其他用户,通常被称为活动用户。为了描述统一,后文中的第一用户均指沉默用户,第二用户均指活动用户,后续不再赘述。
第一用户沉默的原因可能有多种,例如:沉默之前某次下单出行体验差、账户余额不足、认为价格偏高等。通常,通过给第一用户发放优惠券的方式,可能会促使其转化为活动用户。可以理解的,当优惠券的优惠力度较大时,第一用户转化为第二用户的概率较大,当优惠券的优惠力度较小时,第一用户转化为第二用户的概率较小。因此,通过获取第一用户的特征信息,可以分别获取该第一用户在不同类型的优惠券下的券敏感转化概率,具体的,可以分别获取该第一用户在拥有7.0折、7.5折、8.0折、8.5折、9.0折、9.5折的优惠券时转化为第二用户的概率。
需要说明的是,所述敏感转化概率是指所述第一用户在拥有所述优惠券情况下转化为第二用户的概率,可以表征该第一用户对所述优惠券的敏感程度。例如,第一用户在拥有7.0折的优惠券时转化为第二用户的概率可能为60%,而在拥有8.5折的优惠券时转化为第二用户的概率可能为90%。也就是说,第一用户由于拥有优惠券才转化为第二用户的转化概率称为敏感转化概率。
具体的,根据第一用户的特征信息,分别获取第一用户在不同类型的优惠券下的敏感转化概率,可以有多种实施方式,本实施例不作具体限定,其中一种可选的方式为,可以通过对历史数据进行分析和训练,得到历史数据中用户的特征信息与敏感转化概率之间的敏感转化模型,然后将第一用户的特征信息输入至所述敏感转化模型,对该第一用户在不同类型的优惠券下的敏感转化概率进行预测。
S12:将所述第一用户的特征信息输入至自然转化模型,获取所述第一用户的自然转化概率,所述自然转化概率是指所述第一用户在未拥有任何数据对象情况下转化为第二用户的概率。
可以理解的,对于有些第一用户,即使没有收到优惠券,其也有可能转化为第二用户,因此,将第一用户不因拥有任何优惠券而转化为第二用户的概率称为自然转化概率。
具体的,根据第一用户的特征信息,获取第一用户的自然转化概率,可以有多种实施方式,本实施例也不作具体限定,其中一种可选的方式为,可以通过对历史数据进行分析和训练,得到历史数据中用户的特征信息与自然转化概率之间的自然转化模型,然后将第一用户的特征信息输入至所述自然转化模型,对第一用户的自然转化概率进行预测。
S13:根据所述敏感转化概率和所述自然转化概率,分别获取所述不同类型的数据对象对应的回报指数。
可以理解的,S11中获取的敏感转化概率是与优惠券的折扣率强相关的,通常,优惠券的折扣率越大,敏感转化概率越大,同时,成本也越高;优惠券的折扣率越小,敏感转化概率越小,同时,成本也越低。因此,在确定对第一用户发放的优惠券的类型时,需要同时考虑敏感转化概率和成本因素。
具体的,对第一用户发放的优惠券可以看做网络平台的成本,而第一用户由于收到该优惠券而转化为第二用户在平台下单的金额,可以看做网络平台的回报。因此,可以根据S11中获取的第一用户在不同类型的优惠券下的敏感转化概率,以及S12中获取的第一用户的自然转化概率,获取不同类型的优惠券对应的回报指数。
可选的,根据如下公式分别获取不同类型的优惠券对应的回报指数。其中,不同类型的优惠券是指具有不同折扣率的优惠券,例如,7.0折的优惠券对应的折扣率为0.3,8.5折的优惠券对应的折扣率为0.15。
Figure BDA0001838455780000091
上述公式描述的是第一用户在收到折扣率为dt的优惠券对应的回报指数,具体的,gmvt为第一用户收到该优惠券情况下转化为第二用户产生的订单的回报金额,gmvc为第一用户未收到该优惠券情况下转化为第二用户产生的订单的回报金额;costt为所述优惠券对应的成本金额,costc为第一用户未收到优惠券情况下的成本金额;pt为该优惠券对应的敏感转化概率,pc为自然转化概率,price为订单金额,dt为该优惠券对应的折扣率,dc为第一用户自然转化为第二用户情况下对应的折扣率,即dc=0;ROI为该优惠券对应的回报指数。
S14:根据所述回报指数,将最大回报指数对应的数据对象类型确定为所述第一用户的目标数据对象类型。
举例说明,假设S13中分别获取了对第一用户发放7.0折、7.5折、8.0折、8.5折、9.0折、9.5折的优惠券对应的回报指数,其中8.0折优惠券对应的回报指数最大,则确定为第一用户发放8.0折的优惠券。
可选的,所述特征信息包括:所述第一用户的沉默前特征、沉默期的行为特征和沉默期的状态特征。
其中,所述沉默前特征包括:所述第一用户在沉默前预设时长内的人口学信息、喜好信息、交易信息和评价信息,例如:第一用户在沉默前一个月的人口学信息、喜好信息、完单量、支付金额、是否存在差评等,其中,人口学信息可以包括第一用户的性别、年龄、职业和住址等,喜好信息可以包括根据数据挖掘得到的第一用户的出行时间偏好和出行路线偏好等。
所述沉默期的行为特征包括:所述第一用户在沉默期是否尝试交易,例如:第一用户在沉默期内是否曾打开网络平台、是否曾尝试下单等。
所述沉默期的状态特征包括:所述第一用户在沉默期的订单状态和账户状态,例如:第一用户的最后一单是否已支付、账户中是否存在优惠券等。
本实施例中,根据将第一用户的特征信息输入至敏感转化模型,获取所述第一用户在不同类型的数据对象下的敏感转化概率,将所述第一用户的特征信息输入至自然转化模型,获取所述第一用户的自然转化概率,根据所述敏感转化概率和所述自然转化概率,分别获取所述不同类型的数据对象对应的回报指数,将最大回报指数对应的数据对象类型确定为所述第一用户的目标数据对象类型,由于在针对第一用户确定目标数据对象类型时,同时考虑了敏感转化概率、自然转化概率以及回报指数,使得最终确定的数据对象类型,能够在保证预算和收益的前提下,最大概率的使其转化为第二用户,提高网络平台的运营效率。
图2为本发明提供的数据对象类型的确定方法实施例中获取敏感转化模型的流程图,在图1所示实施例的基础上,本实施例对敏感转化模型的训练过程的其中一种可选实施方式进行了详细描述,如图2所示,可以具体包括:
S21:对历史数据进行采样,生成第一训练样本集,所述第一训练样本集中的样本由采样时刻拥有数据对象的第一用户组成。
其中,第一训练样本集由采样时刻拥有优惠券的第一用户组成,可以利用第一训练样本集的样本的特征信息以及样本的行为信息,对第一训练样本集的样本进行训练,得到特征信息和行为信息之间的关系模型。其中,样本的行为信息是指样本在观察时间窗内是否下单,观察时间窗可以是预设时长的时间段,例如:采样时刻之后的五天时间、采样时刻之后的七天时间或采样时刻之后的十天时间等。
具体的,以网络打车平台为例,可以在某个历史时刻对数据库中的历史数据进行采样,得到第一训练样本集,例如,根据平台的实际运营情况,可以在促销活动发放优惠券的时刻,对历史数据进行采样,将采样时刻拥有优惠券的第一用户组成第一训练样本集。
可以理解的,为了达到较好的训练结果,通常第一训练样本集中的样本数量需要达到一定的规模。需要说明的是,对于第一训练样本集中的样本的具体数量,本发明不作具体限定,可以根据实际应用场景进行合理设置。
可选的,若在一个历史时刻得到的样本数量较少,可以选择多个历史时刻对数据库中的历史数据进行采样,例如:分别对当前时刻一周之前、两周之前、三周之前的历史数据进行采样,将得到的3份样本数据进行累加,得到第一训练样本集,以使第一训练样本集中的样本数量满足训练要求。
其中,第一训练样本集中的每个第一用户可能拥有一张或者多张优惠券,若第一用户在拥有优惠券的情况下,在观察时间窗内下单,可以理解为促使该第一用户下单的是多种优惠券中折扣率最大的那种优惠券。因此,在进行训练时,只需要考虑第一用户的折扣率最大的优惠券。
S22:对所述第一训练样本集进行预处理。
具体的,通过对历史数据进行采样得到第一训练样本集后,可以通过对第一训练样本集进行预处理,以使第一训练样本集中的样本更纯净、分布更均匀,从而使训练结果更准确。
图3为本发明实施例二中对第一训练样本集进行预处理的流程图,如图3所述,预处理的过程可以包括但不限于如下两个步骤。
S221:若所述第一训练样本集中的样本在所述观察时间窗内又收到了新的数据对象,则将所述样本从所述第一训练样本集中去除。
可以理解的,若第一训练样本集中的某一样本在观察时间窗内又收到了新的优惠券,在这种情况下,当该样本在观察时间窗内进行下单,即转化为第二用户时,则无法确定该样本是在哪张优惠券的刺激下进行的下单,也就是说,该样本为噪声样本,可能会影响训练结果的准确性,因此,应该将该样本从第一训练样本集中去除,以使第一训练样本集中的样本更纯净。
进一步的,由于只有当新的折扣券的折扣率比之前拥有的折扣券的折扣率大的情况下,才会影响训练结果的准确性,因此,可选的,若第一训练样本集中的样本在观察时间窗内又收到了新的优惠券,且该新的优惠券的折扣率比之前拥有的折扣券的折扣率大,则将所述样本从第一训练样本集中去除。
S222:对所述第一训练样本集中数据对象类型占比多的样本进行下采样,对所述第一训练样本集中数据对象类型占比少的样本进行上采样。
具体的,通过对历史数据进行采样得到第一训练样本集,可能存在样本分布不均匀的情况,例如:第一训练样本集中拥有7.0折优惠券的样本数量较多,拥有8.5折优惠券的样本数量较少,这样也会影响训练结果的准确性,因此,可以对第一训练样本集中样本进行二次采样,从而使得样本分布更加均匀。
其中,对第一训练样本集中的优惠券类型占比多的样本进行下采样,优惠券类型占比少的样本进行上采样,例如:拥有7.0折优惠券的样本数量为10万个,拥有8.5折优惠券的样本数量为2万个,则可以通过下采样的方法使拥有7.0折优惠券的样本数量降低,通过上采样的方法使拥有8.5折优惠券的样本数量升高。具体下采样和上采样的方法,本发明不作具体限定,可以采样现有技术中的任意采样方法实现。
S23:以所述第一训练样本集中的样本的特征信息和所述数据对象的类型作为输入,以所述第一训练样本集中的样本在观察时间窗内是否转化为第二用户作为输出,对所述第一训练样本集进行训练,得到敏感转化模型。
上述对第一训练样本集训练的方法可以有多种,例如:神经网络学习算法、决策树学习算法、贝叶斯学习算法等等。可选的,采用XGBoost算法对第一训练样本集进行训练,得到券敏感转化模型。
具体的,经过上述步骤得到敏感转化模型后,该模型可用于预测第一用户的敏感转化概率,具体的,向敏感转化模型中输入第一用户的特征信息和数据对象的类型,则可以预测得到该第一用户在该数据对象下的敏感转化概率。
本实施例中,通过对历史数据进行采样,生成第一训练样本集,对第一训练样本集进行去噪提纯和二次采样预处理后,对第一训练样本集进行训练,得到敏感转化模型,进而,可以将第一用户的特征信息输入至敏感转化模型,预测该第一用户在不同类型的数据对象下的敏感转化概率;由于敏感转化模型是根据大量的历史数据经过训练得到的,采用该敏感转化模型预测得到的敏感转化概率更加准确。
图4为本发明提供的数据对象类型的确定方法实施例中获取自然转化模型的流程图,在上述实施例的基础上,本实施例对获取自然转化模型的其中一种可选实施方式进行了详细描述,如图4所示,可以具体包括:
S41:对历史数据进行采样,生成第二训练样本集,所述第二训练样本集中的样本由采样时刻未拥有任何数据对象的第一用户组成。
S42:若所述第二训练样本集中的样本在观察时间窗内收到了数据对象,则将所述样本从所述第二训练样本集中去除。
S43:以所述第二训练样本集中的样本的特征信息作为输入,以所述第二训练样本集中的样本在所述观察时间窗内是否转化为第二用户作为输出,对所述第二训练样本集进行训练,得到自然转化模型。
具体的,第二训练样本集由采样时刻未拥有任何数据对象的第一用户组成,可以利用第二训练样本集的样本的特征信息以及样本的行为信息,对第二训练样本集的样本进行训练,得到自然转化模型。该模型可用于预测第一用户的自然转化概率,具体的,向自然转化模型中输入第一用户的特征信息,则可以预测得到该第一用户的自然转化概率。
可以理解的,对第二训练样本集进行采样以及训练的过程与上述实施例中第一训练样本集的训练过程类似,不同之处在于,由于第二训练样本集中的样本未拥有数据对象,因此不需要根据数据对象类型占比进行二次采样的过程。因此,S41-S43的具体实施过程可参考实施例二的详细描述,此处不再赘述。
本实施例中,通过对历史数据进行采样,生成第二训练样本集,对第二训练样本集进行去噪提纯预处理后,对第二训练样本集进行训练,得到自然转化模型,进而,可以将第一用户的特征信息输入自然转化模型,预测该第一用户的自然转化概率;由于自然转化模型是根据大量历史数据经过训练得到的,采用该自然转化模型预测得到的自然转化概率更加准确。
图5为本发明提供的数据对象类型的确定装置实施例一的结构示意图,如图5所示,本实施例的数据对象类型的确定装置500包括:第一获取模块501、第二获取模块502、第三获取模块503和确定模块504。
其中,第一获取模块501,用于将第一用户的特征信息输入至敏感转化模型,获取所述第一用户在不同类型的数据对象下的敏感转化概率,所述敏感转化概率是指所述第一用户在拥有所述数据对象情况下转化为第二用户的概率。
第二获取模块502,用于将所述第一用户的特征信息输入至自然转化模型,获取所述第一用户的自然转化概率,所述自然转化概率是指所述第一用户在未拥有任何数据对象情况下转化为第二用户的概率。
第三获取模块503,用于根据所述敏感转化概率和所述自然转化概率,分别获取所述不同类型的数据对象对应的回报指数。
确定模块504,用于根据所述回报指数,将最大回报指数对应的数据对象类型确定为所述第一用户的目标数据对象类型。
可选的,第三获取模块503,具体用于根据公式
Figure BDA0001838455780000141
分别获取所述不同类型的数据对象对应的回报指数,所述不同类型的是指具有不同折扣率的;其中,dt为所述数据对象对应的折扣率的类型,pt为所述数据对象对应的敏感转化概率,pc为自然转化概率,ROI为所述数据对象对应的回报指数。
可选的,如图5所示,本实施例的装置还包括:第一训练模块505,用于:
对历史数据进行采样,生成第一训练样本集,所述第一训练样本集中的样本由采样时刻拥有数据对象的第一用户组成;对所述第一训练样本集进行预处理;以所述第一训练样本集中的样本的特征信息和所述数据对象的类型作为输入,以所述第一训练样本集中的样本在观察时间窗内是否转化为第二用户作为输出,对所述第一训练样本集进行训练,得到敏感转化模型。
可选的,所述第一训练模块505,具体用于若所述第一训练样本集中的样本在所述观察时间窗内又收到了新的数据对象,则将所述样本从所述第一训练样本集中去除。
可选的,所述第一训练模块505,具体用于对所述第一训练样本集中数据对象类型占比多的样本进行下采样,对所述第一训练样本集中数据对象类型占比少的样本进行上采样。
可选的,如图5所示,本实施例的装置还包括:第二训练模块506,用于:
对历史数据进行采样,生成第二训练样本集,所述第二训练样本集中的样本由采样时刻未拥有任何数据对象的第一用户组成;若所述第二训练样本集中的样本在观察时间窗内收到了数据对象,则将所述样本从所述第二训练样本集中去除;以所述第二训练样本集中的样本的特征信息作为输入,以所述第二训练样本集中的样本在所述观察时间窗内是否转化为第二用户作为输出,对所述第二训练样本集进行训练,得到自然转化模型。
可选的,所述特征信息包括:所述第一用户的沉默前特征、沉默期的行为特征和沉默期的状态特征;其中,所述沉默前特征包括:所述第一用户在沉默前预设时长内的人口学信息、喜好信息、交易信息和评价信息;所述沉默期的行为特征包括:所述第一用户在沉默期是否尝试交易;所述沉默期的状态特征包括:所述第一用户在沉默期的订单状态和账户状态。
本实施例提供的数据对象类型的确定装置,可用于上述任一方法实施例,其实现原理和技术效果类似,此处不再赘述。
图6为本发明提供的数据对象类型的确定装置实施例二的结构示意图,如图6所示,本实施例的数据对象类型的确定装置600包括:存储器601、至少一个处理器602和计算机程序。
其中,所述计算机程序存储在存储器601中,并被配置为由处理器602执行以实现上述实施例的数据对象类型的确定方法,其实现原理和技术效果,此处不再赘述。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例的数据对象类型的确定方法,其实现原理和技术效果类似,此处不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在上述网络设备或者终端设备的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:ApplicationSpecific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种数据对象类型的确定方法,其特征在于,包括:
将第一用户的特征信息输入至敏感转化模型,获取所述第一用户在不同类型的数据对象下的敏感转化概率,所述敏感转化概率是指所述第一用户在拥有所述数据对象情况下转化为第二用户的概率;
将所述第一用户的特征信息输入至自然转化模型,获取所述第一用户的自然转化概率,所述自然转化概率是指所述第一用户在未拥有任何数据对象情况下转化为第二用户的概率;
根据所述敏感转化概率和所述自然转化概率,分别获取所述不同类型的数据对象对应的回报指数;
根据所述回报指数,将最大回报指数对应的数据对象类型确定为所述第一用户的目标数据对象类型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述敏感转化概率和所述自然转化概率,分别获取所述不同类型的数据对象对应的回报指数,包括:
根据公式
Figure FDA0001838455770000011
分别获取所述不同类型的数据对象对应的回报指数;
其中,dt为所述数据对象的类型,pt为所述数据对象对应的敏感转化概率,pc为自然转化概率,ROI为所述数据对象对应的回报指数。
3.根据权利要求1所述的方法,其特征在于,所述将第一用户的特征信息输入至敏感转化模型之前,还包括:
对历史数据进行采样,生成第一训练样本集,所述第一训练样本集中的样本由采样时刻拥有数据对象的第一用户组成;
对所述第一训练样本集进行预处理;
以所述第一训练样本集中的样本的特征信息和所述数据对象的类型作为输入,以所述第一训练样本集中的样本在观察时间窗内是否转化为第二用户作为输出,对所述第一训练样本集进行训练,得到敏感转化模型。
4.根据权利要求3所述的方法,其特征在于,所述对所述第一训练样本集进行预处理,包括:
若所述第一训练样本集中的样本在所述观察时间窗内又收到了新的数据对象,则将所述样本从所述第一训练样本集中去除。
5.根据权利要求4所述的方法,其特征在于,所述对所述第一训练样本集进行预处理,还包括:
对所述第一训练样本集中数据对象类型占比多的样本进行下采样,对所述第一训练样本集中数据对象类型占比少的样本进行上采样。
6.根据权利要求1所述的方法,其特征在于,所述将所述第一用户的特征信息输入至自然转化模型之前,还包括:
对历史数据进行采样,生成第二训练样本集,所述第二训练样本集中的样本由采样时刻未拥有任何数据对象的第一用户组成;
若所述第二训练样本集中的样本在观察时间窗内收到了数据对象,则将所述样本从所述第二训练样本集中去除;
以所述第二训练样本集中的样本的特征信息作为输入,以所述第二训练样本集中的样本在所述观察时间窗内是否转化为第二用户作为输出,对所述第二训练样本集进行训练,得到自然转化模型。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述特征信息包括:所述第一用户的沉默前特征、沉默期的行为特征和沉默期的状态特征;
所述沉默前特征包括:所述第一用户在沉默前预设时长内的人口学信息、喜好信息、交易信息和评价信息;所述沉默期的行为特征包括:所述第一用户在沉默期是否尝试交易;所述沉默期的状态特征包括:所述第一用户在沉默期的订单状态和账户状态。
8.一种数据对象类型的确定装置,其特征在于,包括:
第一获取模块,用于将第一用户的特征信息输入至敏感转化模型,获取所述第一用户在不同类型的数据对象下的敏感转化概率,所述敏感转化概率是指所述第一用户在拥有所述数据对象情况下转化为第二用户的概率;
第二获取模块,用于将所述第一用户的特征信息输入至自然转化模型,获取所述第一用户的自然转化概率,所述自然转化概率是指所述第一用户在未拥有任何数据对象情况下转化为第二用户的概率;
第三获取模块,用于根据所述敏感转化概率和所述自然转化概率,分别获取所述不同类型的数据对象对应的回报指数;
确定模块,用于根据所述回报指数,将最大回报指数对应的数据对象类型确定为所述第一用户的目标数据对象类型。
9.一种数据对象类型的确定装置,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;
所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。
CN201811237122.7A 2018-10-23 2018-10-23 数据对象类型的确定方法及装置 Pending CN111090677A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811237122.7A CN111090677A (zh) 2018-10-23 2018-10-23 数据对象类型的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811237122.7A CN111090677A (zh) 2018-10-23 2018-10-23 数据对象类型的确定方法及装置

Publications (1)

Publication Number Publication Date
CN111090677A true CN111090677A (zh) 2020-05-01

Family

ID=70392575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811237122.7A Pending CN111090677A (zh) 2018-10-23 2018-10-23 数据对象类型的确定方法及装置

Country Status (1)

Country Link
CN (1) CN111090677A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435066A (zh) * 2020-11-27 2021-03-02 北京沃东天骏信息技术有限公司 一种电子凭证发放方法、装置、终端及存储介质
CN113763019A (zh) * 2021-01-28 2021-12-07 北京沃东天骏信息技术有限公司 一种用户信息管理方法和装置
CN114493707A (zh) * 2022-01-28 2022-05-13 北京百度网讯科技有限公司 对象推荐方法和装置
CN114549071A (zh) * 2022-02-18 2022-05-27 上海钧正网络科技有限公司 一种营销策略的确定方法、装置、计算机设备及存储介质
WO2023123933A1 (zh) * 2021-12-30 2023-07-06 深圳前海微众银行股份有限公司 用户的类型信息的确定方法、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090024546A1 (en) * 2007-06-23 2009-01-22 Motivepath, Inc. System, method and apparatus for predictive modeling of spatially distributed data for location based commercial services
CN107093084A (zh) * 2016-08-01 2017-08-25 北京小度信息科技有限公司 潜在用户预测转化方法及装置
CN107578294A (zh) * 2017-09-28 2018-01-12 北京小度信息科技有限公司 用户行为预测方法、装置及电子设备
CN107688966A (zh) * 2017-08-22 2018-02-13 北京京东尚科信息技术有限公司 数据处理方法及其系统和非易失性存储介质
CN108053322A (zh) * 2017-12-15 2018-05-18 东峡大通(北京)管理咨询有限公司 车辆的用户投资回报估算方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090024546A1 (en) * 2007-06-23 2009-01-22 Motivepath, Inc. System, method and apparatus for predictive modeling of spatially distributed data for location based commercial services
CN107093084A (zh) * 2016-08-01 2017-08-25 北京小度信息科技有限公司 潜在用户预测转化方法及装置
CN107688966A (zh) * 2017-08-22 2018-02-13 北京京东尚科信息技术有限公司 数据处理方法及其系统和非易失性存储介质
CN107578294A (zh) * 2017-09-28 2018-01-12 北京小度信息科技有限公司 用户行为预测方法、装置及电子设备
CN108053322A (zh) * 2017-12-15 2018-05-18 东峡大通(北京)管理咨询有限公司 车辆的用户投资回报估算方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李洋著, 北京:光明日报出版社 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435066A (zh) * 2020-11-27 2021-03-02 北京沃东天骏信息技术有限公司 一种电子凭证发放方法、装置、终端及存储介质
CN113763019A (zh) * 2021-01-28 2021-12-07 北京沃东天骏信息技术有限公司 一种用户信息管理方法和装置
WO2023123933A1 (zh) * 2021-12-30 2023-07-06 深圳前海微众银行股份有限公司 用户的类型信息的确定方法、设备及存储介质
CN114493707A (zh) * 2022-01-28 2022-05-13 北京百度网讯科技有限公司 对象推荐方法和装置
CN114549071A (zh) * 2022-02-18 2022-05-27 上海钧正网络科技有限公司 一种营销策略的确定方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN111090677A (zh) 数据对象类型的确定方法及装置
CN109389431B (zh) 优惠券的分配方法、装置、电子设备及可读存储介质
US8452611B1 (en) Method and apparatus for assessing credit for healthcare patients
WO2019196579A1 (zh) 智能券的发放方法、装置及利用智能券的核销方法、装置
CN109615454A (zh) 确定用户金融违约风险的方法及装置
CN109299356B (zh) 基于大数据的活动推荐方法、装置、电子设备及存储介质
US20140337171A1 (en) System and method for consumer-merchant transaction analysis
US20210398210A1 (en) Systems and methods of transaction tracking and analysis for near real-time individualized credit scoring
CN110992097A (zh) 营收产品价格的处理方法、装置、计算机设备及存储介质
CN110543947B (zh) 一种基于强化学习模型的奖励资源发放方法和装置
CN106780008A (zh) 一种积分管理方法和装置
US20230206333A1 (en) Systems and methods for measurement of data to provide decision support
JP2019114019A (ja) 情報処理装置、判定方法及びプログラム
US20250219891A1 (en) Alerting networked devices of signal divergence by georegion
JP2003114977A (ja) 顧客生涯価値算出方法およびシステム
CN110232150A (zh) 一种用户数据分析方法、装置、可读存储介质及终端设备
US9286639B1 (en) System and method for providing price information
CN110796379B (zh) 业务渠道的风险评估方法、装置、设备及存储介质
CN117035846A (zh) 信息预测方法、装置及相关设备
CN110580634A (zh) 基于互联网的业务推荐方法、装置及存储介质
US20160148323A1 (en) System and method for crediting users respective of a value-added tax reclaim
CN109993648B (zh) 一种数据处理方法和相关装置
WO2018016317A1 (ja) ビッグデータを使用した保険料算出の方法
CN111882339A (zh) 预测模型训练及响应率预测方法、装置、设备及存储介质
JP7317417B1 (ja) 金券類売買システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200501

WD01 Invention patent application deemed withdrawn after publication