[go: up one dir, main page]

CN111538761A - 基于注意力机制的点击率预测方法 - Google Patents

基于注意力机制的点击率预测方法 Download PDF

Info

Publication number
CN111538761A
CN111538761A CN202010317646.8A CN202010317646A CN111538761A CN 111538761 A CN111538761 A CN 111538761A CN 202010317646 A CN202010317646 A CN 202010317646A CN 111538761 A CN111538761 A CN 111538761A
Authority
CN
China
Prior art keywords
vector
layer
attention mechanism
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010317646.8A
Other languages
English (en)
Inventor
邓晓衡
刘良知
李海霞
刘梦杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010317646.8A priority Critical patent/CN111538761A/zh
Publication of CN111538761A publication Critical patent/CN111538761A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于注意力机制的点击率预测方法,包括:步骤1,对用户的特征进行预处理,将同一类用户特征进行One‑hot独热编码,得到一个高维度的稀疏特征向量;步骤2,将高维度的稀疏特征向量通过嵌入向量对特征向量进行降维,将降维后的特征向量作为点击率模型的输入向量分别带入到压缩交互网络和深度神经网络之中;步骤3,将输入的初始特征向量与每一个隐藏层的输入向量进行哈达玛积,将得到的结果作为下一个隐藏层输入值,每多一个隐藏层,特征之间的组合就上升一个维度。本发明综合考虑了用户的低维特征、显式高维特征和隐式高维特征,并通过自注意力机制筛选有用的特征组合,提高预测效率,不需要人工提取特征,可以提取高维度的特征组合。

Description

基于注意力机制的点击率预测方法
技术领域
本发明涉及互联网应用技术领域,特别涉及一种基于注意力机制的点击率预测方法。
背景技术
随着互联网信息的爆炸性增长,计算机科学领域尤其是人工智能技术也取得了巨大的进步。作为计算机科学和应用科学的一个分支,它主要研究如何利用机器来模拟、延伸和扩展人类大脑的思维过程(比如记忆、学习、推理和决策)。目前人工智能技术己经成功应用于自动驾驶、医疗诊断、语言识别、图像识别、金融大数据等诸多领域。
尽管目前工业界对点击率预估有较深入的研究,但是这些模型也存在的一些问题,如数据量大、数据稀疏等,目前工业界还是偏于使用浅层的模型来解决,因为使用复杂模型难以训练、不易部署到生产环境中及解释性弱等缺点,使用浅层模型将更多的注意力专注于人工构造特征及一些特征间简单的运算等方式构造显性的组合特征来提高点击率预估模型的性能,并没有深度的挖掘数据间隐性的组合特征和特征内在的那些高度非线性关系等隐含信息,所以对于广告点击率预估问题还有很大的研究意义。现在应用比较广的算法通常是GBDT+LR模型,Wide&Deep模型。但是这些模型存在需要人工提取特征,无法提取高维度的特征组合的问题。而一些能自动提取的模型,如Deep FM模型等都存在训练方式是隐式特征,容易导致维度过高的问题。目前虽然Deep&Cross模型可以解决这个问题,但是Deep&Cross模型是属于元素级别的交互,它并不能很好的表示特征交互向量。
发明内容
本发明提供了一种基于注意力机制的点击率预测方法,其目的是为了解决传统模型需要人工提取特征,无法提取高维度的特征组合,容易导致维度过高的问题。
为了达到上述目的,本发明的实施例提供了一种基于注意力机制的点击率预测方法,包括:
步骤1,对用户的特征进行预处理,将同一类用户特征进行One-hot独热编码,得到一个高维度的稀疏特征向量;
步骤2,将高维度的稀疏特征向量通过嵌入向量对特征向量进行降维,将降维后的特征向量作为点击率模型的输入向量分别带入到压缩交互网络和深度神经网络之中;
步骤3,将输入的初始特征向量与每一个隐藏层的输入向量进行哈达玛积,将得到的结果作为下一个隐藏层输入值,每多一个隐藏层,特征之间的组合就上升一个维度;
步骤4,将每层得到的结果向量经过自注意力机制得到有用的组合特征,对组合特征进行求和池化;
步骤5,将池化后的结果与深度神经网络得到的结果简化拼接成新的特征向量并带入到输出层得到预测值。
其中,所述步骤1具体包括:
收集用户特征的数据集Ⅹ={x1,x2,……xN}为总的训练样本数量,xi∈{x1,x2,……xN},xi表示第i个待处理的用户特征数据。
其中,所述步骤1还包括:
利用独热编码将用户特征转化成一个高维稀疏特征向量。
其中,所述步骤2具体包括:
通过一个嵌入层向量来转化成低维的组合特征,将稀疏的向量映射到相对稠密且向量元素都不为零的空间向量中。
其中,所述步骤2还包括:
通过标准化的方法将原始数据处理成均值为0,方差为1的数据,标准化之后的数据使用xnorm表示,具体计算公式如下:
Figure BDA0002460043810000021
其中,x表示连续值数据,μ表示原始数据的方差,σ表示原始数据的均值。
其中,所述步骤3具体包括:
根据嵌入层得到的特征向量,将特征向量拼接成一个m×d的矩阵,其中,m是特征向量的个数,d是特征向量的维度,xk表示压缩交互网络中第k层隐层的状态,
Figure BDA0002460043810000031
是一个矩阵,其中,Hk代表第k层隐层的压缩特征个数,特征嵌入层称为第0层隐层,H0=m,对于压缩交互网络中的每一层隐层k的状态计算方程为:
Figure BDA0002460043810000032
其中,1≤h≤Hk
Figure BDA0002460043810000033
表示第h个特征向量的参数矩阵,式中“ο”表示哈达玛积,即两个向量间对应位元素的乘积操作,xk在xk-1的基础上与x0显式交互得到,xk的阶数比xk-1多且仅多一次,压缩交互网络每增加一层隐层,能获得的特征交互的最大阶数就增加1。
其中,所述步骤4具体包括:
通过将每一层经过向量交互的结果通过自注意力机制将不同的交互向量赋予不同的权值,将结果通过求和池化得到高维交互结果。
其中,所述步骤5具体包括:
将嵌入层的向量带入到深度神经网络之中,得到经过多层交互之后的结果,将深度神经网络得到的结果与压缩交互网络得到的结果压缩拼接成一个新的矩阵并带入到单层感知机之中得到最终的结果,输出结果公式如下所示:
Figure BDA0002460043810000034
其中,σ是sigmoid函数,xf是原始特征,
Figure BDA0002460043810000035
是DNN输出层的输出,ycin是CIN输出层的输出,
Figure BDA0002460043810000036
表示的是线性回归,DNN输出层和CIN输出层的权值矩阵,b是可学习的参数。
其中,所述步骤5还包括:
通过损失函数与梯度下降不断更新模型的权值参数,损失函数的公式如下所示:
Figure BDA0002460043810000037
其中,
Figure BDA0002460043810000038
表示模型预测的预测值,yi表示实际数据的真实值,N是训练实例的总数,优化过程是最小化以下目标函数:
Figure BDA0002460043810000039
其中,λ表示正则项,θ表示参数集,包括线性部分,CIN部分和DNN部分中的参数。
本发明的上述方案有如下的有益效果:
本发明的上述实施例所述的基于注意力机制的点击率预测方法,通过将Embedding层之后的稠密向量经过类似于残差网络的交互,将多次交互得到的结果通过自注意力机制进行求和池化,通过将深度神经网络的结果与压缩交互网络的结果拼接成一个新的向量,将新的向量输出得到结果,预测的结果更加准确和可靠,综合考虑了用户的低维特征、显式高维特征和隐式高维特征,通过注意力机制筛选有用的特征组合,提高预测效率,不需要人工提取特征,可以提取高维度的特征组合,不容易导致维度过高。
附图说明
图1为本发明的流程图;
图2为本发明的模型结构图;
图3为本发明的每一层交互网络的示意图;
图4为本发明的自注意力机制求和池化示意图;
图5为本发明的实验结果图;
图6为本发明的不同的网络层数对实验结果的影响示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的模型需要人工提取特征,无法提取高维度的特征组合,容易导致维度过高的问题,提供了一种基于注意力机制的点击率预测方法。
如图1至图6所示,本发明的实施例提供了一种基于注意力机制的点击率预测方法,包括:步骤1,对用户的特征进行预处理,将同一类用户特征进行One-hot独热编码,得到一个高维度的稀疏特征向量;步骤2,将高维度的稀疏特征向量通过嵌入向量对特征向量进行降维,将降维后的特征向量作为点击率模型的输入向量分别带入到压缩交互网络和深度神经网络之中;步骤3,将输入的初始特征向量与每一个隐藏层的输入向量进行哈达玛积,将得到的结果作为下一个隐藏层输入值,每多一个隐藏层,特征之间的组合就上升一个维度;步骤4,将每层得到的结果向量经过自注意力机制得到有用的组合特征,对组合特征进行求和池化;步骤5,将池化后的结果与深度神经网络得到的结果简化拼接成新的特征向量并带入到输出层得到预测值。
其中,所述步骤1具体包括:收集用户特征的数据集Ⅹ={x1,x2,……xN}为总的训练样本数量,xi∈{x1,x2,……xN},xi表示第i个待处理的用户特征数据。
其中,所述步骤1还包括:利用独热编码将用户特征转化成一个高维稀疏特征向量。
本发明的上述实施例所述的基于注意力机制的点击率预测方法,独热编码的编码方式比较简单,按照N位状态寄存器来对N个状态进行编码,如用户的基本信息为user=[用户ID=02,性别=男,兴趣爱好=摇滚],根据独热编码的定义转化成的向量就变成user=[0,1,0,…,0][1,0][0,1,0,…,0]这样的由0和1构成的向量。
其中,所述步骤2具体包括:通过一个嵌入层向量来转化成低维的组合特征,将稀疏的向量映射到相对稠密且向量元素都不为零的空间向量中。
其中,所述步骤2还包括:通过标准化的方法将原始数据处理成均值为0,方差为1的数据,标准化之后的数据使用xnorm表示,具体计算公式如下:
Figure BDA0002460043810000051
其中,x表示连续值数据,μ表示原始数据的方差,σ表示原始数据的均值。
本发明的上述实施例所述的基于注意力机制的点击率预测方法,针对One-hot编码存在特征维度过高的特点,通过一个嵌入层向量来转化成低维的组合特征,把稀疏的向量映射到相对稠密且向量元素都不为零的空间向量中,对于嵌入向量来说,初始的嵌入特征是随机数字生成的,通过梯度下降不断地迭代,最终得到准确的嵌入向量值,对于连续值来说,特征值需要经过归一化处理,具体来说就是通过标准化的方法将原始数据处理成均值为0,方差为1的数据,标准化的方法会改变原始数据的分布,对异常值不敏感,适合大数据场景。
其中,所述步骤3具体包括:根据嵌入层得到的特征向量,将特征向量拼接成一个m×d的矩阵,其中,m是特征向量的个数,d是特征向量的维度,xk表示压缩交互网络中第k层隐层的状态,
Figure BDA0002460043810000061
是一个矩阵,其中,Hk代表第k层隐层的压缩特征个数,特征嵌入层称为第0层隐层,H0=m,对于压缩交互网络中的每一层隐层k的状态计算方程为:
Figure BDA0002460043810000062
其中,1≤h≤Hk
Figure BDA0002460043810000063
表示第h个特征向量的参数矩阵,式中
Figure BDA0002460043810000067
表示哈达玛积,即两个向量间对应位元素的乘积操作,xk在xk-1的基础上与x0显式交互得到,xk的阶数比xk-1多且仅多一次,压缩交互网络每增加一层隐层,能获得的特征交互的最大阶数就增加1。
本发明的上述实施例所述的基于注意力机制的点击率预测方法,两个向量间对应位元素的乘积操作,例如,
Figure BDA0002460043810000068
Figure BDA0002460043810000069
其中,所述步骤4具体包括:通过将每一层经过向量交互的结果通过自注意力机制将不同的交互向量赋予不同的权值,将结果通过求和池化得到高维交互结果。
本发明的上述实施例所述的基于注意力机制的点击率预测方法,因为向量交互存在时间复杂度过高的缺陷,通过将每一层经过向量交互的结果通过自注意力机制将不同的交互向量赋予不同的权值,可以节省大量的时间。
其中,所述步骤5具体包括:将嵌入层的向量带入到深度神经网络之中,得到经过多层交互之后的结果,将深度神经网络得到的结果与压缩交互网络得到的结果压缩拼接成一个新的矩阵并带入到单层感知机之中得到最终的结果,输出结果公式如下所示:
Figure BDA0002460043810000064
其中,σ是sigmoid函数,xf是原始特征,
Figure BDA0002460043810000065
是DNN输出层的输出,ycin是CIN输出层的输出,
Figure BDA0002460043810000066
表示的是线性回归,DNN输出层和CIN输出层的权值矩阵,b是可学习的参数。
其中,所述步骤5还包括:通过损失函数与梯度下降不断更新模型的权值参数,损失函数的公式如下所示:
Figure BDA0002460043810000071
其中,
Figure BDA0002460043810000072
表示模型预测的预测值,yi表示实际数据的真实值,N是训练实例的总数,优化过程是最小化以下目标函数:
Figure BDA0002460043810000073
其中,λ表示正则项,θ表示参数集,包括线性部分,CIN部分和DNN部分中的参数。
本发明的上述实施例所述的基于注意力机制的点击率预测方法,模型训练及预测的实验部分采用了业界的公开数据集:大型的广告点击率预测Criteo数据集和基于上下文的APP推荐Frappe数据集。Criteo数据集总共包含大小11GB的连续7天的用户行为日志,大约有4100万条历史记录,每一条训练样本均包括39个不同字段的数据特征,其中,第一维11到第13维113为连续值匿名特征,C1到C26为离散值匿名特征,将这些经过脱敏处理的匿名特征主要包括用户特征、物品特征及环境特征,对于每个字段特征的具体含义是透明的。另外一个数据集是基于上文下的APP推荐Frappe数据集,每一条日志除了用户ID、物品ID之外包含8个上下文的类别特征,比如天气、城市、时间等,Frappe数据集中包含10个字段的特征C1-C10,全部都属于类别特征,没有数值特征,Frappe数据集规模相对小一些,一共有288609条训练样本。
将Criteo数据集和Frappe数据集随机取1/10的数据作为验证集,剩余数据作为训练集。所述基于注意力机制的点击率预测方法实验环境是基于Tensorflow3+python3.6来实现,通过在验证集上执行网格搜索的方式为每个模型找到一组最优的超参数。优化方法为Adam,学习率是0.001,批处理大小是4096,使用系数为0.0001的L2正则化,默认的隐藏节点个数:1.DNN输出层中为400;2.CIN输出层在Criteo数据集上为200,在Frappe数据集上是100,对于Deep&Cross中的CrossNet和CIN模型,因为数据的不同,将通过改变隐藏层的深度进行实验,并将每个模型最好的实验结果进行比较。
如图5所示,所述的基于注意力机制的点击率预测方法(Our’s)于其他模型实验结果的比较,从实验结果可以看出,LR模型是所有模型中表现最不好的一个,因为LR模型只能处理一些简单的低维度的特征组合,这说明对稀疏的数据通过深度学习的方法提取出其中的隐式特征是非常有必要的;其他的通过深度学习训练的模型如PNN、Wide&Deep、DeepFM、Deep&Cross,比FM模型的效果要好,说明真实的数据特征一般都是非常复杂的,像FM模型只能处理二维特征的并不能很好地处理三维以上的特征,所以FM模型在高维特征交互处理效果不是很好;DeepFM、Deep&Cross这两种混合模型的处理效果要比只考虑高维特征的PNN模型效果要好,这说明,有必要同时考虑低维交互特征和高维交互特征,Wide&Deep模型的效果不如PNN模型的原因是因为Wide&Deep模型的特征组合方式仍然是人工组合的;所述基于注意力机制的点击率预测方法预测结果要比Wide&Deep、DeepFM、Deep&Cross这三种混合模型要好,这说明了将显式高维特征进一步细分的必要,将显式特征拆分成高维特征和低维特征,并结合隐式高维特征(DNN训练出来的特征)的训练起到了一定的成效。与计算机视觉的几十层的网络深度相比较,所述基于注意力机制的点击率预测方法的模型的网络设置不是特别深,往往只需3层左右就能达到很好的效果。从图6中可知道,当网络层数小于3时,模型的训练结果在上升,当网络层数大于3时,模型的训练结果出现下降,这说明模型的层数越复杂,训练的效果越不好,容易产生过拟合。
本发明的上述实施例所述的基于注意力机制的点击率预测方法,将同一类用户特征通过独热编码将特征映射成为高维稀疏向量,再通过嵌入层Embedding将特征变成低维稠密向量,将特征向量分别带入到压缩交互网络和深度神经网络之中,压缩交互网络和深度神经网络通过将初始输入值与隐藏层的输入值进行矩阵对应位元素的乘积操作,得到下一层的输入值,并通过多个隐藏层的计算,得到每个隐藏层的输入向量,通过自注意力机制对每个隐藏层的输入向量进行权值计算,通过求和池化得到高维显式交互向量的结果,通过将深度神经网络中深度学习得到的结果与压缩交互网络的结果拼接之后通过激活函数输出结果,所述基于注意力机制的点击率预测方法在Criteo和Frappe公开数据集,综合考虑了用户的低维特征、显式高维特征和隐式高维特征,并通过注意力机制中的自注意力机制筛选有用的特征组合,提高预测效率,不需要人工提取特征,可以提取高维度的特征组合,不容易导致维度过高,提高了宽深度这一类模型对复杂组合特征提取的能力,所述基于注意力机制的点击率预测方法通过向量级别的相乘,而不是元素级别的相乘,并融合了注意力机制,使得预测效果更好。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于注意力机制的点击率预测方法,其特征在于,包括:
步骤1,对用户的特征进行预处理,将同一类用户特征进行One-hot独热编码,得到一个高维度的稀疏特征向量;
步骤2,将高维度的稀疏特征向量通过嵌入向量对特征向量进行降维,将降维后的特征向量作为点击率模型的输入向量分别带入到压缩交互网络和深度神经网络之中;
步骤3,将输入的初始特征向量与每一个隐藏层的输入向量进行哈达玛积,将得到的结果作为下一个隐藏层输入值,每多一个隐藏层,特征之间的组合就上升一个维度;
步骤4,将每层得到的结果向量经过自注意力机制得到有用的组合特征,对组合特征进行求和池化;
步骤5,将池化后的结果与深度神经网络得到的结果简化拼接成新的特征向量并带入到输出层得到预测值。
2.根据权利要求1所述的基于注意力机制的点击率预测方法,其特征在于,所述步骤1具体包括:
收集用户特征的数据集Ⅹ={x1,x2,……xN}为总的训练样本数量,xi∈{x1,x2,……xN},xi表示第i个待处理的用户特征数据。
3.根据权利要求2所述的基于注意力机制的点击率预测方法,其特征在于,所述步骤1还包括:
利用独热编码将用户特征转化成一个高维稀疏特征向量。
4.根据权利要求3所述的基于注意力机制的点击率预测方法,其特征在于,所述步骤2具体包括:
通过一个嵌入层向量来转化成低维的组合特征,将稀疏的向量映射到相对稠密且向量元素都不为零的空间向量中。
5.根据权利要求4所述的基于注意力机制的点击率预测方法,其特征在于,所述步骤2还包括:
通过标准化的方法将原始数据处理成均值为0,方差为1的数据,标准化之后的数据使用xnorm表示,具体计算公式如下:
Figure FDA0002460043800000021
其中,x表示连续值数据,μ表示原始数据的方差,σ表示原始数据的均值。
6.根据权利要求5所述的基于注意力机制的点击率预测方法,其特征在于,所述步骤3具体包括:
根据嵌入层得到的特征向量,将特征向量拼接成一个m×d的矩阵,其中,m是特征向量的个数,d是特征向量的维度,xk表示压缩交互网络中第k层隐层的状态,
Figure FDA0002460043800000022
是一个矩阵,其中,Hk代表第k层隐层的压缩特征个数,特征嵌入层称为第0层隐层,H0=m,对于压缩交互网络中的每一层隐层k的状态计算方程为:
Figure FDA0002460043800000023
其中,1≤h≤Hk
Figure FDA0002460043800000024
表示第h个特征向量的参数矩阵,式中
Figure FDA0002460043800000025
表示哈达玛积,即两个向量间对应位元素的乘积操作,xk在xk-1的基础上与x0显式交互得到,xk的阶数比xk-1多且仅多一次,压缩交互网络每增加一层隐层,能获得的特征交互的最大阶数就增加1。
7.根据权利要求6所述的基于注意力机制的点击率预测方法,其特征在于,所述步骤4具体包括:
通过将每一层经过向量交互的结果通过自注意力机制将不同的交互向量赋予不同的权值,将结果通过求和池化得到高维交互结果。
8.根据权利要求7所述的基于注意力机制的点击率预测方法,其特征在于,所述步骤5具体包括:
将嵌入层的向量带入到深度神经网络之中,得到经过多层交互之后的结果,将深度神经网络得到的结果与压缩交互网络得到的结果压缩拼接成一个新的矩阵并带入到单层感知机之中得到最终的结果,输出结果公式如下所示:
Figure FDA0002460043800000026
其中,σ是sigmoid函数,xf是原始特征,
Figure FDA0002460043800000027
是DNN输出层的输出,ycin是CIN输出层的输出,
Figure FDA0002460043800000028
表示的是线性回归,DNN输出层和CIN输出层的权值矩阵,b是可学习的参数。
9.根据权利要求8所述的基于注意力机制的点击率预测方法,其特征在于,所述步骤5还包括:
通过损失函数与梯度下降不断更新模型的权值参数,损失函数的公式如下所示:
Figure FDA0002460043800000031
其中,
Figure FDA0002460043800000032
表示模型预测的预测值,yi表示实际数据的真实值,N是训练实例的总数,优化过程是最小化以下目标函数:
Figure FDA0002460043800000033
其中,λ表示正则项,θ表示参数集,包括线性部分,CIN部分和DNN部分中的参数。
CN202010317646.8A 2020-04-21 2020-04-21 基于注意力机制的点击率预测方法 Pending CN111538761A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010317646.8A CN111538761A (zh) 2020-04-21 2020-04-21 基于注意力机制的点击率预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010317646.8A CN111538761A (zh) 2020-04-21 2020-04-21 基于注意力机制的点击率预测方法

Publications (1)

Publication Number Publication Date
CN111538761A true CN111538761A (zh) 2020-08-14

Family

ID=71979143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010317646.8A Pending CN111538761A (zh) 2020-04-21 2020-04-21 基于注意力机制的点击率预测方法

Country Status (1)

Country Link
CN (1) CN111538761A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737586A (zh) * 2020-08-19 2020-10-02 腾讯科技(深圳)有限公司 信息推荐方法、装置、设备及计算机可读存储介质
CN112270568A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 面向隐藏信息的社交电商平台营销活动下单率预测方法
CN112492396A (zh) * 2020-12-08 2021-03-12 中国计量大学 一种基于细粒度的多方面分析的短视频点击率预测方法
CN112559877A (zh) * 2020-12-24 2021-03-26 齐鲁工业大学 基于跨平台异构数据及行为上下文的ctr预估方法及系统
CN112633931A (zh) * 2020-12-28 2021-04-09 广州博冠信息科技有限公司 点击率预测方法、装置、电子设备及介质
CN112633937A (zh) * 2020-12-30 2021-04-09 上海数鸣人工智能科技有限公司 基于深度自动编码器降维结合梯度提升决策树的营销预测方法
CN112733918A (zh) * 2020-12-31 2021-04-30 中南大学 基于注意力机制的图分类方法及化合物毒性预测方法
CN113010774A (zh) * 2021-02-24 2021-06-22 四川省人工智能研究院(宜宾) 一种基于动态深度注意力模型的点击率预测方法
CN113220974A (zh) * 2021-05-31 2021-08-06 北京爱奇艺科技有限公司 点击率预测模型训练、搜索召回方法、装置、设备及介质
CN113298084A (zh) * 2021-04-01 2021-08-24 山东师范大学 用于语义分割的特征图提取方法及系统
CN113407663A (zh) * 2020-11-05 2021-09-17 腾讯科技(深圳)有限公司 基于人工智能的图文内容质量识别方法和装置
CN113535800A (zh) * 2021-06-03 2021-10-22 同盾科技有限公司 信贷场景下的特征表示方法、电子设备和存储介质
CN113656272A (zh) * 2021-08-16 2021-11-16 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质、用户设备及服务器
CN114358364A (zh) * 2021-11-20 2022-04-15 重庆邮电大学 一种基于注意力机制的短视频点击率大数据预估方法
CN115018552A (zh) * 2022-06-28 2022-09-06 中国科学技术大学 产品点击率确定方法
CN115081583A (zh) * 2022-04-13 2022-09-20 北京小米移动软件有限公司 数据处理方法及装置、电子设备及存储介质
CN115545211A (zh) * 2022-10-18 2022-12-30 安徽大学 一种基于傅里叶变换的点击率预测方法
CN115809372A (zh) * 2023-02-03 2023-03-17 中国科学技术大学 基于解耦不变学习的点击率预测模型的训练方法及装置
CN116304324A (zh) * 2023-03-13 2023-06-23 特斯联科技集团有限公司 一种点击率预测方法、系统、设备和可读存储介质
CN116932883A (zh) * 2022-04-07 2023-10-24 创鑫智慧股份有限公司 嵌入表生成方法与嵌入表浓缩方法
US20240005159A1 (en) * 2022-06-30 2024-01-04 Neuchips Corporation Simplification device and simplification method for neural network model
CN119543956A (zh) * 2025-01-23 2025-02-28 阿里健康科技(中国)有限公司 人群数据的压缩存储方法、解压方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062893A (zh) * 2018-07-13 2018-12-21 华南理工大学 一种基于全文注意力机制的商品名称识别方法
CN109960759A (zh) * 2019-03-22 2019-07-02 中山大学 基于深度神经网络的推荐系统点击率预测方法
WO2019240900A1 (en) * 2018-06-12 2019-12-19 Siemens Aktiengesellschaft Attention loss based deep neural network training
US20200073937A1 (en) * 2018-08-30 2020-03-05 International Business Machines Corporation Multi-aspect sentiment analysis by collaborative attention allocation
CN110991464A (zh) * 2019-11-08 2020-04-10 华南理工大学 一种基于深度多模态数据融合的商品点击率预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019240900A1 (en) * 2018-06-12 2019-12-19 Siemens Aktiengesellschaft Attention loss based deep neural network training
CN109062893A (zh) * 2018-07-13 2018-12-21 华南理工大学 一种基于全文注意力机制的商品名称识别方法
US20200073937A1 (en) * 2018-08-30 2020-03-05 International Business Machines Corporation Multi-aspect sentiment analysis by collaborative attention allocation
CN109960759A (zh) * 2019-03-22 2019-07-02 中山大学 基于深度神经网络的推荐系统点击率预测方法
CN110991464A (zh) * 2019-11-08 2020-04-10 华南理工大学 一种基于深度多模态数据融合的商品点击率预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIANXUN LIAN等: "xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems" *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737586A (zh) * 2020-08-19 2020-10-02 腾讯科技(深圳)有限公司 信息推荐方法、装置、设备及计算机可读存储介质
CN112270568A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 面向隐藏信息的社交电商平台营销活动下单率预测方法
CN112270568B (zh) * 2020-11-02 2022-07-12 重庆邮电大学 面向隐藏信息的社交电商平台营销活动下单率预测方法
CN113407663A (zh) * 2020-11-05 2021-09-17 腾讯科技(深圳)有限公司 基于人工智能的图文内容质量识别方法和装置
CN113407663B (zh) * 2020-11-05 2024-03-15 腾讯科技(深圳)有限公司 基于人工智能的图文内容质量识别方法和装置
CN112492396A (zh) * 2020-12-08 2021-03-12 中国计量大学 一种基于细粒度的多方面分析的短视频点击率预测方法
CN112559877A (zh) * 2020-12-24 2021-03-26 齐鲁工业大学 基于跨平台异构数据及行为上下文的ctr预估方法及系统
CN112633931B (zh) * 2020-12-28 2025-02-07 广州博冠信息科技有限公司 点击率预测方法、装置、电子设备及介质
CN112633931A (zh) * 2020-12-28 2021-04-09 广州博冠信息科技有限公司 点击率预测方法、装置、电子设备及介质
CN112633937A (zh) * 2020-12-30 2021-04-09 上海数鸣人工智能科技有限公司 基于深度自动编码器降维结合梯度提升决策树的营销预测方法
CN112633937B (zh) * 2020-12-30 2023-10-20 上海数鸣人工智能科技有限公司 基于深度自动编码器降维结合gbdt的营销预测方法
CN112733918A (zh) * 2020-12-31 2021-04-30 中南大学 基于注意力机制的图分类方法及化合物毒性预测方法
CN112733918B (zh) * 2020-12-31 2023-08-29 中南大学 基于注意力机制的图分类方法及化合物毒性预测方法
CN113010774A (zh) * 2021-02-24 2021-06-22 四川省人工智能研究院(宜宾) 一种基于动态深度注意力模型的点击率预测方法
CN113010774B (zh) * 2021-02-24 2023-04-07 四川省人工智能研究院(宜宾) 一种基于动态深度注意力模型的点击率预测方法
CN113298084A (zh) * 2021-04-01 2021-08-24 山东师范大学 用于语义分割的特征图提取方法及系统
CN113220974A (zh) * 2021-05-31 2021-08-06 北京爱奇艺科技有限公司 点击率预测模型训练、搜索召回方法、装置、设备及介质
CN113220974B (zh) * 2021-05-31 2024-06-07 北京爱奇艺科技有限公司 点击率预测模型训练、搜索召回方法、装置、设备及介质
CN113535800A (zh) * 2021-06-03 2021-10-22 同盾科技有限公司 信贷场景下的特征表示方法、电子设备和存储介质
CN113656272A (zh) * 2021-08-16 2021-11-16 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质、用户设备及服务器
CN114358364B (zh) * 2021-11-20 2024-06-07 上海愚见观池科技有限公司 一种基于注意力机制的短视频点击率大数据预估方法
CN114358364A (zh) * 2021-11-20 2022-04-15 重庆邮电大学 一种基于注意力机制的短视频点击率大数据预估方法
CN116932883A (zh) * 2022-04-07 2023-10-24 创鑫智慧股份有限公司 嵌入表生成方法与嵌入表浓缩方法
CN115081583A (zh) * 2022-04-13 2022-09-20 北京小米移动软件有限公司 数据处理方法及装置、电子设备及存储介质
CN115018552A (zh) * 2022-06-28 2022-09-06 中国科学技术大学 产品点击率确定方法
US20240005159A1 (en) * 2022-06-30 2024-01-04 Neuchips Corporation Simplification device and simplification method for neural network model
CN115545211A (zh) * 2022-10-18 2022-12-30 安徽大学 一种基于傅里叶变换的点击率预测方法
CN115545211B (zh) * 2022-10-18 2025-05-30 安徽大学 一种基于傅里叶变换的点击率预测方法
CN115809372B (zh) * 2023-02-03 2023-06-16 中国科学技术大学 基于解耦不变学习的点击率预测模型的训练方法及装置
CN115809372A (zh) * 2023-02-03 2023-03-17 中国科学技术大学 基于解耦不变学习的点击率预测模型的训练方法及装置
CN116304324A (zh) * 2023-03-13 2023-06-23 特斯联科技集团有限公司 一种点击率预测方法、系统、设备和可读存储介质
CN119543956A (zh) * 2025-01-23 2025-02-28 阿里健康科技(中国)有限公司 人群数据的压缩存储方法、解压方法及相关装置

Similar Documents

Publication Publication Date Title
CN111538761A (zh) 基于注意力机制的点击率预测方法
Zhang et al. Improved deep hashing with soft pairwise similarity for multi-label image retrieval
Li et al. Attentive capsule network for click-through rate and conversion rate prediction in online advertising
CN111737578B (zh) 一种推荐方法及系统
CN113516133B (zh) 一种多模态图像分类方法及系统
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN112949740B (zh) 一种基于多级度量的小样本图像分类方法
JP2021528796A (ja) 活性スパース化を用いたニューラルネットワーク加速・埋め込み圧縮システム及び方法
CN113255437A (zh) 滚动轴承深度卷积稀疏自动编码器故障诊断方法
CN111177579B (zh) 集成多样性增强的极深因子分解机模型的应用方法
Meiseles et al. Source model selection for deep learning in the time series domain
CN113010774B (zh) 一种基于动态深度注意力模型的点击率预测方法
CN115470844B (zh) 一种电力系统多源异构数据的特征提取及选择方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN119671294B (zh) 基于动态规则构建的风险预警方法、装置、设备及介质
CN115995011B (zh) 基于图正则化的非线性正交非负矩阵分解图像聚类方法
CN119761511A (zh) 一种基于多模态大模型的数字人交互方法及系统
Chung et al. Filter pruning by image channel reduction in pre-trained convolutional neural networks
CN114743058A (zh) 基于混合范数正则约束的宽度学习图像分类方法及装置
CN112561599A (zh) 一种融合域特征交互的基于注意力网络学习的点击率预测方法
Kongsorot et al. Multi-label classification with extreme learning machine
Bhadoria et al. Bunch graph based dimensionality reduction using auto-encoder for character recognition
CN102930258B (zh) 一种人脸图像识别方法
Hasan et al. Compressed neural architecture utilizing dimensionality reduction and quantization
CN109447147B (zh) 基于双图稀疏的深度矩阵分解的图像聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200814