CN106055616A - 一种基于命名实体的社交网站好友推荐方法 - Google Patents
一种基于命名实体的社交网站好友推荐方法 Download PDFInfo
- Publication number
- CN106055616A CN106055616A CN201610357590.2A CN201610357590A CN106055616A CN 106055616 A CN106055616 A CN 106055616A CN 201610357590 A CN201610357590 A CN 201610357590A CN 106055616 A CN106055616 A CN 106055616A
- Authority
- CN
- China
- Prior art keywords
- user
- entity
- entities
- conentity
- userentity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于命名实体的社交网站好友推荐方法,该方法建立由用户发言中的实体和其关注者发言中的实体组成的一个实体列表ConEntity(ui),建立用户个人信息的实体列表InfEntity(ui),并根据得到的实体列表ConEntity(ui)和InfEntity(ui)对用户的偏好的实体进行排序得到偏好度排序的实体列表,通过用户间实体列表的相似程度对社交网络中的用户进行兴趣相似的好友推荐。
Description
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及一种基于命名实体的社交网站好友推荐方法。
背景技术
近年来,随着互联网的快速发展,大规模的知识库(如wikipedia,DBpedia,百度百科等)在互联网中出现并得到快速发展。这些知识库富含关于肢体的属性和实体之间的语义关系等,它们的出现使得用户可以便利的获取相关信息。因此,有关命名实体的技术也在飞速发展并应用于互联网的各个领域。
所谓命名实体,就是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等。现有的技术主要涉及命名实体的识别,命名实体的链接和消歧以及命名实体的关系挖掘领域,并且已经较为成熟。命名实体的识别是指,从给定的一句话或者一篇文章中,找到指代命名实体的词语,我们称之为实体指称项,在“乔丹是著名的篮球运动员”中,我们要识别出的实体指称项是“乔丹”。命名实体的链接是指我们要把识别出的指称项与确定的某个知识库中的实体(wikipedia中表现为一个页面)链接起来达到消除歧义的目的。比如,“乔丹是著名的篮球运动员”和“乔丹是美国伯克利大学的研究机器学习的教授”中两个相同的指称项“乔丹”指向的是完全不同的两个实体。而实体关系的挖掘主要是要找寻两个实体之间的联系,如上一个例子候中“乔丹”与“伯克利大学”大学的关系是“A任教于B”。
现有的社交网络好友推荐方法主要有基于用户关系和基于标签和内容两大类:基于用户关系的推荐主要有推荐用户的共同好友,推荐好友的好友,推荐关注者的关注者等等,以及基于兴趣协同,即如果用户A和用户B粉丝人群相似,而待推荐用户关注了用户A,那么将用户B也推荐给该用户;拓展开来,基于用户关系图可以找到用户所处的社团结构,将同一个社团内的其他未关注成员推荐给该用户。基于标签和内容的方法主要是根据用户的地理位置信息,教育工作信息,或者是用户自定义的个人标签,推荐相似的其他用户。最基础的方法的推荐力度是相同的,并没有按照成为好友的可能性大小的不同而有不同的推荐力度。而其他传统的方法要么没有充分的利用用户的发言信息和标签信息,要么将用户的好友局限在某个兴趣圈或者好友圈内,不能充分发现用户的潜在兴趣目标。
发明内容
本发明提供一种基于命名实体的社交网站好友推荐方法,实现向社交网络中的用户推荐相似偏好的其他用户。
为了达到上述技术效果,本发明的技术方案如下:
一种基于命名实体的社交网站好友推荐方法,包括以下步骤:
S1:对候选用户集U中的用户ui及其关注者的发言文本进行预处理并进行命名实体的识别和连接,得出由用户ui发言中的实体和其关注者发言中的实体组成的一个实体列表ConEntity(ui);
S2:对用户ui进行个人信息提取并进行命名实体的识别和连接,得出关于用户ui个人信息的实体列表InfEntity(ui);
S3:根据得到的实体列表ConEntity(ui)和InfEntity(ui)对用户ui的偏好的实体进行排序,得到一个偏好度排序的实体列表UserEntity(ui);
S4:利用每个用户的UserEntity(ui)进行相似度对比,选取最高相似度的用户进行相互推荐。
优选地,所述步骤S1中对用户ui及其关注者的发言文本进行预处理的方式包括分词、停用词过滤。
优选地,所述步骤S2中的用户个人信息包括地理位置信息、兴趣爱好标签。
进一步地,所述步骤S3的具体过程如下:
令K表示用户对于实体e提及的重要程度:
K=countConEntity(e)+1.2countInfEntity(e)
其中,countConEntity(e)表示实体e在集合ConEntity(U)中的出现次数,countInfEntity(e)表示实体e在集合ConEntity(U)中的出现次数;
用户对实体的偏好值:
其中,Sim(ui,e)表示用户ui和实体e的文本相似度,Entity(e)表示实体页面提及的除e之外的实体集合,Entity(ui)=ConEntity(ui)∩InfEntity(ui)表示用户两个相关实体的集合,in(e)表示指向实体e的实体的个数,表示实体的流行度,α和β是权重参数。
进一步地,根据用户对实体的偏好值得到用户ui偏好度排序的实体列表,选取其中前N个实体形成实体列表UserEntity(ui),不足N实体时,空位出用null填充。
进一步地,步骤S4的具体过程如下:
计算两个实体间的距离:
其中,Total是知识库里所有实体的数量,g(e)是在知识库中有链接指向实体e的实体的集合,对于用户u1和用户u2,有实体列表UserEntity(u1)和UserEntity(u2),ei∈UserEntity(u1),ej∈UserEntity(u2),i,j∈[1,N],ei与用户u2的列表相似度:
用户u1和用户u2之间的相似度为:
与现有技术相比,本发明技术方案的有益效果是:
本发明建立由用户发言中的实体和其关注者发言中的实体组成的一个实体列表ConEntity(ui),建立用户个人信息的实体列表InfEntity(ui),并根据得到的实体列表ConEntity(ui)和InfEntity(ui)对用户的偏好的实体进行排序得到偏好度排序的实体列表,通过用户间实体列表的相似程度对社交网络中的用户进行兴趣相似的好友推荐。
附图说明
图1为本发明方法流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于命名实体的社交网站好友推荐方法,包括以下步骤:
S1:对候选用户集U中的用户ui及其关注者的发言文本进行预处理并进行命名实体的识别和连接,得出由用户ui发言中的实体和其关注者发言中的实体组成的一个实体列表ConEntity(ui);
S2:对用户ui进行个人信息提取并进行命名实体的识别和连接,得出关于用户ui个人信息的实体列表InfEntity(ui);
S3:根据得到的实体列表ConEntity(ui)和InfEntity(ui)对用户ui的偏好的实体进行排序,得到一个偏好度排序的实体列表UserEntity(ui);
S4:利用每个用户的UserEntity(ui)进行相似度对比,选取最高相似度的用户进行相互推荐。
步骤S1中对用户ui及其关注者的发言文本进行预处理的方式包括分词、停用词过滤。
步骤S2中的用户个人信息包括地理位置信息、兴趣爱好标签。
步骤S3的具体过程如下:
令K表示用户对于实体e提及的重要程度:
K=countConEntity(e)+1.2countInfEntity(e)
其中,countConEntity(e)表示实体e在集合ConEntity(U)中的出现次数,countInfEntity(e)表示实体e在集合ConEntity(U)中的出现次数;
用户对实体的偏好值:
其中,Sim(ui,e)表示用户ui和实体e的文本相似度,Entity(e)表示实体页面提及的除e之外的实体集合,Entity(ui)=ConEntity(ui)∩InfEntity(ui)表示用户两个相关实体的集合,in(e)表示指向实体e的实体的个数,表示实体的流行度,α和β是权重参数,由训练集训练可以得到。
根据用户对实体的偏好值得到用户ui偏好度排序的实体列表,选取其中前N个实体形成实体列表UserEntity(ui),不足N实体时,空位出用null填充。本实施例欧中,N取30,不足30实体时,空位出用null填充。
步骤S4的具体过程如下:
计算两个实体间的距离:
其中,Total是知识库里所有实体的数量,g(e)是在知识库中有链接指向实体e的实体的集合,对于用户u1和用户u2,有实体列表UserEntity(u1)和UserEntity(u2),ei∈UserEntity(u1),ej∈UserEntity(u2),i,j∈[1,N],ei与用户u2的列表相似度:
用户u1和用户u2之间的相似度为:
取得最高相似度的用户之间可以进行相互推荐。比如对于用户u1,分别计算他与其他候选用户集合中的所有用户的相似度,然后选取前n个用户进行好友推荐或者感兴趣的用户关注推荐。
本方法建立由用户ui发言中的实体和其关注者发言中的实体组成的一个实体列表ConEntity(ui),建立用户个人信息的实体列表InfEntity(ui),并根据得到的实体列表ConEntity(ui)和InfEntity(ui)对用户的偏好的实体进行排序得到偏好度排序的实体列表,通过用户间实体列表的相似程度对社交网络中的用户进行兴趣相似的好友推荐。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.一种基于命名实体的社交网站好友推荐方法,其特征在于,包括以下步骤:
S1:对候选用户集U中的用户ui及其关注者的发言文本进行预处理并进行命名实体的识别和连接,得出由用户ui发言中的实体和其关注者发言中的实体组成的一个实体列表ConEntity(ui);
S2:对用户ui进行个人信息提取并进行命名实体的识别和连接,得出关于用户ui个人信息的实体列表InfEntity(ui);
S3:根据得到的实体列表ConEntity(ui)和InfEntity(ui)对用户ui的偏好的实体进行排序,得到一个偏好度排序的实体列表UserEntity(ui);
S4:利用每个用户的UserEntity(ui)进行相似度对比,选取最高相似度的用户进行相互推荐。
2.根据权利要求1所述的基于命名实体的社交网站好友推荐方法,其特征在于,所述步骤S1中对用户ui及其关注者的发言文本进行预处理的方式包括分词、停用词过滤。
3.根据权利要求1所述的基于命名实体的社交网站好友推荐方法,其特征在于,所述步骤S2中的用户个人信息包括地理位置信息、兴趣爱好标签。
4.根据权利要求1所述的基于命名实体的社交网站好友推荐方法,其特征在于,所述步骤S3的具体过程如下:
令K表示用户对于实体e提及的重要程度:
K=countConEntity(e)+1.2countInfEntity(e)
其中,countConEntity(e)表示实体e在集合ConEntity(U)中的出现次数,countInfEntity(e)表示实体e在集合ConEntity(U)中的出现次数;
用户对实体的偏好值:
其中,Sim(ui,e)表示用户ui和实体e的文本相似度,Entity(e)表示实体页面提及的除e之外的实体集合,Entity(ui)=ConEntity(ui)∩InfEntity(ui)表示用户两个相关实体的集合,in(e)表示指向实体e的实体的个数,表示实体的流行度,α和β是权重参数。
5.根据权利要求4所述的基于命名实体的社交网站好友推荐方法,其特征在于,根据用户对实体的偏好值得到用户ui偏好度排序的实体列表,选取其中前N个实体形成实体列表UserEntity(ui),不足N实体时,空位出用null填充。
6.根据权利要求5所述的基于命名实体的社交网站好友推荐方法,其特征在于,步骤S4的具体过程如下:
计算两个实体间的距离:
其中,Total是知识库里所有实体的数量,g(e)是在知识库中有链接指向实体e的实体的集合,对于用户u1和用户u2,有实体列表UserEntity(u1)和UserEntity(u2),ei∈UserEntity(u1),ej∈UserEntity(u2),i,j∈[1,N],ei与用户u2的列表相似度:
用户u1和用户u2之间的相似度为:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201610357590.2A CN106055616A (zh) | 2016-05-25 | 2016-05-25 | 一种基于命名实体的社交网站好友推荐方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201610357590.2A CN106055616A (zh) | 2016-05-25 | 2016-05-25 | 一种基于命名实体的社交网站好友推荐方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN106055616A true CN106055616A (zh) | 2016-10-26 |
Family
ID=57175226
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201610357590.2A Pending CN106055616A (zh) | 2016-05-25 | 2016-05-25 | 一种基于命名实体的社交网站好友推荐方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN106055616A (zh) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108959258A (zh) * | 2018-07-02 | 2018-12-07 | 昆明理工大学 | 一种基于表示学习的特定领域集成实体链接方法 |
| CN109101540A (zh) * | 2018-07-02 | 2018-12-28 | 湖北衣谷电子商务有限公司 | 基于社交网络的好友位置信息挖掘推送方法及系统 |
| CN111597455A (zh) * | 2020-04-29 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 社交关系的建立方法、装置、电子设备及存储介质 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20040044677A1 (en) * | 2000-03-08 | 2004-03-04 | Better T.V. Technologies Ltd. | Method for personalizing information and services from various media sources |
| CN1739106A (zh) * | 2001-09-28 | 2006-02-22 | 皇家飞利浦电子股份有限公司 | 使用其他人简档的个人化推荐器简档修改 |
| CN101079714A (zh) * | 2006-12-13 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种sns社区中推荐朋友的方法及系统 |
| CN101105795A (zh) * | 2006-10-27 | 2008-01-16 | 北京搜神网络技术有限责任公司 | 基于网络行为的个性化推荐方法和系统 |
-
2016
- 2016-05-25 CN CN201610357590.2A patent/CN106055616A/zh active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20040044677A1 (en) * | 2000-03-08 | 2004-03-04 | Better T.V. Technologies Ltd. | Method for personalizing information and services from various media sources |
| CN1739106A (zh) * | 2001-09-28 | 2006-02-22 | 皇家飞利浦电子股份有限公司 | 使用其他人简档的个人化推荐器简档修改 |
| CN101105795A (zh) * | 2006-10-27 | 2008-01-16 | 北京搜神网络技术有限责任公司 | 基于网络行为的个性化推荐方法和系统 |
| CN101079714A (zh) * | 2006-12-13 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种sns社区中推荐朋友的方法及系统 |
Non-Patent Citations (3)
| Title |
|---|
| 余勇: "《面向微博用户的标签及好友推荐算法研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
| 吕润桃 等: "《异质社交网络中多通道特征融合的好友推荐模型》", 《激光杂志》 * |
| 吴昊: "《云计算环境下的社交网络好友推荐系统研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108959258A (zh) * | 2018-07-02 | 2018-12-07 | 昆明理工大学 | 一种基于表示学习的特定领域集成实体链接方法 |
| CN109101540A (zh) * | 2018-07-02 | 2018-12-28 | 湖北衣谷电子商务有限公司 | 基于社交网络的好友位置信息挖掘推送方法及系统 |
| CN108959258B (zh) * | 2018-07-02 | 2021-06-18 | 昆明理工大学 | 一种基于表示学习的特定领域集成实体链接方法 |
| CN111597455A (zh) * | 2020-04-29 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 社交关系的建立方法、装置、电子设备及存储介质 |
| CN111597455B (zh) * | 2020-04-29 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 社交关系的建立方法、装置、电子设备及存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11704899B2 (en) | Resolving entities from multiple data sources for assistant systems | |
| CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
| US10990899B2 (en) | Deep and wide machine learned model for job recommendation | |
| US10628432B2 (en) | Personalized deep models for smart suggestions ranking | |
| US10628506B2 (en) | Using log data to train for automated sourcing | |
| US9201880B2 (en) | Processing a content item with regard to an event and a location | |
| US20190034792A1 (en) | Semantic similarity for machine learned job posting result ranking model | |
| US20190034793A1 (en) | Semantic clustering based retrieval for candidate set expansion | |
| US20170177589A1 (en) | Suggesting Tags on Online Social Networks | |
| CN105630768B (zh) | 一种基于层叠条件随机场的产品名识别方法及装置 | |
| US11204973B2 (en) | Two-stage training with non-randomized and randomized data | |
| US20170255906A1 (en) | Candidate selection for job search ranking | |
| CN107045533B (zh) | 基于标签的教育资源推荐方法及系统 | |
| US20170337202A1 (en) | Entity based search retrieval and ranking | |
| US10956515B2 (en) | Smart suggestions personalization with GLMix | |
| CN104915443B (zh) | 一种中文微博评价对象的抽取方法 | |
| CN102054029A (zh) | 一种基于社会网络和人名上下文的人物信息消歧处理方法 | |
| CN104778283B (zh) | 一种基于微博的用户职业分类方法及系统 | |
| US10318640B2 (en) | Identifying risky translations | |
| Mangal et al. | Analysis of users’ interest based on tweets | |
| CN106096609A (zh) | 一种基于ocr的商品查询关键字自动生成方法 | |
| CN103605691A (zh) | 用于处理社交网络中发布内容的装置和方法 | |
| CN111488524A (zh) | 一种面向注意力的语义敏感的标签推荐方法 | |
| CN107895303A (zh) | 一种基于ocean模型的个性化推荐的方法 | |
| Liu et al. | Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161026 |
|
| RJ01 | Rejection of invention patent application after publication |