[go: up one dir, main page]

CN117786197A - 一种文献的交互式数据探索系统 - Google Patents

一种文献的交互式数据探索系统 Download PDF

Info

Publication number
CN117786197A
CN117786197A CN202310408600.0A CN202310408600A CN117786197A CN 117786197 A CN117786197 A CN 117786197A CN 202310408600 A CN202310408600 A CN 202310408600A CN 117786197 A CN117786197 A CN 117786197A
Authority
CN
China
Prior art keywords
data
user
documents
mark
exploration system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310408600.0A
Other languages
English (en)
Inventor
王蒙湘
曾毅
刘娜
王巧慧
刘琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Institute of Standardization
Original Assignee
China National Institute of Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Institute of Standardization filed Critical China National Institute of Standardization
Priority to CN202310408600.0A priority Critical patent/CN117786197A/zh
Publication of CN117786197A publication Critical patent/CN117786197A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文献的交互式数据探索系统,涉及文献探索应用技术领域。文献的交互式数据探索系统包括用户注册、用户登录、数据库选择、数据采集和个人中心,所述用户注册用于通过采集端提交用户信息进行注册并将注册成功的用户信息发送至云平台内存储;所述用户登录用于进行用户身份的识别和验证;数据搜索,所述数据搜索用于用户根据界面提示的信息,在用户兴趣选项中对文献进行标记;所述数据库选择用于在用于登录后,在进行数据选择之前,对希望搜索的期刊进行数据源的选择;所述数据采集用于在管理员登录后可操作界面,定期在学术网站获取公布的文献数据;所述个人中心用于查找用户历史标记、收藏和下载的文献,并给用户推荐适当的文献。

Description

一种文献的交互式数据探索系统
技术领域
本发明涉及文献探索应用技术领域,具体为一种文献的交互式数据探索系统。
背景技术
交互式数据探索在挖掘大数据的数据价值方面具有重要作用。通常来说,交互式数据探索(interactive data exploration,IDE)是指用户在不十分明确自己查询输入的前提下,系统通过列举样例、协同过滤、机器学习等技术和方式与用户进行交互和反馈,从而逐渐接近用户的真实查询意图,最终提供给用户与其查询意图最匹配的查询结果或返回相应的查询语。
交互式数据探索的关注点是强调交互、探索和发现,用户从海量的数据中用较小的精力,更准确地找到所需要的信息,其方式有别于用户通过搜索输入关键字找到所需信息的搜索过程,但是,目前交互式数据探索系统的搜索过程较慢,功能性较差。
发明内容
本发明的目的在于提供一种文献的交互式数据探索系统,以解决现有的问题:交互式数据探索系统的搜索过程较慢,功能性较差。
为实现上述目的,本发明提供如下技术方案:
文献的交互式数据探索系统包括用户注册,所述用户注册用于通过采集端提交用户信息进行注册并将注册成功的用户信息发送至云平台内存储;
用户登录,所述用户登录用于进行用户身份的识别和验证;
数据搜索,所述数据搜索用于用户根据界面提示的信息,在用户兴趣选项中对文献进行标记;
数据库选择,所述数据库选择用于在用于登录后,在进行数据选择之前,对希望搜索的期刊进行数据源的选择;
数据采集,所述数据采集用于在管理员登录后可操作界面,定期在学术网站获取公布的文献数据;
个人中心,所述个人中心用于查找用户历史标记、收藏和下载的文献,并给用户推荐适当的文献。
优选的,所述数据搜索还用于对所述文献进行标记完一轮后进行提交反馈,当条件满足第一预设条件或用户不再想标记更多文献时,停止反馈。
优选的,所述界面提示的信息包括文献名称、作者、摘要、发表时间和数据库中的一种或者多种。
优选的,所述数据采集包括文献数据爬取和数据预处理;
其中,所述文献数据爬取用于对所述文献数据进行定时爬取,并具备自动登录解析功能;
所述数据预处理用于对采集文献数据预先处理。
优选的,所述文献数据爬取包括定时调度模块和自动登录模块,其中,所述自动登录模块包括验证码识别子模块。
优选的,所述数据预处理包括数据清洗模块、数据转换模块、LDA主体提取模块和数据增量模块,其中,所述数据清洗模块用于对爬取的数据进行清洗;
所述数据转换模块用于将时间转换成统一格式;
所述LDA主体提取模块通过LDA(Latent DirichletAllocation,潜在狄利克雷分配)模型进行数据预处理,获得所述数据增量模块。
优选的,所述数据采集可由所述管理员在采集周期内,按照天、周和月中的任一个进行数据更新。
优选的,所述第一预设条件包括文献数量和页码中的一个。
优选的,所述标记包括第一标记、第二标记和第三标记;
其中,所述第一标记是相关度最大的,所述第二标记是相关度居中的,所述第三标记是相关度最小的。
给用户推荐适当的文献是加权相似度进行排序后确定的。
与现有技术相比,本发明的有益效果是:
本发明中的文献的交互式数据探索系统,通过用户注册和用户登录可以实现对用户身份的识别和验证,数据搜索可以实现对文献的标记,数据库选择实现对数据源的选择,并可在个人中心查找到历史标记、收藏和下载的文献,病给用户推荐适当的文献,从而可以提高交互式数据探索系统的针对性,提高索索过程的速度,功能性增强。
附图说明
图1为数据采集的结构示意图。
具体实施方式
本发明的实施方式公开了文献的交互式数据探索系统,文献的交互式数据探索系统包括用户注册、用户登录、数据搜索、数据库选择、数据采集和个人中心,其中,所述用户注册用于通过采集端提交用户信息进行注册并将注册成功的用户信息发送至云平台内存储;所述用户登录用于进行用户身份的识别和验证;所述数据搜索用于用户根据界面提示的信息,在用户兴趣选项中对文献进行标记;所述数据库选择用于在用于登录后,在进行数据选择之前,对希望搜索的期刊进行数据源的选择;所述数据采集用于在管理员登录后可操作界面,定期在学术网站获取公布的文献数据;所述个人中心用于查找用户历史标记、收藏和下载的文献,并给用户推荐适当的文献。
本发明中的文献的交互式数据探索系统,通过用户注册和用户登录可以实现对用户身份的识别和验证,数据搜索可以实现对文献的标记,数据库选择实现对数据源的选择,并可在个人中心查找到历史标记、收藏和下载的文献,病给用户推荐适当的文献,从而可以提高交互式数据探索系统的针对性,提高索索过程的速度,功能性增强。
需要说明的是,这里的用户注册具有多种方式,可以采用手机号注册,也可以采用邮箱注册,也可以采用与相关网站关联的账号进行注册,如采用微博账号,也可以采用指定网站的会员进行注册。这里限定了用户注册方式的多样性,可以具有多种选择进行注册。
可以理解的是,这里的文献通常是学术文献。学术文献的种类较多,且数据库较多,需要能够对文献采用交互式数据探索方式进行快速的搜索,提高搜索的速度。
这里的用户登录,可以将不同的方式关联,选择其中的一种登录方式即可,例如用户在注册过程中登记了手机号,并使用了邮箱,则在用户登录时,可以选择手机号和邮箱中的人一个进行登录,均可以确认该用户的唯一性。这里将用户登录确定为唯一的,可以使得整个搜索过程是基于该用户的习惯进行的,针对性更强,且可以提高搜索的效率。
优选的,所述数据搜索还用于对所述文献进行标记完一轮后进行提交反馈,当条件满足第一预设条件或用户不再想标记更多文献时,停止反馈。
这里的一轮可以由用户来进行定义,例如,可以根据标记的数量总量来确定,如标记50个认定为标记完一轮,也可以认定将标记100个认定为标记完一轮,通过这种设置方式可以进行反馈,可以根据用户的需求提供相应的服务。当然,这里的标记完一轮也可以采用页码进行确认,如标记完一轮可以认定为标记10页或者20页,本发明将在后面进行更加详细的说明。
在本发明中,具体地,所述第一预设条件包括文献数量和页码中的一个,
这里的第一预设条件可以由用户进行选择,可以根据标记的文献数量,也可以是标记的页码数量,如50页或者80页等。
现有技术中对于文献的检索通常是通过搜索输入关键字或者关键技术特征找到所需信息的搜索过程,而在本发明中,强调交互、探索和发现,采用基于用户手动标记示例的数据探索方式,使得用户可以从海量的数据中以较小的精力,能够更加准确地找到所需要的信息。
优选的,所述界面提示的信息包括文献名称、作者、摘要、发表时间和数据库中的一种或者多种。其中,文献名称主要是指文献的标题,文献的作者主要是指第一作者和第二作者,当然,也可以是文献的全部作者,可以提示用户进行选择。这里的摘要包括中文和外文,可以同时显示中文文献和外文文献。这里的数据库可以是某一期刊的数据库,如计算机学报,也可以是综合性的数据库,如中文期刊网等。
这里只是提到了常见的界面提示的信息,考虑到特定领域的文献,通常是特定单位完成的,这里也可以在界面提示的信息中增加单位名称,从而可以通过单位完成对文献的标记。例如,在计算机领域,科研实力比较强的通常是高校、研究所以及行业内的有名企业,在对计算机相关文献进行检索时,可通过单位对文献进行标记,从而实现更快的数据搜索。
优选的,所述数据采集包括文献数据爬取和数据预处理;其中,所述文献数据爬取用于对所述文献数据进行定时爬取,并具备自动登录解析功能;所述数据预处理用于对采集文献数据预先处理。
这里的文献数据爬取可以定时爬取,例如在每天的某一时间段进行爬取,也可以是间隔某一时间进行数据的爬取。自动登录解析功能,主要是自动登录账号,并对爬取得文献数据进行解析,从而实现对特定指称及其相互作用关系的精准自动提取。这里的文献数据爬取,可以是数据库中的现有文献,也可以是数据库中新增加的文献。
优选的,所述文献数据爬取包括定时调度模块和自动登录模块,其中,所述自动登录模块包括验证码识别子模块。
优选的,所述数据预处理包括数据清洗模块、数据转换模块、LDA主体提取模块和数据增量模块,其中,所述数据清洗模块用于对爬取的数据进行清洗,去掉无用的数据,所述数据转换模块用于将时间转换成统一格式;所述LDA主体提取模块通过LDA模型进行数据预处理,获得所述数据增量模块。
其中,这四个模块是具有先后顺序的,通过对数据预处理,可以获得数量增量,也就是说按照先后顺序依次是数据清洗、统一格式,数据提取,获得数据增量。
优选的,所述数据采集可由所述管理员在采集周期内,按照天、周和月中的任一个进行数据更新。具体地,可以在系统中设定某天为数据更新日,例如将每个月的2号确定为数据更新日。与此类似,也可以采用周或者月中的一个进行。这里没有采用小时等更小的单位,也没有采用年等更大的单位,采用这些采集周期可以兼顾时间效率和结果效率的平衡,是基于文献的更新数据确定的采集周期.
本发明中,管理员可以对所有的数据进行定时采集,并对数据进行更新,从而可以使得用户可以使用数据更新后的系统。
优选的,所述标记包括第一标记、第二标记和第三标记;其中,所述第一标记是相关度最大的,所述第二标记是相关度居中的,所述第三标记是相关度最小的。
这里的相关度,是指与用户兴趣的相关度,在用户进行标记的时候,可以通过三种标记进行区分,从而判定用户最感兴趣的区域。在系统进行搜索过程中,可以对第一标记进行重点关注,从而能够尽快锁定用户最感兴趣的文献,提高检索的效率。
这里的相关度,可以是用户根据主观印象进行的判断,也可以是基于标记的类型进行统计后确定的。例如,对于某种类型的文献,用户标定为第一标记的数量最多,则可以确定该种类型的文献是用户最感兴趣的,从而有侧重性地进行检索。
给用户推荐适当的文献是加权相似度进行排序后确定的。这里的加权相似度可以采用不同的算法进行,可以在单目标区域下进行,也可以是在不同目标区域下进行。
具体地,算法可以采用显示评分和隐式评分结合的方式,其中,显示评分是通过用户主动反馈获得的用户的行为偏好,但是这种行为偏好容易具有偏见,或者用户的偏好信息只针对某一个具体问题。隐式评分采用挖掘用户历史数据的方式来获得用户的偏好信息,容易出现当使用挖掘方法不恰当时,得到的偏好信息不准确的问题。因此,将显示评分和隐式评分相结合,采用基于加权相似度显隐式反馈的协同过滤算法,通过用户的显示反馈评分信息和隐式反馈评分信息,引入时间因子作为计算某一项目评分的权值。引入相似度因子对传统的相似度计算公式进行优化,最终获得用户的推荐结果,提高推荐结果的精度。
具体算法可以采用CF-EIWS算法,相比较于BIPS算法,可以明显提高推荐精度,其中,隐式评分可以采用用户在下载、评论、收藏和分享时的各自评分的总和,再加1,当发生下载、评论、收藏和分享的情况下,相对应的评分为1,不存在时,相应的评分为0,从而得到隐式评分分数。显式评分是用户对某个项目的评分。
CF-EIWS算法融合显示评分和隐式评分的方式得到用户对项目的评分,融合评分为隐式评分和显示评分的平均值。
考虑到用户兴趣与评分时间间隔呈负相关,用户兴趣会随着时间的推延逐步减弱,因此,可以引入时间权值,其中,时间权值是与评分时间间隔的函数关系,引入正常衰减常数,当用户偏好变化较快的场景时,正常衰减常数较大,反之则较小。具体的计算公式可以采用:
W=W0+(1-W0)exp[-μ*(tnow-tpast)]
其中μ为正衰减常数,大于0,且具体的数值与应用的场景有关。
W为时间权值,tnow表示当前评分的时间,tpast表示上次的评分时间。W0表示算法最低的时间期权值,可以是具体值,如0.5或者0.3等。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims (10)

1.一种文献的交互式数据探索系统,其特征在于,包括:
用户注册,所述用户注册用于通过采集端提交用户信息进行注册并将注册成功的用户信息发送至云平台内存储;
用户登录,所述用户登录用于进行用户身份的识别和验证;
数据搜索,所述数据搜索用于用户根据界面提示的信息,在用户兴趣选项中对文献进行标记;
数据库选择,所述数据库选择用于在用于登录后,在进行数据选择之前,对希望搜索的期刊进行数据源的选择;
数据采集,所述数据采集用于在管理员登录后可操作界面,定期在学术网站获取公布的文献数据;
个人中心,所述个人中心用于查找用户历史标记、收藏和下载的文献,并给用户推荐适当的文献。
2.根据权利要求1所述的一种文献的交互式数据探索系统,其特征在于:所述数据搜索还用于对所述文献进行标记完一轮后进行提交反馈,当条件满足第一预设条件或用户不再想标记更多文献时,停止反馈。
3.根据权利要求1所述的一种文献的交互式数据探索系统,其特征在于:所述界面提示的信息包括文献名称、作者、摘要、发表时间和数据库中的一种或者多种。
4.根据权利要求1所述的一种文献的交互式数据探索系统,其特征在于:所述数据采集包括文献数据爬取和数据预处理;
其中,所述文献数据爬取用于对所述文献数据进行定时爬取,并具备自动登录解析功能;
所述数据预处理用于对采集文献数据预先处理。
5.根据权利要求4所述的一种文献的交互式数据探索系统,其特征在于:所述文献数据爬取包括定时调度模块和自动登录模块,其中,所述自动登录模块包括验证码识别子模块。
6.根据权利要求4所述的一种文献的交互式数据探索系统,其特征在于:所述数据预处理包括数据清洗模块、数据转换模块、LDA主体提取模块和数据增量模块,其中,所述数据清洗模块用于对爬取的数据进行清洗;
所述数据转换模块用于将时间转换成统一格式;
所述LDA主体提取模块通过LDA模型进行数据预处理,获得所述数据增量模块。
7.根据权利要求1所述的一种文献的交互式数据探索系统,其特征在于:所述数据采集可由所述管理员在采集周期内,按照天、周和月中的任一个进行数据更新。
8.根据权利要求2所述的一种文献的交互式数据探索系统,其特征在于:所述第一预设条件包括文献数量和页码中的一个。
9.根据权利要求1所述的一种文献的交互式数据探索系统,其特征在于:所述标记包括第一标记、第二标记和第三标记;
其中,所述第一标记是相关度最大的,所述第二标记是相关度居中的,所述第三标记是相关度最小的。
10.根据权利要求1所述的一种文献的交互式数据探索系统,其特征在于:给用户推荐适当的文献是加权相似度进行排序后确定的。
CN202310408600.0A 2023-04-17 2023-04-17 一种文献的交互式数据探索系统 Pending CN117786197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310408600.0A CN117786197A (zh) 2023-04-17 2023-04-17 一种文献的交互式数据探索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310408600.0A CN117786197A (zh) 2023-04-17 2023-04-17 一种文献的交互式数据探索系统

Publications (1)

Publication Number Publication Date
CN117786197A true CN117786197A (zh) 2024-03-29

Family

ID=90385901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310408600.0A Pending CN117786197A (zh) 2023-04-17 2023-04-17 一种文献的交互式数据探索系统

Country Status (1)

Country Link
CN (1) CN117786197A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010118050A (ja) * 2008-10-17 2010-05-27 Toyohashi Univ Of Technology 特許文献自動検索システムおよび特許文献自動検索方法
CN103617540A (zh) * 2013-10-17 2014-03-05 浙江大学 一种追踪用户兴趣变化的电子商务推荐方法
CN105989056A (zh) * 2015-02-06 2016-10-05 北京中搜网络技术股份有限公司 一种汉语新闻推荐系统
CN108595702A (zh) * 2018-05-09 2018-09-28 武汉伯远生物科技有限公司 一种文献管理系统
CN110110228A (zh) * 2019-04-22 2019-08-09 南京工业大学 基于互联网与词袋的专业文献智能即时推荐方法及系统
CN111177575A (zh) * 2020-04-07 2020-05-19 腾讯科技(深圳)有限公司 一种内容推荐方法、装置、电子设备和存储介质
US20200159856A1 (en) * 2018-11-15 2020-05-21 Microsoft Technology Licensing, Llc Expanding search engine capabilities using ai model recommendations
CN112287218A (zh) * 2020-10-26 2021-01-29 安徽工业大学 一种基于知识图谱的非煤矿山文献关联推荐方法
CN114331581A (zh) * 2020-09-30 2022-04-12 青岛海尔洗衣机有限公司 一种用户浏览时的物品信息的智能推荐方法、系统及装置
CN114385924A (zh) * 2022-01-20 2022-04-22 同方知网(北京)技术有限公司 一种教师教研知识推荐方法及系统
CN115686432A (zh) * 2022-12-30 2023-02-03 药融云数字科技(成都)有限公司 一种用于检索排序的文献评价方法、存储介质及终端
CN115905695A (zh) * 2022-11-17 2023-04-04 同方知网数字出版技术股份有限公司 一种结合Doc2vec和Faiss的个性化文献推荐方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010118050A (ja) * 2008-10-17 2010-05-27 Toyohashi Univ Of Technology 特許文献自動検索システムおよび特許文献自動検索方法
CN103617540A (zh) * 2013-10-17 2014-03-05 浙江大学 一种追踪用户兴趣变化的电子商务推荐方法
CN105989056A (zh) * 2015-02-06 2016-10-05 北京中搜网络技术股份有限公司 一种汉语新闻推荐系统
CN108595702A (zh) * 2018-05-09 2018-09-28 武汉伯远生物科技有限公司 一种文献管理系统
US20200159856A1 (en) * 2018-11-15 2020-05-21 Microsoft Technology Licensing, Llc Expanding search engine capabilities using ai model recommendations
CN110110228A (zh) * 2019-04-22 2019-08-09 南京工业大学 基于互联网与词袋的专业文献智能即时推荐方法及系统
CN111177575A (zh) * 2020-04-07 2020-05-19 腾讯科技(深圳)有限公司 一种内容推荐方法、装置、电子设备和存储介质
CN114331581A (zh) * 2020-09-30 2022-04-12 青岛海尔洗衣机有限公司 一种用户浏览时的物品信息的智能推荐方法、系统及装置
CN112287218A (zh) * 2020-10-26 2021-01-29 安徽工业大学 一种基于知识图谱的非煤矿山文献关联推荐方法
CN114385924A (zh) * 2022-01-20 2022-04-22 同方知网(北京)技术有限公司 一种教师教研知识推荐方法及系统
CN115905695A (zh) * 2022-11-17 2023-04-04 同方知网数字出版技术股份有限公司 一种结合Doc2vec和Faiss的个性化文献推荐方法
CN115686432A (zh) * 2022-12-30 2023-02-03 药融云数字科技(成都)有限公司 一种用于检索排序的文献评价方法、存储介质及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘宏等: "基于加权相似度显隐式反馈的协同过滤算法", 价值工程, 10 May 2019 (2019-05-10), pages 167 - 169 *

Similar Documents

Publication Publication Date Title
US7844592B2 (en) Ontology-content-based filtering method for personalized newspapers
CN111191122A (zh) 一种基于用户画像的学习资源推荐系统
CN105159932B (zh) 一种数据检索引擎和排序系统和方法
CN104217030B (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
CN111460251A (zh) 数据内容个性化推送冷启动方法、装置、设备和存储介质
Xu et al. A personalized information recommendation system for R&D project opportunity finding in big data contexts
CN104866554B (zh) 一种基于社会化标注的个性化搜索方法及系统
CN109918563A (zh) 一种基于公开数据的图书推荐的方法
US20170316519A1 (en) Mutually reinforcing ranking of social media accounts and contents
JP2011222004A (ja) 情報ストリーム中の興味深いコンテンツを推奨するためのシステムおよび方法
CN104035972B (zh) 一种基于微博的知识推荐方法与系统
CN109165367B (zh) 一种基于rss订阅的新闻推荐方法
CN105045931A (zh) 一种基于Web挖掘的视频推荐方法和系统
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN104217031A (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN107193883B (zh) 一种数据处理方法和系统
US20170235836A1 (en) Information identification and extraction
KR101088710B1 (ko) 온라인 커뮤니티 사용자 간 상호작용 기반 온라인 커뮤니티 포스트 검색 방법, 장치 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체
CN103198098A (zh) 一种网络信息投放方法和装置
CN114491294A (zh) 基于图神经网络的数据推荐方法及装置、电子设备
CN111680505A (zh) 一种Markdown特征感知的无监督关键词提取方法
CN112765326A (zh) 一种问答社区专家推荐方法、系统及应用
US20170235835A1 (en) Information identification and extraction
CN116401459A (zh) 一种互联网信息处理方法、系统及记录介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination