[go: up one dir, main page]

CN114911898A - 基于知识图谱的搜索方法、装置及电子设备 - Google Patents

基于知识图谱的搜索方法、装置及电子设备 Download PDF

Info

Publication number
CN114911898A
CN114911898A CN202210355086.4A CN202210355086A CN114911898A CN 114911898 A CN114911898 A CN 114911898A CN 202210355086 A CN202210355086 A CN 202210355086A CN 114911898 A CN114911898 A CN 114911898A
Authority
CN
China
Prior art keywords
information
entity
knowledge graph
entities
query text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210355086.4A
Other languages
English (en)
Other versions
CN114911898B (zh
Inventor
龚镖
吕逸良
唐铭谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Damo Institute Hangzhou Technology Co Ltd filed Critical Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority to CN202210355086.4A priority Critical patent/CN114911898B/zh
Publication of CN114911898A publication Critical patent/CN114911898A/zh
Application granted granted Critical
Publication of CN114911898B publication Critical patent/CN114911898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于知识图谱的搜索方法、装置、电子设备及计算机可读存储介质,方法包括:获取第一查询文本;确定与第一查询文本相关联的至少一个第一信息实体,从预先构建的知识图谱中筛选出与第一信息实体相关联的第二信息实体,从知识图谱中确定出各信息实体对应的各信息、各信息实体之间的关联关系,以预定的规则,确定各信息实体、各信息实体对应的信息、各信息实体之间的关联关系的展示方式,提供给需要展示的显示界面。本申请提供的方案能够使策划人员无需再反复进行多次搜索,也无需再将搜索出的内容进行过多的梳理,简化了策划人员进行信息编辑之前的信息搜索的过程,从而提高了策划人员进行信息编辑的效率。

Description

基于知识图谱的搜索方法、装置及电子设备
技术领域
本申请涉及信息搜索技术领域,具体涉及一种基于知识图谱的搜索方法、 装置、电子设备及计算机可读存储介质。
背景技术
信息是人们获取信息的重要途径,策划人员需要将策划并编辑出来,以将 编辑好的信息通过联网、电视、报纸等的形式进行发布,从而供人们查阅。策 划人员在策划信息稿件时,往往需要先从信息底库中搜索出所需的各个信息, 例如,搜索出相关信息,相关论文等,再对搜索出的信息进行梳理,以根据梳 理出的信息编辑出所需的信息稿件。
随着信息传播技术的迅猛发展及互联网技术的普及,信息的增长速度十分 迅速,所以,信息底库中的信息量、实时增量都很大。策划人员从大量的信息 底库中搜索出的相关信息量通常非常多,进行梳理的过程也非常繁琐,因此, 搜索梳理的过程会消耗策划人员大量的时间和精力,导致策划人员进行信息编 辑的效率较低。
发明内容
本申请提供了一种基于知识图谱的搜索方法、装置、电子设备及计算机可 读存储介质,能够快速地搜索并梳理出策划人员所需的信息,从而能够提高策 划人员进行信息编辑的效率。具体方案如下:
第一方面,本申请提供了一种基于知识图谱的搜索方法,应用于服务端, 所述方法包括:
获取第一查询文本;
确定与所述第一查询文本相关联的至少一个第一信息实体,所述第一信息 实体用于表示所述第一查询文本对应的信息所涉及的信息实体;
从预先构建的知识图谱中筛选出与所述第一信息实体相关联的至少一个第 二信息实体;
从所述知识图谱中确定出各信息实体对应的各信息、各信息实体之间的关 联关系,所述各信息实体包括各所述第一信息实体和各所述第二信息实体;
以预定的规则,确定所述各信息实体、所述各信息实体对应的信息、所述 各信息实体之间的关联关系的展示方式,提供给需要展示的显示界面。
可选地,所述确定与所述第一查询文本相关联的第一信息实体,包括:
对所述查询文本第一查询文本进行实体识别,得到至少一个第三信息实体;
根据各所述第三信息实体确定与所述第一查询文本相关联的第一信息实体。
可选地,所述根据各所述第三信息实体确定与所述第一查询文本相关联的 第一信息实体,包括:
基于预先构建的知识图谱对所述第三信息实体进行实体扩展,得到至少一 个与所述第三信息实体相关联的扩展实体;
根据所述第三信息实体以及所述扩展实体确定与所述查询文本第一查询文 本相关联的第一信息实体。
可选地,在所述获取第一查询文本之前,所述方法还包括:
获取第二查询文本;
从预先构建的知识图谱所存储的各信息中搜索出与所述第二查询文本相匹 配的目标信息;
从所述知识图谱中确定与所述目标信息相关联的各信息实体;
所述基于预先构建的知识图谱对所述第三信息实体进行实体扩展,包括:
基于与所述目标信息相关联的各信息实体对所述第三信息实体进行实体扩 展;
其中,所述第一查询文本是在所述第二查询文本的基础上进行扩展得到的 文本。
可选地,所述知识图谱中存储有已存储信息以及与该已存储信息相对应的 事件、发生地点以及人物;
所述从所述知识图谱中确定与所述目标信息相关联的各信息实体,包括:
确定所述目标信息所涉及的各目标事件;
从所述知识图谱中查找与所述目标事件相关联的各目标发生地点以及各目 标人物;
将所述目标事件、所述目标发生地点以及所述目标人物确定为所述目标信 息相关联的信息实体。
可选地,所述确定与所述目标信息相关联的各目标事件,包括:
从所述知识图谱中确定所述目标信息所涉及的各目标事件;
或者,从预先创建的事件表中确定所述目标信息所涉及的各目标事件,所 述事件表中存储有各所述已存储信息的信息标识与事件之间的对应关系。
可选地,所述方法还包括:
将各所述第三信息实体以及各所述扩展实体进行分组,得到多组实体组合, 所述实体组合中包含多个信息实体,每两组所述实体组合包含的信息实体存在 差异;
将所述多组所述实体组合输入事件推理模型中,得到与所述多组实体组合 相关联的事件;
确定所述多组实体组合相关联的事件的展示方式,提供给所述显示界面, 所述事件推理模型是基于样本实体组合以及与所述样本实体组合相关联的样本 事件训练得到的。
可选地,所述以预定的规则,确定所述各信息实体、所述各信息实体对应 的信息、所述各信息实体之间的关联关系的展示方式,包括:
按照所述知识图谱的结构确定所述各信息实体、所述各信息实体对应的信 息、所述各信息实体之间的关联关系的展示方式。
可选地,所述方法还包括:
从预先构建的第一参考信息库中确定与所述第一查询文本相对应的参考信 息,并将与所述查询文本相关联的参考信息提供给所述显示界面,所述参考信 息用于为用户编辑稿件提供知识参考。
可选地,所述方法还包括:
获取更新信息,并基于所述更新信息更新所述知识图谱。
可选地,所述知识图谱中包含多个信息节点和多个实体节点,所述信息节 点上存储有已存储信息,所述实体节点上存储有所述已存储信息对应的信息实 体;
所述已存储信息对应的信息实体包括所述已存储信息对应的事件;
所述知识图谱中的每两个对应有相同事件的信息节点之间存在第一连接边, 所述第一连接边上存储有与该连接边连接的信息节点对应的事件。
可选地,所述多个实体节点中包含多个事件节点,所述事件节点上存储有 所述已存储信息对应的事件,每两个具有关联关系的事件节点之间存在第二连 接边,所述第二连接边上存储有所连接的两个事件节点分别对应的两个事件之 间的关联关系。
可选地,所述多个实体节点中还包含多个人物节点,所述人物节点上存储 有所述已存储信息对应的人物信息,每两个具有关联关系的人物节点之间存在 第三连接边,所述第三连接边上存储有所连接的两个人物节点分别对应的两个 人物之间的关联关系,所述人物节点与关联于该人物节点的事件节点或信息节 点之间存在第四连接边,所述第四连接边上存储有所连接的人物节点与信息节 点或者事件节点之间的关联关系;
和/或,所述多个实体节点中还包含多个地点节点,所述地点节点上存储有 所述已存储信息对应的发生地点信息,每两个具有关联关系的地点节点之间存 在第五连接边,所述第五连接边上存储有所连接的两个地点节点分别对应的两 个地点之间的关联关系,所述地点节点与关联于该地点节点的事件节点或信息 节点之间存在第六连接边,所述第六连接边上存储有所连接的地点节点与信息 节点或者事件节点之间的关联关系。
可选地,所述知识图谱的构建过程包括:
获取待创建的知识图谱中的各待存储信息;
将所述各待存储信息进行聚合,得到多组信息组,其中,每组信息组中的 各个信息为相似信息;
根据所述信息组中各信息的内容确定所述信息组对应的各信息实体;
基于各所述信息组分别对应的各信息实体、各所述待存储信息创建所述知 识图谱。
可选地,所述将所述各待存储信息进行聚合,得到多组信息组,包括:
基于聚合规则对各所述待存储信息进行聚合,得到多组信息组,其中,所 述聚合规则为:每组所述信息组中各个信息之间的内容相似度大于第一预设阈 值、发生时间间隔小于预设时间间隔。
第二方面,本申请实施例还提供了一种基于知识图谱的搜索方法,应用于 客户端,所述方法包括:
获取用户输入的第一查询文本,所述第一查询文本用于进行搜索;
获取各信息实体、所述各信息实体对应的信息、所述各信息实体之间的关 联关系的展示方式,并在显示界面进行显示;
其中,所述各信息实体包含第一信息实体以及第二信息实体,所述第一信 息实体与所述查询文本相关联,所述第一信息实体表示与所述查询文本相关联 的信息所涉及的信息实体,所述第二信息实体为从预先构建的知识图谱中筛选 出的、与所述第一信息实体相关联的信息实体,所述各信息实体对应的信息、 所述各信息实体之间的关联关系分别从所述知识图谱中确定。
可选地,所述方法还包括:
在显示界面显示与所述第一查询文本相关联的参考信息,所述参考信息是 从预先构建的第一参考信息库中确定出的、与所述第一查询文本相关联的信息, 所述参考信息用于为用户编辑稿件提供知识参考。
第三方面,本申请实施例还提供了一种基于知识图谱的搜索装置,应用于 服务端,所述装置包括:
第一获取单元,用于获取第一查询文本;
确定单元,用于确定与所述第一查询文本相关联的第一信息实体,所述第 一信息实体表示与所述查询文本相关联的信息所涉及的信息实体;
查找单元,用于从预先构建的知识图谱中筛选出与所述第一信息实体相关 联的至少一个第二信息实体;从所述知识图谱中确定出各信息实体对应的各信 息、各信息实体之间的关联关系,所述各信息实体包括各所述第一信息实体和 各所述第二信息实体;
所述确定单元还用于以预定的规则,确定所述各信息实体、所述各信息实 体对应的信息、所述各信息实体之间的关联关系的展示方式,提供给需要展示 的显示界面。
可选地,所述确定单元具体用于:对所述查询文本第一查询文本进行实体 识别,得到至少一个第三信息实体;根据各所述第三信息实体确定与所述第一 查询文本相关联的第一信息实体。
可选地,所述确定单元具体用于:基于预先构建的知识图谱对所述第三信 息实体进行实体扩展,得到至少一个与所述第三信息实体相关联的扩展实体; 根据所述第三信息实体以及所述扩展实体确定与所述查询文本第一查询文本相 关联的第一信息实体。
可选地,所述获取单元还用于:获取第二查询文本;
所述确定单元具体用于:从预先构建的知识图谱所存储的各信息中搜索出 与所述第二查询文本相匹配的目标信息;从所述知识图谱中确定与所述目标信 息相关联的各信息实体;基于与所述目标信息相关联的各信息实体对所述第三 信息实体进行实体扩展;其中,所述第一查询文本是在所述第二查询文本的基 础上进行扩展得到的文本。
可选地,所述知识图谱中存储有已存储信息以及与该已存储信息相对应的 事件、发生地点以及人物;
所述查找单元具体用于:确定所述目标信息所涉及的各目标事件;从所述 知识图谱中查找与所述目标事件相关联的各目标发生地点以及各目标人物;将 所述目标事件、所述目标发生地点以及所述目标人物确定为所述目标信息相关 联的信息实体。
可选地,所述查找单元具体用于:从所述知识图谱中确定所述目标信息所 涉及的各目标事件;或者,从预先创建的事件表中确定所述目标信息所涉及的 各目标事件,所述事件表中存储有各所述已存储信息的信息标识与事件之间的 对应关系。
可选地,所述装置还包括:
分组单元,用于将各所述第三信息实体以及各所述扩展实体进行分组,得 到多组实体组合,所述实体组合中包含多个信息实体,每两组所述实体组合包 含的信息实体存在差异;
事件推理单元,用于将所述多组所述实体组合输入事件推理模型中,得到 与所述多组实体组合相关联的事件;
所述确定单元还用于:确定所述多组实体组合相关联的事件的展示方式, 提供给所述显示界面,所述事件推理模型是基于样本实体组合以及与所述样本 实体组合相关联的样本事件训练得到的。
可选地,所述确定单元具体用于:按照所述知识图谱的结构确定所述各信 息实体、所述各信息实体对应的信息、所述各信息实体之间的关联关系的展示 方式。
可选地,所述装置还包括:
参考单元,用于从预先构建的第一参考信息库中确定与所述第一查询文本 相对应的参考信息,并将与所述查询文本相关联的参考信息提供给所述显示界 面,所述参考信息用于为用户编辑稿件提供知识参考。
可选地,所述装置还包括:
更新单元,用于获取更新信息,并基于所述更新信息更新所述知识图谱。
可选地,所述知识图谱中包含多个信息节点和多个实体节点,所述信息节 点上存储有已存储信息,所述实体节点上存储有所述已存储信息对应的信息实 体;所述已存储信息对应的信息实体包括所述已存储信息对应的事件;所述知 识图谱中的每两个对应有相同事件的信息节点之间存在第一连接边,所述第一 连接边上存储有与该连接边连接的信息节点对应的事件。
可选地,所述多个实体节点中包含多个事件节点,所述事件节点上存储有 所述已存储信息对应的事件,每两个具有关联关系的事件节点之间存在第二连 接边,所述第二连接边上存储有所连接的两个事件节点分别对应的两个事件之 间的关联关系。
可选地,所述多个实体节点中还包含多个人物节点,所述人物节点上存储 有所述已存储信息对应的人物信息,每两个具有关联关系的人物节点之间存在 第三连接边,所述第三连接边上存储有所连接的两个人物节点分别对应的两个 人物之间的关联关系,所述人物节点与关联于该人物节点的事件节点或信息节 点之间存在第四连接边,所述第四连接边上存储有所连接的人物节点与信息节 点或者事件节点之间的关联关系;
和/或,所述多个实体节点中还包含多个地点节点,所述地点节点上存储有 所述已存储信息对应的发生地点信息,每两个具有关联关系的地点节点之间存 在第五连接边,所述第五连接边上存储有所连接的两个地点节点分别对应的两 个地点之间的关联关系,所述地点节点与关联于该地点节点的事件节点或信息 节点之间存在第六连接边,所述第六连接边上存储有所连接的地点节点与信息 节点或者事件节点之间的关联关系。
可选地,所述装置还包括:
图谱构建单元,用于获取待创建的知识图谱中的各待存储信息;将所述各 待存储信息进行聚合,得到多组信息组,其中,每组信息组中的各个信息为相 似信息;根据所述信息组中各信息的内容确定所述信息组对应的各信息实体; 基于各所述信息组分别对应的各信息实体、各所述待存储信息创建所述知识图 谱。
可选地,所述图谱构建单元具体用于:基于聚合规则对各所述待存储信息 进行聚合,得到多组信息组,其中,所述聚合规则为:每组所述信息组中各个 信息之间的内容相似度大于第一预设阈值、发生时间间隔小于预设时间间隔。
第四方面,本申请实施例还提供了一种基于知识图谱的搜索装置,应用于 客户端,所述装置包括:
第二获取单元,获取用户输入的第一查询文本,所述第一查询文本用于进 行搜索;
显示单元,用于获取各信息实体、所述各信息实体对应的信息、所述各信 息实体之间的关联关系的展示方式,并在显示界面进行显示;
其中,所述各信息实体包含第一信息实体以及第二信息实体,所述第一信 息实体与所述查询文本相关联,所述第一信息实体表示与所述查询文本相关联 的信息所涉及的信息实体,所述第二信息实体为从预先构建的知识图谱中筛选 出的、与所述第一信息实体相关联的信息实体,所述各信息实体对应的信息、 所述各信息实体之间的关联关系分别从所述知识图谱中确定。
可选地,所述显示单元还用于:
在显示界面显示与所述查询文本相关联的参考信息,所述参考信息是从预 先构建的第一参考信息库中确定出的、与所述第一查询文本相关联的信息,所 述参考信息用于为用户编辑稿件提供知识参考。
第五方面,本申请实施例还提供了一种电子设备,包括:
处理器;以及
存储器,用于存储数据处理程序,该电子设备通电并通过所述处理器运行 该程序后,执行如第一方面或第二方面任一项所述的方法。
第六方面,本申请实施例还提供了一种计算机可读存储介质,存储有数据 处理程序,该程序被处理器运行,执行如第一方面或第二方面任一项所述的方 法。
与现有技术相比,本申请具有以下优点:
本申请提供的基于知识图谱的搜索方法,确定了与第一查询文本对应的信 息所涉及的第一信息实体后,再从预先构建的知识图谱中确定各信息实体对应 的各信息、各信息实体之间的关联关系,由于本申请中进行搜索是基于知识图 谱的,基于知识图谱本身的属性,即知识图谱中具有关联关系的两个节点之间 具有边,该边能够表示其所连接的两个节点分别对应的内容之间的关系,所以, 通过预先构建的知识图谱能够快速、准确地查找到与第一信息实体相关联的第 二信息实体、第一信息实体以及第二信息实体所包含的各信息实体之间的关联 关系,基于知识图谱能够方便地查出各信息实体对应的信息。
当确定了第一信息实体相关联的第二信息实体、各信息实体对应的各信息、 各信息实体之间的关联关系,并确定了这些内容的展示方式后,能够将所确定 的这些内容按照该展示方式在显示界面上显示,策划人员可以在显示界面上查 看所确定的这些内容,由于所显示的这些内容包括各信息实体、所述各信息实 体对应的信息、所述各信息实体之间的关联关系,所以,所显示的内容是已经 为策划人员进行了关系梳理、关联搜索后的内容,策划人员通过所显示的内容 即可很方便、明晰、全面地查看到与自己输入的第一查询文本相关的信息,由 于所显示的信息更全面、且各个信息之间的关系也已经梳理好了,策划人员无 需再反复进行多次搜索,也无需再将搜索出的内容进行过多的梳理,简化了策 划人员进行信息编辑之前的信息搜索的过程,从而提高了策划人员进行信息编 辑的效率。
另外,本申请实施例基于与查询文本相关联的各个第一信息实体从知识图 谱中确定相关的信息及实体,由于第一信息实体既能够较准确地表达出第一查 询文本的搜索意图,也能够因其信息有效率较高而使得信息搜索更快速、高效, 相比于直接通过查询文本进行搜索,第一信息实体由于是将查询文本中的非关 键信息过滤掉后得到的信息,因此,通第一信息实体能够高效地进行信息搜索。
在一个可选的方案中,所述确定与所述目标信息相关联的各目标事件,包 括:从所述知识图谱中确定所述目标信息所涉及的各目标事件。这样,通过知 识图谱可以很方便地确定出目标信息所涉及的各目标事件。
在另一个可选的方案中,所述确定与所述目标信息相关联的各目标事件, 包括:从预先创建的事件表中确定所述目标信息所涉及的各目标事件,所述事 件表中存储有各所述已存储信息的信息标识与事件之间的对应关系。这样,通 过事件表可以快速地确定出目标信息所涉及的各目标信息事件,从而能够提高 信息搜索的效率。
在一个可选的方案中,所述多个实体节点中还包含多个人物节点,所述人 物节点上存储有所述已存储信息对应的人物信息,每两个具有关联关系的人物 节点之间存在第三连接边,所述第三连接边上存储有所连接的两个人物节点分 别对应的两个人物之间的关联关系,所述人物节点与关联于该人物节点的事件 节点或信息节点之间存在第四连接边,所述第四连接边上存储有所连接的人物 节点与信息节点或者事件节点之间的关联关系。
本方案通过设置人物节点以及设置第三连接边和第四连接边,可以在搜索 时将与信息相关的人物、与事件相关的人物、具有关联关系的人物都搜索出来 以进行显示,从而使得策划人员可以获知信息、事件、人物之间的关联关系, 更便于策划人员进行策划。
在一个可选的方案中,所述多个实体节点中还包含多个地点节点,所述地 点节点上存储有所述已存储信息对应的发生地点信息,每两个具有关联关系的 地点节点之间存在第五连接边,所述第五连接边上存储有所连接的两个地点节 点分别对应的两个地点之间的关联关系,所述地点节点与关联于该地点节点的 事件节点或信息节点之间存在第六连接边,所述第六连接边上存储有所连接的 地点节点与信息节点或者事件节点之间的关联关系。
本方案通过设置地点节点以及设置第五连接边和第六连接边,可以在搜索 时将与信息相关的地点、与事件相关的地点、具有关联关系的地点都搜索出来 以进行显示,从而使得策划人员可以获知信息、事件、地点之间的关联关系, 更便于策划人员进行新闻策划。
附图说明
图1是本申请实施例提供的搜索方法的一例的流程图;
图2是图1所示的搜索方法中确定第一信息实体的一例的流程图;
图3是图2所示的方法中确定第一信息实体的另一例的流程图;
图4所示为本申请实施例提供的知识图谱的一种示意图;
图5是本申请实施例提供的搜索方法的再一例的流程图;
图6是本申请实施例提供的搜索装置的单元框图;
图7是本申请实施例提供的用于实现搜索方法的电子设备的结构示意图。
图8是本申请实施例提供的搜索系统的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请 能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背 本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
经过近十年的互联网行业的高速发展,信息的增长速度及信息的丰富度远 超以往,自媒体、微博等的出现以及传统媒体转型升级需求进一步加速了信息 增长的过程,信息产生的速度逐渐能以秒为单位触达人民生活的方方面面。但 是随着信息的通俗化和大众化,信息从业者的准入门槛也逐渐降低,较多的低 质量乃至事实错误、断章取义的信息的出现逐渐成为行业的弊病。而对专业信 息从业者(譬如信息编辑、信息记者等)来说,随着信息事件可感知敏感度的 逐渐提高及信息事件细节的逐渐丰富,经验主义的策划渐渐难以满足读者对信 息的阅读需求,编辑需要投入更多的时间和精力,在浩如烟海且实时增量、动 态变化的包含了图像、文本、视频的多模态信息底库数据中,梳理出所需要的 内容,用于形成合适、完整、正确的信息稿件,此类繁琐的工作严重挤压了信 息从业者做深度思考的时间,影响信息质量。因此,策划行业迫切需要一套搜 索的方案,以切入报社记者、编辑、策划者等人员的需求痛点,提升工作效率。
基于以上问题,本申请实施例提供了一种基于知识图谱的搜索方法、装置、 电子设备及计算机可读存储介质,能够快速地搜索并梳理出策划人员所需的信 息,从而能够提高策划人员进行信息编辑的效率。
本申请第一实施例提供了一种基于知识图谱的搜索方法,该方法的执行主 体为服务端,具体的,该方法的执行主体为服务端设备,该服务端设备可以是 服务器、台式电脑、笔记本电脑、智能移动终端等,也可以是其他能够作为服 务端的电子设备。
本申请实施例提供的基于知识图谱的搜索方法可以作为策划人员或信息编 辑人员进行信息编辑的辅助手段,能够快速地搜索并梳理出策划人员所需的信 息,从而能够提高策划人员进行信息编辑的效率。
如图1所示,本申请第一实施例提供的基于知识图谱的搜索方法包括以下 步骤S110~步骤S150。
步骤S110:获取第一查询文本。
上述第一查询文本是策划人员进行搜索时所输入的第一查询文本,用于搜 索到与该第一查询文本相匹配的信息。
步骤S110中,策划人员可以在客户端输入第一查询文本,客户端将用户输 入的第一查询文本发送给服务端,服务端接收从客户端发送的第一查询文本, 从而使得服务端能够获取到第一查询文本。
上述第一查询文本可以是中文文本,也可以是英文、法文、德文等外文文 本,本申请不具体限定。
步骤S120:确定与上述第一查询文本相关联的至少一个第一信息实体。
上述第一信息实体用于表示第一查询文本对应的信息所涉及的信息实体。
第一查询文本对应的信息可以包括第一查询文本对应的信息、论文、书记、 法律条款等,但不限于此。为便于描述,下文中主要以第一查询文本对应的信 息包括第一查询文本对应的信息对本申请进行介绍。
信息所涉及的信息实体也可以理解为信息所涉及的命名实体,命名实体是 以名称为标识的实体,命名实体可以包括:人物、事件、地点、时间、机构组 织、产品型号、运动项目、节气中的至少一种,也还可以包括信息所涉及的其 他命名实体,本申请不具体限定。
步骤S120中,可以基于实体识别确定出与上述第一查询文本相关联的第一 信息实体。具体的,可以对第一查询文本进行实体识别,将识别得到的实体作 为与第一查询文本相关联的第一信息实体。
具体的,可以基于ner算法对第一查询文本进行实体识别,从而得到识别出 的实体。ner算法又称作专名识别,ner算法能够从非结构化的输入文本中抽取 出人名、地名、专有名词等实体。或者,也可以基于其他实体识别算法进行实 体识别,本申请不具体限定。
步骤S120中所确定的第一信息实体可以包括一个实体,也可以包括多个实 体,当第一信息实体包括多个实体时,可以使得后续进行搜索的范围更精确, 从而使得搜索的精度更高。
步骤S130:从预先构建的知识图谱中筛选出与第一信息实体相关联的至少 一个第二信息实体。
步骤S140:从知识图谱中确定出各信息实体对应的各信息、各信息实体之 间的关联关系。
上述各信息实体包括各第一信息实体和各第二信息实体。
知识图谱可以理解为一种语义网络,其能够用图的形式描述客观事物,这 里的图包含节点和边,节点表示实体,边表示实体间的关系,该实体可以是人、 地方、组织机构、概念、文章等等。在知识图谱中,节点-边-节点可以看作一条 记录,一条记录为一条三元组数据,知识图谱中包含多条三元组数据。
可以理解的是,本申请实施例中预先构建的知识图谱用于进行信息搜索, 知识图谱中包含多个实体节点和多个信息节点,具有关联关系的两个信息实体 对应的两个实体节点之间通过关系边连接,具有关联关系的信息实体与信息之 间通过关系边连接,具有关联关系的两个信息节点之间通过关系边连接。
以进行信息搜索为例,知识图谱中包括多个信息节点和多个实体节点,信 息节点上存储有信息,实体节点上存储有信息对应的实体,本申请实施例中, 知识图谱的一个信息节点上可以存储有一信息。或者,一个信息节点上也可以 存储有多个信息,当一个信息节点上存储有多个信息时,该多个信息通常是相 似信息,即相似度较高的信息,这样,可以通过聚类的方式使得知识图谱的结 构更简洁,从而能够使得搜索的速度更快。信息节点上存储的信息可以含信息 正文、信息报道视频、信息标题、信息发生日期、信息对应的链接地址(例如url)等信息,但不限于此。
步骤S130~步骤S140中,可以从知识图谱中确定与第一信息实体对应的实 体节点有关联关系的第一实体节点,将第一实体节点对应的信息实体确定为与 第一信息实体相关联的第二信息实体;从知识图谱中确定与第一信息实体对应 的实体节点有关联关系的第一信息节点,将第一信息节点对应的信息确定为第 一信息实体对应的信息;从知识图谱中确定各信息实体分别对应的各个第二实 体节点,基于各个第二实体节点相互之间的连接边确定各个第二实体节点分别 对应的各个信息实体之间的关联关系。
本申请实施例中,基于知识图谱可以很方便地确定出与第一信息实体相关 联的第二信息实体、所述第一信息实体对应的信息、各信息实体之间的关联关 系。
步骤S150:以预定的规则,确定各信息实体、各信息实体对应的信息、各 信息实体之间的关联关系的展示方式,提供给需要展示的显示界面。
步骤S150中,服务端可以将各信息实体、各信息实体对应的信息、各信息 实体之间的关联以及上述展示方式关系发送给客户端,客户端在接收到这些信 息后,可以按展示方式在显示界面上显示这些信息,以使得策划人员可以通过 客户端的显示界面查看这些信息。
上述预定的规则可以是将信息实体、各信息实体对应的信息、各信息实体 之间的关联关系以表格、图形化方式或者其他展示方式将各个信息进行展示, 本申请不具体限定。
上述信息实体可以包括信息对应的事件、发生地点、人物、时间、专有名 称中的至少一种,但不限于此。
本申请提供的基于知识图谱的搜索方法,确定了与第一查询文本对应的信 息所涉及的第一信息实体后,再从预先构建的知识图谱中确定各信息实体对应 的各信息、各信息实体之间的关联关系,由于本申请中进行搜索是基于知识图 谱的,通常情况下知识图谱包含各个节点,各个节点通过关系边连接,知识图 谱通过各个节点以及关系边存储各个信息、各个信息对应的实体、各个信息和 各个实体之间的关联关系。
基于知识图谱本身的属性,即知识图谱中具有关联关系的两个节点之间具 有边,该边能够表示其所连接的两个节点分别对应的内容之间的关系,所以, 通过预先构建的知识图谱能够快速、准确地查找到与第一信息实体相关联的第 二信息实体、第一信息实体以及第二信息实体所包含的各信息实体之间的关联 关系,基于知识图谱能够方便地查出各信息实体对应的信息。
当确定了第一信息实体相关联的第二信息实体、各信息实体对应的各信息、 各信息实体之间的关联关系,并确定了这些内容的展示方式后,能够将所确定 的这些内容按照该展示方式在显示界面上显示,策划人员可以在显示界面上查 看所确定的这些内容,由于所显示的这些内容包括各信息实体、所述各信息实 体对应的信息、所述各信息实体之间的关联关系,所以,所显示的内容是已经 为策划人员进行了关系梳理、关联搜索后的内容,策划人员通过所显示的内容 即可很方便、明晰、全面地查看到与自己输入的第一查询文本相关的信息,由 于所显示的信息更全面、且各个信息之间的关系也已经梳理好了,策划人员无 需再反复进行多次搜索,也无需再将搜索出的内容进行过多的梳理,简化了策 划人员进行信息编辑之前的信息搜索的过程,从而提高了策划人员进行信息编 辑的效率。
另外,本申请实施例基于与查询文本相关联的各个第一信息实体从知识图 谱中确定相关的信息及实体,由于第一信息实体既能够较准确地表达出第一查 询文本的搜索意图,也能够因其信息有效率较高而使得信息搜索更快速、高效, 相比于直接通过查询文本进行搜索,第一信息实体由于是将查询文本中的非关 键信息过滤掉后得到的信息,因此,通第一信息实体能够高效地进行信息搜索。
在一种实施方式中,如图2所示,步骤S120可以按以下步骤S121~步骤S122 实现。
步骤S121:对第一查询文本进行实体识别,得到至少一个第三信息实体。
步骤S122:根据各第三信息实体确定与第一查询文本相关联的第一信息实 体。
步骤S121进行实体识别的方式可参考上文步骤S120中使用ner算法进行实 体识别的过程,具体方式不再详述。
步骤S122中,可以直接将第三信息实体确定为与第一查询文本相关联的第 一信息实体。
本实施方式通过对第一查询文本进行实体识别的方式可以很方便、快速、 准确地得到与第一查询文本相关联的第一信息实体。
在一个具体实施例中,如图3所示,步骤S122可以按以下步骤S122a~S122b 实现。
步骤S122a:基于预先构建的知识图谱对第三信息实体进行实体扩展,得到 至少一个与第三信息实体相关联的扩展实体。
步骤S122b:根据第三信息实体以及扩展实体确定与第一查询文本相关联的 第一信息实体。
步骤S122a中,可以从预先构建的知识图谱中确定与第三信息实体具有关 联关系的信息实体,将与第三信息实体具有关联关系的信息实体确定为上述扩 展实体。
例如,第三信息实体为“运动会A”,知识图谱中与“运动会A”具有关 联关系的信息实体包括“地点A”、“运动项目A”“冰雪”、“东道主”这 几个信息实体,则与“运动会A”有关联关系的这几个信息实体为“运动会A” 的扩展实体。
步骤S122b中,可以将各第三信息实体以及各扩展实体确定为与第一查询 文本相关联的第一信息实体,也可以将各第三信息实体、各扩展实体以及其他 与第一查询文本相关联的信息实体确定为第一信息实体。
本实施例基于知识图谱对第三信息实体进行实体扩展,并根据得到的扩展 实体和第三信息实体确定第一信息实体,这样,所确定的第一信息实体是经过 扩展后的多个信息实体,根据经过扩展后的多个信息实体可以使得确定出的第 二信息实体、第一信息实体对应的信息以及各信息实体的涵盖范围更广,使得 搜索出的信息的范围也更广,从而使得可以更全面地搜索出与第一查询文本相 关联的信息及信息实体,减少了策划人员进行多次搜索的概率,从而进一步提 高了策划人员进行策划的效率。
在一个具体实施例中,上述方法还可以包括以下步骤S140~步骤S150。
步骤S140:将各第三信息实体以及各扩展实体进行分组,得到多组实体组 合。
每组实体组合中包含多个信息实体,每两组实体组合包含的信息实体存在 差异。每组实体组合中的多个信息实体通常能够描述一个或多个事件,该事件 例如可以是信息事件、学术事件、发明创造事件等,但不限于此。
每两组实体组合包含的信息实体存在差异,可以是两组实体组合包含的各 个信息实体均不相同,即两组实体组合中不存在相同的信息实体,也可以是两 组实体组合中存在相同的信息实体,也存在不同的信息实体,即两组信息实体 组合中的信息实体部分存在差异。
例如,实体组合【地点B、东道主、运动员】能够描述在地点B举办运动 会B、在地点B举办运动会A两个信息事件,实体组合【冰雪、地点B、东道 主】能够描述在地点举办运动会A这个信息事件,实体组合【运动会A、节气 A】能够描述在地点B举办运动会A这个信息事件,实体组合【地点B、夏天、 运动员】能够描述在地点B举办运动会B这个信息事件。
在进行分组的过程中,可以将各第三信息实体以及各扩展实体中的各个信 息实体进行随机分组以进行组合;或者,也可以按照同一实体组合中的各个信 息实体的实体类型不同的原则进行分组,例如,【地点B、夏天、运动员】这一 实体组合中的三个信息实体的类型分别是地点、季节、人员,本申请不限定分 组的具体方式。
步骤S150:将多组实体组合输入事件推理模型中,得到与多组实体组合相 关联的信息事件,并确定上述多组实体组合相关联的事件的展示方式以提供给 显示界面。
上述事件推理模型是基于样本实体组合以及与样本实体组合相关联的样本 事件训练得到的。例如,事件推理模型可以是通过样本实体组合和样本事件对 待训练模型进行训练,从而得到事件推理模型,待训练模型可以是神经网络模 型、逻辑回归模型等,也可以是其他深度学习模型。
例如,步骤S150中,服务端可以将与多组实体组合相关联的信息事件以及 各相关联的信息事件的展示方式发送给客户端,客户端在接收到与多组实体组 合相关联的信息事件后,可以在显示界面上按展示方式显示接收到的信息事件, 以使得策划人员可以通过客户端的显示界面查看到与多组实体组合相关联的信 息事件,这样,策划人员能够获知自己想要搜索的信息涉及哪些信息事件,为 策划人员进行了更明晰的信息事件梳理,更便于策划人员进行策划,提高了策 划人员的信息编辑效率。
本实施例通过对各个信息实体进行进行分组而得到多组实体组合,由于实 体组合中包含至少多个信息实体,多个信息实体相对于一个信息实体能够更准 确地描述出一个信息事件,所以,通过实体组合的方式得到的信息事件通常更 准确,从而可以为策划人员提供更加准确的信息事件信息,减少了策划人员进 行事件筛选的过程,提高了策划的效率。
步骤S150在确定出与多组实体组合相关联的信息事件后,可以将与多组实 体组合相关联的信息事件也确定为第一信息实体,这样,可以使得所确定的第 一信息实体更全面,从而使得搜索得到的信息和信息实体更全面、准确。
在一个具体实施例中,在步骤S110之前,还可以包括以下步骤S1~步骤S3。
步骤S1:获取第二查询文本。
上述第二查询文本与第一查询文本的获取方式相似,此处不再赘述。
步骤S2:从预先构建的知识图谱所存储的各信息中搜索出与第二查询文本 相匹配的目标信息。
步骤S2中,以进行信息搜索、知识图片中所存储的信息为信息为例,可以 基于文本相似度进行搜索,从知识图谱所存储的各信息中搜索出与第一查询文 本相似的信息作为目标信息,该目标信息即目标信息,这种情况下,与第二查 询文本相匹配的目标信息也可以理解为第二查询文本的相似信息。具体的,可 以将包含第二查询文本的信息确定为目标信息,或者,可以将存在第一文本的 信息确定为目标信息,第一文本与第二查询文本之间的文本相似度大于预设阈 值,该预设阈值例如可以是70%~90%,例如,该预设阈值可以是70%、80%、 90%,也可以是其他范围内的阈值。
步骤S2也可以基于其他方式搜索出与第二查询文本相匹配的信息,此处不 再赘述。
步骤S3:从知识图谱中确定与目标信息相关联的各信息实体。
步骤S3中,可以将与目标信息对应的信息节点连接的各个实体节点对应的 各个信息实体确定为与目标信息相关联的各信息实体。
步骤S122a中可以按以下步骤S4进行实体扩展。
步骤S4:基于与目标信息相关联的各信息实体对第三信息实体进行实体扩 展。
步骤S4中,可以将与目标信息相关联的各信息实体确定为扩展实体。
本实施例先查找到与第一查询文本相匹配的目标信息,再通过与目标信息 相关联的各信息实体进行实体扩展,由于与第一查询文本相匹配的目标信息能 够更全面地反映出策划人员想要搜索出的信息,因此,与目标信息相关联的各 信息实体也能够更全面地体现出策划人员想要搜索出的信息,基于与目标信息 相关联的各信息实体对第三信息实体进行实体扩展,能够使得到的各个扩展实 体更全面,从而使得搜索的结果更全面,进一步提高了策划人员进行策划的效 率。
本实施例中,步骤S1~步骤S3可以理解为进行了初步搜索,通过初步搜索 所确定出的目标信息和与目标信息相关联的各信息实体可以理解为从知识图谱 中筛选出了与搜索意图相匹配的子图谱,这样,可以使得后续基于第一查询文 本进行搜索的搜索范围更小、搜索精度和准确度更高。
在一种实施方式中,上述搜索方法还可以包括以下步骤:
确定目标信息、与所述目标信息相关联的各信息实体的展示方式,并将该 展示方式提供给显示界面,以用于通过该展示方式在显示界面显示目标信息、 与所述目标信息相关联的各信息实体。
具体的,服务端可以将目标信息、与目标信息相关联的各信息实体以及展 示方式发送给客户端,客户端可以根据该展示方式在显示界面显示目标信息、 与目标信息相关联的各信息实体、各信息实体之间的关联关系。这样,策划人 员可以根据显示的内容对第二查询文本进行扩展,得到更加详细的第一查询文 本,从而使得搜索更加精准。
在一个具体实施例中,上述知识图谱中存储有已存储信息以及与该已存储 信息相对应的事件、发生地点以及人物。
步骤S3可以按以下步骤S3a~步骤S3c实现。
步骤S3a:确定目标信息所涉及的各目标事件。
步骤S3a中,可以从知识图谱中确定目标信息所涉及的各目标事件。具体 的,知识图谱中的实体节点可以包含存储有事件的事件节点、存储有地点节点 的地点节点、存储有人物信息的人物节点,服务端可以将与目标信息对应的信 息节点有连接关系的事件节点对应的事件确定为目标信息所涉及的各目标事件。 本实施例通过知识图谱可以很方便地确定出目标信息所涉及的各目标事件。
图4所示为本申请实施例提供的知识图谱的一种示意图,例如,如图4所 示,“地点B”节点、“地点A”节点为地点节点,“运动会A”节点、“运动 项目A”节点为事件节点,“张导演”节点、“任选手”节点为人物节点。
步骤S3a中,也可以从预先创建的事件表中确定目标信息所涉及的各目标 事件,该事件表中存储有各已存储信息的信息标识与事件之间的对应关系。以 上述进行信息搜索为例,已存储信息为已存储信息,已存储信息的信息标识可 以是已存储信息的标题、摘要或者已存储信息的正文,也可以是其他信息标识, 此处不具体限定。本实施例通过事件表可以快速地确定出目标信息所涉及的各 目标信息事件,从而能够提高信息搜索的效率。
步骤S3b:从知识图谱中查找与目标事件相关联的各目标发生地点以及各目 标人物。
步骤S3b中,可以将知识图谱中与目标事件对应的事件节点有连接关系的 地点节点、人物节点分别对应的发生地点、人物确定为目标发生地点、目标人 物。
步骤S3c:将目标事件、目标发生地点以及目标人物确定为目标信息相关联 的信息实体。
本实施例中,由于事件是描述一个信息更准确的实体,通过事件能够很准 确地对信息进行概括,所以目标信息所涉及的目标事件能够对目标信息进行更 为准确的概括,基于目标事件能够更快速、准确地确定出目标发生地点和目标 人物,且所确定出的目标发生地和目标人物也更全面。
在一种实施方式中,上述搜索方法还可以包括以下步骤S160。
步骤S160:从预先构建的第一参考信息库中确定与上述第一查询文本相对 应的参考信息,并将与第一查询文本相关联的参考信息提供给显示界面进行显 示。
上述参考信息用于为用户编辑稿件提供知识参考。上述参考信息可以包括 人物讲话内容、固定句式、指导文件/精神、法律条款、科学知识、写作模板等 等,但不限于此。
例如,指导文件/精神可以为:官方印发的《中长期青年发展规划(2016- 2025年)》,人物讲话讲话内容:特定人员的发言等,但不限于此。
上述第一参考信息库中可以存储有参考信息以及参考信息对应的信息实体, 参考信息对应的信息实体可以是事件、地点、人物中的至少一种,步骤步骤S160 中,可以先确定与第一查询文本对应的信息实体,再从第一参考信息库中确定 与第一查询文本对应的信息实体相对应的参考信息。与第一查询文本对应的信 息实体的确定过程可以参考上文中对步骤S120、步骤S3a的详细描述,此处不 再赘述。
本实施方式中,服务端可以将与上述第一查询文本相对应的参考信息发送 给客户端,客户端可以在显示界面上显示该与第一查询文本相关联的参考信息。
本实施方式通过确定参考信息,可以使得策划人员根据参考信息进行信息 编辑,例如,套用固定句式、引用人物讲话内容等,这样可以使得策划人员实 现高效的信息编辑。
在一种实施方式中,上述方法还可以包括以下步骤S170。
步骤S170:获取更新信息,并基于更新信息更新上述知识图谱。
上述更新信息是知识图谱中未存储的信息,步骤S170中,可以是从其他信 息存储设备上获取更新信息,也可以是后台维护人员上传更新信息,也可以是 通过其他方式获取更新信息。
本申请实施例中,知识图谱具有自动化增量链路,可以通过配置config实 现基于更新信息更新知识图谱的过程,即通过配置config能够实现将更新信息 对齐的预先创建的知识图谱中。
当将更新信息对齐到知识图谱中时,知识图谱中会增加相应的信息节点和 实体节点,以存储更新信息以及更新信息对应的信息实体。
本实施方式能够实现私域数据的私有化构造,通过对知识图谱进行更新, 使得知识图谱的信息存储更全面,从而使得搜索的准确度更高,。
在一种实施方式中,上述已存储信息对应的信息实体包括已存储信息对应 的事件;上述知识图谱中的每两个对应有相同事件的信息节点之间存在第一连 接边,第一连接边上存储有与该连接边连接的信息节点对应的事件。
也就是说,每两个对应于同一事件的信息对应的两个信息节点之间建边, 所建的边用于表示这两个信息节点对应的事件。
如图4所示,以信息搜索为例,知识图谱中存储有各个信息,可以在“运 动会A信息一”与“运动会A信息三”两个信息节点之间建边,该边能够表示 二者均是关于运动会A的信息。
本实施方式以事件为边连接两个信息节点,能够方便地建立两个信息之间 的关联关系,也能够在搜索时方便地查找到事件对应的信息以及信息对应的事 件,提高了搜索的效率。
在一个具体实施例中,知识图谱中的多个实体节点中包含多个事件节点, 事件节点上存储有已存储信息对应的事件,每两个具有关联关系的事件节点之 间存在第二连接边,第二连接边上存储有所连接的两个事件节点分别对应的两 个事件之间的关联关系。
每两个具有关联关系的事件节点即每两个具有关联关系的事件分别对应的 两个事件节点。
例如,两个信息事件的关联关系可以是:事件“运动会A”与事件“运动 会C”之间的关联关系是:世界规模的运动会。
再例如,如图4所示,“运动会A”事件节点与“运动项目A”事件节点 之间的边能够表示出运动项目A是运动会A的比赛项目。
本实施例将具有关联关系的两个事件节点之间建立关系边,可在搜索时方 便地查找到各个相关联的事件,提高了搜索的关联性、覆盖范围,从而提高了 搜索的效率。
本申请实施例中,信息节点、事件节点可以看做是知识图谱的事理图谱, 用于进行信息和信息事件搜索。事理图谱包含两种层级:【信息,事件,信息】、 【事件,事件间关系,事件】,基于两种层级可以高效、准确地搜索到与事件 对应的信息,事件的关联事件,从而可以高效地实现搜索。
在一个具体实施例中,上述多个实体节点中还可以包含多个人物节点,人 物节点上存储有已存储信息对应的人物信息,每两个具有关联关系的人物节点 之间存在第三连接边,第三连接边上存储有所连接的两个人物节点分别对应的 两个人物之间的关联关系,人物节点与关联于该人物节点的事件节点或信息节 点之间存在第四连接边,第四连接边上存储有所连接的人物节点与信息节点或 者事件节点之间的关联关系。
例如,如图4所示,“安某某”人物节点与“任选手”人物节点之间的连 接边能够表示安某某是任选手的教练。“任选手”人物节点与“运动项目A” 事件节点之间的连街边能够表示任选手是运动项目A的参赛选手。
具体的,人物节点上存储的人物信息可以包含人物的名字、履历、图像、 头衔等,但不限于此。
本实施例通过设置人物节点以及设置第三连接边和第四连接边,可以在搜 索时将与信息相关的人物、与事件相关的人物、具有关联关系的人物都搜索出 来以进行显示,从而使得策划人员可以获知信息、事件、人物之间的关联关系, 更便于策划人员进行策划。
在再一个具体实施例中,上述多个实体节点中还可以包含多个地点节点, 地点节点上存储有所述已存储信息对应的发生地点信息,每两个具有关联关系 的地点节点之间存在第五连接边,第五连接边上存储有所连接的两个地点节点 分别对应的两个地点之间的关联关系,地点节点与关联于该地点节点的事件节 点或信息节点之间存在第六连接边,第六连接边上存储有所连接的地点节点与 信息节点或者事件节点之间的关联关系。
地点节点上存储的发生地点信息可以包含发生地的名字、图像、经纬度、 区域划分等信息,但不限于此。
本实施例通过设置地点节点以及设置第五连接边和第六连接边,可以在搜 索时将与信息相关的地点、与事件相关的地点、具有关联关系的地点都搜索出 来以进行显示,从而使得策划人员可以获知信息、事件、地点之间的关联关系, 更便于策划人员进行新闻策划。
可选地,地点节点与关联于该地点节点的人物节点之间还可以存在第七连 接边,第六连接边上存储有所连接的地点节点与人物节点之间的关联关系。
在一种实施方式中,上述知识图谱的构建过程可以包括以下步骤S10~S40。
步骤S10:获取待创建的知识图谱中的各待存储信息。
步骤S10中,可以从其他存储设备获取待存储信息,也可以从互联网上下 载各待存储信息,或者,可以是人工将待存储信息输入到服务端,服务端获取 到人工输入的待存储信息,本申请不限定获取待存储信息的具体方式。
上述待存储信息可以是待存储的新闻、论文、电子书籍、网络文章等等, 但不限于此。
步骤S20:将各待存储信息进行聚合,得到多组信息组。
其中,每组信息组中的各个信息为相似信息。每组信息组中的各个信息为 相似信息,可以是每组信息中各个信息的信息内容之间的相似度大于第一预设 阈值。具体的,可以是每组信息组中的每两个信息之间的信息内容的相似度都 大于第一预设阈值;或者,也可以是每组信息组中的各个信息均与基准信息之 间的内容相似度大于第一预设阈值,基准信息可以是该组信息组中的任一信息。 第一预设阈值例如可以是65%~95%,例如,第一预设阈值可以是65%、80%、 95%,也可以是其他范围内的阈值。
本实施方式中,判断两个信息是否为相似信息可以基于文本相似度,此处 不再赘述。
步骤S30:根据信息组中各信息的内容确定信息组对应的各信息实体。
步骤S30中,可以对信息组中的各个信息的内容进行实体识别,得到识别 出的各信息实体,根据识别出的各信息实体确定信息组对应的各信息实体。具 体的,可以将别出的各信息实体确定为信息组对应的各信息实体,也可以将识 别出的各信息实体中的目标信息实体确定为信息组对应的各信息实体,目标信 息实体为该信息组中各个信息均具有的信息实体,也就是说该组信息组中的各 个信息中均能识别出目标信息实体。或者,也可以通过其他方式确定信息组对 应的各信息实体,本申请不具体限定。
步骤S40:基于各信息组分别对应的各信息实体、各待存储信息创建知识图 谱。
步骤S40中,可以将各信息组分别对应的各信息实体分别存储在各实体节 点上,将各待存储信息存储在信息节点上,根据各个信息实体、各个待存储信 息之间的关系设置连街边,从而形成上述知识图谱。知识图谱的具体创建过程 不再详述。
本实施方式通过信息聚合的方式可以很方便地总结出各个信息对应的信息 实体,由于待存储信息的数量通常非常多,通过聚合的方式可以快速地确定出 各信息实体,提高了知识图谱创建的效率。
在一个具体实施例中,步骤S20可以按以下过程实现:基于聚合规则对各 所述待存储信息进行聚合,得到多组信息组。
其中,上述聚合规则为:每组信息组中各个信息之间的内容相似度大于第 一预设阈值、发生时间间隔小于预设时间间隔。
其中,每组信息中各个信息的信息发生时间间隔小于预设时间间隔,可以 是每组信息组中的每两个信息的发生时间间隔均小于预设时间间隔,或者,也 可以是每组信息组中的各个信息均与上述基准信息的发生时间间隔小于预设时 间间隔。预设时间间隔例如可以是3小时~24小时,例如,预设时间间隔可以是 3小时、10小时、24小时,也可以是其他范围内的时间间隔。
在一种实施方式中,上述搜索方法还可以包括以下步骤:从所述知识图谱 中确定与所述第二信息实体对应的信息,以用于将与第二信息实体对应的信息 进行显示,这样,可以使得策划人员也能够查看到第二信息实体对应的信息, 使得搜索更全面,进一步减少了策划人员主动搜索、归纳的过程。
在一种实施方式中,在步骤S130之前,上述搜索方法还可以包括以下步骤: 从所述第一查询文本中确定高频词。
高频词可以是第一查询文本中同类型词出现次数多于设定次数的词。例如 第一查询文本中“民乐”、“乐团”、“音乐”等词语出现次数多,则将与音 乐相关类型的词确定为高频词。
步骤S130可以按以下过程实现:基于第一搜索原则从预先构建的知识图谱 中确定第一信息实体对应的信息。
上述第一搜索原则包括:信息中包含上述高频词的数量与将该信息确定为 第一信息实体对应的信息的概率成正比。也就是说,知识图谱中与第一信息实 体相对应的信息中,若某个信息含有高频词的数量比较多,则该信息被确定为 第一信息实体对应的信息的概率更高。
本实施例可以使得所确定出的与第一信息实体对应的信息更符合策划人员 的搜索意图。
在一个可选的实施例中,本申请还提供了一种信息校对方法,应用于服务 端,该方法包括:
获取待校对稿件;
从预先构建的第二参考信息库中查找目标参考信息,所述目标参考信息与 待校对上述稿件中引用的文本信息相一致;
基于所述目标参考信息对所述待校对上述稿件中引用的文本信息进行校对, 得到校对结果,以用于将所述校对结果在显示界面进行显示。
上述待校对稿件可以是策划人员撰写完成的稿件。上述第二参考信息库中 可以包含人物讲话内容、指导文件/精神、法律条款等等,第二参考信息库中的 内容通常是不允许出现任何形式错误的信息。
本申请实施例中,可以基于文本相似度从预先构建的第二参考信息库中查 找目标参考信息,具体方式此处不再详述。
目标参考信息与待校对稿件中引用的文本信息相一致,可以是目标参考信 息与待校对稿件中引用的文本信息的相似度大于设定阈值,该设定阈值可以是 80%~95%,例如,80%、87%、95%,也可以是其他较大的百分比值,例如75%、 98%,本申请不具体限定。
在基于目标参考信息对待校对稿件中引用的文本信息进行校对时,可以将 待校对稿件中引用的文本信息与目标参考信息进行逐字校对,得到的校对结果 可以包括:错别字符、漏掉的字符、多出的字符、存在差别的位置、修改建议 等,但不限于此。具体的,逐字校对时可以为目标参考信息和待校对稿件中引 用的文本信息分别逐字生成特征描述符,通过每个字对应的特征描述符进行比 对得到校对结果。
本实施方式中,服务端可以将校对结果发送给客户端,客户端在接收到校 对结果后可以在显示界面显示该校对结果。服务端还可以将目标参考信息发送 给客户端,客户端在显示界面显示目标参考信息,这样,策划人员可以根据所 显示的校对结果和目标参考信息对所编辑的稿件进行修改。
本申请第二实施例还提供了一种基于知识图谱的搜索方法,该方法的执行 主体为客户端,具体的,该方法的执行主体为客户端设备,该客户端设备可以 是台式电脑、笔记本电脑、智能移动终端、手机、平板电脑、智能手表等,也 可以是其他能够作为客户端的电子设备。
如图5所示,本申请第二实施例提供的基于知识图谱的搜索方法包括以下 步骤S210~步骤S220。
步骤S210:获取用户输入的第一查询文本。
第一查询文本用于进行信息搜索。
步骤S220:获取各信息实体、所述各信息实体对应的信息、所述各信息实 体之间的关联关系的展示方式,并在显示界面进行显示。
其中,所述各信息实体包含第一信息实体以及第二信息实体,第一信息实 体与查询文本相关联,第一信息实体表示与查询文本相关联的信息所涉及的信 息实体,第二信息实体为从预先构建的知识图谱中筛选出的、与第一信息实体 相关联的信息实体,各信息实体对应的信息、各信息实体之间的关联关系分别 从知识图谱中确定。
在一种实施方式中,本申请第二实施例提供的基于知识图谱的搜索方法还 包括以下步骤S240。
步骤S240:在显示界面显示与第一查询文本相关联的参考信息,参考信息 是从预先构建的第一参考信息库中确定出的、与第一查询文本相关联的信息, 参考信息用于为用户编辑稿件提供知识参考。
本申请第二实施例提供的搜索方法由于与第一实施例提供的搜索方法的方 案具有相应的特定技术特征,相关特征的具体描述、有益效果可以参考第一实 施例,此处不再赘述。
与本申请第一实施例提供的基于知识图谱的搜索方法相对应的,本申请第 三实施例提供了一种基于知识图谱的搜索装置,应用于服务端,如图6所示, 该装置包括:
第一获取单元,用于获取第一查询文本;
确定单元,用于确定与所述第一查询文本相关联的第一信息实体,所述第 一信息实体表示与所述查询文本相关联的信息所涉及的信息实体;
查找单元,用于从预先构建的知识图谱中筛选出与所述第一信息实体相关 联的至少一个第二信息实体;从所述知识图谱中确定出各信息实体对应的各信 息、各信息实体之间的关联关系,所述各信息实体包括各所述第一信息实体和 各所述第二信息实体;
所述确定单元还用于以预定的规则,确定所述各信息实体、所述各信息实 体对应的信息、所述各信息实体之间的关联关系的展示方式,提供给需要展示 的显示界面。
可选地,所述确定单元具体用于:对所述查询文本第一查询文本进行实体 识别,得到至少一个第三信息实体;根据各所述第三信息实体确定与所述第一 查询文本相关联的第一信息实体。
可选地,所述确定单元具体用于:基于预先构建的知识图谱对所述第三信 息实体进行实体扩展,得到至少一个与所述第三信息实体相关联的扩展实体; 根据所述第三信息实体以及所述扩展实体确定与所述查询文本第一查询文本相 关联的第一信息实体。
可选地,所述获取单元还用于:获取第二查询文本;
所述确定单元具体用于:从预先构建的知识图谱所存储的各信息中搜索出 与所述第二查询文本相匹配的目标信息;从所述知识图谱中确定与所述目标信 息相关联的各信息实体;基于与所述目标信息相关联的各信息实体对所述第三 信息实体进行实体扩展;其中,所述第一查询文本是在所述第二查询文本的基 础上进行扩展得到的文本。
可选地,所述知识图谱中存储有已存储信息以及与该已存储信息相对应的 事件、发生地点以及人物;
所述查找单元具体用于:确定所述目标信息所涉及的各目标事件;从所述 知识图谱中查找与所述目标事件相关联的各目标发生地点以及各目标人物;将 所述目标事件、所述目标发生地点以及所述目标人物确定为所述目标信息相关 联的信息实体。
可选地,所述查找单元具体用于:从所述知识图谱中确定所述目标信息所 涉及的各目标事件;或者,从预先创建的事件表中确定所述目标信息所涉及的 各目标事件,所述事件表中存储有各所述已存储信息的信息标识与事件之间的 对应关系。
可选地,所述装置还包括:
分组单元,用于将各所述第三信息实体以及各所述扩展实体进行分组,得 到多组实体组合,所述实体组合中包含多个信息实体,每两组所述实体组合包 含的信息实体存在差异;
事件推理单元,用于将所述多组所述实体组合输入事件推理模型中,得到 与所述多组实体组合相关联的事件;
所述确定单元还用于:确定所述多组实体组合相关联的事件的展示方式, 提供给所述显示界面,所述事件推理模型是基于样本实体组合以及与所述样本 实体组合相关联的样本事件训练得到的。
可选地,所述确定单元具体用于:按照所述知识图谱的结构确定所述各信 息实体、所述各信息实体对应的信息、所述各信息实体之间的关联关系的展示 方式。
可选地,所述装置还包括:
参考单元,用于从预先构建的第一参考信息库中确定与所述第一查询文本 相对应的参考信息,并将与所述查询文本相关联的参考信息提供给所述显示界 面,所述参考信息用于为用户编辑稿件提供知识参考。
可选地,所述装置还包括:
更新单元,用于获取更新信息,并基于所述更新信息更新所述知识图谱。
可选地,所述知识图谱中包含多个信息节点和多个实体节点,所述信息节 点上存储有已存储信息,所述实体节点上存储有所述已存储信息对应的信息实 体;所述已存储信息对应的信息实体包括所述已存储信息对应的事件;所述知 识图谱中的每两个对应有相同事件的信息节点之间存在第一连接边,所述第一 连接边上存储有与该连接边连接的信息节点对应的事件。
可选地,所述多个实体节点中包含多个事件节点,所述事件节点上存储有 所述已存储信息对应的事件,每两个具有关联关系的事件节点之间存在第二连 接边,所述第二连接边上存储有所连接的两个事件节点分别对应的两个事件之 间的关联关系。
可选地,所述多个实体节点中还包含多个人物节点,所述人物节点上存储 有所述已存储信息对应的人物信息,每两个具有关联关系的人物节点之间存在 第三连接边,所述第三连接边上存储有所连接的两个人物节点分别对应的两个 人物之间的关联关系,所述人物节点与关联于该人物节点的事件节点或信息节 点之间存在第四连接边,所述第四连接边上存储有所连接的人物节点与信息节 点或者事件节点之间的关联关系;
和/或,所述多个实体节点中还包含多个地点节点,所述地点节点上存储有 所述已存储信息对应的发生地点信息,每两个具有关联关系的地点节点之间存 在第五连接边,所述第五连接边上存储有所连接的两个地点节点分别对应的两 个地点之间的关联关系,所述地点节点与关联于该地点节点的事件节点或信息 节点之间存在第六连接边,所述第六连接边上存储有所连接的地点节点与信息 节点或者事件节点之间的关联关系。
可选地,所述装置还包括:
图谱构建单元,用于获取待创建的知识图谱中的各待存储信息;将所述各 待存储信息进行聚合,得到多组信息组,其中,每组信息组中的各个信息为相 似信息;根据所述信息组中各信息的内容确定所述信息组对应的各信息实体; 基于各所述信息组分别对应的各信息实体、各所述待存储信息创建所述知识图 谱。
可选地,所述图谱构建单元具体用于:基于聚合规则对各所述待存储信息 进行聚合,得到多组信息组,其中,所述聚合规则为:每组所述信息组中各个 信息之间的内容相似度大于第一预设阈值、发生时间间隔小于预设时间间隔。
与本申请第二实施例提供的基于知识图谱的搜索方法相对应的,本申请第 四实施例提供了一种基于知识图谱的搜索装置,应用于客户端,该装置包括:
第二获取单元,获取用户输入的第一查询文本,所述第一查询文本用于进 行搜索;
显示单元,用于获取各信息实体、所述各信息实体对应的信息、所述各信 息实体之间的关联关系的展示方式,并在显示界面进行显示;
其中,所述各信息实体包含第一信息实体以及第二信息实体,所述第一信 息实体与所述查询文本相关联,所述第一信息实体表示与所述查询文本相关联 的信息所涉及的信息实体,所述第二信息实体为从预先构建的知识图谱中筛选 出的、与所述第一信息实体相关联的信息实体,所述各信息实体对应的信息、 所述各信息实体之间的关联关系分别从所述知识图谱中确定。
可选地,所述显示单元还用于:
在显示界面显示与所述查询文本相关联的参考信息,所述参考信息是从预 先构建的第一参考信息库中确定出的、与所述第一查询文本相关联的信息,所 述参考信息用于为用户编辑稿件提供知识参考。
与本申请第一实施例提供的搜索方法相对应的,本申请第五实施例还提供 了一种用于搜索信息的电子设备。如图7所示,所述电子设备包括:处理器701; 以及存储器702,用于存储搜索方法的程序,该设备通电并通过所述处理器运行 该搜索方法的程序后,执行如下步骤:
获取第一查询文本;
确定与所述第一查询文本相关联的至少一个第一信息实体,所述第一信息 实体用于表示所述第一查询文本对应的信息所涉及的信息实体;
从预先构建的知识图谱中筛选出与所述第一信息实体相关联的至少一个第 二信息实体;
从所述知识图谱中确定出各信息实体对应的各信息、各信息实体之间的关 联关系,所述各信息实体包括各所述第一信息实体和各所述第二信息实体;
以预定的规则,确定所述各信息实体、所述各信息实体对应的信息、所述 各信息实体之间的关联关系的展示方式,提供给需要展示的显示界面。
与本申请第二实施例提供的搜索方法相对应的,本申请第六实施例还提供 了一种用于搜索信息的电子设备。所述电子设备包括:处理器;以及存储器, 用于存储搜索方法的程序,该设备通电并通过所述处理器运行该搜索方法的程 序后,执行如下步骤:
获取用户输入的第一查询文本,所述第一查询文本用于进行信息搜索;
获取各信息实体、所述各信息实体对应的信息、所述各信息实体之间的关 联关系的展示方式,并在显示界面进行显示;
其中,所述各信息实体包含第一信息实体以及第二信息实体,所述第一信 息实体与所述查询文本相关联,所述第一信息实体表示与所述查询文本相关联 的信息所涉及的信息实体,所述第二信息实体为从预先构建的知识图谱中筛选 出的、与所述第一信息实体相关联的信息实体,所述各信息实体对应的信息、 所述各信息实体之间的关联关系分别从所述知识图谱中确定。
与本申请第一实施例提供的搜索方法相对应的,本申请第七实施例提供一 种计算机可读存储介质,存储有搜索方法的程序,该程序被处理器运行,执行 下述步骤:
获取第一查询文本;
确定与所述第一查询文本相关联的至少一个第一信息实体,所述第一信息 实体用于表示所述第一查询文本对应的信息所涉及的信息实体;
从预先构建的知识图谱中筛选出与所述第一信息实体相关联的至少一个第 二信息实体;
从所述知识图谱中确定出各信息实体对应的各信息、各信息实体之间的关 联关系,所述各信息实体包括各所述第一信息实体和各所述第二信息实体;
以预定的规则,确定所述各信息实体、所述各信息实体对应的信息、所述 各信息实体之间的关联关系的展示方式,提供给需要展示的显示界面。
与本申请第二实施例提供的搜索方法相对应的,本申请第八实施例提供一 种计算机可读存储介质,存储有搜索方法的程序,该程序被处理器运行,执行 下述步骤:
获取用户输入的第一查询文本,所述第一查询文本用于进行信息搜索;
获取各信息实体、所述各信息实体对应的信息、所述各信息实体之间的关 联关系的展示方式,并在显示界面进行显示;
其中,所述各信息实体包含第一信息实体以及第二信息实体,所述第一信 息实体与所述查询文本相关联,所述第一信息实体表示与所述查询文本相关联 的信息所涉及的信息实体,所述第二信息实体为从预先构建的知识图谱中筛选 出的、与所述第一信息实体相关联的信息实体,所述各信息实体对应的信息、 所述各信息实体之间的关联关系分别从所述知识图谱中确定。
与本申请第一实施例、第二实施例提供的搜索方法相对应的,本申请第九 实施例还提供了一种用于搜索信息的系统,如图8所示,该系统包括服务端设 备801和客户端设备802。
服务端设备801用于执行以下步骤:
从客户端设备802获取第一查询文本;
确定与所述第一查询文本相关联的至少一个第一信息实体,所述第一信息 实体用于表示所述第一查询文本对应的信息所涉及的信息实体;
从预先构建的知识图谱中筛选出与所述第一信息实体相关联的至少一个第 二信息实体;
从所述知识图谱中确定出各信息实体对应的各信息、各信息实体之间的关 联关系,所述各信息实体包括各所述第一信息实体和各所述第二信息实体;
以预定的规则,确定所述各信息实体、所述各信息实体对应的信息、所述 各信息实体之间的关联关系的展示方式,提供给客户端设备802。
客户端设备802用于执行以下步骤:
获取用户输入的第一查询文本,并将该第一查询文本发送给服务端设备801, 所述第一查询文本用于进行信息搜索;
接收服务端设备801发送的各信息实体、所述各信息实体对应的信息、所 述各信息实体之间的关联关系,以及接收到的各个信息的展示方式,并按展示 方式在显示界面显示从服务端设备801接收到的信息。
其中,其中,所述各信息实体包含第一信息实体以及第二信息实体,所述 第一信息实体与所述查询文本相关联,所述第一信息实体表示与所述查询文本 相关联的信息所涉及的信息实体,所述第二信息实体为从预先构建的知识图谱 中筛选出的、与所述第一信息实体相关联的信息实体,所述各信息实体对应的 信息、所述各信息实体之间的关联关系分别从所述知识图谱中确定。
需要说明的是,对于本申请第二实施例至第八实施例中提供的方法、装置、 电子设备及计算机可读存储介质实施例,详细描述可以参考对本申请第一实施 例的相关描述,这里不再赘述。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本 领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改, 因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,电子设备包括一个或多个处理器(CPU)、输入/输出接 口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。 内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由 任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程 序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其 他属性的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存 储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、 数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他 磁性存储介质或任何其他非传输介质,可用于存储可以被计算设备访问的信息。 按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机 程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件 和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计 算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、 光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本 领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改, 因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims (14)

1.一种基于知识图谱的搜索方法,其特征在于,应用于服务端,所述方法包括:
获取第一查询文本;
确定与所述第一查询文本相关联的至少一个第一信息实体,所述第一信息实体用于表示所述第一查询文本对应的信息所涉及的信息实体;
从预先构建的知识图谱中筛选出与所述第一信息实体相关联的至少一个第二信息实体;
从所述知识图谱中确定出各信息实体对应的各信息、各信息实体之间的关联关系,所述各信息实体包括各所述第一信息实体和各所述第二信息实体;
以预定的规则,确定所述各信息实体、所述各信息实体对应的信息、所述各信息实体之间的关联关系的展示方式,提供给需要展示的显示界面。
2.根据权利要求1所述的搜索方法,其特征在于,所述确定与所述第一查询文本相关联的第一信息实体,包括:
对所述查询文本第一查询文本进行实体识别,得到至少一个第三信息实体;
根据各所述第三信息实体确定与所述第一查询文本相关联的第一信息实体。
3.根据权利要求2所述的搜索方法,其特征在于,所述根据各所述第三信息实体确定与所述第一查询文本相关联的第一信息实体,包括:
基于预先构建的知识图谱对所述第三信息实体进行实体扩展,得到至少一个与所述第三信息实体相关联的扩展实体;
根据所述第三信息实体以及所述扩展实体确定与所述第一查询文本相关联的第一信息实体。
4.根据权利要求3所述的搜索方法,其特征在于,在所述获取第一查询文本之前,所述方法还包括:
获取第二查询文本;
从预先构建的知识图谱所存储的各信息中搜索出与所述第二查询文本相匹配的目标信息;
从所述知识图谱中确定与所述目标信息相关联的各信息实体;
所述基于预先构建的知识图谱对所述第三信息实体进行实体扩展,包括:
基于与所述目标信息相关联的各信息实体对所述第三信息实体进行实体扩展;
其中,所述第一查询文本是在所述第二查询文本的基础上进行扩展得到的文本。
5.根据权利要求4所述的搜索方法,其特征在于,所述知识图谱中存储有已存储信息以及与该已存储信息相对应的事件、发生地点以及人物;
所述从所述知识图谱中确定与所述目标信息相关联的各信息实体,包括:
确定所述目标信息所涉及的各目标事件;
从所述知识图谱中查找与所述目标事件相关联的各目标发生地点以及各目标人物;
将所述目标事件、所述目标发生地点以及所述目标人物确定为所述目标信息相关联的信息实体。
6.根据权利要求3所述的搜索方法,其特征在于,所述方法还包括:
将各所述第三信息实体以及各所述扩展实体进行分组,得到多组实体组合,所述实体组合中包含多个信息实体,每两组所述实体组合包含的信息实体存在差异;
将所述多组所述实体组合输入事件推理模型中,得到与所述多组实体组合相关联的事件;
确定所述多组实体组合相关联的事件的展示方式,提供给所述显示界面,所述事件推理模型是基于样本实体组合以及与所述样本实体组合相关联的样本事件训练得到的。
7.根据权利要求1所述的搜索方法,其特征在于,所述以预定的规则,确定所述各信息实体、所述各信息实体对应的信息、所述各信息实体之间的关联关系的展示方式,包括:
按照所述知识图谱的结构确定所述各信息实体、所述各信息实体对应的信息、所述各信息实体之间的关联关系的展示方式。
8.根据权利要求1所述的搜索方法,其特征在于,所述方法还包括:
从预先构建的第一参考信息库中确定与所述第一查询文本相对应的参考信息,并将与所述查询文本相关联的参考信息提供给所述显示界面,所述参考信息用于为用户编辑稿件提供知识参考。
9.根据权利要求1所述的搜索方法,其特征在于,所述方法还包括:
获取更新信息,并基于所述更新信息更新所述知识图谱。
10.根据权利要求1所述的搜索方法,其特征在于,所述知识图谱中包含多个信息节点和多个实体节点,所述信息节点上存储有已存储信息,所述实体节点上存储有所述已存储信息对应的信息实体;
所述已存储信息对应的信息实体包括所述已存储信息对应的事件;
所述知识图谱中的每两个对应有相同事件的信息节点之间存在第一连接边,所述第一连接边上存储有与该连接边连接的信息节点对应的事件。
11.根据权利要求10所述的搜索方法,其特征在于,所述多个实体节点中包含多个事件节点,所述事件节点上存储有所述已存储信息对应的事件,每两个具有关联关系的事件节点之间存在第二连接边,所述第二连接边上存储有所连接的两个事件节点分别对应的两个事件之间的关联关系。
12.根据权利要求1所述的搜索方法,其特征在于,所述知识图谱的构建过程包括:
获取待创建的知识图谱中的各待存储信息;
将所述各待存储信息进行聚合,得到多组信息组,其中,每组信息组中的各个信息为相似信息;
根据所述信息组中各信息的内容确定所述信息组对应的各信息实体;
基于各所述信息组分别对应的各信息实体、各所述待存储信息创建所述知识图谱。
13.根据权利要求12所述的搜索方法,其特征在于,所述将所述各待存储信息进行聚合,得到多组信息组,包括:
基于聚合规则对各所述待存储信息进行聚合,得到多组信息组,其中,所述聚合规则为:每组所述信息组中各个信息之间的内容相似度大于第一预设阈值、发生时间间隔小于预设时间间隔。
14.一种基于知识图谱的搜索方法,其特征在于,应用于客户端,所述方法包括:
获取用户输入的第一查询文本,所述第一查询文本用于进行信息搜索;
获取各信息实体、所述各信息实体对应的信息、所述各信息实体之间的关联关系的展示方式,并在显示界面进行显示;
其中,所述各信息实体包含第一信息实体以及第二信息实体,所述第一信息实体与所述查询文本相关联,所述第一信息实体表示与所述查询文本相关联的信息所涉及的信息实体,所述第二信息实体为从预先构建的知识图谱中筛选出的、与所述第一信息实体相关联的信息实体,所述各信息实体对应的信息、所述各信息实体之间的关联关系分别从所述知识图谱中确定。
CN202210355086.4A 2022-03-31 2022-03-31 基于知识图谱的搜索方法、装置及电子设备 Active CN114911898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210355086.4A CN114911898B (zh) 2022-03-31 2022-03-31 基于知识图谱的搜索方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210355086.4A CN114911898B (zh) 2022-03-31 2022-03-31 基于知识图谱的搜索方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN114911898A true CN114911898A (zh) 2022-08-16
CN114911898B CN114911898B (zh) 2025-02-07

Family

ID=82762523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210355086.4A Active CN114911898B (zh) 2022-03-31 2022-03-31 基于知识图谱的搜索方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114911898B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049428A (zh) * 2022-12-22 2023-05-02 东软集团股份有限公司 知识图谱构建方法、数据查询方法、装置、介质和设备
CN116383348A (zh) * 2022-12-14 2023-07-04 湖南省爱数信息技术有限公司 一种检索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN110019560A (zh) * 2017-12-28 2019-07-16 中国移动通信集团上海有限公司 一种基于知识图谱的查询方法及装置
US20210223921A1 (en) * 2020-01-17 2021-07-22 Baidu Online Network Technology (Beijing) Co. Ltd. Method and Apparatus for Determining Extended Reading Content, Device and Storage Medium
CN114218372A (zh) * 2021-12-17 2022-03-22 北京北大软件工程股份有限公司 基于知识库表示的知识图谱检索方法及系统
CN114238584A (zh) * 2021-12-22 2022-03-25 中国建设银行股份有限公司 信息搜索方法、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN110019560A (zh) * 2017-12-28 2019-07-16 中国移动通信集团上海有限公司 一种基于知识图谱的查询方法及装置
US20210223921A1 (en) * 2020-01-17 2021-07-22 Baidu Online Network Technology (Beijing) Co. Ltd. Method and Apparatus for Determining Extended Reading Content, Device and Storage Medium
CN114218372A (zh) * 2021-12-17 2022-03-22 北京北大软件工程股份有限公司 基于知识库表示的知识图谱检索方法及系统
CN114238584A (zh) * 2021-12-22 2022-03-25 中国建设银行股份有限公司 信息搜索方法、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TẠ DUY CÔNG CHIẾN等: "AN APPROACH TO EXTENDING QUERY SENTENCE FOR SEMANTIC ORIENTED SEARCH ON KNOWLEDGE", 《JOURNAL OF SCIENCE AND TECHNOLOGY》, vol. 50, no. 2, 2 August 2021 (2021-08-02), pages 284 - 291 *
马国斌: "基于知识图谱的专利知识检索研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 3, 15 March 2022 (2022-03-15), pages 138 - 3171 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383348A (zh) * 2022-12-14 2023-07-04 湖南省爱数信息技术有限公司 一种检索方法
CN116049428A (zh) * 2022-12-22 2023-05-02 东软集团股份有限公司 知识图谱构建方法、数据查询方法、装置、介质和设备

Also Published As

Publication number Publication date
CN114911898B (zh) 2025-02-07

Similar Documents

Publication Publication Date Title
CN109582799B (zh) 知识样本数据集的确定方法、装置及电子设备
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
US11106718B2 (en) Content moderation system and indication of reliability of documents
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
CN102591971B (zh) 一种网页信息提取的方法和设备
WO2021174783A1 (zh) 近义词推送方法、装置、电子设备及介质
WO2021098648A1 (zh) 文本推荐方法、装置、设备及介质
CN105956053B (zh) 一种基于网络信息的搜索方法及装置
CN111090771B (zh) 歌曲搜索方法、装置及计算机存储介质
CN110321537B (zh) 一种文案生成方法和装置
WO2016179938A1 (zh) 题目推荐方法和题目推荐装置
CN112559895B (zh) 一种数据处理方法、装置、电子设备及存储介质
WO2008022581A1 (en) Method and device for obtaining the new words and input method system
CN114328799A (zh) 数据处理方法、装置以及计算机可读存储介质
US20250061139A1 (en) Systems and methods for semantic search scoping
CN113704422A (zh) 一种文本推荐方法、装置、计算机设备和存储介质
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质
CN114911898A (zh) 基于知识图谱的搜索方法、装置及电子设备
CN104951478A (zh) 信息处理方法和信息处理装置
CN117725077A (zh) 标识搜索方法、装置、计算机设备、存储介质和程序产品
CN104572904A (zh) 一种标签关联程度的确定方法及装置
US20250103667A1 (en) Systems and methods for identifying search topics
US9323721B1 (en) Quotation identification
CN114781505A (zh) 标准数据元的匹配方法、装置、存储介质及电子装置
CN119316389A (zh) 一种对话方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant