CN118643136B - 一种面向多源医院数据库的智能问答系统 - Google Patents
一种面向多源医院数据库的智能问答系统 Download PDFInfo
- Publication number
- CN118643136B CN118643136B CN202410775695.4A CN202410775695A CN118643136B CN 118643136 B CN118643136 B CN 118643136B CN 202410775695 A CN202410775695 A CN 202410775695A CN 118643136 B CN118643136 B CN 118643136B
- Authority
- CN
- China
- Prior art keywords
- answer
- fuzzy
- determining
- keyword
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Fuzzy Systems (AREA)
- Software Systems (AREA)
- Automation & Control Theory (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及智能问答技术领域,尤其涉及一种面向多源医院数据库的智能问答系统,包括:数据源融合模块,其用以获取若干数据源的数据,生成若干目标数据集,并确定各关键词索引集、模糊词索引集以及模糊词与关键词的指向向量集;数据集匹配模块,用以根据用户问题确定问题关键词、模糊关键词、中间答案的检索方式,并确定用户答案对应的目标数据集;智能问答模块,用以确定用户答案关键词和答案语料,并根据答案语料及预设输出模型输出对应的答案形式;答案生成模块,用以输出所述用户问题对应的用户答案。本发明能够降低后续数据处理量,提高检索效率,并提高智能问答的准确性,从而提高用户体验。
Description
技术领域
本发明涉及智能问答技术领域,尤其涉及一种面向多源医院数据库的智能问答系统。
背景技术
随着人工智能技术的发展,人类与智能系统交互的技术不断完善,相关智能应用迅速发展。智能问答系统是人工智能领域中的一大研究热点,在医疗领域的应用越来越受到关注,在节约人力资源,提高信息处理的效率,降低网站运行成本方面起着积极作用。智能问答系统是自然语言处理领域的一个重要的方向,旨在让用户直接用自然语言提问并获得答案。由于自然语言的复杂性,想要计算机能够正确理解人类语言十分困难,尤其是面对一些具有大量专业术语的特殊领域,智能问答系统的应用效果尚远不能满足用户的需求。
对于智能问答系统,根据问题来匹配到对应的答案是必不可少的一个环节。智能问答系统中的文本信息匹配指是将预先定义好的问题和对应的答案录入到数据库中,再根据用户提出的问题,对数据库中的问题进行检索,最后将相似度最高的问题所对应的答案提取出来反馈给用户。然而,传统方式通常是在知识数据库中进行模糊查询,在查询结果中挑选到与用户问题描述关键字匹配最多的作为目标,这样的匹配方式容易导致用户问题没被正确理解从而返回错误答案的情况。而现有知识数据库依赖于单一数据源和专家知识,没有充分利用多源的大数据资源,容易导致用户问题的范围较小或没被正确理解从而返回错误答案的情况。
中国专利公开号CN112749265A公开了一种基于多信息源的智能问答系统,所述系统具体包括基于知识库的问答模块KBQA、基于文档集的问答模块DBQA、基于常问问题集的问答模块QuesSimQA、第三方API模块和多元答案验证模块;对于用户的问题,所述KBQA模块、DBQA模块、QuesSimQA模块和第三方API模块分别给出一个答案,再通过多源答案验证模块对各个模块提供的答案进行验证打分排序,将得分最高的答案提交给用户。
由此可见,该发明提供的基于多信息源的智能问答系统存在以下问题:面对多源数据通过建立不同的问答模块,对每一回答模块输出的答案进行打分以确定用户问题的回答,会增加智能问答系统的数据处理量,计算成本增加,并降低回复效率,影响用户体验。
发明内容
为此,本发明提供一种面向多源医院数据库的智能问答系统,用以克服现有技术面对多源数据智能问答系统数据处理量过大,效率不高的问题。
为实现上述目的,本发明提供一种面向多源医院数据库的智能问答系统,包括:
数据源融合模块,其用以获取若干数据源的数据,根据各数据源中数据的数据类型进行分类生成若干目标数据集,并确定各目标数据集对应的关键词索引集、模糊词索引集以及模糊词与关键词的指向向量集;每一目标数据集具有对应的答案语料;
数据集匹配模块,其与所述数据源融合模块相连,用以根据用户问题确定问题关键词,根据所述问题关键词与各所述关键词索引集的关系确定模糊关键词,根据所述模糊关键词的属性确定中间答案的检索方式,包括基于所述模糊词索引集确定中间答案和基于所述指向向量集确定中间答案;
以及,基于获取的中间答案、问题关键词确定用户答案对应的目标数据集;其中,将获取的中间答案作为关键词替换模糊关键词形成新的问题关键词;
智能问答模块,其分别与所述数据源融合模块和所述数据集匹配模块相连,用以根据用户问题确定用户答案关键词,基于所述用户答案对应的目标数据集确定答案语料,以及根据答案语料及预设输出模型输出对应的答案形式;
答案生成模块,其与所述智能问答模块相连,用以根据所述用户答案关键词以及所述答案形式输出所述用户问题对应的用户答案。
进一步地,所述数据源融合模块,包括:
数据分类子模块,其用以根据若干数据源中数据的数据类型进行分类,以得到若干初始数据集;每一所述初始数据集中数据的数据类型相同;
数据预处理子模块,其与所述数据分类子模块相连,用以对每一初始数据集中的数据进行数据预处理,以生成若干目标数据集;
关键词提取子模块,其与所述数据预处理子模块相连,用以提取各所述目标数据集中每一数据的关键词,以及基于各关键词分析形成模糊词,以得到各目标数据集对应的关键词索引集和模糊词索引集,并根据若干所述目标数据集中每一数据的关键词和模糊词确定模糊词与关键词的指向向量集;所述模糊词与关键词具有上下位关系,每一模糊词具有至少一个对应的关键词;
其中,若单个模糊词对应的关键词均位于同一目标数据集中,则将该模糊词收集至该目标数据集对应的模糊词索引集中,若单个模糊词对应的关键词位于至少两个目标数据集中,则将该模糊词收集至所述指向向量集中。
进一步地,所述数据集匹配模块,包括:
问题关键词确定子模块,其与所述数据源融合模块相连,用以根据用户问题确定问题关键词;所述问题关键词至少存在一个;
模糊关键词确定子模块,其与所述问题关键词确定子模块相连,用以根据所述问题关键词与各所述关键词索引集的关系确定模糊关键词;
其中,
在第一关系条件下,根据预设的关键词模糊方式处理对应的问题关键词,以得到所述问题关键词对应的模糊关键词;
在第二关系条件下,基于预设的模糊词对照表根据所述用户问题确定模糊关键词;
中间答案确定子模块,其与所述模糊关键词确定子模块相连,用以根据所述模糊关键词的属性确定中间答案的检索方式,包括基于所述模糊词索引集确定中间答案和基于所述指向向量集确定中间答案;
数据集匹配子模块,其与所述中间答案确定子模块相连,基于获取的中间答案、问题关键词确定用户答案对应的目标数据集。
进一步地,所述第一关系条件为存在至少一个所述问题关键词在各所述关键词索引集中出现次数均为0。
进一步地,所述第二关系条件为各所述问题关键词在各所述关键词索引集出现次数均不为0,并且各所述问题关键词不存在对应至同一个的目标数据集。
进一步地,所述根据所述模糊关键词的属性确定中间答案的检索方式,包括:
若所述模糊关键词为预设第一属性,则基于所述模糊词索引集确定中间答案;
若所述模糊关键词为预设第二属性,则基于所述指向向量集确定中间答案。
进一步地,所述基于所述模糊词索引集确定中间答案,包括:基于所述模糊词索引集根据所述模糊关键词确定对应的目标数据集,根据所述目标数据集中对应的数据生成中间答案。
进一步地,所述基于所述指向向量集确定中间答案,包括:基于所述模糊词与关键词的指向向量集确定模糊关键词的下位关键词,并根据下位关键词确定中间答案所在的目标数据集,以及根据所述目标数据集中对应的数据生成中间答案。
进一步地,所述智能问答模块,包括:
用户答案关键词确定子模块,其用以基于预设的答案关键词对照表根据用户问题确定用户答案关键词;
答案语料确定子模块,其分别与所述数据源融合模块和所述数据集匹配模块相连,用以基于所述用户答案对应的目标数据集确定答案语料;
答案形式输出子模块,其与所述答案语料确定子模块相连,用以根据所述答案语料、所述用户问题及预设输出模型输出对应的答案形式。
进一步地,所述答案生成模块,包括:
答案生成子模块,其与所述智能问答模块相连,用以根据所述用户答案关键词以及所述答案形式进行匹配,以生成用户答案;
答案输出子模块,其与所述答案生成子模块相连,用以输出所述用户问题对应的用户答案。
与现有技术相比,本发明的有益效果在于,本发明提供的面向多源医院数据库的智能问答系统,通过设置数据源融合模块处理多源数据获取若干目标数据集,构建便于检索的关键词索引集、模糊词索引集以及模糊词与关键词的指向向量集,能够降低后续数据处理量,提高检索效率。通过设置数据集匹配模块、智能问答模块和答案生成模块,基于问题关键词、模糊关键词确定用户答案对应的目标数据集,从而确定答案语料以生成答案形式,基于用户答案关键词和答案形式输出所述用户问题对应的用户答案,能够提高检索用户答案的准确性,从而提高智能问答的准确性,以提高用户体验。
进一步地,本发明数据源融合模块通过设置数据分类子模块,按照数据类型对若干数据源中数据的进行分类,能够便于根据相同数据类型的数据形成对应的答案语料,提高后续数据处理的效率。由于各数据源中的数据标准、格式不统一,并且可能存在重复、噪声数据,通过设置数据预处理子模块对每一初始数据集中的数据进行数据预处理,能够降低后续数据处理量,提高问答准确性。通过设置关键词提取子模块构建关键词索引集、模糊词索引集、模糊词与关键词的指向向量集,能够提高后续检索效率。
进一步地,本发明数据集匹配模块,通过设置问题关键词确定子模块,将根据用户问题检索答案转换为根据用户问题对应的各问题关键词进行检索,能够提高答案检索效率。通过设置模糊关键词确定子模块,根据所述问题关键词与各所述关键词索引集的关系确定模糊关键词,能够保证在用户问题语义比较模糊,不够精准时,也可以检索到用户答案,以提高用户体验。中间答案确定子模块,根据模糊关键词的属性确定中间答案的检索方式,能够避免数据处理量过大,检索到的中间答案不够准确的问题。
进一步地,根据用户问题确定的任一问题关键词在各关键词索引集中均未检索到,都会影响到输出的问题答案的准确性,故而,存在至少一个所述问题关键词在各所述关键词索引集中出现次数均为0时,对未出现的问题关键词进行处理以确定对应的模糊关键词,能够提高问答准确性。
进一步地,根据用户问题确定的各问题关键词均在各关键词索引集中能够检索到,但各问题关键词没有对应至同一个的目标数据集,表明检索到的目标数据集不够准确,可能会漏掉相关信息,使得问题答案不准确,从而影响用户体验,故而,根据用户问题确定模糊关键词,能够提高问答准确性。
进一步地,模糊关键词的属性不同会影响到检索的中间答案的准确性以及数据处理量,通过设置不同检索方式,能够降低数据处理量,以及提高问答准确性。
进一步地,基于所述模糊词索引集能够直接确定所述模糊关键词对应的目标数据集,从而确定中间答案,能够提高检索效率。
进一步地,基于所述模糊词与关键词的指向向量集确定模糊关键词的下位关键词,并根据下位关键词确定中间答案所在的目标数据集,能够降低数据处理量。
进一步地,本发明智能问答模块通过设置用户答案关键词确定子模块确定用户答案关键字,通过设置答案语料确定子模块根据用户答案对应的目标数据集确定答案语料,并根据答案形式输出子模块输出对应的答案形式,能够保证用户答案的准确性。
进一步地,本发明答案生成模块通过设置答案生成子模块、答案输出子模块输出所述用户问题对应的用户答案,能够保证用户答案的形式比较标准,提高用户体验。
附图说明
图1为本发明面向多源医院数据库的智能问答系统的结构框图;
图2为本发明提供的数据源融合模块的结构框图;
图3为本发明提供的数据集匹配模块的结构框图;
图4为本发明提供的智能问答模块的结构框图;
图5为本发明提供的答案生成模块的结构框图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,其为本发明面向多源医院数据库的智能问答系统的结构框图。本发明提供一种面向多源医院数据库的智能问答系统,包括:
数据源融合模块,其用以获取若干数据源的数据,根据各数据源中数据的数据类型进行分类生成若干目标数据集,并确定各目标数据集对应的关键词索引集、模糊词索引集以及模糊词与关键词的指向向量集;每一目标数据集具有对应的答案语料;
在实施中,所述数据源包括病人的诊断信息、电子病历、检查报告、治疗信息、用药信息等,医院的药品采购信息、使用情况、管理信息等,工作人员的岗位信息、人事档案、诊疗信息等,医学文献、医疗词典资源、疾病分类手册等。
具体的,数据类型可以按照结构化数据、半结构化数据、非结构化数据分类。
请参阅图2所示,其为本发明数据源融合模块的结构框图。
具体而言,所述数据源融合模块,包括:
数据分类子模块,其用以根据若干数据源中数据的数据类型进行分类,以得到若干初始数据集;每一所述初始数据集中数据的数据类型相同;
数据预处理子模块,其与所述数据分类子模块相连,用以对每一初始数据集中的数据进行数据预处理,以生成若干目标数据集;
在实施中,数据预处理包括:格式统一、去除噪声数据、去除重复数据、数据分词和词性标注等。
值得说明的是,本领域技术人员知晓,现有技术中任一能够进行数据预处理的方法,均落入本发明的保护范围,在此不再赘述。
关键词提取子模块,其与所述数据预处理子模块相连,用以提取各所述目标数据集中每一数据的关键词,以及基于各关键词分析形成模糊词,以得到各目标数据集对应的关键词索引集和模糊词索引集,并根据若干所述目标数据集中每一数据的关键词和模糊词确定模糊词与关键词的指向向量集;所述模糊词与关键词具有上下位关系,每一模糊词具有至少一个对应的关键词;
其中,若单个模糊词对应的关键词均位于同一目标数据集中,则将该模糊词收集至该目标数据集对应的模糊词索引集中,若单个模糊词对应的关键词位于至少两个目标数据集中,则将该模糊词收集至所述指向向量集中。
在实施中,每一数据具有至少一个关键词,每一目标数据集具有对应的关键词索引集,每一关键词均可以设置对应的模糊词,例如:关键词为阿莫西林胶囊,模糊词可以为抗生素、药品或者青霉素类抗生素;而关键词为头孢唑林,模糊词也可以为抗生素,实际实施人员可以根据实际情况进行设置。一般而言,模糊词是涵盖具体关键词的一个广泛定义(上位词)。
本发明数据源融合模块通过设置数据分类子模块,按照数据类型对若干数据源中数据的进行分类,能够便于根据相同数据类型的数据形成对应的答案语料,提高后续数据处理的效率。由于各数据源中的数据标准、格式不统一,并且可能存在重复、噪声数据,通过设置数据预处理子模块对每一初始数据集中的数据进行数据预处理,能够降低后续数据处理量,提高问答准确性。通过设置关键词提取子模块构建关键词索引集、模糊词索引集、模糊词与关键词的指向向量集,能够提高后续检索效率。
数据集匹配模块,其与所述数据源融合模块相连,用以根据用户问题确定问题关键词,根据所述问题关键词与各所述关键词索引集的关系确定模糊关键词,根据所述模糊关键词的属性确定中间答案的检索方式,包括基于所述模糊词索引集确定中间答案和基于所述指向向量集确定中间答案;
以及,基于获取的中间答案、问题关键词确定用户答案对应的目标数据集;其中,将获取的中间答案作为关键词替换模糊关键词形成新的问题关键词;
具体而言,所述数据集匹配模块,包括:
问题关键词确定子模块,其与所述数据源融合模块相连,用以根据用户问题确定问题关键词;所述问题关键词至少存在一个;
模糊关键词确定子模块,其与所述问题关键词确定子模块相连,用以根据所述问题关键词与各所述关键词索引集的关系确定模糊关键词;
其中,
在第一关系条件下,根据预设的关键词模糊方式处理对应的问题关键词,以得到所述问题关键词对应的模糊关键词;
在第二关系条件下,基于预设的模糊词对照表根据所述用户问题确定模糊关键词;
在实施中,预设的关键词模糊方式可以为根据问题关键词的词性确定对应的文本库,根据文本相似度定义模糊匹配算法;或根据现有技术中的搜索引擎库确定对应的模糊词;或基于知识库或历史检索记录确定对应的模糊词。
在实际应用场景中,实际实施人员可以根据实际情况设置预设的模糊词对照表,所述模糊词对照表能够进行根据数据源的更新进行对应更新(包括扩充、删减和替换)。
中间答案确定子模块,其与所述模糊关键词确定子模块相连,用以根据所述模糊关键词的属性确定中间答案的检索方式,包括基于所述模糊词索引集确定中间答案和基于所述指向向量集确定中间答案;
数据集匹配子模块,其与所述中间答案确定子模块相连,基于获取的中间答案、问题关键词确定用户答案对应的目标数据集。
本发明数据集匹配模块,通过设置问题关键词确定子模块,将根据用户问题检索答案转换为根据用户问题对应的各问题关键词进行检索,能够提高答案检索效率。通过设置模糊关键词确定子模块,根据所述问题关键词与各所述关键词索引集的关系确定模糊关键词,能够保证在用户问题语义比较模糊,不够精准时,也可以检索到用户答案,以提高用户体验。中间答案确定子模块,根据模糊关键词的属性确定中间答案的检索方式,能够避免数据处理量过大,检索到的中间答案不够准确的问题。
具体而言,所述第一关系条件为存在至少一个所述问题关键词在各所述关键词索引集中出现次数均为0。
本发明根据用户问题确定的任一问题关键词在各关键词索引集中均未检索到,都会影响到输出的问题答案的准确性,故而,存在至少一个所述问题关键词在各所述关键词索引集中出现次数均为0时,对未出现的问题关键词进行处理以确定对应的模糊关键词,能够提高问答准确性。
具体而言,所述第二关系条件为各所述问题关键词在各所述关键词索引集出现次数均不为0,并且各所述问题关键词不存在对应至同一个的目标数据集。
本发明根据用户问题确定的各问题关键词均在各关键词索引集中能够检索到,但各问题关键词没有对应至同一个的目标数据集,表明检索到的目标数据集不够准确,可能会漏掉相关信息,使得问题答案不准确,从而影响用户体验,故而,根据用户问题确定模糊关键词,能够提高问答准确性。
具体而言,所述根据所述模糊关键词的属性确定中间答案的检索方式,包括:
若所述模糊关键词为预设第一属性,则基于所述模糊词索引集确定中间答案;
若所述模糊关键词为预设第二属性,则基于所述指向向量集确定中间答案。
具体的,所述预设第一属性为具有发散性,如果基于所述指向向量集确定中间答案,那么可能会确定出大量的中间答案,会增加数据处理量,故而,基于所述模糊词索引集确定中间答案。所述预设第二属性为具有收缩性,若基于所述模糊词索引集确定中间答案,那么可能会无法确定中间答案,降低问答准确性,故而,基于所述指向向量集确定中间答案。
在实施中,模糊关键词的属性不同会影响到检索的中间答案的准确性以及数据处理量,通过设置不同检索方式,能够降低数据处理量,以及提高问答准确性。
具体而言,所述基于所述模糊词索引集确定中间答案,包括:基于所述模糊词索引集根据所述模糊关键词确定对应的目标数据集,根据所述目标数据集中对应的数据生成中间答案。
在实施中,基于所述模糊词索引集能够直接确定所述模糊关键词对应的目标数据集,从而确定中间答案,能够提高检索效率。
具体而言,所述基于所述指向向量集确定中间答案,包括:基于所述模糊词与关键词的指向向量集确定模糊关键词的下位关键词,并根据下位关键词确定中间答案所在的目标数据集,以及根据所述目标数据集中对应的数据生成中间答案。
在实施中,基于所述模糊词与关键词的指向向量集确定模糊关键词的下位关键词,并根据下位关键词确定中间答案所在的目标数据集,能够降低数据处理量。
智能问答模块,其分别与所述数据源融合模块和所述数据集匹配模块相连,用以根据用户问题确定用户答案关键词,基于所述用户答案对应的目标数据集确定答案语料,以及根据答案语料及预设输出模型输出对应的答案形式;
在实施中,根据若干数据源的历史数据确定训练样本集,根据所述训练样本集训练初始大语言模型,以得到预设输出模型,其中,每一训练样本为根据每一数据确定的问题和答案语料,将对应的答案形式作为标签。
具体而言,所述智能问答模块,包括:
用户答案关键词确定子模块,其用以基于预设的答案关键词对照表根据用户问题确定用户答案关键词;
答案语料确定子模块,其分别与所述数据源融合模块和所述数据集匹配模块相连,用以基于所述用户答案对应的目标数据集确定答案语料;
答案形式输出子模块,其与所述答案语料确定子模块相连,用以根据所述答案语料、所述用户问题及预设输出模型输出对应的答案形式。
本发明智能问答模块通过设置用户答案关键词确定子模块确定用户答案关键字,通过设置答案语料确定子模块根据用户答案对应的目标数据集确定答案语料,并根据答案形式输出子模块输出对应的答案形式,能够保证用户答案的准确性。
答案生成模块,其与所述智能问答模块相连,用以根据所述用户答案关键词以及所述答案形式输出所述用户问题对应的用户答案。
具体而言,所述答案生成模块,包括:
答案生成子模块,其与所述智能问答模块相连,用以根据所述用户答案关键词以及所述答案形式进行匹配,以生成用户答案;
答案输出子模块,其与所述答案生成子模块相连,用以输出所述用户问题对应的用户答案。
本发明答案生成模块通过设置答案生成子模块、答案输出子模块输出所述用户问题对应的用户答案,能够保证用户答案的形式比较标准,提高用户体验。
本发明提供的面向多源医院数据库的智能问答系统,通过设置数据源融合模块处理多源数据获取若干目标数据集,构建便于检索的关键词索引集、模糊词索引集以及模糊词与关键词的指向向量集,能够降低后续数据处理量,提高检索效率。通过设置数据集匹配模块、智能问答模块和答案生成模块,基于问题关键词、模糊关键词确定用户答案对应的目标数据集,从而确定答案语料以生成答案形式,基于用户答案关键词和答案形式输出所述用户问题对应的用户答案,能够提高检索用户答案的准确性,从而提高智能问答的准确性,以提高用户体验。
在一个具体的实施例中,用户问题为:3月哪些产品表现优秀?
问题关键词为:3月、产品、表现、优秀;
在各目标数据集中检索发现,产品、表现和优秀为模糊关键词,其中,“产品”的属性为预设第一属性,基于所述模糊词索引集确定中间答案,根据各所述模糊词索引集找到存在“产品”的对应的目标数据集中的数据,根据该数据生成对应的中间答案,“表现”的属性为预设第一属性,基于所述模糊词索引集确定中间答案,根据各所述模糊词索引集找到存在“表现”的对应的目标数据集中的数据,根据该数据生成对应的中间答案,而“优秀”的属性为预设第二属性,基于所述指向向量集确定中间答案,“优秀”对应的下位关键词可能为销量高、成本低等,找到存在销量高、成本低的对应的目标数据集中的数据,根据该数据生成对应的中间答案;“3月”为关键词,直接根据关键词索引集确定对应的目标数据集中的数据,根据该数据生成对应的中间答案。将“3月、产品、表现、优秀”四个问题关键词对应的共同目标数据集作为用户答案对应的目标数据集。若“3月”在各所述关键词索引集中出现次数均为0,则将“3月”上位为模糊关键词“月份”,“月份”的属性为预设第二属性,基于所述指向向量集确定中间答案,根据所述指向向量集找到“月份”对应的下位关键词“3月”的对应的目标数据集中的数据,根据该数据生成对应的中间答案。若“3月”在各所述关键词索引集出现次数均不为0,并且各所述问题关键词不存在对应至同一个的目标数据集,则基于预设的模糊词对照表根据所述用户问题确定模糊关键词,可以为“第一季度”,“第一季度”的属性为预设第二属性,基于所述指向向量集确定中间答案,根据所述指向向量集找到“月份”对应的下位关键词“3月”的对应的目标数据集中的数据,根据该数据生成对应的中间答案。基于所述用户答案对应的目标数据集确定答案语料,然后基于预设的答案关键词对照表根据用户问题确定用户答案关键词,“3月哪些产品表现优秀?”对应的用户答案关键词为表现优秀,将答案语料、用户问题输入预设输出模型以输出对用的答案形式,将用户答案关键词与答案形式进行匹配以生成用户答案输出给用户。
在另一个具体的实施例中,用户问题为:张三病情如何?
在各目标数据集中检索发现,病情为模糊关键词,“病情”的属性为预设第一属性,基于所述模糊词索引集确定中间答案,根据各所述模糊词索引集找到存在“病情”的对应的目标数据集中的数据,根据该数据生成对应的中间答案。“张三”为关键词,直接根据关键词索引集确定对应的目标数据集中的数据,根据该数据生成对应的中间答案。将“张三”、“病情”两个问题关键词对应的共同目标数据集作为用户答案对应的目标数据集,基于所述用户答案对应的目标数据集确定答案语料,然后基于预设的答案关键词对照表根据用户问题确定用户答案关键词,“张三病情如何?”对应的用户答案关键词为病情,将答案语料、用户问题输入预设输出模型以输出对用的答案形式,将用户答案关键词与答案形式进行匹配以生成用户答案输出给用户。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (9)
1.一种面向多源医院数据库的智能问答系统,其特征在于,包括:
数据源融合模块,其用以获取若干数据源的数据,根据各数据源中数据的数据类型进行分类生成若干目标数据集,并确定各目标数据集对应的关键词索引集、模糊词索引集以及模糊词与关键词的指向向量集;每一目标数据集具有对应的答案语料;
数据集匹配模块,其与所述数据源融合模块相连,用以根据用户问题确定问题关键词,根据所述问题关键词与各所述关键词索引集的关系确定模糊关键词,根据所述模糊关键词的属性确定中间答案的检索方式,包括基于所述模糊词索引集确定中间答案和基于所述指向向量集确定中间答案;
以及,基于获取的中间答案、问题关键词确定用户答案对应的目标数据集;其中,将获取的中间答案作为关键词替换模糊关键词形成新的问题关键词;
所述根据所述模糊关键词的属性确定中间答案的检索方式,包括:
若所述模糊关键词为预设第一属性,则基于所述模糊词索引集确定中间答案;
若所述模糊关键词为预设第二属性,则基于所述指向向量集确定中间答案;
智能问答模块,其分别与所述数据源融合模块和所述数据集匹配模块相连,用以根据用户问题确定用户答案关键词,基于所述用户答案对应的目标数据集确定答案语料,以及根据答案语料及预设输出模型输出对应的答案形式;
答案生成模块,其与所述智能问答模块相连,用以根据所述用户答案关键词以及所述答案形式输出所述用户问题对应的用户答案。
2.根据权利要求1所述的面向多源医院数据库的智能问答系统,其特征在于,所述数据源融合模块,包括:
数据分类子模块,其用以根据若干数据源中数据的数据类型进行分类,以得到若干初始数据集;每一所述初始数据集中数据的数据类型相同;
数据预处理子模块,其与所述数据分类子模块相连,用以对每一初始数据集中的数据进行数据预处理,以生成若干目标数据集;
关键词提取子模块,其与所述数据预处理子模块相连,用以提取各所述目标数据集中每一数据的关键词,以及基于各关键词分析形成模糊词,以得到各目标数据集对应的关键词索引集和模糊词索引集,并根据若干所述目标数据集中每一数据的关键词和模糊词确定模糊词与关键词的指向向量集;所述模糊词与关键词具有上下位关系,每一模糊词具有至少一个对应的关键词;
其中,若单个模糊词对应的关键词均位于同一目标数据集中,则将该模糊词收集至该目标数据集对应的模糊词索引集中,若单个模糊词对应的关键词位于至少两个目标数据集中,则将该模糊词收集至所述指向向量集中。
3.根据权利要求2所述的面向多源医院数据库的智能问答系统,其特征在于,所述数据集匹配模块,包括:
问题关键词确定子模块,其与所述数据源融合模块相连,用以根据用户问题确定问题关键词;所述问题关键词至少存在一个;
模糊关键词确定子模块,其与所述问题关键词确定子模块相连,用以根据所述问题关键词与各所述关键词索引集的关系确定模糊关键词;
其中,
在第一关系条件下,根据预设的关键词模糊方式处理对应的问题关键词,以得到所述问题关键词对应的模糊关键词;
在第二关系条件下,基于预设的模糊词对照表根据所述用户问题确定模糊关键词;
中间答案确定子模块,其与所述模糊关键词确定子模块相连,用以根据所述模糊关键词的属性确定中间答案的检索方式,包括基于所述模糊词索引集确定中间答案和基于所述指向向量集确定中间答案;
数据集匹配子模块,其与所述中间答案确定子模块相连,基于获取的中间答案、问题关键词确定用户答案对应的目标数据集。
4.根据权利要求3所述的面向多源医院数据库的智能问答系统,其特征在于,所述第一关系条件为存在至少一个所述问题关键词在各所述关键词索引集中出现次数均为0。
5.根据权利要求4所述的面向多源医院数据库的智能问答系统,其特征在于,所述第二关系条件为各所述问题关键词在各所述关键词索引集出现次数均不为0,并且各所述问题关键词不存在对应至同一个的目标数据集。
6.根据权利要求5所述的面向多源医院数据库的智能问答系统,其特征在于,所述基于所述模糊词索引集确定中间答案,包括:基于所述模糊词索引集根据所述模糊关键词确定对应的目标数据集,根据所述目标数据集中对应的数据生成中间答案。
7.根据权利要求6所述的面向多源医院数据库的智能问答系统,其特征在于,所述基于所述指向向量集确定中间答案,包括:基于所述模糊词与关键词的指向向量集确定模糊关键词的下位关键词,并根据下位关键词确定中间答案所在的目标数据集,以及根据所述目标数据集中对应的数据生成中间答案。
8.根据权利要求7所述的面向多源医院数据库的智能问答系统,其特征在于,所述智能问答模块,包括:
用户答案关键词确定子模块,其用以基于预设的答案关键词对照表根据用户问题确定用户答案关键词;
答案语料确定子模块,其分别与所述数据源融合模块和所述数据集匹配模块相连,用以基于所述用户答案对应的目标数据集确定答案语料;
答案形式输出子模块,其与所述答案语料确定子模块相连,用以根据所述答案语料、所述用户问题及预设输出模型输出对应的答案形式。
9.根据权利要求8所述的面向多源医院数据库的智能问答系统,其特征在于,所述答案生成模块,包括:
答案生成子模块,其与所述智能问答模块相连,用以根据所述用户答案关键词以及所述答案形式进行匹配,以生成用户答案;
答案输出子模块,其与所述答案生成子模块相连,用以输出所述用户问题对应的用户答案。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410775695.4A CN118643136B (zh) | 2024-06-17 | 2024-06-17 | 一种面向多源医院数据库的智能问答系统 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410775695.4A CN118643136B (zh) | 2024-06-17 | 2024-06-17 | 一种面向多源医院数据库的智能问答系统 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN118643136A CN118643136A (zh) | 2024-09-13 |
| CN118643136B true CN118643136B (zh) | 2024-11-22 |
Family
ID=92659096
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202410775695.4A Active CN118643136B (zh) | 2024-06-17 | 2024-06-17 | 一种面向多源医院数据库的智能问答系统 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN118643136B (zh) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102663129A (zh) * | 2012-04-25 | 2012-09-12 | 中国科学院计算技术研究所 | 医疗领域深度问答方法及医学检索系统 |
| CN109271505A (zh) * | 2018-11-12 | 2019-01-25 | 深圳智能思创科技有限公司 | 一种基于问题答案对的问答系统实现方法 |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6414956B2 (ja) * | 2014-08-21 | 2018-10-31 | 国立研究開発法人情報通信研究機構 | 質問文生成装置及びコンピュータプログラム |
| KR101662450B1 (ko) * | 2015-05-29 | 2016-10-05 | 포항공과대학교 산학협력단 | 다중 소스 하이브리드 질의응답 방법 및 시스템 |
| WO2019071599A1 (en) * | 2017-10-13 | 2019-04-18 | Microsoft Technology Licensing, Llc | PROVIDING AN ANSWER IN A SESSION |
| CN110162611B (zh) * | 2019-04-23 | 2021-03-26 | 苏宁金融科技(南京)有限公司 | 一种智能客服应答方法及系统 |
| US12423295B2 (en) * | 2021-04-05 | 2025-09-23 | Vianai Systems, Inc. | Text to question-answer model system |
| CN116610776A (zh) * | 2022-12-30 | 2023-08-18 | 摩斯智联科技有限公司 | 车联网智能问答系统 |
| CN117648425A (zh) * | 2023-12-13 | 2024-03-05 | 三优禾网络信息科技(合肥)有限公司 | 一种中医领域问题的答案生成方法及中医领域问答系统 |
-
2024
- 2024-06-17 CN CN202410775695.4A patent/CN118643136B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102663129A (zh) * | 2012-04-25 | 2012-09-12 | 中国科学院计算技术研究所 | 医疗领域深度问答方法及医学检索系统 |
| CN109271505A (zh) * | 2018-11-12 | 2019-01-25 | 深圳智能思创科技有限公司 | 一种基于问题答案对的问答系统实现方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN118643136A (zh) | 2024-09-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109299239B (zh) | 一种基于es的电子病历检索方法 | |
| Abacha et al. | MEANS: A medical question-answering system combining NLP techniques and semantic Web technologies | |
| Nie et al. | Bridging the vocabulary gap between health seekers and healthcare knowledge | |
| Alicante et al. | Unsupervised entity and relation extraction from clinical records in Italian | |
| US20070067293A1 (en) | System and methods for automatically identifying answerable questions | |
| CN107403067A (zh) | 基于医学知识库的智能分诊服务器、终端及系统 | |
| US11468070B2 (en) | Method and system for performing context-based search | |
| US20210034621A1 (en) | System and method for creating database query from user search query | |
| US20230070715A1 (en) | Text processing method and apparatus | |
| Hamon et al. | Querying biomedical linked data with natural language questions | |
| WO2019080428A1 (zh) | 目标文档获取方法及应用服务器 | |
| CN116719840A (zh) | 一种基于病历后结构化处理的医疗信息推送方法 | |
| CN119180338A (zh) | 一种基于多来源医学知识检索增强的智能问答系统 | |
| Kiyasseh et al. | CROCS: clustering and retrieval of cardiac signals based on patient disease class, sex, and age | |
| Saranya et al. | Intelligent medical data storage system using machine learning approach | |
| CN116304114A (zh) | 基于外科护理的智能数据处理方法及系统 | |
| CN118643136B (zh) | 一种面向多源医院数据库的智能问答系统 | |
| CN115083561A (zh) | 基于患者实际需求为导向的用药教育推送方法及系统 | |
| Rousseau | Graph-of-words: mining and retrieving text with networks of features | |
| Lin et al. | MEDLedge: a Q&a based system for constructing medical knowledge base | |
| Choi et al. | Terminological paraphrase extraction from scientific literature based on predicate argument tuples | |
| Zhang | A knowledge graph based medical intelligent question answering system | |
| CN117633362B (zh) | 一种基于大数据分析技术的医药信息推荐方法及平台 | |
| Thangamani et al. | Automatic medical disease treatment system using datamining | |
| CN111966780A (zh) | 一种基于词向量建模和信息检索的回顾性队列选择方法及装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |