CN116737945A - 一种患者emr知识图谱映射方法 - Google Patents
一种患者emr知识图谱映射方法 Download PDFInfo
- Publication number
- CN116737945A CN116737945A CN202310520887.6A CN202310520887A CN116737945A CN 116737945 A CN116737945 A CN 116737945A CN 202310520887 A CN202310520887 A CN 202310520887A CN 116737945 A CN116737945 A CN 116737945A
- Authority
- CN
- China
- Prior art keywords
- entity
- medical
- graph
- entities
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供的一种患者EMR知识图谱映射方法,包括:构建中文医疗命名实体标准集;构建与所述患者EMR相关的医疗命名实体的知识图谱,并提取实体属性;将所提取的实体属性映射到所述中文医疗命名实体标准集中;将所述医疗命名实体标准集、所述医疗命名实体的知识图谱以及两者的映射关系存储到图数据库中。本发明通过结合临床术语标准与临床诊疗数据,实现不同医院不同格式的EMR之间的互联互通,有利于医疗人工智能辅助决策、临床研究、专科数据库的平台的建立。
Description
技术领域
本发明涉及医疗数据集成领域,具体涉及一种患者EMR知识图谱映射方法。
背景技术
随着新兴技术应用的发展,医疗卫生领域有越来越多的学术团体、医疗机构、高等院校和研究部门加入到卫生信息标准的研究和开发中。由于临床的医疗命名实体尚未实现标准化与规范化,医疗数据格式内容不统一,使得医疗信息难以实现互联互通。目前国际上常用的医疗命名实体标准包括临床操作术语(CPT)、国际疾病分类(ICD)、系统医学命名法(SNOMEDCT)、逻辑观察标识符名称和代码(LOINC)、临床药品标准命名术语表(RxNorm)等。上述术语标准实施在国内产品中时存在一定的局限性。首先,由于医院系统、地域等原因,中文EMR的各种医学名词并不统一,中医术语则更加繁杂,无法与国际术语标准一一对应。其次,中文EMR中会同时出现多个术语标准中的词汇,例如药物对应到RxNorm,疾病诊断对应到ICD中等。而近年来国内已经应用的标准主要针对疾病诊断与手术编码等特定领域,并没有一个完整的基于人工智能的中文医疗命名实体标准化方法来将多种格式的中文EMR知识图谱转换为通用的信息标准。
发明内容
为了解决现有技术中所存在的问题,本发明提供一种患者EMR知识图谱映射方法,包括:
S1、构建中文医疗命名实体标准集;
S2、构建与所述患者EMR相关的医疗命名实体的知识图谱,并提取实体属性;
S3、将所提取的实体属性映射到所述中文医疗命名实体标准集中;
S4、将所述医疗命名实体标准集、所述医疗命名实体的知识图谱以及两者的映射关系存储到图数据库中;
其中,所述患者EMR通过以下过程进行预识别:
获取从非结构化患者EMR图像中识别的图像文本;
将所识别的图像文本转换为XML格式;
通过解析所述XML来提取结构化文本,分析所述结构化文本以计算表达所述结构化文本中相应部分的文本特征的多个特征向量,所述文本特征包括词汇特征、语言特征或实体特征;
将所计算的特征向量作为输入提供给内容分类引擎,其中所述内容分类引擎用于预测文本中的段落边界。
优选地,所述步骤S1进一步包括:
S11、获取常用术语标准集,结合不同的业务需求,从中选择适用于肿瘤的术语标准集;
S12、将选择的医疗命名实体集进行分类;结合实际病历与指南文献,构建标准医疗命名实体常用的中文别名医疗命名实体集以及医院系统来源;
S13、确定标准医疗命名实体的取值范围与单位,以及单位对应的测量设备,并且建立标准医疗命名实体的显示逻辑与推理逻辑。
优选地,所述步骤S2进一步包括:
S21、获取患者病历记录EMR,从该EMR中抽取出医疗事件;
S22、结合业务逻辑,分别建立医疗事件与患者信息、所属医院以及主治医师之间的三元组关系;
S23、使用NLP算法从所述EMR中识别实体属性,即从每一个医疗事件中提取实体属性,并建立术语本体。
优选地,所述步骤S3进一步包括:
将所述实体属性对应的值映射到标准医疗命名实体的取值范围中;
将所述实体属性取值的单位通过换算映射到标准医疗命名实体的常用单位;
如果所述实体属性对应的实体逻辑中存在其他医疗命名实体,则将所述实体逻辑一一映射成标准医疗命名实体,得到标准医疗命名实体的实体逻辑;
如果实体属性在所有标准医疗命名实体中都无法完成映射,则在标准医疗命名实体中创建该实体属性。
优选地,所述步骤S4进一步包括:
建立实体节点的属性与节点间三元组关系,并使用python将所述医疗命名实体标准集、所述医疗命名实体的知识图谱以及两者的映射关系导入到图数据库JanusGraph中。
优选地,在所述将所计算的特征向量作为输入提供给内容分类引擎之后,进一步包括:
基于所述内容分类引擎的输出,在文本的相应位置创建段落边界,以将所述结构化文本划分成多个段落,每个段落包括相应的段落类型。
优选地,方法进一步包括:
从每个段落中提取所引用的多个实体,所述实体包括术语实体和语义实体;
在每个段落内使用医学知识图谱将所提取的语义实体链接到相应的所提取的术语实体;
为每个段落提供表示链接的语义实体和术语实体的输出数据。
优选地,方法进一步包括:
将所述知识图谱的节点连接到知识图谱之外的其他节点的候选缺失边;
评估所述候选缺失边以确定候选缺失边是否需要加入到知识图谱中;
在所述评估指示候选缺失边需要加入到知识图谱时,扩展知识图谱以包括将所述节点连接到新添加到知识图谱的新添加节点的候选缺失边,生成扩展后的知识图谱。
基于同一发明构思,本发明还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述方法的步骤。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上所述方法的步骤。
与现有技术相比,本发明的有益效果为:
本发明提供的一种患者EMR知识图谱映射方法,包括构建中文医疗命名实体标准集;构建与患者EMR相关的医疗命名实体的知识图谱,并提取实体属性;将所提取的实体属性映射到中文医疗命名实体标准集中;将医疗命名实体标准集、医疗命名实体的知识图谱以及两者的映射关系存储到图数据库中;其中患者EMR通过以下过程进行预识别:获取从非结构化患者EMR图像中识别的图像文本;将别的图像文本转换为XML格式;通过解析XML来提取结构化文本,分析结构化文本以计算表达结构化文本中相应部分的文本特征的多个特征向量,文本特征包括词汇特征、语言特征或实体特征;将计算的特征向量作为输入提供给内容分类引擎,其中内容分类引擎用于预测文本中的段落边界。本发明的方案通过结合临床术语标准与临床诊疗数据,实现不同医院不同格式的EMR之间的互联互通,有利于医疗人工智能辅助决策、临床研究、专科数据库的平台的建立。
附图说明
图1为根据本发明的患者EMR知识图谱映射方法的流程图。
图2为根据本发明的患者EMR知识图谱映射方法的详细流程框图;
图3为根据本发明的患者EMR信息存储的知识图谱结构图;
图4为根据本发明的标准医疗命名实体的主要分类图;
图5为根据本发明的标准医疗命名实体的取值范围建立实体图。
具体实施方式
本发明针对现有技术存在的上述问题,提供了一种患者EMR知识图谱映射方法,旨在更好地开展人工智能辅助诊断、临床辅助决策、疾病预测等研究,从而优化诊疗路径。
在本发明的描述中,需要说明的是,术语“医疗命名实体”指的是临床应用中出现的所有术语,包括临床实验医疗命名实体,以及疾病诊断、手术操作、药物等。
实施例1:
如图1所示,本发明提供一种患者EMR知识图谱映射方法包括:
S1、构建中文医疗命名实体标准集;
S2、构建患者EMR相关的医疗命名实体的知识图谱,并提取实体属性。
S3、将所提取的实体属性映射到中文医疗命名实体标准集中。
S4、将所述医疗命名实体标准集、所述医疗命名实体的知识图谱以及两者的映射关系存储到图数据库中。
其中,在所述步骤S1中主要完成构建适用中文病历信息的医疗命名实体标准集。在具体的实施例中,步骤S1进一步包括:
S11、首先,获取目前国内外常用的术语标准集,结合不同的业务需求,从中选择适用于肿瘤的术语标准;
S12、接下来,将选择的医疗命名实体集进行分类,如图4所示;结合实际病历与指南文献,构建标准医疗命名实体常用的中文别名医疗命名实体集以及医院系统来源;
S13、最后,确定标准医疗命名实体的取值范围与单位,以及单位对应的测量设备,并且建立标准医疗命名实体的显示逻辑与推理逻辑。
本发明的实施例中,构建EMR相关医疗命名实体的知识图谱可以按照按照本体思想,使用自上而下的方式建立EMR知识图谱。因此,在步骤S2中,进一步包括如下步骤:
S21、获取患者病历记录EMR,从该EMR中抽取出医疗事件的概念。例如将EMR数据按照患者入院次数分成多个医疗事件。
S22、结合业务逻辑,分别建立医疗事件与患者信息、所属医院以及主治医师之间的三元组关系,如图3所示;
S23、使用NLP算法从所述EMR中识别实体属性,即从每一个医疗事件中提取实体属性,并建立术语本体。
在本发明的上述实施例中,步骤S3的映射操作具体可以由医学工作人员通过以下各个方面将实体属性映射到步骤S1中的标准医疗命名实体,包括:将实体属性对应的值映射到标准医疗命名实体的取值范围中;将实体属性取值的单位通过换算映射到标准医疗命名实体的常用单位;如果实体属性对应的实体逻辑中存在其他医疗命名实体,将需要一一映射成标准医疗命名实体,得到标准医疗命名实体的实体逻辑;而如果实体属性在所有标准医疗命名实体中都无法完成映射,则在标准医疗命名实体中创建该实体属性。
在步骤S4中,将步骤S1中的医疗命名实体标准集、步骤S2中的医疗命名实体的知识图谱以及步骤S3中的映射关系存储到图数据库中。按照图2和图3中的结构建立实体节点的属性与节点间三元组关系,并使用python导入到图数据库JanusGraph中。
优选地,还可确定待导入的知识图谱元数据文件对应的图名是否存在于图数据库JanusGraph中,所述图名用于指示知识图谱元数据对应的数据文件的名称;在图名不存在于所述图数据库JanusGraph的情况下,根据所述图名和知识图谱元数据文件在图数据库JanusGraph中创建新的图数据文件及加载所述新的图数据文件对应的目标知识图谱。
在进一步实施例中,患者EMR可以是图像数据,因此在读取患者EMR信息之前还包括对患者EMR进行预识别的过程。具体包括,获取从非结构化患者EMR图像中识别的图像文本;将所识别的图像文本转换为XML格式;通过解析所述XML来提取结构化文本,分析结构化文本以计算表达结构化文本中相应部分的文本特征的多个特征向量;所述文本特征包括词汇特征、语言特征或实体特征,将所计算的特征向量作为输入提供给内容分类引擎,其中,所述内容分类引擎用于预测文本的一部分是否表示段落边界;基于所述内容分类引擎的输出,在文本的相应位置创建段落边界来将所述结构化文本划分成多个段落,每个段落包括相应的段落类型;从每个段落中提取所引用的多个实体,所述实体包括术语实体和语义实体;在每个段落内,使用医学知识图谱将所提取的语义实体链接到相应的所提取的术语实体;为每个段落提供表示链接的语义实体和术语实体的输出数据。其中所述语义实体的类型可以包含药物、症状、诊断结果、治疗方案、医学状况评估中的一项。
其中,从每个段落中提取所引用的多个实体包括,应用NLP算法识别每个段落中的多个术语实体和语义实体;识别并移除不相关的实体,对所识别的语义实体进行分类,确定语义实体的属于上述哪一种类型,并且其中,所提供的表示链接的术语实体和语义实体的数据包括指示链接的术语实体和语义实体属于哪些类别的数据。每个术语实体和语义实体包括标签和值;使用NLP模型从所述输入文本集合中提取所述实体的值;基于将实体标签和值映射到预定义术语的映射表,将实体的值转换为对应的预定义术语;以及输出所提取的实体和对应的预定义术语。所述NLP模型包括节点和边;其中每个节点对应于文本集合;其中两个节点之间的边指示由两个节点表示的两个文本集合之间的顺序关系;并且其中提取实体的过程包括将所述输入文本与所述文本集合进行匹配。所述NLP模型包括通用子模型和病理子模型;基于来自通用医学文档的第一训练文本集合来训练所述通用子模型;并且基于来自病理报告的第二训练文本集合来训练病理子模型。
并且当获取患者EMR图像之后,在显示界面中显示患者EMR图像文件;基于患者EMR图像位置,在针对其提取到实体的输入文本集合的子集上显示高亮标记;检测对高亮标记之一的用户选择;在用户选择的高亮标记上显示识别内容,所述识别内容包括从所选择的高亮标记的输入文本集合中提取到的术语实体。
其中,在每个段落内,使用医学知识图谱将所提取的语义实体链接到相应的所提取的术语实体包括:识别所提取的术语实体与在同一段落中出现的任何语义实体之间的候选关系集合;查询知识图谱以确定所识别的关系集合中的任何关系是否无效;当确定所述关系无效时,从关系集合中移除无效关系;查询知识图谱以识别所提取的术语实体与同一段落中出现的任何语义实体之间的其他关系。
其中,为每个段落提供表示链接的语义实体和术语实体的输出数据包括:基于术语的特征为所识别的术语实体分配相关性度量值,其中所述医学术语的特征包括对被分配相关性度量值的术语实体进行排序以确定预设大小的术语实体的子集;基于语义实体的特征,为所识别的语义实体分配相应的相关性度量值;输出表示关联性的语义实体和术语实体的数据,所述关联性的语义实体和术语实体的相关性度量值超过预设阈值。然后提供表示图形界面的数据,所述图形界面将段落边界以及链接的语义和术语实体可视化为所述患者EMR的文本表示中的注释。通过所述图形界面接收用户输入,所述用户输入指示对段落边界或所链接的语义和术语实体的编辑,并基于由所接收的用户编辑输入来更新所述知识图谱。
本发明的上述方法,通过建立EMR知识图谱与标准医疗命名实体的知识图谱之间的映射,确定了EMR在图数据库中存储的知识图谱形式,实现了EMR中医疗命名实体的标准化与规范化。为医疗人工智能决策、临床研究等提供了互联基础。
为使本领域技术人员更加明确本发明的构思,以下以肿瘤患者的EMR标准化为例,通过示例性的实施方式对本发明的患者EMR知识图谱映射方法的实现过程进行具体描述。根据本实施例的肿瘤患者EMR知识图谱映射方法包括:
步骤A1,获取肿瘤临床术语标准集。结合肿瘤诊疗的业务场景,获取多个术语集的结构信息,比较术语集之间的差异,筛选符合肿瘤临床应用场景的术语标准集。
临床术语集主要是指国内外通用、权威的术语标准。例如药物的术语集RxNorm,临床医疗命名实体的术语集LOINC,不良事件通用术语评价标准CTCAE以及手术与诊断的术语集ICD等专业领域的术语集,也有包含内容最全面、多语言的SNOMEDCT、集成多个术语集的UMLS等通用型术语集。
在进一步优选的实施例中,筛选标准可以定义为:
(1)在术语集存在中文版本的情况下,优先选择中文版本。例如本发明中疾病诊断、手术操作分类与编码使用ICD-9、ICD-10作为实体属性的英文信息名称,使用国家医保2.0版作为实体属性的中文信息名称。
(2)选定一个术语标准集,确定唯一的中英文名称与标识符id。例如本发明中采用通用UMLS作为主标准。其他标准如果集成在此标准中,则可以互通,如果不在UMLS中,则作为别名,建立关系存储。
步骤A2,将肿瘤标准医疗命名实体集分类。结合术语标准中的结构与业务使用场景,将标准医疗命名实体集分为11大类,如图4所示。每一大类均可作为本体存在,例如疾病本体包括疾病分类与所有疾病实体,药物本体包括药物分类与所有药物本体。假设标准医疗命名实体集为O,第i个本体为o_i,则使用以下公式表示:
O={o_1,o_2,…,o_11}
步骤A3,构建肿瘤标准医疗命名实体的知识图谱,如图2所示。首先建立肿瘤标准医疗命名实体以及属性,通用的属性包含变量名、中英文名称、图库唯一标识符、术语标准唯一标识符等;建立肿瘤别名医疗命名实体标准集,由于可能存在多个别名医疗命名实体,每一个别名医疗命名实体均需建立实体节点,标注别名来源;与肿瘤术语标准建立映射关系;存储每个医疗命名实体的实体逻辑,一方面是标准医疗命名实体的显示逻辑,另一方面是医疗命名实体推出医疗命名实体的逻辑;最后是设置标准医疗命名实体的取值范围。
如果是枚举型或者布尔型,则以值为实体建立关系,如果是连续型,则将取值范围分段作为实体建立关系,如图5所示。如果是枚举型、布尔型以及时间型,则医疗命名实体按照取值范围中单个取值来建立实体与实体之间的关系;连续型医疗命名实体分为有特殊医学分段含义与无特殊医学分段含义的划分,前者按照指南中的分段取值建立实体与医疗命名实体之间的关系,例如Ki-67,按照CSCO指南,0-30代表低表达,30-100代表高表达,则Ki-67的取值范围只能分为三段。后者按照总体取值范围平均分段取值建立医疗命名实体之间的关系。例如年龄是0-150,可以10为单位平均分为15个取值区间作为实体建立节点,并与标准医疗命名实体“年龄”建立关系。建立标准医疗命名实体取值的常用单位集与测量设备集。由于测量仪器的差异,同一个医疗命名实体有可能存在多个常用单位,分别建立实体与对应关系。
当需要对该知识图谱进行扩展时,将知识图谱的节点连接到知识图谱之外的其他节点的候选缺失边;评估候选缺失边以确定候选缺失边是否需要加入到知识图谱中;在评估指示候选缺失边需要加入到知识图谱时,扩展知识图谱以包括将所述节点连接到新添加到知识图谱的新添加节点的候选缺失边,生成扩展后的知识图谱;对扩展的知识图谱执行操作以生成知识输出。在识别所述候选缺失边时,具体可以识别知识图谱的子集的实体之间的实体类型和关系类型的主模式;搜索与所述知识图谱相关联的辅助图谱,以寻找与所述主模式匹配的实体类型和关系类型的辅助模式;识别所述辅助图谱中的与所述匹配的辅助模式相关联的其他实体或其他关系,所述新添加的节点是具有与所述辅助图谱中的所识别的其他实体相同的实体类型的新添加的节点,或者候选缺失边具有与辅助图谱中识别的其他关系相同的关系类型。其中评估候选缺失边包括在知识图谱中搜索与其他实体或其他关系相对应并且与主模式中的实体或关系相关联的数据的实例。
步骤A4,获取肿瘤患者EMR数据。利用NLP算法识别肿瘤患者EMR中的实体属性、医疗命名实体取值、医疗命名实体单位。构建EMR知识图谱。首先,由于每个患者存在多条诊疗记录,本发明将每个患者的每条诊疗记录都作为一个医疗事件实体;其次,建立医疗事件与患者、所属医院、主治医生之间的三元组关系,方便按照患者、医院、医生检索信息;第三,建立医疗事件与步骤A3中识别的实体属性之间的关系。经过以上三个步骤就建立了一个完整的EMR知识图谱。
在构建EMR知识图谱之后,优选地,可以将EMR知识图谱转换为超边表示,作为唯一边ID的列表,每个边ID具有任何源顶点和目标顶点、由边无向连接的任何顶点、以及与边相关联的任何标签;将超边表示转换为二部图,该二部图具有一个集合中的顶点和标签以及另一集合中的边,所述顶点和标签按照所述超边表示链接到知识图谱中的边;对二部图进行采样以将二部图作为矩阵嵌入顶点、标签和边的特征矩阵中;使用特征矩阵推断组合知识图谱中的实体属性。该组合知识图谱具有二进制关系的有向标记图和具有三元关系的混合有向/无向标记图。在对所述二部图进行采样时,需要遍历二部图以提供沿集合之间的链路的序列,通过将具有相同命名的顶点视为相同顶点,在转换为二部图之前组合上述超边表示。在每个顶点与其所连接的边之间形成辅助边,其中两个顶点之间的关系包括两个辅助边和原始的边。当辅助边在有向边和顶点之间时,辅助边指向与所述有向边相同的方向。
步骤A5,分别将步骤A4中肿瘤患者EMR知识图谱映射到步骤A3中肿瘤标准医疗命名实体的知识图谱中。如果存在多个映射,例如标准医疗命名实体中只存在“诊断”,而EMR中识别的实体属性中存在“术前诊断”、“术后诊断”,则需要将标准医疗命名实体再细分为多个标准医疗命名实体与实体属性实现一一映射;如果不存在映射,例如某种中药名称,则需要创建一个映射补充到医疗命名实体标准集中。
步骤A6,将步骤A5中一一映射的肿瘤患者EMR知识图谱与肿瘤标准医疗命名实体的知识图谱建立三元组关系,使用python编写导入脚本存储到图数据库JanusGraph中,实现肿瘤医疗命名实体标准集的结构化存储。
本发明实施例,通过建立肿瘤患者EMR知识图谱与肿瘤标准医疗命名实体的知识图谱之间的映射,明确了肿瘤患者EMR在图数据库中存储的知识图谱形式,实现了肿瘤患者EMR中的医疗命名实体的标准化与规范化。为医疗人工智能决策、临床研究等提供了便利,也为医疗行业标准的建立提供技术参考。
为表现患者EMR中相同词汇的多种含义,在本发明另一方面的实施例中,通过预训练语言模型,采用低维的实体向量对EMR中的每个实体进行表示,得到序列化文本输入,然后利用双向长短期记忆网络自动提取语句的前向特征和后向特征进行组合;最后通过计算对输入的文本特征进行序列标注,输出最优标签。
其中所述预训练语言模型采用循环网络和相对位置编码架构,以增强文本特征提取的完整性。通过循环网络提取上一片段的隐藏状态的长距离依赖信息,存储在片段之间的存储单元,供下一片段的预测使用。
加入相对位置编码后的注意力计算如下:
Wk,RRi-j+uTWk,EExj+vTWk,RRi-j
其中,Exi,Exj分别表示位置i,j的文本向量;代表权重矩阵;Ri-j代表i,j的相对位置;uT,vT是需要学习的参数;Wk,E,Wk,R分别为学习到基于内容的向量和基于位置的向量。通过相对位置编码,充分利用上下文的语义信息提取潜在的内部关系,训练出特征更完整的词向量表示。
所述双向长短期记忆网络采用两层长短期记忆网络,分别获取文本序列的前向信息和后向信息进行组合,得到最终的隐藏层特征表示,充分捕获上下文语义信息。
在电子EMR命名实体识别中,每个术语的标签与其相邻的标签存在制约关系,根据前一层网络的输出结果,结合上下文语义标签信息得到每个术语对应的标签序列出现的最优概率。设输出序列为X,其中一个预测序列为Y,则得出评估分数S(X,Y):
式中表示从yi标签到yi+1标签的转移概率;Pi,yi表示第i个术语被标记为yi的概率;n为序列长度。
求解最大后验概率P(y|x),获取模型的损失函数值:
需要说明的是,本发明中提到的术语标准中的内容,如临床医疗命名实体、药物、疾病诊断等,并非是要保护术语标准本身,而是利用多个术语标准组合成适用肿瘤的中文术语体系,实现各个医院的医疗命名实体的互联互通。
实施例2:
为了实现上述方法,本发明还提供一种患者EMR知识图谱映射系统,包括:
标准集构建模块201,用于构建中文医疗命名实体标准集;
知识图谱构建模块202,用于构建与所述患者EMR相关的医疗命名实体的知识图谱,并提取实体属性;
映射模块203,用于将所提取的实体属性映射到所述中文医疗命名实体标准集中;
存储模块204,用于将所述医疗命名实体标准集、所述医疗命名实体的知识图谱以及两者的映射关系存储到图数据库中。
本实施例中的各功能模块所实现的功能同实施例1,这里不再赘述。
实施例3:
本发明还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述方法的步骤。
实施例4:
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上所述方法的步骤。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其它实施例,都属于本发明保护的范围。
本领域内的技术人员应当理解,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在多个其中包包含计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
Claims (10)
1.一种患者EMR知识图谱映射方法,其特征在于,包括:
S1、构建中文医疗命名实体标准集;
S2、构建与所述患者EMR相关的医疗命名实体的知识图谱,并提取实体属性;
S3、将所提取的实体属性映射到所述中文医疗命名实体标准集中;
S4、将所述医疗命名实体标准集、所述医疗命名实体的知识图谱以及两者的映射关系存储到图数据库中;
其中,所述患者EMR通过以下过程进行预识别:
获取从非结构化患者EMR图像中识别的图像文本;
将所识别的图像文本转换为XML格式;
通过解析所述XML来提取结构化文本,分析所述结构化文本以计算表达所述结构化文本中相应部分的文本特征的多个特征向量,所述文本特征包括词汇特征、语言特征或实体特征;
将所计算的特征向量作为输入提供给内容分类引擎,其中所述内容分类引擎用于预测文本中的段落边界。
2.根据权利要求1所述的患者EMR知识图谱映射方法,其特征在于,所述步骤S1进一步包括:
S11、获取常用术语标准集,结合不同的业务需求,从中选择适用于肿瘤的术语标准集;
S12、将选择的医疗命名实体集进行分类;结合实际病历与指南文献,构建标准医疗命名实体常用的中文别名医疗命名实体集以及医院系统来源;
S13、确定标准医疗命名实体的取值范围与单位,以及单位对应的测量设备,并且建立标准医疗命名实体的显示逻辑与推理逻辑。
3.根据权利要求1所述的患者EMR知识图谱映射方法,其特征在于,所述步骤S2进一步包括:
S21、获取患者病历记录EMR,从该EMR中抽取出医疗事件;
S22、结合业务逻辑,分别建立医疗事件与患者信息、所属医院以及主治医师之间的三元组关系;
S23、使用NLP算法从所述EMR中识别实体属性,即从每一个医疗事件中提取实体属性,并建立术语本体。
4.根据权利要求1所述的患者EMR知识图谱映射方法,其特征在于,所述步骤S3进一步包括:
将所述实体属性对应的值映射到标准医疗命名实体的取值范围中;
将所述实体属性取值的单位通过换算映射到标准医疗命名实体的常用单位;
如果所述实体属性对应的实体逻辑中存在其他医疗命名实体,则将所述实体逻辑一一映射成标准医疗命名实体,得到标准医疗命名实体的实体逻辑;
如果所述实体属性在所有标准医疗命名实体中都无法完成映射,则在标准医疗命名实体中创建该实体属性。
5.根据权利要求1所述的患者EMR知识图谱映射方法,其特征在于,所述步骤S4进一步包括:
建立实体节点的属性与节点间三元组关系,并使用python将所述医疗命名实体标准集、所述医疗命名实体的知识图谱以及两者的映射关系导入到图数据库JanusGraph中。
6.根据权利要求1所述的患者EMR知识图谱映射方法,其特征在于,在将所计算的特征向量作为输入提供给内容分类引擎之后,进一步包括:
基于所述内容分类引擎的输出,在文本的相应位置创建段落边界,以将所述结构化文本划分成多个段落,每个段落包括相应的段落类型。
7.根据权利要求6所述的患者EMR知识图谱映射方法,其特征在于,进一步包括:
从每个段落中提取所引用的多个实体,所述实体包括术语实体和语义实体;
在每个段落内使用医学知识图谱将所提取的语义实体链接到相应的所提取的术语实体;
为每个段落提供表示链接的语义实体和术语实体的输出数据。
8.根据权利要求1所述的患者EMR知识图谱映射方法,其特征在于,在构建与所述患者EMR相关的医疗命名实体的知识图谱之后,进一步包括:
将所述知识图谱的节点连接到知识图谱之外的其他节点的候选缺失边;
评估所述候选缺失边以确定候选缺失边是否需要加入到知识图谱中;
在所述评估指示所述候选缺失边需要加入到知识图谱时,扩展所述知识图谱以包括将所述节点连接到新添加到知识图谱的新添加节点的候选缺失边,生成扩展后的知识图谱。
9.一种终端设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310520887.6A CN116737945B (zh) | 2023-05-10 | 2023-05-10 | 一种患者emr知识图谱映射方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310520887.6A CN116737945B (zh) | 2023-05-10 | 2023-05-10 | 一种患者emr知识图谱映射方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN116737945A true CN116737945A (zh) | 2023-09-12 |
| CN116737945B CN116737945B (zh) | 2024-05-07 |
Family
ID=87903427
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202310520887.6A Active CN116737945B (zh) | 2023-05-10 | 2023-05-10 | 一种患者emr知识图谱映射方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN116737945B (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117851605A (zh) * | 2023-12-18 | 2024-04-09 | 北京中关村科金技术有限公司 | 一种行业知识图谱构建方法、计算机设备及存储介质 |
| CN119230090A (zh) * | 2024-09-23 | 2024-12-31 | 上海联众网络信息股份有限公司 | 一种基于知识图谱的病案的诊断和手术icd编码方法 |
Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108197119A (zh) * | 2018-02-05 | 2018-06-22 | 成都卓观信息技术有限公司 | 基于知识图谱的纸质档案数字化方法 |
| CN108447534A (zh) * | 2018-05-18 | 2018-08-24 | 灵玖中科软件(北京)有限公司 | 一种基于nlp的电子病历数据质量管理方法 |
| CN108492887A (zh) * | 2018-04-13 | 2018-09-04 | 合肥工业大学 | 医疗知识图谱构建方法及装置 |
| CN109271530A (zh) * | 2018-10-17 | 2019-01-25 | 长沙瀚云信息科技有限公司 | 一种疾病知识图谱构建方法和平台系统、设备、存储介质 |
| CN112542223A (zh) * | 2020-12-21 | 2021-03-23 | 西南科技大学 | 一种从中文电子病历构建医疗知识图谱的半监督学习方法 |
| WO2021151351A1 (zh) * | 2020-09-04 | 2021-08-05 | 平安科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
| CN114722213A (zh) * | 2022-03-11 | 2022-07-08 | 青岛百洋智能科技股份有限公司 | 多病种多指南临床辅助决策支持系统的知识图谱构建及应用方法 |
| CN115879473A (zh) * | 2022-12-26 | 2023-03-31 | 淮阴工学院 | 基于改进图注意力网络的中文医疗命名实体识别方法 |
-
2023
- 2023-05-10 CN CN202310520887.6A patent/CN116737945B/zh active Active
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108197119A (zh) * | 2018-02-05 | 2018-06-22 | 成都卓观信息技术有限公司 | 基于知识图谱的纸质档案数字化方法 |
| CN108492887A (zh) * | 2018-04-13 | 2018-09-04 | 合肥工业大学 | 医疗知识图谱构建方法及装置 |
| CN108447534A (zh) * | 2018-05-18 | 2018-08-24 | 灵玖中科软件(北京)有限公司 | 一种基于nlp的电子病历数据质量管理方法 |
| CN109271530A (zh) * | 2018-10-17 | 2019-01-25 | 长沙瀚云信息科技有限公司 | 一种疾病知识图谱构建方法和平台系统、设备、存储介质 |
| WO2021151351A1 (zh) * | 2020-09-04 | 2021-08-05 | 平安科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
| CN112542223A (zh) * | 2020-12-21 | 2021-03-23 | 西南科技大学 | 一种从中文电子病历构建医疗知识图谱的半监督学习方法 |
| CN114722213A (zh) * | 2022-03-11 | 2022-07-08 | 青岛百洋智能科技股份有限公司 | 多病种多指南临床辅助决策支持系统的知识图谱构建及应用方法 |
| CN115879473A (zh) * | 2022-12-26 | 2023-03-31 | 淮阴工学院 | 基于改进图注意力网络的中文医疗命名实体识别方法 |
Non-Patent Citations (3)
| Title |
|---|
| SHELLY SACHDEVA ET AL.: "Using Knowledge Graph Structures for Semantic Interoperability in Electronic Health Records Data Exchanges", 《HTTPS://DOI.ORG/10.3390/INFO13020052》, 21 January 2022 (2022-01-21), pages 1 - 18 * |
| 潘璀然 等: "基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别", 《第二军医大学学报》, 31 May 2019 (2019-05-31), pages 497 - 506 * |
| 谢沂林: "基于图数据库的电子病历存储方法研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, 15 January 2022 (2022-01-15), pages 053 - 158 * |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117851605A (zh) * | 2023-12-18 | 2024-04-09 | 北京中关村科金技术有限公司 | 一种行业知识图谱构建方法、计算机设备及存储介质 |
| CN119230090A (zh) * | 2024-09-23 | 2024-12-31 | 上海联众网络信息股份有限公司 | 一种基于知识图谱的病案的诊断和手术icd编码方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN116737945B (zh) | 2024-05-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110459287B (zh) | 来自医学文本报告的结构化报告数据 | |
| Wu et al. | Comparison of chest radiograph interpretations by artificial intelligence algorithm vs radiology residents | |
| Pezoulas et al. | Medical data quality assessment: On the development of an automated framework for medical data curation | |
| CN116682553B (zh) | 一种融合知识与患者表示的诊断推荐系统 | |
| US11875884B2 (en) | Expression of clinical logic with positive and negative explainability | |
| CN112541066B (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
| Ke et al. | Medical entity recognition and knowledge map relationship analysis of Chinese EMRs based on improved BiLSTM-CRF | |
| CN110534185A (zh) | 标注数据获取方法、分诊方法、装置、存储介质及设备 | |
| CN114188036B (zh) | 一种手术方案评估方法、装置、系统及存储介质 | |
| CN116737945B (zh) | 一种患者emr知识图谱映射方法 | |
| CN115841861A (zh) | 一种相似病历推荐方法及系统 | |
| CN115831380A (zh) | 一种基于医疗知识图谱的智能医疗数据管理系统及方法 | |
| CN116719840B (zh) | 一种基于病历后结构化处理的医疗信息推送方法 | |
| US20240136070A1 (en) | Application-Specific Processing of a Disease-Specific Semantic Model Instance | |
| Chu et al. | Knowledge representation and retrieval using conceptual graphs and free text document self-organisation techniques | |
| CN116525125A (zh) | 一种虚拟电子病历的生成方法及装置 | |
| Julina et al. | Ontology based EMR for decision making in health care using SNOMED CT | |
| CN116994689A (zh) | 医疗数据的特征化处理方法、装置、设备、介质及产品 | |
| US20240177818A1 (en) | Methods and systems for summarizing densely annotated medical reports | |
| Yang et al. | Research on entity recognition and knowledge graph construction based on Tcm medical records | |
| Khalid et al. | Explainable prediction of medical codes through automated knowledge graph curation framework | |
| Pfaff | Cohort identification using semantic web technologies: Ontologies and triplestores as engines for complex computable phenotyping | |
| CN120806104B (zh) | 基于模态注入与多模态融合的罕见病知识图谱构建方法 | |
| CN117577340B (zh) | 一种基于数据融合的科研数据采集配置方法及系统 | |
| CN120068802B (zh) | 一种基于医疗数据生成结算清单的方法及系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant | ||
| TR01 | Transfer of patent right |
Effective date of registration: 20250522 Address after: 102300 Beijing City Mentougou District Ping'an Road 20 Hao Yuan 5 Building 10 Floor 1003 Room Patentee after: Beijing Yihuikang Intelligent Technology Co.,Ltd. Country or region after: China Address before: 266000 Room 201, building 1, 88 Kaifeng Road, Shibei District, Qingdao City, Shandong Province Patentee before: Baiyang Intelligent Technology Group Co.,Ltd. Country or region before: China |
|
| TR01 | Transfer of patent right |