CN111353297B - 基于领域话题交互密度的生物医学文献主题抽取方法 - Google Patents
基于领域话题交互密度的生物医学文献主题抽取方法 Download PDFInfo
- Publication number
- CN111353297B CN111353297B CN202010132576.9A CN202010132576A CN111353297B CN 111353297 B CN111353297 B CN 111353297B CN 202010132576 A CN202010132576 A CN 202010132576A CN 111353297 B CN111353297 B CN 111353297B
- Authority
- CN
- China
- Prior art keywords
- topic
- interaction
- domain
- topics
- queue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于领域话题交互密度的生物医学文献主题抽取方法属于生物医学文本挖掘技术领域,对于领域知识库的自动构建与持续更新、文献精准推荐以及促进生物医学相关领域的发展等具有重要的意义。提出基于领域话题交互密度进行文献主题抽取方法,根据领域术语词典和初始语料集建立领域话题队列,不断发现新话题补充领域词典,进而构建话题交互队列,基于正性话题交互队列进行话题交互密度聚类,选择高密度区域划分为簇,得到话题聚集区,再对聚集区内的话题多样性和交互性进行度量,根据主题活跃度生成高质量的文献主题。最后通过语料集中抽取文献主题的准确率统计图观察主题抽取方法的准确性和可靠性。该方法可以有效提高文献主题抽取算法的性能。
Description
技术领域
本发明是基于开放生物医学文献,使用基于领域词典和话题交互密度的方法寻找代表性和信息性的话题及话题交互性来确定理解性良好的文献主题,可以提高文本挖掘领域中文献主题抽取的可靠性。
背景技术
近年来,生物医学文献的数量正在以前所未有的速度爆炸式增长,以MEDLINE为例,在2016年,MEDLINE就新收录869,000篇,并且直到目前,它仍保持着每天超过2000篇的收录速度在高速增长。目前,文献是获取相关领域知识的主要来源之一,通过文本挖掘技术在海量的生物医学文献中获取知识是当前的研究热点之一。以功能神经影像文献为例,该领域的知名平台Neurosynth(https://www.neurosynth.org/)自动综合大量神经影像文献的研究结果,目前,该平台已使用自动解析器从已发布的14,371篇神经影像文章中提取激活坐标,并为每个文章生成研究中高频出现的术语列表以供进行交互式的动态元分析,生成可用于超过150000个大脑位置的功能连通性和共激活图,构建认知功能与神经状态之间的概率映射。
众所周知,通过文本挖掘技术从生物医学文献中抽取文献具有代表性的主题对于领域知识库的自动构建、推动知识网络的建立和相关领域的发展具有重要的意义。因此,构建性能良好的主题抽取方法是十分重要的。
发明内容
为了解决现有的主题抽取方法仅针对文献的摘要采用基于模式的方法进行识别,且性能不一定良好的问题。本发明提出了一种基于领域话题交互密度的主题抽取方法,最后我们使用识别主题的准确率统计图来验证通过该方法进行主题抽取的有效性。结果显示,该方法可以有效的提升针对文献全文抽取文献主题的准确性,且性能更加稳定可靠。
附图说明
图1是主题抽取准确率统计图。
具体实施方式
本发明采用的技术方案具体如下:
(1)确定领域术语词典
根据生物医学领域的相关特性,学习领域的研究焦点以及在基于任务的研究中与任务相关的信息和实验分析信息,抽象出领域最具代表性的术语类别,从维基百科、Healthon the Net等广泛使用的网站确定术语概念,建立对应类别的领域术语词典。
(2)构建原始语料集
基于开放科技文献抓取工具,在生物医学开放科技文献库PLoS One期刊上基于关键字搜索近5年发表的生物医学文献,爬取文献的全文来构造原始语料集。
(3)领域话题识别
在领域术语词典的驱动下遍历原始语料集,如果语料集中的词语与术语词典中的术语匹配,则将识别的术语加入领域话题队列,直至整个初始语料集遍历完成,生成完整的领域话题队列Qtopic。
(4)领域话题补全领域词典
基于领域话题队列,对照领域术语词典,对领域话题队列中的话题元素进行分析,对于识别错误的话题元素进行验证,如果该术语term属于词典中对应判定类别i但不被词典Dictionaryi包含,则被认定为是假正性话题,其中Ui代表类别i的所有术语:
即发现的新话题,将新话题补充到词典Dictionaryi中,不断对领域词典进行动态更新和补充。
(5)话题交互状态识别
基于领域话题队列和原始语料集进行匹配,当语料集中的一个语料同时包含话题队列中两个不同的元素,则认为这两个话题存在交互性,将两个不同的话题元素和句子组成一个新的话题交互元素入队,据此构造话题交互队列。采用最短路径的方法对话题交互队列中的每个元素进行判定,当两个话题之间的距离小于最短路径时则认为是正性话题交互元素。遍历完整个话题交互队列,生成正性话题交互子队列Qposinter,则
(6)领域话题交互密度的识别
基于正性话题交互子队列,采用话题交互密度聚类的方法,根据每篇文献话题的动态分布进行交互聚类,确定文献主题聚集区,基于主题活跃度最终确定文献具有代表性和信息性的主题。
所述步骤(6)的具体过程为:
步骤1:确定领域话题交互密度聚类的参数
领域话题交互密度聚类算法的显著优点是聚类速度快且能够有效的处理噪声点和发现任意形状的空间聚类,本方法根据文献中话题交互的分布动态分配聚类需要的参数。共需要两个参数:话题交互半径topicEps和话题交互密度阈值topicMinPts。
topicEps参数的确定:遍历正性话题交互队列中的所有元素,将每个话题交互对按照所属的交互类别进行归一化,得到话题之间的交互距离(topicDist),取所有话题交互对距离的平均值为topicEps。
topicMinPts参数的确定:遍历正性话题交互队列中的所有元素,对于每一个话题交互对中的话题元素,求与其他所有话题交互距离大于交互半径的个数,再取所有个数的平均值作为topicMinPts。
步骤2:话题交互聚类
根据动态确定的topicEps和topicMinPts进行聚类,判断话题核心、话题边界和噪声话题。进一步删除噪声话题,分配边界话题,将多个核心话题合并,最后找到话题密度相连区域,形成最终的聚类结果,得到主题聚集区。
步骤3:确定主题活跃度
基于动态设置的参数进行话题交互密度聚类,通过对聚类后每个主题聚集簇中的话题多样性和话题交互性进行度量,得到文献主题活跃度最高的簇,进而输出高质量的主题。其中,C为聚类后所有的主题聚集簇。
主题抽取准确率统计图:以PLoS One期刊提供的文献主题词为评测标准,当抽取主题词与评测标准中词语完全一致时为匹配,分别计算了每篇文献中与评测标准匹配词语个数为1-2个或匹配词语个数大于等于3个的主题抽取准确率,如图1所示,通过本方法,文献主题抽取的准确率达到了较高的水平。
Claims (1)
1.基于领域话题交互密度的生物医学文献主题抽取方法,其特征在于,所述方法包括如下步骤:
(1)爬取开放存取的生物医学文献全文作为初始语料集;
(2)根据生物医学领域的相关特性,学习领域的研究焦点以及在基于任务的研究中与任务相关的信息和实验分析信息,抽象出领域最具代表性的术语类别,建立对应类别的术语词典集合Dictionary;
(3)领域话题识别:基于初始语料集和领域术语词典,采用基于规则的方法,如果语料集中的词语word与词典相应类别Dictionaryi中的术语匹配,即:
word∈Dictionaryi
则认为识别该类别的术语,将识别的术语加入领域话题队列,直至整个初始语料集遍历完成,生成完整的领域话题队列Qtopic;通过对照领域术语词典,如果术语term属于词典中对应判定类别但不被词典包含:
其中Ui代表类别i的所有术语,则被认定为是假正性话题,即发现的新话题,将新话题补充到词典中,不断对领域词典进行动态更新和补充;
(4)领域话题交互状态识别:当语料集中的一个语料corpus同时包含话题队列中两个不同的话题元素topici和topicj,即{corpus|topici∈corpus∧topicj∈corpus},则认为这两个话题存在交互性,将两个不同的话题元素和句子组成一个新的话题交互元素入队,据此构造话题交互队列Qinter;采用最短路径的方法对话题交互队列中的每个话题交互元素进行判定,当两个话题与之间的距离小于最短路径min_dist,则认为是正性话题交互元素,即:
|topici-topicj|<min_dist
遍历完整个话题交互队列,生成正性话题交互子队列Qposinter,则
(5)文献主题的确定:以正性话题交互子队列为基础进行领域话题交互密度的识别,采用话题交互密度聚类的方法,根据每篇文献话题的分布动态确定聚类参数进行聚类,基于交互聚类生成的簇确定文献主题聚集区,根据主题活跃度最终确定文献的主题;
所述步骤(5)中确定文献主题包括如下步骤:
(1)话题交互密度聚类中参数的确定;
a)话题交互半径topicEps参数的确定:遍历正性话题交互队列中的所有话题元素,将每个话题交互对按照所属的交互类别进行归一化,得到话题之间的交互距离topicDist,取所有话题交互对距离的平均值为话题交互半径;
b)话题交互密度阈值opicMinPts参数的确定:遍历正性话题交互队列中的所有话题元素,对于每一个话题交互对中的话题元素,求与其他所有话题交互距离大于交互半径的个数,再取所有个数的平均值作为话题交互密度阈值;
(2)基于确定的话题交互半径和话题交互密度阈值参数,进行交互密度聚类,找到话题密度相连区域,得到一个或多个不同的交互聚集区;
(3)确定文献主题:对话题交互密度聚类后每个交互聚集区中的话题多样性和话题交互性进行度量,统计话题类别数量numTopic和话题交互数量numTopicInteraction,话题类别和话题交互数量多的主题聚集簇具有较高的主题活跃度,主题活跃度最高的主题聚集簇中的话题为文献最终确定的主题。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010132576.9A CN111353297B (zh) | 2020-02-29 | 2020-02-29 | 基于领域话题交互密度的生物医学文献主题抽取方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010132576.9A CN111353297B (zh) | 2020-02-29 | 2020-02-29 | 基于领域话题交互密度的生物医学文献主题抽取方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111353297A CN111353297A (zh) | 2020-06-30 |
| CN111353297B true CN111353297B (zh) | 2023-12-29 |
Family
ID=71197386
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010132576.9A Active CN111353297B (zh) | 2020-02-29 | 2020-02-29 | 基于领域话题交互密度的生物医学文献主题抽取方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111353297B (zh) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004341948A (ja) * | 2003-05-16 | 2004-12-02 | Ricoh Co Ltd | 概念抽出システム、概念抽出方法、プログラム及び記憶媒体 |
| CN102971762A (zh) * | 2010-07-01 | 2013-03-13 | 费斯布克公司 | 促进社交网络用户之间的交互 |
| CN107342932A (zh) * | 2017-05-23 | 2017-11-10 | 华为技术有限公司 | 一种信息交互方法及终端 |
-
2020
- 2020-02-29 CN CN202010132576.9A patent/CN111353297B/zh active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004341948A (ja) * | 2003-05-16 | 2004-12-02 | Ricoh Co Ltd | 概念抽出システム、概念抽出方法、プログラム及び記憶媒体 |
| CN102971762A (zh) * | 2010-07-01 | 2013-03-13 | 费斯布克公司 | 促进社交网络用户之间的交互 |
| CN107342932A (zh) * | 2017-05-23 | 2017-11-10 | 华为技术有限公司 | 一种信息交互方法及终端 |
Non-Patent Citations (2)
| Title |
|---|
| 基于SNA和DMR方法的高血压主题探测与演化趋势比较研究;周利琴;徐健;巴志超;张斌;;图书情报工作(第13期);全文 * |
| 基于概率生成模型的微博话题传播群体划分方法;陈静;刘琰;王煦中;;计算机科学(第08期);全文 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111353297A (zh) | 2020-06-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Xing et al. | Extracting interpretable features for early classification on time series | |
| CN107193797B (zh) | 中文微博的热点话题检测及趋势预测方法 | |
| CN103942340A (zh) | 一种基于文本挖掘的微博用户兴趣识别方法 | |
| CN102033949B (zh) | 基于修正的k近邻文本分类方法 | |
| KR101561464B1 (ko) | 수집 데이터 감성분석 방법 및 장치 | |
| CN108304479B (zh) | 一种基于图结构过滤的快速密度聚类双层网络推荐方法 | |
| CN111553186A (zh) | 一种基于深度长短时记忆网络的电磁信号识别方法 | |
| CN118133221A (zh) | 一种隐私数据分类分级方法 | |
| CN103077720A (zh) | 一种说话人识别方法及系统 | |
| CN112418269B (zh) | 社交媒体网络事件传播关键时间预测方法、系统、介质 | |
| US11748565B2 (en) | Method for analyzing fine-grained text sentiment based on users' harshness | |
| CN114265931A (zh) | 基于大数据文本挖掘的消费者政策感知分析方法及系统 | |
| CN105956158A (zh) | 基于海量微博文本和用户信息的网络新词自动提取的方法 | |
| CN112115712A (zh) | 基于话题的群体情感分析方法 | |
| Castillo et al. | Text analysis using different graph-based representations | |
| CN119069138A (zh) | 一种基于大语言模型生成医学领域多样化指令数据的方法 | |
| CN114065749A (zh) | 一种面向文本的粤语识别模型及系统的训练、识别方法 | |
| CN113420127B (zh) | 威胁情报处理方法、装置、计算设备及存储介质 | |
| Mao et al. | Mining of marital distress from microblogging social networks: A case study on Sina Weibo | |
| CN102521402A (zh) | 文本过滤系统及方法 | |
| CN108846033A (zh) | 特定领域词汇的发现及分类器训练方法和装置 | |
| CN111353297B (zh) | 基于领域话题交互密度的生物医学文献主题抽取方法 | |
| CN113590774B (zh) | 事件查询方法、装置以及存储介质 | |
| CN117077680A (zh) | 问答意图识别方法及装置 | |
| CN117633328B (zh) | 基于数据挖掘的新媒体内容监测方法及系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant | ||
| OL01 | Intention to license declared | ||
| OL01 | Intention to license declared |