CN110134799B - 一种基于bm25算法的文本语料库的搭建和优化方法 - Google Patents
一种基于bm25算法的文本语料库的搭建和优化方法 Download PDFInfo
- Publication number
- CN110134799B CN110134799B CN201910459141.2A CN201910459141A CN110134799B CN 110134799 B CN110134799 B CN 110134799B CN 201910459141 A CN201910459141 A CN 201910459141A CN 110134799 B CN110134799 B CN 110134799B
- Authority
- CN
- China
- Prior art keywords
- corpus
- text
- data
- algorithm
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于BM25算法的文本语料库的搭建和优化方法,包括步骤1:由人工进行建立训练语料库,语料库组成来源可以是自写语料或数据库现有资源处理提取;步骤2:获取一定时间内电商评论数据,进行数据预处理,整理出语料库基础文本;步骤3:使用BM25算法计算评论语料库基础文本内容与语料库相似度,步骤4:根据i分组相似数据与不关联或低关联数据,对不关联或低关联部分数据做频率统计用以观察数据为业务作支持、新增或删减已有语料;对相似数据使用均值聚类将不存在的语料增加到语料库,完成语料库的优化。
Description
技术领域
本发明涉及计大数据技术领域,具体的说,是一种基于BM25算法的文本语料库的搭建和优化方法。
背景技术
互联网技术的发展带来传统消费的改变,消费者乐于在各种电商平台购买产品,网络言论自由使得消费者更乐于发表意见,由此产生了大量的文本数据,这类数据大致包括传播评价类和意见建议信息。目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。在对文本处理文本挖掘带有明显的机器学习色彩,依赖于数据信息抽取、分类、聚类等基础算法和技术。这些内容在数据挖掘领域已大有建树,甚至已发展出不同的算法流派。由于电商评论数据本身具有海量、交叉缠绕、变密度和高维的特点,现阶段文本处理受到分词词典词条有限的影响,分词结果并不理想,加之数据量大无法检验分词的有效性,只能抽样检测,而文本聚类因文本数据维度多对使得技术本身聚类算法得到的维度也有限,无法得到足够的类,这是现阶段文本处理不可避免的问题。
在算法的选取上,多采用相似度评估判断文本处理前后的相关性,本发明涉及的BM25算法便是其中一种,BM25算法是一种用来评价搜索词和文档之间相关性的算法,是检索领域里最基本的一个技术,由词在文档中相关度、词在查询关键字中的相关度以及词的权重三个核心概念组成。根据算法公式知总文档数N和文档长度dl/avgdl直接影响相关性结果分数的高低,足量的包含该词的文档N和合理的文档长度是现阶段文本处理的一个关键影响因素。现阶段算法使用总文档是有现成的文档库的,数量可选,加上算法本身无法对所使用的文档中文档长度dl进行预估判断。导致计算出来的相关性分数是大概率不具备代表性的,因为改动文档数和文档长度都会对结果产生直接影响,故无法准确判断分词效果。因此,现有技术下针对电商评论文本处理和聚类过程中都存在不可逾越的瓶颈。
发明内容
本发明的目的在于提供一种基于BM25算法的文本语料库的搭建和优化方法,用于解决现有技术中针对电商评论文本处理和类聚过程导致的计算结果不具代表性,判断不够准确的问题。
本发明通过下述技术方案解决上述问题:
一种基于BM25算法的文本语料库的搭建和优化方法,所述方法包括如下步骤:
步骤1:由人工进行建立训练语料库,语料库组成来源可以是自写语料或数据库现有资源处理提取;
步骤2:获取一定时间内电商评论数据,进行数据预处理,整理出语料库基础文本;
步骤3:使用BM25算法计算评论语料库基础文本内容与语料库相似度,采用的算法公式为:
其中,Q表示Query,为断句前的文本;qi表示Q解析之后的一个语素,为断句后的文本;d表示一个搜索结果文档,dl为文档d的长度,avgdl为所有文档的平均长度;k1,b为调节因子,k1=2,b=0.75;fi为qi在d中的出现频率;
步骤4:根据i分组相似数据与不关联或低关联数据,对相似数据做频率统计用以观察数据为业务作支持、新增或删减已有语料;对不关联或低关联部分数据使用均值聚类将不存在的语料增加到语料库,完成语料库的优化。
本方法,结合BM25算法,获取相关系数值i,通过先建立有产品及其他维度标识的文本语料库,与处理后的文本数据进行匹配分析,基于相关系数计算得到与语料库关联高和关联低的两部分数据,对相似数据做频率统计用以观察数据为业务作支持、新增或删减已有语料;对不关联或低关联部分数据使用均值聚类将不存在的语料增加到语料库,完成语料库的优化,很好的解决了现有技术中针对电商评论文本处理和类聚过程导致的计算结果不具代表性,判断不够准确的问题。
进一步地,所述步骤3中算法公式由下述公式变换所得:
其中,Q表示Query,为断句前的文本;qi表示Q解析之后的一个语素,为断句后的文本;d表示一个搜索结果文档;Wi表示语素qi的权重;R(qi,d)表示语素qi与文档d的相关性得分。
进一步地,所述公式中R(qi,d)的计算方式如下:
其中,k1,k2,b为调节因子,k1=2,b=0.75;fi为qi在d中的出现频率,qfi为qi在Query中的出现频率;dl为文档d的长度,avgdl为所有文档的平均长度;qfi=1,因此公式可以简化为:
进一步地,所述公式中Wi表示语素qi的权重,其计算公式如下:
其中,N为索引中的全部文档数,n(qi)为包含了qi的文档数;当n(qi)超过一半的时,分子上的-n(qi)项不需要。
进一步地,当断句前的文本Q为中文时,把对Query的分词作为语素分析,每个词看成语素qi。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明结合BM25算法,获取相关系数值i,通过先建立有产品及其他维度标识的文本语料库,与处理后的文本数据进行匹配分析,基于相关系数计算得到与语料库关联高和关联低的两部分数据。对关联高的部分可选择性添加代表性语料外,还可直接应用于数据分析和支持活动,如可判断评论数据中用户最关注的是哪些维度内容,为后期产品优化和做针对性运营计划提供决策支撑。对关联度低的部分可用于丰富语料和挖掘新的用户关注点。实现了文本数据的有效分析利用并可对业务活动进行支撑,提供了文本数据分类后与业务结合分析的参考。
附图说明
图1为本发明语料库的搭建和优化的方法流程示意图;
图2为本发明的语料库结构示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
结合附图1所示,一种基于BM25算法的文本语料库的搭建和优化方法,包括如下步骤:
第一步,由人工进行建立训练语料库x1,语料库组成来源可以是自写语料、数据库现有数据库文本资源处理提取等。语料库包含传播评价类T、意见建议信息S两方面,分别记为tag.t='传播评价类'、tag.s='意见建议类',其中传播评价类主要围绕产品及体验的评价信息进行预料标记,意见建议类主要围绕产品的各个角度的意见建议,如产品外观、质量等以及其他方面如价格、渠道、促销、售前、售后等各方面的建议,针对每个小类按维度进行类别标记,语料的要求是语句尽量是短文本、每类语料维度足够多、不同维度语料含义不交叉,语料内容形式及标记方式如图1示;
第二步,获取一定时间内电商评论数据,进行数据常规预处理,处理脏数据,无效数据等等,使用正则表达式根据标点符号对评论数据断句,常用标点为逗号、空格、叹号、句号、制表符、分号等。由此整理出语料库基础文本P1,含主键、文本内容共2列;
第三步,对语料库x1设定相似度阈值,本发明中设置默认阈值i=0.6(若输出相似度i>=0.6的数量低于总记录数*20%,则根据实际情况降低阈值),设基础文档总记录数为n,相似度i>=0.6的数量为s,即若s<0.2n,进行降低阈值操作;
第四步,使用技术方案中设计的BM25算法的相关性得分公式:
计算基础文本P1中各文本与语料库文档x1中各语料的相似度得分i;
第五步,根据相关新匹配得到P1主键、P1文本内容、P1各文本内容与语料库文档x1关联的语料问呗内容、语料标记(如∈意见建议类产品维度即tag.t.s1)、关联度系数i共4列数据,存于成数据表r;
第六步,基于语料库中相似度设定的阈值,将数据表r中关联度系数i<0.6和i>=0.6的记录分词两个部分r1和r2;
第七步,对r1部分,根据语料标记的tag分组统计评论数据在每种维度中出现的频数进行由高到低的排序,进行数据统计,选择性的添加已有维度中有代表性的文本评论数据或删除已有维度的训练语句;
第八步,对于r2部分,使用K-means及TF-IDF算法对文本聚类,基于R语言选择最优k个簇,得到r2部分聚类结果。根据聚类关键词将现语料库x1中不存在的维度加入到语料库x1中,并添加对应的语料语句,经过第七步和第八步形成新的语料库x2作为下一次使用的语料库。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (5)
1.一种基于BM25算法的文本语料库的搭建和优化方法,其特征在于,所述方法包括如下步骤:
步骤1:由人工进行建立训练语料库,语料库组成来源可以是自写语料或数据库现有资源处理提取;
步骤2:获取一定时间内电商评论数据,进行数据预处理,整理出语料库基础文本;
步骤3:使用BM25算法计算评论语料库基础文本内容与语料库相似度,采用的算法公式为:
其中,i表示相似度阈值;Q表示Query,为断句前的文本;qi表示Q解析之后的一个语素,为断句后的文本;d表示一个搜索结果文档,dl为文档d的长度,avgdl为所有文档的平均长度;k1,b为调节因子,k1=2,b=0.75;fi为qi在d中的出现频率;
步骤4:根据i分组相似数据与不关联或低关联数据,对不关联或低关联部分数据做频率统计用以观察数据为业务作支持、新增或删减已有语料;对相似数据使用均值聚类将不存在的语料增加到语料库,完成语料库的优化。
5.根据权利要求1所述的基于BM25算法的文本语料库的搭建和优化方法,其特征在于,当断句前的文本Q为中文时,把对Query的分词作为语素分析,每个词看成语素qi。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201910459141.2A CN110134799B (zh) | 2019-05-29 | 2019-05-29 | 一种基于bm25算法的文本语料库的搭建和优化方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201910459141.2A CN110134799B (zh) | 2019-05-29 | 2019-05-29 | 一种基于bm25算法的文本语料库的搭建和优化方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN110134799A CN110134799A (zh) | 2019-08-16 |
| CN110134799B true CN110134799B (zh) | 2022-03-01 |
Family
ID=67582916
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201910459141.2A Active CN110134799B (zh) | 2019-05-29 | 2019-05-29 | 一种基于bm25算法的文本语料库的搭建和优化方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN110134799B (zh) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110942765B (zh) * | 2019-11-11 | 2022-05-27 | 珠海格力电器股份有限公司 | 一种构建语料库的方法、设备、服务器和存储介质 |
| CN111414746B (zh) * | 2020-04-10 | 2023-11-07 | 建信金融科技有限责任公司 | 一种匹配语句确定方法、装置、设备及存储介质 |
| CN111914936B (zh) * | 2020-08-05 | 2023-05-09 | 平安科技(深圳)有限公司 | 语料数据的数据特征增强方法、装置及计算机设备 |
| CN113282712A (zh) * | 2021-06-08 | 2021-08-20 | 平安国际智慧城市科技股份有限公司 | 一种文本筛选方法、装置、介质及设备 |
| CN113486156A (zh) * | 2021-07-30 | 2021-10-08 | 北京鼎普科技股份有限公司 | 一种基于es的关联文档检索方法 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104035968A (zh) * | 2014-05-20 | 2014-09-10 | 微梦创科网络科技(中国)有限公司 | 基于社交网络的训练语料集的构建方法和装置 |
| CN104516903A (zh) * | 2013-09-29 | 2015-04-15 | 北大方正集团有限公司 | 关键词扩展方法及系统、及分类语料标注方法及系统 |
| CN107544962A (zh) * | 2017-09-07 | 2018-01-05 | 电子科技大学 | 基于相似文本反馈的社交媒体文本查询扩展方法 |
| CN108153895A (zh) * | 2018-01-06 | 2018-06-12 | 国网福建省电力有限公司 | 一种基于开放数据的语料库构建方法和系统 |
| CN108268470A (zh) * | 2016-12-30 | 2018-07-10 | 广东精点数据科技股份有限公司 | 一种基于演化聚类的评论文本分类提取方法 |
| CN108733766A (zh) * | 2018-04-17 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 一种数据查询方法、装置和可读介质 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8280719B2 (en) * | 2005-05-05 | 2012-10-02 | Ramp, Inc. | Methods and systems relating to information extraction |
| US9336497B2 (en) * | 2014-01-06 | 2016-05-10 | International Business Machines Corporation | System and method for an expert question answer system from a dynamic corpus |
-
2019
- 2019-05-29 CN CN201910459141.2A patent/CN110134799B/zh active Active
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104516903A (zh) * | 2013-09-29 | 2015-04-15 | 北大方正集团有限公司 | 关键词扩展方法及系统、及分类语料标注方法及系统 |
| CN104035968A (zh) * | 2014-05-20 | 2014-09-10 | 微梦创科网络科技(中国)有限公司 | 基于社交网络的训练语料集的构建方法和装置 |
| CN108268470A (zh) * | 2016-12-30 | 2018-07-10 | 广东精点数据科技股份有限公司 | 一种基于演化聚类的评论文本分类提取方法 |
| CN107544962A (zh) * | 2017-09-07 | 2018-01-05 | 电子科技大学 | 基于相似文本反馈的社交媒体文本查询扩展方法 |
| CN108153895A (zh) * | 2018-01-06 | 2018-06-12 | 国网福建省电力有限公司 | 一种基于开放数据的语料库构建方法和系统 |
| CN108733766A (zh) * | 2018-04-17 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 一种数据查询方法、装置和可读介质 |
Non-Patent Citations (3)
| Title |
|---|
| The organisation and visualisation of document corpora: a probabilistic approach;M. Girolami 等;《Proceedings 11th International Workshop on Database and Expert Systems Applications》;20020806;558-564 * |
| 基于聚类的统计机器翻译领域自适应研究;张文文;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140315(第03期);I138-1171 * |
| 限定性文本的语料库自动构建;刘亚玉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110615(第06期);I138-623 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN110134799A (zh) | 2019-08-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110134799B (zh) | 一种基于bm25算法的文本语料库的搭建和优化方法 | |
| CN104008091B (zh) | 一种基于情感值的网络文本情感分析方法 | |
| CN106156204B (zh) | 文本标签的提取方法和装置 | |
| WO2024131111A1 (zh) | 一种智能写作方法、装置、设备及非易失性可读存储介质 | |
| CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
| CN107862070B (zh) | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 | |
| CN104794169B (zh) | 一种基于序列标注模型的学科术语抽取方法及系统 | |
| CN105183833B (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
| CN112989802B (zh) | 一种弹幕关键词提取方法、装置、设备及介质 | |
| US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
| CN103049435A (zh) | 文本细粒度情感分析方法及装置 | |
| CN105205699A (zh) | 基于酒店点评的用户标签和酒店标签匹配方法及装置 | |
| CN107992633A (zh) | 基于关键词特征的电子文档自动分类方法及系统 | |
| CN110110225B (zh) | 基于用户行为数据分析的在线教育推荐模型及构建方法 | |
| CN106547864B (zh) | 一种基于查询扩展的个性化信息检索方法 | |
| CN103310003A (zh) | 一种基于点击日志的新广告点击率预测方法及系统 | |
| CN101609450A (zh) | 基于训练集的网页分类方法 | |
| CN108388660A (zh) | 一种改进的电商产品痛点分析方法 | |
| JP6056610B2 (ja) | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム | |
| CN113032550B (zh) | 一种基于预训练语言模型的观点摘要评价系统 | |
| CN108170666A (zh) | 一种基于tf-idf关键词提取的改进方法 | |
| CN108376133A (zh) | 基于情感词扩充的短文本情感分类方法 | |
| CN111444713B (zh) | 新闻事件内实体关系抽取方法及装置 | |
| CN102637179B (zh) | 词项加权函数确定及基于该函数进行搜索的方法及装置 | |
| CN108038099A (zh) | 基于词聚类的低频关键词识别方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |