CN107329999B

CN107329999B - 文档分类方法及装置

Info

Publication number: CN107329999B
Application number: CN201710433079.0A
Authority: CN
Inventors: 姚磊岳
Original assignee: Jiangxi University of Technology
Current assignee: Jiangxi University of Technology
Priority date: 2017-06-09
Filing date: 2017-06-09
Publication date: 2020-10-20
Anticipated expiration: 2037-06-09
Also published as: CN107329999A

Abstract

本发明提供了一种文档分类方法及装置，所述方法包括：获取预设篇数的样本文档，分别对所述样本文档中的样本词汇进行权重计算，以得到所述样本词汇对应的高频权重；获取目标文档，对所述目标文档中的目标词汇进行所述权重计算，以得到所述目标词汇对应的目标权重；将所述目标权重与所述高频权重进行对比计算，以得到所述目标文档的全文权重，并判断所述全文权重是否大于预设的权重阈值，若是则将所述目标文档归类至所述样本文档对应的文档领域，本发明无需进行数据模型的建立且可对所有领域的文档进行归类，通过简单的公式计算以判断是否将所述目标文档归类至所述样本文档对应的文档领域，且分类效率高。

Description

文档分类方法及装置

技术领域

本发明涉及数据分析技术领域，特别涉及一种文档分类方法及装置。

背景技术

随着时代的发展科技的进步，人们生活水平的不断提高，互联网使信息采集与传播的速度和规模达到空前水平，但与之而来的问题是，迅速而准确地获取自己最需要的信息变得日益困难。特别是信息管理人员，常常需要在海量杂乱的信息里，对非本专业的文章进行归类整理。由于缺乏足够的专业知识，在文章分类过程中难免效率低下，出错率高。同时，随着互联网的日益普及，数字信息以PB量级不断膨胀，靠人工来进行分类几乎已成为不可能完成的任务，进而文档分类方法孕育而生。

现有的文档分类方法通过预先建立好的模型数据，以使对文档进行是否归类的判断。

现有的文档分类方法只能对单一领域的文档进行分类，进而导致对不同领域的文档进行分类时必须建立多个模型数据，加大了人员的工作量且灵活性低，且现有的文档分类方法由于采用模型数据的方法进行归类的判断，使得分类结果精准度低且分类效率低下。

发明内容

基于此，本发明实施例的目在于提供一种分类效率高的文档分类方法及装置。

一种文档分类方法，所述方法包括：

获取预设篇数的样本文档，分别对所述样本文档中的样本词汇进行权重计算，以得到所述样本词汇对应的高频权重；

获取目标文档，对所述目标文档中的目标词汇进行所述权重计算，以得到所述目标词汇对应的目标权重；

将所述目标权重与所述高频权重进行对比计算，以得到所述目标文档的全文权重，并判断所述全文权重是否大于预设的权重阈值，若是则将所述目标文档归类至所述样本文档对应的文档领域。

上述文档分类方法，通过分别对所述样本文档和所述目标文档进行所述权重计算的设计，以得到所述高频权重和所述目标权重，通过所述对比计算的设计，以得到所述全文权重，并通过判断所述全文权重是否大于所述预设的权重阈值的设计，以判断是否将所述目标文档进行归类，上述方法无需进行数据模型的建立且可对所有领域的文档进行归类，通过简单的公式计算以判断是否将所述目标文档归类至所述样本文档对应的文档领域，且分类效率高、速率快。

进一步地，所述将所述目标权重与所述高频权重进行对比计算，以得到所述目标文档的全文权重的步骤包括：

对所述高频权重进行降维计算，以得到所述高频权重对应的最终权重；

将所述目标权重与所述最终权重进行所述对比计算，以得到所述目标文档的所述全文权重。

进一步地，所述权重计算采用的公式为：

W(i)＝k×flag(i)+TF(i)；

上述公式中，k的值取常数，TF的值为当前词汇的词频，即所述当前词汇在当前文档中出现的次数，当所述当前词汇为所述样本词汇时，W的值为所述高频权重，当所述当前词汇为所述目标词汇时，W的值为所述目标权重。

进一步地，flag的取值步骤包括：

获取所述当前词汇，查询本地存储的关键词表并判断所述当前词汇是否是存在所述关键词表中；

若是，则将flag的值取为1；

若否，则将flag的值取为0。

进一步地，所述降维计算采用的公式为：

上述公式中，R的值为当前样本词汇在总所述样本词汇中出现的次数，k的值取常数，TF的值为所述当前样本词汇的词频，即所述当前样本词汇在所述样本文档中出现的次数，

的值为所述当前样本词汇在当前样本文档中的引用次数占总所述样本文档中引用次数的比值，W的值为所述最终权重。

进一步地，所述对比公式为：

上述公式中，W_T的值为所述最终权重，W_C的值为所述最终权重对应的所述样本词汇在所述目标文档中对应的所述目标词汇的所述目标权重。

一种文档分类装置，包括：

第一计算模块，用于获取预设篇数的样本文档，分别对所述样本文档中的样本词汇进行权重计算，以得到所述样本词汇对应的高频权重；

第二计算模块，用于获取目标文档，对所述目标文档中的目标词汇进行所述权重公式计算，以得到所述目标词汇对应的目标权重；

第三计算模块，包括第一子计算模块，用于根据所述第一计算模块和所述第二计算模块的计算结果，将所述目标权重与所述高频权重进行对比计算，以得到所述目标文档的全文权重；

第四计算模块，用于根据所述第三计算模块的计算结果，判断所述全文权重是否大于预设的权重阈值，若是则将所述目标文档归类至所述样本文档对应的文档领域。

上述文档分类装置，通过所述第一计算模块和所述第二计算模块的设计，可分别对所述样本文档和所述目标文档进行所述权重计算，通过所述第三计算模块的设计，可对所述目标权重和所述高频权重进行所述对比计算，以得到所述全文权重，并通过阈值判断设计以判断是否将所述目标文档归类，所述文档分类装置可以对不同技术领域的文档进行分类灵活性高无需建立多个数据模型，且通过所述权重计算和所述对比计算的设计，使得所述文档分类装置的分类效率高且精度准。

进一步地，所述第三计算模块还包括：

第二子计算模块，用于对所述高频权重进行降维计算，以得到所述样本文档对应的最终权重；

第三子计算模块，用于根据所述第二子计算模块的计算结果，将所述目标权重与所述最终权重进行所述对比计算，以得到所述目标文档的所述全文权重。

进一步地，所述第一计算模块和所述第二计算模块均包括：

第一运行模块，用于运行权重公式，所述权重公式为：

W(i)＝k×flag(i)+TF(i)

上述公式中，k的值取常数，TF的值为当前词汇的词频，即所述当前词汇在当前文档中出现的次数，当所述当前词汇为所述样本词汇时，W的值为所述高频权重，当所述当前词汇为所述目标词汇时，W的值为所述目标权重；

查询模块，用于获取所述当前词汇，查询本地存储的关键词表并判断所述当前词汇是否是存在所述关键词表中；

若是，则将flag的值取为1；

若否，则将flag的值取为0。

进一步地，所述第二子计算模块包括：

第二运行模块，用于运行降维公式，所述降维公式为：

附图说明

图1为本发明第一实施例提供的文档分类方法的流程图；

图2为本发明第二实施例提供的文档分类方法的流程图；

图3为本发明第三实施例提供的文档分类装置的结构示意图；

图4为本发明第四实施例提供的文档分类装置的结构示意图；

主要元素符号说明

文档分类装置	100，100a	第一计算模块	10
				第一运行模块	11	查询模块	12
第二计算模块	20	第三计算模块	30，30a
				第一子计算模块	31	第三运行模块	311
第二子计算模块	32	第二运行模块	321
				第三子计算模块	33	第四计算模块	40
获取模块	50

具体实施方式

为了便于更好地理解本发明，下面将结合相关实施例附图对本发明进行进一步地解释。附图中给出了本发明的实施例，但本发明并不仅限于上述的优选实施例。相反，提供这些实施例的目的是为了使本发明的公开面更加得充分。

请参阅图1，为本发明第一实施例提供的文档分类方法的流程图，包括步骤S10至S30。

步骤S10，获取预设篇数的样本文档，分别对所述样本文档中的样本词汇进行权重计算，并分别获取所述样本文档中前第一预设位数的高频权重及所述高频权重对应的所述样本词汇；

其中，所述样本文档的所述预设篇数为10篇，通过对所述样本词汇进行所述权重计算，以得到了所述高频权重及所述高频权重对应的所述样本词汇，所述前第一预设位数的数量为10位，即分别获取所述高频权重的前10位和前10位所述高频权重对应的所述样本词汇；

步骤S20，获取目标文档，对所述目标文档中的目标词汇进行所述权重计算，并获取所述目标文档中前第二预设位数的目标权重及所述目标权重对应的所述目标词汇；

其中，通过对所述目标词汇进行所述权重计算，以得到了所述目标权重，所述前第二预设位数为10位，即分别获取所述目标权重的前10位和前10位所述高频权重对应的所述目标词汇；

步骤S30，将所述目标权重与所述高频权重进行对比计算，以得到所述目标文档的全文权重，并判断所述全文权重是否大于预设的权重阈值，若是则将所述目标文档归类至所述样本文档对应的文档领域。

其中，通过所述对比计算的设计，以得到了所述全文权重，并通过判断所述全文权重与所述预设的权重阈值的大小的设计，以使判断是否要将所述目标文档归类，本实施例中文档领域可为任意的技术领域，例如医学文档领域、电子文档领域和文学文档领域等。

本实施例的文档分类方法，通过分别对所述样本文档和所述目标文档进行所述权重计算的设计，以得到所述高频权重和所述目标权重，通过所述对比计算的设计，以得到所述全文权重，并通过判断所述全文权重是否大于所述预设的权重阈值的设计，以判断是否将所述目标文档进行归类，上述方法无需进行数据模型的建立且可对所有领域的文档进行归类，通过简单的公式计算以判断是否将所述目标文档归类至所述样本文档对应的文档领域，且分类效率高、速率快。

请参阅图2，为本发明第二实施例提供的文档分类方法的流程图，所述方法包括步骤S11至S41。

步骤S11，获取预设篇数的样本文档，分别对所述样本文档中的样本词汇进行权重计算，并分别获取所述样本文档中前第一预设位数的高频权重及所述高频权重对应的所述样本词汇；

其中，所述样本文档的所述预设篇数为10篇，通过对所述样本词汇进行所述权重计算，以得到了所述高频权重，所述前第一预设位数的数量为10位，即分别获取所述高频权重的前10位和前10位所述高频权重对应的所述样本词汇；

步骤S21，分别对所述高频权重对应的所述样本词汇进行降维计算，以得到所述高频权重对应的所述样本词汇的最终权重，获取前第三预设位数的所述最终权重及所述最终权重对应的所述样本词汇；

其中，所述前第三预设位数为10位，即获取前10位的所述最终权重和所述最终权重对应的所述样本词汇，由于所述样本文档的数量为10篇且每篇所述样本文档中所述高频权重的数量为10个，进而当所述高频权重对应的所述样本词汇不重复时，总所述样本词汇的数量为100个，导致分类过程会较为复杂，进而本实施例中通过所述降维计算的设计，以使将总所述样本词汇的数量降为10个，提高了所述文档分类方法的分类效率和分类的精准度；

步骤S31，获取目标文档，对所述目标文档中的目标词汇进行所述权重计算，并获取所述目标文档中前第二预设位数的目标权重及所述目标权重对应的所述目标词汇；

步骤S41，将所述目标权重与所述最终权重进行所述对比计算，以得到所述目标文档的所述全文权重，并判断所述全文权重是否大于所述预设的权重阈值，若是则将所述目标文档归类至所述样本文档对应的文档领域；

其中，通过将所述目标权重和所述最终权重进行所述对比计算，以得到了所述全文权重，并通过判断所述全文权重与所述预设的权重阈值的大小的设计，以使判断是否要将所述目标文档归类。

所述权重计算采用的公式为：

W(i)＝k×flag(i)+TF(i)；

上述公式中，k为关键字权重增益，k的值取常数，本实施例中k的值取20，TF的值为当前词汇的词频，即所述当前词汇在当前文档中出现的次数，当所述当前词汇为所述样本词汇时，W的值为所述高频权重，当所述当前词汇为所述目标词汇时，W的值为所述目标权重。

本实施例中，flag的取值步骤包括：

若是，则将flag的值取为1，若否，则将flag的值取为0，通过flag的取值设计当所述当前词汇为关键词时提高了所述当前词汇对应的权重。

所述降维计算采用的公式为：

上述公式中，R的值为当前样本词汇在总所述样本词汇中出现的次数，当100个所述样本词汇都不相同时，R的值取1，可以理解的当所述当前样本词汇中有相同的词汇时，R的值为所述当前样本词汇的次数，k的值取常数，TF的值为所述当前样本词汇的词频，即所述当前样本词汇在所述样本文档中出现的次数，

所述对比公式为：

请参阅图3，为本发明第三实施例提供的文档分类装置100的结构示意图，所述文档分类装置100包括：

第一计算模块10，用于获取预设篇数的样本文档，分别对所述样本文档中的样本词汇进行权重计算，所述预设篇数的数量为10篇；

获取模块50，用于根据所述第一计算模块10的计算结果，分别获取所述样本文档中前第一预设位数的高频权重和所述高频权重对应的所述样本词汇，所述前第一预设位数为10位，即分别获取所述高频权重的前10位和前10位所述高频权重对应的所述样本词汇；

第二计算模块20，用于获取目标文档，对所述目标文档中的目标词汇进行所述权重公式计算，以得到所述目标词汇对应的目标权重及所述目标权重对应的所述目标词汇，所述前第二预设位数为10位，即分别获取所述目标权重的前10位和前10位所述高频权重对应的所述目标词汇；

第三计算模块30，包括第一子计算模块31，用于根据所述第一计算模块10和所述第二计算模块20的计算结果，将所述目标权重与所述高频权重进行对比计算，以得到所述目标文档的全文权重；

第四计算模块40，用于根据所述第三计算模块30的计算结果，判断所述全文权重是否大于预设的权重阈值，若是则将所述目标文档归类至所述样本文档对应的文档领域。

所述第一计算模块10和所述第二计算模块20均包括：

第一运行模块11，用于运行权重公式，所述权重公式为：

W(i)＝k×flag(i)+TF(i)

查询模块12，用于获取所述当前词汇，查询本地存储的关键词表并判断所述当前词汇是否是存在所述关键词表中；

所述第一子计算模块31包括：

第三运行模块311，用于运行对比公式，所述对比公式为：

上述公式中，WT的值为所述最终权重，W_C的值为所述最终权重对应的所述样本词汇在所述目标文档中对应的所述目标词汇的所述目标权重。

本实施例通过所述第一计算模块10和所述第二计算模块20的设计，可分别对所述样本文档和所述目标文档进行所述权重计算，通过所述第三计算模块30的设计，可对所述目标权重和所述高频权重进行所述对比计算，以得到所述全文权重，并通过阈值判断设计以判断是否将所述目标文档归类，所述文档分类装置100可以对不同技术领域的文档进行分类灵活性高，且通过所述权重计算和所述对比计算的设计，使得所述文档分类装置100的分类效率高且精度准。

请参阅图4，为本发明第四实施例提供的文档分类装置100a的结构示意图，该第四实施例与第三实施例的结构大抵相同，其区别在于，本实施例中所述第三计算模块30a还包括：

第二子计算模块32，用于对所述高频权重进行降维计算，以得到所述样本文档对应的最终权重，并获取前第三预设位数的所述最终权重及所述最终权重对应的所述样本词，所述前第三预设位数为10位，即获取前10位的所述最终权重和所述最终权重对应的所述样本词汇，由于所述样本文档的数量为10篇且每篇所述样本文档中所述高频权重的数量为10个，进而当所述高频权重对应的所述样本词汇不重复时，总所述样本词汇的数量为100个，导致分类过程会较为复杂，进而本实施例中通过所述降维计算的设计，以使将总所述样本词汇的数量降为10个，提高了所述文档分类方法的分类效率和分类的精准度。

第三子计算模块33，用于根据所述第二子计算模块32的计算结果，将所述目标权重与所述最终权重进行所述对比计算，以得到所述目标文档的所述全文权重。

所述第二子计算模块32包括：

第二运行模块321，用于运行降维公式，所述降维公式为：

所述第三子计算模块33包括：

第三运行模块311，用于运行对比公式，所述对比公式为：

本实施例通过所述第二子计算模块32和所述第三子计算模块33的设计，将计算的数量从100个降低至了10个进而简化了后续所述对比计算的计算流程，且提高了所述文档分类装置100a的分类效率和分类的精准度。

上述实施例描述了本发明的技术原理，这些描述只是为了解释本发明的原理，而不能以任何方式解释为本发明保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其他具体实施方式，这些方式都将落入本发明的保护范围内。