[go: up one dir, main page]

CN107329999B - 文档分类方法及装置 - Google Patents

文档分类方法及装置 Download PDF

Info

Publication number
CN107329999B
CN107329999B CN201710433079.0A CN201710433079A CN107329999B CN 107329999 B CN107329999 B CN 107329999B CN 201710433079 A CN201710433079 A CN 201710433079A CN 107329999 B CN107329999 B CN 107329999B
Authority
CN
China
Prior art keywords
weight
document
vocabulary
sample
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710433079.0A
Other languages
English (en)
Other versions
CN107329999A (zh
Inventor
姚磊岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi University of Technology
Original Assignee
Jiangxi University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi University of Technology filed Critical Jiangxi University of Technology
Priority to CN201710433079.0A priority Critical patent/CN107329999B/zh
Publication of CN107329999A publication Critical patent/CN107329999A/zh
Application granted granted Critical
Publication of CN107329999B publication Critical patent/CN107329999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文档分类方法及装置,所述方法包括:获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,以得到所述样本词汇对应的高频权重;获取目标文档,对所述目标文档中的目标词汇进行所述权重计算,以得到所述目标词汇对应的目标权重;将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重,并判断所述全文权重是否大于预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域,本发明无需进行数据模型的建立且可对所有领域的文档进行归类,通过简单的公式计算以判断是否将所述目标文档归类至所述样本文档对应的文档领域,且分类效率高。

Description

文档分类方法及装置
技术领域
本发明涉及数据分析技术领域,特别涉及一种文档分类方法及装置。
背景技术
随着时代的发展科技的进步,人们生活水平的不断提高,互联网使信息采集与传播的速度和规模达到空前水平,但与之而来的问题是,迅速而准确地获取自己最需要的信息变得日益困难。特别是信息管理人员,常常需要在海量杂乱的信息里,对非本专业的文章进行归类整理。由于缺乏足够的专业知识,在文章分类过程中难免效率低下,出错率高。同时,随着互联网的日益普及,数字信息以PB量级不断膨胀,靠人工来进行分类几乎已成为不可能完成的任务,进而文档分类方法孕育而生。
现有的文档分类方法通过预先建立好的模型数据,以使对文档进行是否归类的判断。
现有的文档分类方法只能对单一领域的文档进行分类,进而导致对不同领域的文档进行分类时必须建立多个模型数据,加大了人员的工作量且灵活性低,且现有的文档分类方法由于采用模型数据的方法进行归类的判断,使得分类结果精准度低且分类效率低下。
发明内容
基于此,本发明实施例的目在于提供一种分类效率高的文档分类方法及装置。
一种文档分类方法,所述方法包括:
获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,以得到所述样本词汇对应的高频权重;
获取目标文档,对所述目标文档中的目标词汇进行所述权重计算,以得到所述目标词汇对应的目标权重;
将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重,并判断所述全文权重是否大于预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域。
上述文档分类方法,通过分别对所述样本文档和所述目标文档进行所述权重计算的设计,以得到所述高频权重和所述目标权重,通过所述对比计算的设计,以得到所述全文权重,并通过判断所述全文权重是否大于所述预设的权重阈值的设计,以判断是否将所述目标文档进行归类,上述方法无需进行数据模型的建立且可对所有领域的文档进行归类,通过简单的公式计算以判断是否将所述目标文档归类至所述样本文档对应的文档领域,且分类效率高、速率快。
进一步地,所述将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重的步骤包括:
对所述高频权重进行降维计算,以得到所述高频权重对应的最终权重;
将所述目标权重与所述最终权重进行所述对比计算,以得到所述目标文档的所述全文权重。
进一步地,所述权重计算采用的公式为:
W(i)=k×flag(i)+TF(i);
上述公式中,k的值取常数,TF的值为当前词汇的词频,即所述当前词汇在当前文档中出现的次数,当所述当前词汇为所述样本词汇时,W的值为所述高频权重,当所述当前词汇为所述目标词汇时,W的值为所述目标权重。
进一步地,flag的取值步骤包括:
获取所述当前词汇,查询本地存储的关键词表并判断所述当前词汇是否是存在所述关键词表中;
若是,则将flag的值取为1;
若否,则将flag的值取为0。
进一步地,所述降维计算采用的公式为:
Figure GDA0002555840710000031
上述公式中,R的值为当前样本词汇在总所述样本词汇中出现的次数,k的值取常数,TF的值为所述当前样本词汇的词频,即所述当前样本词汇在所述样本文档中出现的次数,
Figure GDA0002555840710000032
的值为所述当前样本词汇在当前样本文档中的引用次数占总所述样本文档中引用次数的比值,W的值为所述最终权重。
进一步地,所述对比公式为:
Figure GDA0002555840710000033
上述公式中,WT的值为所述最终权重,WC的值为所述最终权重对应的所述样本词汇在所述目标文档中对应的所述目标词汇的所述目标权重。
一种文档分类装置,包括:
第一计算模块,用于获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,以得到所述样本词汇对应的高频权重;
第二计算模块,用于获取目标文档,对所述目标文档中的目标词汇进行所述权重公式计算,以得到所述目标词汇对应的目标权重;
第三计算模块,包括第一子计算模块,用于根据所述第一计算模块和所述第二计算模块的计算结果,将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重;
第四计算模块,用于根据所述第三计算模块的计算结果,判断所述全文权重是否大于预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域。
上述文档分类装置,通过所述第一计算模块和所述第二计算模块的设计,可分别对所述样本文档和所述目标文档进行所述权重计算,通过所述第三计算模块的设计,可对所述目标权重和所述高频权重进行所述对比计算,以得到所述全文权重,并通过阈值判断设计以判断是否将所述目标文档归类,所述文档分类装置可以对不同技术领域的文档进行分类灵活性高无需建立多个数据模型,且通过所述权重计算和所述对比计算的设计,使得所述文档分类装置的分类效率高且精度准。
进一步地,所述第三计算模块还包括:
第二子计算模块,用于对所述高频权重进行降维计算,以得到所述样本文档对应的最终权重;
第三子计算模块,用于根据所述第二子计算模块的计算结果,将所述目标权重与所述最终权重进行所述对比计算,以得到所述目标文档的所述全文权重。
进一步地,所述第一计算模块和所述第二计算模块均包括:
第一运行模块,用于运行权重公式,所述权重公式为:
W(i)=k×flag(i)+TF(i)
上述公式中,k的值取常数,TF的值为当前词汇的词频,即所述当前词汇在当前文档中出现的次数,当所述当前词汇为所述样本词汇时,W的值为所述高频权重,当所述当前词汇为所述目标词汇时,W的值为所述目标权重;
查询模块,用于获取所述当前词汇,查询本地存储的关键词表并判断所述当前词汇是否是存在所述关键词表中;
若是,则将flag的值取为1;
若否,则将flag的值取为0。
进一步地,所述第二子计算模块包括:
Figure GDA0002555840710000041
第二运行模块,用于运行降维公式,所述降维公式为:
上述公式中,R的值为当前样本词汇在总所述样本词汇中出现的次数,k的值取常数,TF的值为所述当前样本词汇的词频,即所述当前样本词汇在所述样本文档中出现的次数,
Figure GDA0002555840710000051
的值为所述当前样本词汇在当前样本文档中的引用次数占总所述样本文档中引用次数的比值,W的值为所述最终权重。
附图说明
图1为本发明第一实施例提供的文档分类方法的流程图;
图2为本发明第二实施例提供的文档分类方法的流程图;
图3为本发明第三实施例提供的文档分类装置的结构示意图;
图4为本发明第四实施例提供的文档分类装置的结构示意图;
主要元素符号说明
文档分类装置 100,100a 第一计算模块 10
第一运行模块 11 查询模块 12
第二计算模块 20 第三计算模块 30,30a
第一子计算模块 31 第三运行模块 311
第二子计算模块 32 第二运行模块 321
第三子计算模块 33 第四计算模块 40
获取模块 50
具体实施方式
为了便于更好地理解本发明,下面将结合相关实施例附图对本发明进行进一步地解释。附图中给出了本发明的实施例,但本发明并不仅限于上述的优选实施例。相反,提供这些实施例的目的是为了使本发明的公开面更加得充分。
请参阅图1,为本发明第一实施例提供的文档分类方法的流程图,包括步骤S10至S30。
步骤S10,获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,并分别获取所述样本文档中前第一预设位数的高频权重及所述高频权重对应的所述样本词汇;
其中,所述样本文档的所述预设篇数为10篇,通过对所述样本词汇进行所述权重计算,以得到了所述高频权重及所述高频权重对应的所述样本词汇,所述前第一预设位数的数量为10位,即分别获取所述高频权重的前10位和前10位所述高频权重对应的所述样本词汇;
步骤S20,获取目标文档,对所述目标文档中的目标词汇进行所述权重计算,并获取所述目标文档中前第二预设位数的目标权重及所述目标权重对应的所述目标词汇;
其中,通过对所述目标词汇进行所述权重计算,以得到了所述目标权重,所述前第二预设位数为10位,即分别获取所述目标权重的前10位和前10位所述高频权重对应的所述目标词汇;
步骤S30,将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重,并判断所述全文权重是否大于预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域。
其中,通过所述对比计算的设计,以得到了所述全文权重,并通过判断所述全文权重与所述预设的权重阈值的大小的设计,以使判断是否要将所述目标文档归类,本实施例中文档领域可为任意的技术领域,例如医学文档领域、电子文档领域和文学文档领域等。
本实施例的文档分类方法,通过分别对所述样本文档和所述目标文档进行所述权重计算的设计,以得到所述高频权重和所述目标权重,通过所述对比计算的设计,以得到所述全文权重,并通过判断所述全文权重是否大于所述预设的权重阈值的设计,以判断是否将所述目标文档进行归类,上述方法无需进行数据模型的建立且可对所有领域的文档进行归类,通过简单的公式计算以判断是否将所述目标文档归类至所述样本文档对应的文档领域,且分类效率高、速率快。
请参阅图2,为本发明第二实施例提供的文档分类方法的流程图,所述方法包括步骤S11至S41。
步骤S11,获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,并分别获取所述样本文档中前第一预设位数的高频权重及所述高频权重对应的所述样本词汇;
其中,所述样本文档的所述预设篇数为10篇,通过对所述样本词汇进行所述权重计算,以得到了所述高频权重,所述前第一预设位数的数量为10位,即分别获取所述高频权重的前10位和前10位所述高频权重对应的所述样本词汇;
步骤S21,分别对所述高频权重对应的所述样本词汇进行降维计算,以得到所述高频权重对应的所述样本词汇的最终权重,获取前第三预设位数的所述最终权重及所述最终权重对应的所述样本词汇;
其中,所述前第三预设位数为10位,即获取前10位的所述最终权重和所述最终权重对应的所述样本词汇,由于所述样本文档的数量为10篇且每篇所述样本文档中所述高频权重的数量为10个,进而当所述高频权重对应的所述样本词汇不重复时,总所述样本词汇的数量为100个,导致分类过程会较为复杂,进而本实施例中通过所述降维计算的设计,以使将总所述样本词汇的数量降为10个,提高了所述文档分类方法的分类效率和分类的精准度;
步骤S31,获取目标文档,对所述目标文档中的目标词汇进行所述权重计算,并获取所述目标文档中前第二预设位数的目标权重及所述目标权重对应的所述目标词汇;
其中,通过对所述目标词汇进行所述权重计算,以得到了所述目标权重,所述前第二预设位数为10位,即分别获取所述目标权重的前10位和前10位所述高频权重对应的所述目标词汇;
步骤S41,将所述目标权重与所述最终权重进行所述对比计算,以得到所述目标文档的所述全文权重,并判断所述全文权重是否大于所述预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域;
其中,通过将所述目标权重和所述最终权重进行所述对比计算,以得到了所述全文权重,并通过判断所述全文权重与所述预设的权重阈值的大小的设计,以使判断是否要将所述目标文档归类。
所述权重计算采用的公式为:
W(i)=k×flag(i)+TF(i);
上述公式中,k为关键字权重增益,k的值取常数,本实施例中k的值取20,TF的值为当前词汇的词频,即所述当前词汇在当前文档中出现的次数,当所述当前词汇为所述样本词汇时,W的值为所述高频权重,当所述当前词汇为所述目标词汇时,W的值为所述目标权重。
本实施例中,flag的取值步骤包括:
获取所述当前词汇,查询本地存储的关键词表并判断所述当前词汇是否是存在所述关键词表中;
若是,则将flag的值取为1,若否,则将flag的值取为0,通过flag的取值设计当所述当前词汇为关键词时提高了所述当前词汇对应的权重。
所述降维计算采用的公式为:
Figure GDA0002555840710000081
上述公式中,R的值为当前样本词汇在总所述样本词汇中出现的次数,当100个所述样本词汇都不相同时,R的值取1,可以理解的当所述当前样本词汇中有相同的词汇时,R的值为所述当前样本词汇的次数,k的值取常数,TF的值为所述当前样本词汇的词频,即所述当前样本词汇在所述样本文档中出现的次数,
Figure GDA0002555840710000082
的值为所述当前样本词汇在当前样本文档中的引用次数占总所述样本文档中引用次数的比值,W的值为所述最终权重。
所述对比公式为:
Figure GDA0002555840710000083
上述公式中,WT的值为所述最终权重,WC的值为所述最终权重对应的所述样本词汇在所述目标文档中对应的所述目标词汇的所述目标权重。
本实施例的文档分类方法,通过分别对所述样本文档和所述目标文档进行所述权重计算的设计,以得到所述高频权重和所述目标权重,通过所述对比计算的设计,以得到所述全文权重,并通过判断所述全文权重是否大于所述预设的权重阈值的设计,以判断是否将所述目标文档进行归类,上述方法无需进行数据模型的建立且可对所有领域的文档进行归类,通过简单的公式计算以判断是否将所述目标文档归类至所述样本文档对应的文档领域,且分类效率高、速率快。
请参阅图3,为本发明第三实施例提供的文档分类装置100的结构示意图,所述文档分类装置100包括:
第一计算模块10,用于获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,所述预设篇数的数量为10篇;
获取模块50,用于根据所述第一计算模块10的计算结果,分别获取所述样本文档中前第一预设位数的高频权重和所述高频权重对应的所述样本词汇,所述前第一预设位数为10位,即分别获取所述高频权重的前10位和前10位所述高频权重对应的所述样本词汇;
第二计算模块20,用于获取目标文档,对所述目标文档中的目标词汇进行所述权重公式计算,以得到所述目标词汇对应的目标权重及所述目标权重对应的所述目标词汇,所述前第二预设位数为10位,即分别获取所述目标权重的前10位和前10位所述高频权重对应的所述目标词汇;
第三计算模块30,包括第一子计算模块31,用于根据所述第一计算模块10和所述第二计算模块20的计算结果,将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重;
第四计算模块40,用于根据所述第三计算模块30的计算结果,判断所述全文权重是否大于预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域。
所述第一计算模块10和所述第二计算模块20均包括:
第一运行模块11,用于运行权重公式,所述权重公式为:
W(i)=k×flag(i)+TF(i)
上述公式中,k为关键字权重增益,k的值取常数,本实施例中k的值取20,TF的值为当前词汇的词频,即所述当前词汇在当前文档中出现的次数,当所述当前词汇为所述样本词汇时,W的值为所述高频权重,当所述当前词汇为所述目标词汇时,W的值为所述目标权重。
查询模块12,用于获取所述当前词汇,查询本地存储的关键词表并判断所述当前词汇是否是存在所述关键词表中;
若是,则将flag的值取为1,若否,则将flag的值取为0,通过flag的取值设计当所述当前词汇为关键词时提高了所述当前词汇对应的权重。
所述第一子计算模块31包括:
第三运行模块311,用于运行对比公式,所述对比公式为:
Figure GDA0002555840710000101
上述公式中,WT的值为所述最终权重,WC的值为所述最终权重对应的所述样本词汇在所述目标文档中对应的所述目标词汇的所述目标权重。
本实施例通过所述第一计算模块10和所述第二计算模块20的设计,可分别对所述样本文档和所述目标文档进行所述权重计算,通过所述第三计算模块30的设计,可对所述目标权重和所述高频权重进行所述对比计算,以得到所述全文权重,并通过阈值判断设计以判断是否将所述目标文档归类,所述文档分类装置100可以对不同技术领域的文档进行分类灵活性高,且通过所述权重计算和所述对比计算的设计,使得所述文档分类装置100的分类效率高且精度准。
请参阅图4,为本发明第四实施例提供的文档分类装置100a的结构示意图,该第四实施例与第三实施例的结构大抵相同,其区别在于,本实施例中所述第三计算模块30a还包括:
第二子计算模块32,用于对所述高频权重进行降维计算,以得到所述样本文档对应的最终权重,并获取前第三预设位数的所述最终权重及所述最终权重对应的所述样本词,所述前第三预设位数为10位,即获取前10位的所述最终权重和所述最终权重对应的所述样本词汇,由于所述样本文档的数量为10篇且每篇所述样本文档中所述高频权重的数量为10个,进而当所述高频权重对应的所述样本词汇不重复时,总所述样本词汇的数量为100个,导致分类过程会较为复杂,进而本实施例中通过所述降维计算的设计,以使将总所述样本词汇的数量降为10个,提高了所述文档分类方法的分类效率和分类的精准度。
第三子计算模块33,用于根据所述第二子计算模块32的计算结果,将所述目标权重与所述最终权重进行所述对比计算,以得到所述目标文档的所述全文权重。
所述第二子计算模块32包括:
第二运行模块321,用于运行降维公式,所述降维公式为:
Figure GDA0002555840710000111
上述公式中,R的值为当前样本词汇在总所述样本词汇中出现的次数,当100个所述样本词汇都不相同时,R的值取1,可以理解的当所述当前样本词汇中有相同的词汇时,R的值为所述当前样本词汇的次数,k的值取常数,TF的值为所述当前样本词汇的词频,即所述当前样本词汇在所述样本文档中出现的次数,
Figure GDA0002555840710000112
的值为所述当前样本词汇在当前样本文档中的引用次数占总所述样本文档中引用次数的比值,W的值为所述最终权重。
所述第三子计算模块33包括:
第三运行模块311,用于运行对比公式,所述对比公式为:
Figure GDA0002555840710000113
上述公式中,WT的值为所述最终权重,WC的值为所述最终权重对应的所述样本词汇在所述目标文档中对应的所述目标词汇的所述目标权重。
本实施例通过所述第二子计算模块32和所述第三子计算模块33的设计,将计算的数量从100个降低至了10个进而简化了后续所述对比计算的计算流程,且提高了所述文档分类装置100a的分类效率和分类的精准度。
上述实施例描述了本发明的技术原理,这些描述只是为了解释本发明的原理,而不能以任何方式解释为本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其他具体实施方式,这些方式都将落入本发明的保护范围内。

Claims (5)

1.一种文档分类方法,其特征在于,所述方法包括:
获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,以得到所述样本词汇对应的高频权重;
获取目标文档,对所述目标文档中的目标词汇进行所述权重计算,以得到所述目标词汇对应的目标权重;
对所述高频权重进行降维计算,以得到所述高频权重对应的最终权重;
将所述目标权重与所述最终权重进行对比计算,以得到所述目标文档的全文权重;
判断所述全文权重是否大于预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域;
所述降维计算所采用的公式为:
Figure FDA0002659558800000011
上述公式中,R的值为当前样本词汇在总所述样本词汇中出现的次数,k的值取常数,TF的值为所述当前样本词汇的词频,即所述当前样本词汇在所述样本文档中出现的次数,
Figure FDA0002659558800000012
的值为所述当前样本词汇在当前样本文档中的引用次数占总所述样本文档中引用次数的比值,W的值为所述最终权重。
2.根据权利要求1所述的文档分类方法,其特征在于,所述权重计算采用的公式为:
W(i)=k×flag(i)+TF(i);
上述公式中,k的值取常数,TF的值为当前词汇的词频,即所述当前词汇在当前文档中出现的次数,当所述当前词汇为所述样本词汇时,W的值为所述高频权重,当所述当前词汇为所述目标词汇时,W的值为所述目标权重;获取所述当前词汇,查询本地存储的关键词表并判断所述当前词汇是否是存在所述关键词表中;
若是,则将flag的值取为1;
若否,则将flag的值取为0。
3.根据权利要求1所述的文档分类方法,其特征在于,对比公式为:
Figure FDA0002659558800000021
上述公式中,WT的值为所述最终权重,WC的值为所述最终权重对应的所述样本词汇在所述目标文档中对应的所述目标词汇的所述目标权重。
4.一种文档分类装置,其特征在于,包括:
第一计算模块,用于获取预设篇数的样本文档,分别对所述样本文档中的样本词汇进行权重计算,以得到所述样本词汇对应的高频权重;
第二计算模块,用于获取目标文档,对所述目标文档中的目标词汇进行权重公式计算,以得到所述目标词汇对应的目标权重;
第三计算模块,包括第一子计算模块,用于根据所述第一计算模块和所述第二计算模块的计算结果,将所述目标权重与所述高频权重进行对比计算,以得到所述目标文档的全文权重;
所述第三计算模块还包括:
第二子计算模块,用于对所述高频权重进行降维计算,以得到所述样本文档对应的最终权重;
第三子计算模块,用于根据所述第二子计算模块的计算结果,将所述目标权重与所述最终权重进行所述对比计算,以得到所述目标文档的所述全文权重;
所述第二子计算模块包括:
第二运行模块,用于运行降维公式,所述降维公式为:
Figure FDA0002659558800000022
上述公式中,R的值为当前样本词汇在总所述样本词汇中出现的次数,k的值取常数,TF的值为所述当前样本词汇的词频,即所述当前样本词汇在所述样本文档中出现的次数,
Figure FDA0002659558800000023
的值为所述当前样本词汇在当前样本文档中的引用次数占总所述样本文档中引用次数的比值,W的值为所述最终权重;
第四计算模块,用于根据所述第三计算模块的计算结果,判断所述全文权重是否大于预设的权重阈值,若是则将所述目标文档归类至所述样本文档对应的文档领域。
5.根据权利要求4所述的文档分类装置,其特征在于,所述第一计算模块和所述第二计算模块均包括:
第一运行模块,用于运行权重公式,所述权重公式为:
W(i)=k×flag(i)+TF(i)
上述公式中,k的值取常数,TF的值为当前词汇的词频,即所述当前词汇在当前文档中出现的次数,当所述当前词汇为所述样本词汇时,W的值为所述高频权重,当所述当前词汇为所述目标词汇时,W的值为所述目标权重;
查询模块,用于获取所述当前词汇,查询本地存储的关键词表并判断所述当前词汇是否是存在所述关键词表中;
若是,则将flag的值取为1;
若否,则将flag的值取为0。
CN201710433079.0A 2017-06-09 2017-06-09 文档分类方法及装置 Active CN107329999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710433079.0A CN107329999B (zh) 2017-06-09 2017-06-09 文档分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710433079.0A CN107329999B (zh) 2017-06-09 2017-06-09 文档分类方法及装置

Publications (2)

Publication Number Publication Date
CN107329999A CN107329999A (zh) 2017-11-07
CN107329999B true CN107329999B (zh) 2020-10-20

Family

ID=60194727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710433079.0A Active CN107329999B (zh) 2017-06-09 2017-06-09 文档分类方法及装置

Country Status (1)

Country Link
CN (1) CN107329999B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390094B (zh) * 2018-04-20 2023-05-23 伊姆西Ip控股有限责任公司 对文档进行分类的方法、电子设备和计算机程序产品
CN112579784B (zh) 2021-03-01 2021-06-01 江西师范大学 一种基于深度强化学习的云边协同文档分类系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214233A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种对文本进行分类的方法及装置
CN103106275A (zh) * 2013-02-08 2013-05-15 西北工业大学 基于特征分布信息的文本分类特征筛选方法
CN105787004A (zh) * 2016-02-22 2016-07-20 浪潮软件股份有限公司 一种文本分类方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
WO2010030794A1 (en) * 2008-09-10 2010-03-18 Digital Infuzion, Inc. Machine learning methods and systems for identifying patterns in data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214233A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种对文本进行分类的方法及装置
CN103106275A (zh) * 2013-02-08 2013-05-15 西北工业大学 基于特征分布信息的文本分类特征筛选方法
CN105787004A (zh) * 2016-02-22 2016-07-20 浪潮软件股份有限公司 一种文本分类方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于特征选择和特征加权算法的文本分类研究;石慧;《中国优秀硕士学位论文全文数据库》;20150915;第I138-1630 *

Also Published As

Publication number Publication date
CN107329999A (zh) 2017-11-07

Similar Documents

Publication Publication Date Title
CN105808526B (zh) 商品短文本核心词提取方法和装置
CN103294817A (zh) 一种基于类别分布概率的文本特征抽取方法
CN103617435B (zh) 一种主动学习图像分类方法和系统
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN110688452B (zh) 一种文本语义相似度评估方法、系统、介质和设备
CN108090068B (zh) 医院数据库中的表的分类方法及装置
CN108027814B (zh) 停用词识别方法与装置
CN111382248A (zh) 一种问题回复方法、装置、存储介质及终端设备
CN106777193B (zh) 一种自动撰写特定稿件的方法
CN104572616A (zh) 文本倾向性的确定方法和装置
CN104699685B (zh) 模型更新装置及方法、数据处理装置及方法、程序
CN104598648B (zh) 一种微博用户交互式性别识别方法及装置
CN110222192A (zh) 语料库建立方法及装置
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN103064985B (zh) 基于先验知识的图像检索方法
CN107729917A (zh) 一种标题的分类方法及装置
CN105512277A (zh) 一种面向图书市场书名的短文本聚类方法
CN107329954B (zh) 一种基于文档内容和相互关系的主题检测方法
CN103020249A (zh) 分类器的构建方法及装置、中文文本情感分类方法及系统
CN108920579B (zh) 句子的分类方法、装置、终端设备及存储介质
CN107220293B (zh) 基于情绪的文本分类方法
CN107329999B (zh) 文档分类方法及装置
CN105868781A (zh) 一种基于朴素贝叶斯分类算法的电脑文件分类处理方法
CN111400439A (zh) 网络不良数据监控方法、装置及存储介质
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
OL01 Intention to license declared
OL01 Intention to license declared
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20171107

Assignee: JIANGXI HENGHEXIN TECHNOLOGY Co.,Ltd.

Assignor: JIANGXI University OF TECHNOLOGY

Contract record no.: X2025980018363

Denomination of invention: Document classification method and device

Granted publication date: 20201020

License type: Open License

Record date: 20250820

EE01 Entry into force of recordation of patent licensing contract