CN105426352A - 模板文档自动生成方法 - Google Patents
模板文档自动生成方法 Download PDFInfo
- Publication number
- CN105426352A CN105426352A CN201510822691.8A CN201510822691A CN105426352A CN 105426352 A CN105426352 A CN 105426352A CN 201510822691 A CN201510822691 A CN 201510822691A CN 105426352 A CN105426352 A CN 105426352A
- Authority
- CN
- China
- Prior art keywords
- tree
- decision
- decision tree
- dom
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种模板文档自动生成方法,包括根据模板文档生成DOM格式目录树,并产生与之相匹配的决策树;调整优化决策树,并遍历所有调整优化过程中的决策树获取所有决策树的遍历效率;通过决策树遍历效率及模板文档生成效率筛选出最优与之DOM数据路相匹配的决策树模型;按照筛选出的决策树模型,生成已经进行替换和属性变更的文档。本发明提供的这种模板文档自动生成方法,由于采用了与DOM格式目录树相匹配的决策树,并通过对决策树的筛选最终生成最优的决策树模型,并依据该决策树模型生成模板文档,因此本发明能够不受目录树的深度或层次的影响,能够高效、快速的生成模板文档。
Description
技术领域
本发明属于智能信息管理及应用技术领域,具体涉及模板文档自动生成方法。
背景技术
随着信息技术的高速发展,信息技术渗入至各行各业,为每个行业带来了翻天覆地的变化,不仅优化了工作流程,而且很大程度上提高了工作效率。作为模板性文档特别多的科研院所、设计单位,为了提高工作效率、降低文档差错率,每个单位迫切需要一个解决此类模板性文档自动生成文件的工具,并全面提升工作效率及质量,其模板文档快速生成文件需要高效的快速生成方法。
基于DOM目录树自定义标签遍历方法是模板文档生成文件的一种可行方法(找到相应的自定义标签进行数据信息替换),其基本步骤主要是:首先根据文档材料动态生成相关的DOM目录树格式;其次在DOM目录树的基础上进行自定义标签遍历,基于DOM目录树模型模板文档生成具有简单有效且计算结果准确等特点,但其随着DOM目录树的深度或层次的增加,其遍历量按指数级增加,影响模板文档生成效率,从而很大程度上制约了该方法在模版文档自动生成方面的深入应用。
发明内容
本发明的目的在于提供一种高效、快速的模板文档自动生成方法。
本发明提供的这种模板文档自动生成方法,其特征在于包括如下步骤:
S1根据模板文档生成DOM格式目录树,并产生与之相匹配的决策树;
S2对步骤S1产生的决策树进行多叉和多级调整优化,并遍历所有调整优化过程中的决策树获取所有决策树的遍历效率;
S3通过决策树遍历效率及模板文档生成效率筛选出最优与之DOM数据路相匹配的决策树模型;
S4按照S3中筛选出的决策树模型,生成已经进行替换和属性变更的文档。
所述的步骤S1中的产生相匹配的决策树,为在遍历DOM格式目录树的同时,按同样的树形结构生成决策树,决策树的节点来自DOM目录树,决策树的节点通过标识进行标注,标识决策树节点有无子节点,节点下有无模板标签及标签类型,且当DOM目录树上节点下无模板标签,则决策树删除此节点,直到DOM目录树遍历完成,从而生成完整的决策树。
所述的遍历优化决策树,为采用深度优先算法进行遍历。
所述的筛选出最优的决策树模型,为依据遍历时间最小原则筛选出决策树模型。
本发明提供的这种模板文档自动生成方法,由于采用了与DOM格式目录树相匹配的决策树,并通过对决策树的筛选最终生成最优的决策树模型,并依据该决策树模型生成模板文档,因此本发明能够不受目录树的深度或层次的影响,能够高效、快速的生成模板文档。
附图说明
图1为DOM格式目录树的结构示意图。
图2为DOM格式目录树的树形图。
图3为DOM相匹配的决策树的结构示意图。
图4为DOM相匹配的决策树的树形图。
图5为本发明的方法流程图。
具体实施方式
如图1所示为本发明的方法根据模板文档生成的DOM格式目录树的结构示意图:可以看到图中的目录树包括元素、属性和文本;如图2所示为DOM格式目录树的树形图;如图3所示为本发明的方法生成的与DOM格式目录树的决策树,用于辅助决策快速遍历DOM目录树;如图4所示为DOM相匹配的决策树的树形图。
如图5所示为本发明的方法流程图:
步骤1:根据模板文档生成DOM格式目录树,并产生与之相匹配的决策树;
根据基于XML格式模板文档生成如图1所示的DOM格式目录树,包括模板文档所包含的模板文档的标题、段落、样式等属性信息,在生成DOM格式的同时产生与之相匹配的自定义标签决策树。
如图2所示为DOM格式目录树的树形图;采取深度优先遍历算法,在遍历DOM格式目录树的同时按同样的树形结构生成决策树,决策树的节点同样来自DOM目录树,但是决策树的节点通过标识进行标注,标识决策树节点有无子节点,节点下有无模板标签及标签类型,当DOM目录树上节点下无模板标签,则决策树删除此节点,直到DOM目录树遍历完成,从生成完整的决策树,如图4所示。
步骤2:调整优化决策树,并遍历所有调整优化过程中的决策树获取所有决策树的遍历效率;
通过改进优化决策树,包括多叉和多级调整,再结合基于DOM格式目录树的模板文档进行遍历,完成所有自定义标签数据替换和属性变更,生成完整的模板文档文件,并计算遍历DOM目录树所耗费的时间。
DOM格式目录树遍历采用深度优先遍历法,从节点开始,层层深入,每进入一个子节点就与决策树进行匹配判别,当子节点不在决策树上存在,直接进入下一兄弟节点遍历,否则深入遍历,直到遍历此节点子树完成及替换自定义标签内容为止,重复此遍历过程直到遍历完成为止。
步骤3:通过决策树遍历效率及模板文档生成效率筛选出最优与之DOM数据路相匹配的决策树模型;
通过比对所有调整优化决策树的模板文档DOM目录树遍历时效性,获取耗费时间最小的模型作为快速自动生成模板文档文件的辅助决策树模型。
步骤4:按照筛选出的决策树模型,生成已经进行替换和属性变更的文档。
Claims (5)
1.一种模板文档自动生成方法,包括如下步骤:
S1.根据模板文档生成DOM格式目录树,并产生与之相匹配的决策树;
S2.对步骤S1产生的决策树进行多叉和多级调整优化,并遍历所有调整优化过程中的决策树获取所有决策树的遍历效率;
S3.通过决策树遍历效率及模板文档生成效率筛选出最优与之DOM数据路相匹配的决策树模型;
S4.按照S3中筛选出的决策树模型,生成所需要的模板文档。
2.根据权利要求1所述的模板文档自动生成方法,其特征在于所述的步骤S1中的产生相匹配的决策树,为在遍历DOM格式目录树的同时,按同样的树形结构生成决策树,决策树的节点来自DOM目录树,决策树的节点通过标识进行标注,标识决策树节点有无子节点,节点下有无模板标签及标签类型,且当DOM目录树上节点下无模板标签,则决策树删除此节点,直到DOM目录树遍历完成,生成完整的决策树。
3.根据权利要求1或2所述的模板文档自动生成方法,其特征在于步骤S2中所述的遍历优化决策树,为采用深度优先算法进行遍历。
4.根据权利要求1或2所述的模板文档自动生成方法,其特征在于步骤S4中所述的筛选出最优的决策树模型,为依据遍历时间最小原则筛选出决策树模型。
5.根据权利要求3所述的模板文档自动生成方法,其特征在于步骤S4中所述的筛选出最优的决策树模型,为依据遍历时间最小原则筛选出决策树模型。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510822691.8A CN105426352A (zh) | 2015-11-24 | 2015-11-24 | 模板文档自动生成方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510822691.8A CN105426352A (zh) | 2015-11-24 | 2015-11-24 | 模板文档自动生成方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN105426352A true CN105426352A (zh) | 2016-03-23 |
Family
ID=55504567
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201510822691.8A Pending CN105426352A (zh) | 2015-11-24 | 2015-11-24 | 模板文档自动生成方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN105426352A (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108268436A (zh) * | 2016-12-30 | 2018-07-10 | 珠海金山办公软件有限公司 | 一种幻灯片美化匹配的方法及装置 |
| US11269835B2 (en) | 2019-07-11 | 2022-03-08 | International Business Machines Corporation | Customization and recommendation of tree-structured templates |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102831121A (zh) * | 2011-06-15 | 2012-12-19 | 阿里巴巴集团控股有限公司 | 一种网页信息抽取的方法和系统 |
| CN103473338A (zh) * | 2013-09-22 | 2013-12-25 | 北京奇虎科技有限公司 | 网页内容抽取方法和网页内容抽取系统 |
| CN103559199A (zh) * | 2013-09-29 | 2014-02-05 | 北京航空航天大学 | 网页信息抽取方法和装置 |
| US20140067819A1 (en) * | 2009-10-30 | 2014-03-06 | Oracle International Corporation | Efficient xml tree indexing structure over xml content |
| CN103858386A (zh) * | 2011-08-02 | 2014-06-11 | 凯为公司 | 通过优化的决策树进行的包分类 |
-
2015
- 2015-11-24 CN CN201510822691.8A patent/CN105426352A/zh active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20140067819A1 (en) * | 2009-10-30 | 2014-03-06 | Oracle International Corporation | Efficient xml tree indexing structure over xml content |
| CN102831121A (zh) * | 2011-06-15 | 2012-12-19 | 阿里巴巴集团控股有限公司 | 一种网页信息抽取的方法和系统 |
| CN103858386A (zh) * | 2011-08-02 | 2014-06-11 | 凯为公司 | 通过优化的决策树进行的包分类 |
| CN103473338A (zh) * | 2013-09-22 | 2013-12-25 | 北京奇虎科技有限公司 | 网页内容抽取方法和网页内容抽取系统 |
| CN103559199A (zh) * | 2013-09-29 | 2014-02-05 | 北京航空航天大学 | 网页信息抽取方法和装置 |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108268436A (zh) * | 2016-12-30 | 2018-07-10 | 珠海金山办公软件有限公司 | 一种幻灯片美化匹配的方法及装置 |
| CN108268436B (zh) * | 2016-12-30 | 2021-08-20 | 珠海金山办公软件有限公司 | 一种幻灯片美化匹配的方法及装置 |
| US11269835B2 (en) | 2019-07-11 | 2022-03-08 | International Business Machines Corporation | Customization and recommendation of tree-structured templates |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN103136184B (zh) | 一种自动排版的方法及其装置 | |
| CN102214213B (zh) | 一种采用决策树的数据分类方法和系统 | |
| CN109190094B (zh) | 基于ifc标准的建筑信息模型文件切分方法 | |
| CN108228656B (zh) | 基于cart决策树的url分类方法及装置 | |
| CN101751399A (zh) | 决策树优化方法和优化系统 | |
| CN102385505B (zh) | 针对面向对象程序设计语言源代码的软件可视化方法 | |
| CN114372118B (zh) | 一种基于递归算法的审计知识推荐系统及方法 | |
| CN111177360B (zh) | 一种基于云上用户日志的自适应过滤方法及装置 | |
| CN104408573A (zh) | 一种基于业务模式的异构业务流程整合方法 | |
| CN116680839A (zh) | 一种基于知识驱动的发动机智能化工艺设计方法 | |
| CN103823885A (zh) | 基于数据起源依赖关系分析模型的数据依赖分析方法 | |
| CN115238197B (zh) | 一种基于专家思维模型的领域业务辅助分析方法 | |
| CN103780448B (zh) | 一种控件层代码的生成方法及装置 | |
| CN105426352A (zh) | 模板文档自动生成方法 | |
| CN107944465A (zh) | 一种适用于大数据的无监督快速聚类方法及系统 | |
| CN108427753A (zh) | 一种新的数据挖掘方法 | |
| CN110287379B (zh) | 一种基于逻辑树的表格拆分与数据提取方法 | |
| CN106227770B (zh) | 一种智能化的新闻网页信息抽取方法 | |
| CN106156315A (zh) | 一种基于分类模型判断的数据质量监控方法 | |
| CN107239285A (zh) | 一种单据开发方法及装置、可读介质和存储控制器 | |
| CN105049286A (zh) | 基于层次聚类的云平台测速数据判定方法 | |
| CN104217025B (zh) | 针对多记录网页的记录项抽取系统及方法 | |
| DE602006017282D1 (de) | Verfahren und System zur Identifizierung von mit einem vordefinierten Kontext in einem Datensatz zusammenhängenden Einträgen | |
| CN104715029A (zh) | 一种多渠道发布方法 | |
| CN112580317A (zh) | 一种快速生成带层级汇总的动态交叉二维表的方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160323 |
|
| WD01 | Invention patent application deemed withdrawn after publication |