CN113705158B - 一种文档翻译中智能还原原文样式的方法 - Google Patents
一种文档翻译中智能还原原文样式的方法 Download PDFInfo
- Publication number
- CN113705158B CN113705158B CN202111129007.XA CN202111129007A CN113705158B CN 113705158 B CN113705158 B CN 113705158B CN 202111129007 A CN202111129007 A CN 202111129007A CN 113705158 B CN113705158 B CN 113705158B
- Authority
- CN
- China
- Prior art keywords
- text
- original
- word
- translated
- original text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
一种文档翻译中智能还原原文样式的方法,包括如下步骤:S100、解析文件获得原文,将原文翻译为译文;获取原文的特殊样式,以及译文中的修订痕迹、特殊样式,并在修订痕迹、特殊样式处使用替代字符进行替换,然后以修订痕迹、特殊样式处的字符下标值为key,字符值及样式为value存入map中;S200、识别句子并按格式分块,将原文句子按照存在样式的部分进行分割,得到原文集合,将对应的译文句子按照原文集合分割为译文集合;S300、将原文集合和译文集合发送到词对齐模块进行词对齐,使得原文的词和译文的词相对应;S400、根据词对齐结果还原样式,获得具有和原文相同样式的译文。本发明可以快速完成译文样式回填,在译文中还原原文格式,可显著提高翻译生产力。
Description
技术领域
本发明涉及及文档翻译(如PDF,WORD,PPT,EXCEL等)、辅助翻译、自动翻译、机器翻译等领域,特别是涉及一种文档翻译中智能还原原文样式的方法。
背景技术
在文件翻译过程中,在完成文字翻译后,往往需要将原文的样式(如字体、颜色等)应用到译文对应的位置中。传统的方式是翻译人员根据原文的样式手动添加对应的样式到译文中,在原文格式特别复杂的时候,人工添加译文样式特别费力,占用了整个翻译过程较多的时间。另外,通过传统规则(如:利于词典标记规则进行)来填充译文样式存在填充准确率低下的问题。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种文档翻译中智能还原原文样式的方法,其可以快速完成译文样式回填,在译文中还原原文格式,显著提高翻译生产力。
为实现上述目的,本发明提供了一种文档翻译中智能还原原文样式的方法,包括如下步骤:
S100、解析文件获得原文,将原文翻译为译文;翻译人员可以对译文进行修订、增加特殊样式。获取原文的特殊样式,以及译文中的修订痕迹、特殊样式,并在修订痕迹、特殊样式处使用替代字符进行替换,然后以修订痕迹、特殊样式处的字符下标值为key,字符值及样式为value存入map中;
S200、识别句子并按格式分块,将原文句子按照存在样式的部分进行分割,得到原文集合,译文为词组的文本状态,因此直接构成译文集合;
S300、将原文集合和译文集合发送到词对齐模块进行词对齐,使得原文的词和译文的词相对应;
S400、根据词对齐结果还原样式,获得具有和原文相同样式的译文。
作为本发明的优选技术方案,S300中词对齐的方法包括如下步骤:
S310、分词
使用BPE算法对不同语言文本进行分词,将原文和译文分别分割为相互对应的词;
S320、词向量加载
根据分词结果,加载mBERT预训练模型,使用multi-head和self-attention输出12层隐藏向量,选取最后一层隐藏向量作为词向量;
S330、相似度计算
相似度包括语义相似度和位置相似度(公式1),语义相似度为原文词向量和译文词向量的余弦距离(公式2),位置相似度为原文的词位置和译文的词位置的相对距离(公式3):
Sij=SEMij*POSij (1)
其中,Sij表示原文第i个词向量和译文第j个词向量的相似度,SEMij表示原文第i个词向量和译文第j个词向量的语义相似度,POSij表示原文第i个词向量和译文第j个词向量的位置相似度,vi表示原文第i个词向量,vj表示译文第j个词向量,ls表示原文的词数,lt表示译文的词数;α为超参数,限制位置相似度的权重,经过实验α取值为0.5。
S314、词匹配
原文词向量和译文词向量使用双向最优匹配,即当原文第i个词向量的相似度最高是译文第j个词向量,同时译文第j个词向量的相似度最高是原文第i个词向量时,第i个原文词向量与第j个译文词向量匹配(公式4);
而双向最优匹配无法一次性将所有的原文单词和译文单词匹配,特别是对于原文中不同的词与同一个译文的词相似情况,而译文中的词与原文中的对应的多个词具有不用的相似程度,根据双向最优匹配原则,会选择相似度最高的词,因此其它词就不能匹配。为了匹配剩下的词向量,需要在每一次双向最优匹配后更新相似度矩阵Sij(公式5),将已匹配的词对(Mij=1)的相似度变为0(Sij^=0),然后进行下一次双向最优匹配,并不断重复公式4和公式5的操作,直到所有原文和译文单词匹配:
S′ij=(1-Mij)*Sij (5)
其中,Mij为词对匹配矩阵,1为匹配,0为不匹配。
作为本发明的优选技术方案,S400中还包括如下步骤:
S410处理对齐结果:
S411、替换
由于在经过词对齐处理后译文经过分词,原先的空格已经缺失,所以需要修补空格,同时需要将被替换的删除字符进行还原,方法如下:
轮询译文集合,针对译文集合中的元素文本进行再次进行轮询,同时在记录递增的下标值;如果当前处于轮询中的文本字符和记录的下标值对应原先译文的字符不一致时,则获取原先译文下标值对应字符填充至备用文本池中,同时下标值递增继续进行比较;如果一致则将轮询中的文本字符放入备用文本池中,并循环至下一个文本字符;如果识别到当前元素为替代字符,那么根据当前下标值去样式map中寻找改字符,并将改字符放入备用文本池中;
在当前元素文本中的所有字符轮询完毕后,将备用文本池中的内容去替换当前元素文本,循环至下一个元素文本;
S412、应用原文样式到译文
获取原文中特殊样式字符对齐的结果位置,将译文集合中与结果位置对应处的元素清空,并补充原文TAG样式后重新放入同一个元素内。
S420、还原样式
还原译文原先样式为Atom集合,再次遍历译文集合,现在集合中会存在两种类型的元素,一种是普通文本元素,另一种是已经替换过的Atom子集合;在还原创建时,依旧检查文本字符的下标值在样式map中是否存在对应的特殊样式,如果是添加或者删除样式,那么需要将Atom的reviseType设置成1(新增)或者-1(删除);如果是其他样式那么在创建好首尾样式Atom后将改文本Atom放置中间,最后将3个Atom放入集合,还原结果,对齐完毕。
本发明的有益效果是:
本发明通过自动填充样式方法,可以快速完成译文样式回填,在译文中还原原文格式,可显著提高翻译生产力。
附图说明
图1是运行流程示意图;
图2是还原样式后的结果图;
图3是分词示意图;
图4是词向量加载示意图;
图5是双向最优匹配和相似度更新示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
参见图1,本实施例的文档翻译中智能还原原文样式的方法,运行过程如下:1、解析文件并分句后得到句子。
句子原文:今天得天气真的不错,温度比较适宜。
句子译文:The weather is nice today,and the temperature is moresuitable.
原文中`温度`为下划线样式部分,译文中`really`为翻译过程中经常使用的修订删除部分,`nice`为辅助翻译中翻译人员自定义加粗部分。
处理译文,遍历译文每一个字符检查是否存在特殊样式和是否为修订痕迹,并将修订删除部分使用`0xE110`进行替换(替换的原因是为了在词对齐阶段不影响词对齐的结果),同时以字符下标值为key,字符值及样式为value存入map中。
如下表所示:
表1.样式缓存表
2、发送给对齐模块进行词对齐
将原文按照存在样式的部分进行分割,得到原文集合[‘今天得天气真的不错,’,‘温度’,‘比较适宜。’],同时将上述处理好的译文‘The weather is↑ ↑ ↑ ↑ ↑ ↑nicetoday,and the temperature is more suitable.’一起发送进行词对齐,词对齐的实现方法见本实施例的第4部分,得到结果如下:
表2.词对齐结果
3、处理对齐结果
STEP1:替换
由于在经过词对齐处理后target_sent_list译文经过分词,原先的空格已经缺失,所以需要修补空格,同时我们需要将被替换的删除字符进行还原。
轮询target_sent_list,针对集合中的元素文本进行再次进行轮询,同时在记录递增的下标值,如果当前处于轮询中的文本字符和记录的下标值对应原先译文的字符不一致时,则获取原先译文下标值对应字符填充至备用文本池中,同时下标值递增继续进行比较,如果一致则将轮询中的文本字符放入备用文本池中,并循环至下一个文本字符。
如果识别到当前元素为`0xE110`字符,那么根据当前下标值去样式map中寻找字符,并将改字符放入备用文本池中。
在当前元素文本中的所有字符轮询完毕后,将备用文本池中的内容去替换当前元素文本,循环至下一个元素文本,处理后的target_sent_list如下:
| Atom元素 | 编号 |
| The | 0 |
| weather | 1 |
| is | 2 |
| r | 3 |
| e | 4 |
| a | 5 |
| l | 6 |
| l | 7 |
| y | 8 |
| nice | 9 |
| today | 10 |
| , | 11 |
| and | 12 |
| the | 13 |
| temperature | 14 |
| Is | 15 |
| more | 16 |
| suitable | 17 |
| . | 18 |
表3.替换结果表
STEP2:应用原文样式到译文
获取原文`温度`词对齐的结果为[1-13,1-14],将译文集合target_sent_list中13个元素和14个元素清空,并补充原文TAG样式后重新放入第14个元素位置结果如下:
target_sent_list如下:
表4.应用原文样式结果表
STEP3:还原样式
还原译文原先样式为Atom集合,再次遍历target_sent_list,现在集合中会存在两种类型的元素,一种是普通文本元素(例如The,weather),另一种是已经替换过的Atom子集合(如第14元素),在还原创建时,依旧检查文本字符的下标值在样式map中是否存在对应的特殊样式,如果是添加或者删除样式,那么需要将Atom的reviseType设置成1(新增)或者-1(删除),如果是其他样式那么在创建好首尾样式Atom后将改文本Atom放置中间,最后将3个Atom放入集合,还原结果如下,对齐完毕,参见图2。
4、词对齐技术的实现思路
传统词对齐是基于双语对齐语料的模型,比如IBM模型,但是数据成本和训练成本较高,不同语言之间都需要训练对应的模型。
本项目词对齐是基于bert-base-multilingual-cased(mBERT)的预训练模型进行无监督匹配,该模型支持104种语言的预训练词向量。
STEP1:分词使用BPE算法对不同语言文本进行分词,比如原文:“我爱中国”和译文:“I love China”,分词后分别得到“我”,“爱”,“中”,“国”和“I”,“love”,“China“,参见图3。
STEP2:词向量加载
根据分词结果,加载mBERT预训练模型,使用multi-head和self-attention输出12层隐藏向量,选取最后一层隐藏向量作为词向量,参见图4。此处为mBERT的常规技术,mBERT与BERT的技术原理相同,训练数据不同,参考文献:Devlin,J.,Chang,M.W.,Lee,K.,&Toutanova,K..(2018).Bert:pre-training ofdeepbidirectional transformersforlanguage understanding。
STEP3:相似度计算
相似度包括语义相似度和位置相似度(公式1),语义相似度为原文词向量和译文词向量的余弦距离(公式2),位置相似度为原文的词位置和译文的词位置的相对距离(公式3):
Sij=SEMij*POSij (1)
其中,Sij表示原文第i个词向量和译文第j个词向量的相似度,SEMij表示原文第i个词向量和译文第j个词向量的语义相似度,POSij表示原文第i个词向量和译文第j个词向量的位置相似度,vi表示原文第i个词向量,vj表示译文第j个词向量,ls表示原文的词数,lt表示译文的词数;α为超参数,限制位置相似度的权重,经过实验α取值为0.5。
STEP4:词匹配
原文词向量和译文词向量使用双向最优匹配,即当原文第i个词向量的相似度最高是译文第j个词向量,同时译文第j个词向量的相似度最高是原文第i个词向量时,第i个原文词向量与第j个译文词向量匹配(公式4);
而双向最优匹配无法一次性将所有的原文单词和译文单词匹配,特别是对于原文中不同的词与同一个译文的词相似情况,而译文中的词与原文中的对应的多个词具有不用的相似程度,根据双向最优匹配原则,会选择相似度最高的词,因此其它词就不能匹配。为了匹配剩下的词向量,需要在每一次双向最优匹配后更新相似度矩阵Sij(公式5),将已匹配的词对(Mij=1)的相似度变为0(Sij^=0),然后进行下一次双向最优匹配,并不断重复公式4和公式5的操作,直到所有原文和译文单词匹配(参见图5):
S′ij=(1-Mij)*Sij (5)
其中,Mij为词对匹配矩阵,1为匹配,0为不匹配。
本发明未详述之处,均为本领域技术人员的公知技术。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (5)
1.一种文档翻译中智能还原原文样式的方法,其特征在于,包括如下步骤:
S100、解析文件获得原文,将原文翻译为译文;获取原文的特殊样式,以及译文中的修订痕迹、特殊样式,并在修订痕迹、特殊样式处使用替代字符进行替换,然后以修订痕迹、特殊样式处的字符下标值为key,字符值及样式为value存入map中;
S200、识别句子并按格式分块,将原文句子按照存在样式的部分进行分割,得到原文集合;
S300、将原文集合和译文集合发送到词对齐模块进行词对齐,使得原文的词和译文的词相对应;
S400、根据词对齐结果还原样式,获得具有和原文相同样式的译文;具体包括:
S410处理对齐结果:
S411、替换
轮询译文集合,针对译文集合中的元素文本进行再次进行轮询,同时在记录递增的下标值;如果当前处于轮询中的文本字符和记录的下标值对应原先译文的字符不一致时,则获取原先译文下标值对应字符填充至备用文本池中,同时下标值递增继续进行比较;如果一致则将轮询中的文本字符放入备用文本池中,并循环至下一个文本字符;如果识别到当前元素为替代字符,那么根据当前下标值去样式map中寻找改字符,并将改字符放入备用文本池中;
在当前元素文本中的所有字符轮询完毕后,将备用文本池中的内容去替换当前元素文本,循环至下一个元素文本;
S412、应用原文样式到译文
获取原文中特殊样式字符对齐的结果位置,将译文集合中与结果位置对应处的元素清空,并补充原文TAG样式后重新放入同一个元素内;
S420、还原样式
还原译文原先样式为Atom集合,再次遍历译文集合,现在集合中会存在两种类型的元素,一种是普通文本元素,另一种是已经替换过的Atom子集合;在还原创建时,依旧检查文本字符的下标值在样式map中是否存在对应的特殊样式,如果是添加或者删除样式,那么需要将Atom的reviseType设置成1或者-1;如果是其他样式那么在创建好首尾样式Atom后将改文本Atom放置中间,最后将3个Atom放入集合,还原结果,对齐完毕。
2.如权利要求1所述的方法,其特征在于,S100中翻译人员可对译文进行修订、增加特殊样式。
3.如权利要求1所述的方法,其特征在于,S300中词对齐的方法包括如下步骤:
S310、分词
使用BPE算法对不同语言文本进行分词,将原文和译文分别分割为相互对应的词;
S320、词向量加载
根据分词结果,加载mBERT预训练模型,使用multi-head和self-attention输出12层隐藏向量,选取最后一层隐藏向量作为词向量;
S330、相似度计算
相似度包括语义相似度和位置相似度,语义相似度为原文词向量和译文词向量的余弦距离,位置相似度为原文的词位置和译文的词位置的相对距离:
Sij=SEMij*POSij (1)
其中,Sij表示原文第i个词向量和译文第j个词向量的相似度,SEMij表示原文第i个词向量和译文第j个词向量的语义相似度,POSij表示原文第i个词向量和译文第j个词向量的位置相似度,vi表示原文第i个词向量,vj表示译文第j个词向量,ls表示原文的词数,lt表示译文的词数;α为超参数,限制位置相似度的权重;
S314、词匹配
原文词向量和译文词向量使用双向最优匹配,即当原文第i个词向量的相似度最高是译文第j个词向量,同时译文第j个词向量的相似度最高是原文第i个词向量时,第i个原文词向量与第j个译文词向量匹配:
其中,Mij为词对匹配矩阵,1为匹配,0为不匹配。
4.如权利要求3所述的方法,其特征在于,S314中还包括:在每一次双向最优匹配后更新相似度矩阵Sij,将已匹配的词对Mij=1的相似度变为0,然后进行下一次双向最优匹配,并不断重复公式4和公式5的操作,直到所有原文和译文单词匹配:
S'ij=(1-Mij)*Sij (5)
其中,Mij为词对匹配矩阵,1为匹配,0为不匹配。
5.如权利要求3所述的方法,其特征在于,α取值为0.5。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111129007.XA CN113705158B (zh) | 2021-09-26 | 2021-09-26 | 一种文档翻译中智能还原原文样式的方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111129007.XA CN113705158B (zh) | 2021-09-26 | 2021-09-26 | 一种文档翻译中智能还原原文样式的方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN113705158A CN113705158A (zh) | 2021-11-26 |
| CN113705158B true CN113705158B (zh) | 2024-05-24 |
Family
ID=78661903
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202111129007.XA Active CN113705158B (zh) | 2021-09-26 | 2021-09-26 | 一种文档翻译中智能还原原文样式的方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN113705158B (zh) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114118112A (zh) * | 2021-12-02 | 2022-03-01 | 江苏省舜禹信息技术有限公司 | 一种双语合并文档的合并方法 |
| CN114359929A (zh) * | 2021-12-03 | 2022-04-15 | 特赞(上海)信息科技有限公司 | Jpg格式的漫画文件的翻译方法、装置、终端及存储介质 |
| CN114282554B (zh) * | 2021-12-27 | 2025-01-28 | 成都优译信息技术股份有限公司 | 一种多语种语料对齐方法、装置、设备及介质 |
Citations (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1720525A (zh) * | 2002-11-06 | 2006-01-11 | 特兰斯洛神控股公开有限公司 | 电子发送消息的翻译 |
| CN104933041A (zh) * | 2015-06-25 | 2015-09-23 | 武汉传神信息技术有限公司 | 一种利于翻译工作的文件抽取和还原方法 |
| CN105653516A (zh) * | 2015-12-30 | 2016-06-08 | 武汉传神信息技术有限公司 | 平行语料对齐的方法和装置 |
| CN106126506A (zh) * | 2016-06-22 | 2016-11-16 | 上海者信息科技有限公司 | 一种在线语料对齐方法及系统 |
| CN109062910A (zh) * | 2018-07-26 | 2018-12-21 | 苏州大学 | 基于深度神经网络的句子对齐方法 |
| CN109697287A (zh) * | 2018-12-20 | 2019-04-30 | 龙马智芯(珠海横琴)科技有限公司 | 句子级双语对齐方法及系统 |
| CN110705319A (zh) * | 2019-09-26 | 2020-01-17 | 张广睿 | 一种翻译方法 |
| CN111191470A (zh) * | 2019-12-25 | 2020-05-22 | 语联网(武汉)信息技术有限公司 | 文档翻译方法及装置 |
| CN111242197A (zh) * | 2020-01-07 | 2020-06-05 | 中国石油大学(华东) | 基于双视域语义推理网络的图像文匹配方法 |
| CN111401000A (zh) * | 2020-04-03 | 2020-07-10 | 上海一者信息科技有限公司 | 一种在线辅助翻译的译文实时预览方法 |
| CN111444700A (zh) * | 2020-04-02 | 2020-07-24 | 山东山大鸥玛软件股份有限公司 | 一种基于语义文档表达的文本相似度量方法 |
| CN112541365A (zh) * | 2020-12-21 | 2021-03-23 | 语联网(武汉)信息技术有限公司 | 基于术语替换的机器翻译方法及装置 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| AU2001261505A1 (en) * | 2000-05-11 | 2001-11-20 | University Of Southern California | Machine translation techniques |
| CN106484682B (zh) * | 2015-08-25 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
-
2021
- 2021-09-26 CN CN202111129007.XA patent/CN113705158B/zh active Active
Patent Citations (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1720525A (zh) * | 2002-11-06 | 2006-01-11 | 特兰斯洛神控股公开有限公司 | 电子发送消息的翻译 |
| CN104933041A (zh) * | 2015-06-25 | 2015-09-23 | 武汉传神信息技术有限公司 | 一种利于翻译工作的文件抽取和还原方法 |
| CN105653516A (zh) * | 2015-12-30 | 2016-06-08 | 武汉传神信息技术有限公司 | 平行语料对齐的方法和装置 |
| CN106126506A (zh) * | 2016-06-22 | 2016-11-16 | 上海者信息科技有限公司 | 一种在线语料对齐方法及系统 |
| CN109062910A (zh) * | 2018-07-26 | 2018-12-21 | 苏州大学 | 基于深度神经网络的句子对齐方法 |
| CN109697287A (zh) * | 2018-12-20 | 2019-04-30 | 龙马智芯(珠海横琴)科技有限公司 | 句子级双语对齐方法及系统 |
| CN110705319A (zh) * | 2019-09-26 | 2020-01-17 | 张广睿 | 一种翻译方法 |
| CN111191470A (zh) * | 2019-12-25 | 2020-05-22 | 语联网(武汉)信息技术有限公司 | 文档翻译方法及装置 |
| CN111242197A (zh) * | 2020-01-07 | 2020-06-05 | 中国石油大学(华东) | 基于双视域语义推理网络的图像文匹配方法 |
| CN111444700A (zh) * | 2020-04-02 | 2020-07-24 | 山东山大鸥玛软件股份有限公司 | 一种基于语义文档表达的文本相似度量方法 |
| CN111401000A (zh) * | 2020-04-03 | 2020-07-10 | 上海一者信息科技有限公司 | 一种在线辅助翻译的译文实时预览方法 |
| CN112541365A (zh) * | 2020-12-21 | 2021-03-23 | 语联网(武汉)信息技术有限公司 | 基于术语替换的机器翻译方法及装置 |
Non-Patent Citations (6)
| Title |
|---|
| Influence of Token Similarity Measures for Semantic Textual Similarity;V.Sowmya;IEEE;20160818;第41页-44页 * |
| 基于WebTM的辅助翻译工具校对子系统设计与实现;刘练;中国优秀硕士学位论文全文数据库信息科技辑;20190115(第1期);第I139-303页 * |
| 基于多特征融合和图匹配的维汉句子对齐;倪耀群;许洪波;程学旗;;中文信息学报;20160715;第30卷(第04期);第124页-133页 * |
| 汉译英机器翻译错误类型统计分析;蔡欣洁等;浙江理工大学学报;20201105;第42卷(第2期);第162页-169页 * |
| 融入双语词向量的韩汉名词短语对齐方法研究;刘晨阳等;智能计算机与应用;20210901;第11卷(第9期);第42页-47页 * |
| 跨语言相似文档检索;王洪俊;施水才;俞士汶;肖诗斌;;中文信息学报;20070125;第21卷(第01期);第30页-37页 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN113705158A (zh) | 2021-11-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN113705158B (zh) | 一种文档翻译中智能还原原文样式的方法 | |
| US20250094700A1 (en) | Small sample fine-turning method and system and related apparatus | |
| CN110276069B (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
| CN110297913A (zh) | 一种电子公文实体抽取方法 | |
| CN113779978B (zh) | 一种无监督跨语言句对齐实现方法 | |
| CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
| CN106021227A (zh) | 一种基于状态转移与神经网络的汉语组块分析方法 | |
| CN108959556A (zh) | 基于神经网络的实体问答方法、装置和终端 | |
| CN114818668A (zh) | 一种语音转写文本的人名纠错方法、装置和计算机设备 | |
| Serrano et al. | Interactive handwriting recognition with limited user effort | |
| Du et al. | Named entity recognition method with word position | |
| Almuhareb et al. | Arabic word segmentation with long short-term memory neural networks and word embedding | |
| CN110489727A (zh) | 人名识别方法及相关装置 | |
| CN117150305B (zh) | 融合检索和填空的文本数据增强方法、装置及电子设备 | |
| CN114357975A (zh) | 一种多语言的术语识别和双语术语对齐方法 | |
| CN117291187A (zh) | 基于注意力增强的文本处理方法、装置、设备和介质 | |
| CN114676684B (zh) | 一种文本纠错方法、装置、计算机设备及存储介质 | |
| CN114239584B (zh) | 一种基于自监督学习的命名实体识别方法 | |
| CN113609861A (zh) | 基于食品文献数据的多维度特征命名实体识别方法及系统 | |
| CN119886116A (zh) | 基于拼写检查的中文文本纠正方法、装置以及计算机设备 | |
| CN115860015A (zh) | 一种基于翻译记忆的转写文本翻译方法和计算机设备 | |
| CN119067116A (zh) | 一种基于条件随机场和深度学习的命名实体识别方法 | |
| Linn et al. | Statistical machine translation between Myanmar (Burmese) and Kayah | |
| CN114996394A (zh) | 知识图谱中知识点的抽取方法、系统、电子设备 | |
| CN113807081A (zh) | 基于上下文的聊天文本内容纠错方法及装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |