TW201717070A

TW201717070A - 基於統計的機器翻譯方法、裝置及電子設備

Info

Publication number: TW201717070A
Application number: TW105106900A
Authority: TW
Inventors: xiao-dong Zeng; wei-hua Luo; Feng Lin
Original assignee: Alibaba Group Services Ltd
Priority date: 2015-08-25
Filing date: 2016-03-07
Publication date: 2017-05-16
Also published as: US20170060854A1; CN106484682B; US10810379B2; WO2017033063A2; US10268685B2; WO2017033063A3; US20190197118A1; CN106484682A

Abstract

本發明公開了一種基於統計的機器翻譯方法、裝置及電子設備，一種計算語義相似度的方法、裝置和電子設備，以及一種詞量化方法、裝置和電子設備。其中所述基於統計的機器翻譯方法，透過根據各個候選譯文的對翻譯機率產生影響的特徵，以及預先生成的翻譯機率預測模型，生成待翻譯句子到各個候選譯文的翻譯機率，其中所述對翻譯機率產生影響的特徵至少包括所述待翻譯句子和所述候選譯文的語義相似度，並選取預設數量的翻譯機率排在高位的候選譯文，作為待翻譯句子的譯文。採用本申請案提供的基於統計的機器翻譯方法，能夠在建構機器翻譯模型時深入到自然語言的語義層面，避免譯文與原文的語義有偏差，從而達到提高翻譯品質的效果。

Description

基於統計的機器翻譯方法、裝置及電子設備

本申請案涉及機器翻譯技術領域，具體涉及一種基於統計的機器翻譯方法、裝置及電子設備。本申請案同時涉及一種計算語義相似度的方法、裝置和電子設備，以及一種詞量化方法、裝置和電子設備。

機器翻譯是指，利用電子電腦實現自動從一種自然語言文本(來源語言)到另一種自然語言文本(目的語言)的翻譯，用以完成這一過程的軟體稱為機器翻譯系統。隨著電子電腦和網際網路的發展和普及，各民族之間的文化交流越來越頻繁，語言障礙的問題在新的時代再次凸顯出來，人們比以往任何時候更加迫切需要機器翻譯。

機器翻譯方法可劃分為基於規則(Rule-Based)和基於語料庫(Corpus-Based)兩大類。前者由詞典和規則庫構成知識源；後者由經過劃分並具有標注的語料庫構成知識源，既不需要詞典也不需要規則，以統計規律為主。基於語料庫的方法可以分為基於統計(Statistics-based)的方法和基於實例(Example-based)的方法。下面分別對上述機器翻譯方法進行簡要說明。

1)基於規則的機器翻譯方法

該方法一般需要借助於詞典、範本和人工整理的規則進行。需要對要被翻譯的來源語言的原文進行分析，並對原文的意義進行表示，然後再生成等價的目的語言的譯文。一個好的基於規則的機器翻譯設備，需要有足夠多、覆蓋面足夠廣的翻譯規則，並且有效地解決規則之間的衝突問題。由於規則通常需要人工整理，因此，人工成本高、很難得到數量非常多、覆蓋非常全面的翻譯規則，並且不同人給出的翻譯規則衝突的機率較大。

2)基於實例的機器翻譯方法

該方法以實例為基礎，主要利用預處理過的雙語語料和翻譯詞典進行翻譯。在翻譯的過程中，首先在翻譯實例庫搜索與原文片段相匹配的片段，再確定相應的譯文片段，重新組合譯文片段以得到最終的譯文。可見，翻譯實例的覆蓋範圍和儲存方式直接影響著這種翻譯技術的翻譯品質和速度。

3)基於統計的機器翻譯方法

該方法的基本思想是透過對大量的平行語料進行統計分析，建構統計翻譯模型，進而使用此模型進行翻譯。從早期基於詞的機器翻譯已經過渡到基於短語的翻譯，並正在融合句法資訊，以進一步提高翻譯的精確性。

該方法是基於雙語語料庫的，其將雙語語料庫中的翻譯知識透過機器學習的方法表示為統計模型並抽取翻譯規則，按照翻譯規則將需要翻譯的原文翻譯為目的語言的譯文。由於基於統計的機器翻譯方法需要的人工處理少、不依賴於具體的實例、不受領域限制、處理速度快，所以相對於其他兩種機器翻譯技術具有明顯的優勢，是目前非限定領域機器翻譯中性能較佳的一種方法。

綜上所述，相對於前兩種方法而言，基於統計的機器翻譯方法是目前最為常用的機器翻譯方法。自上世紀90年代以來，基於統計的機器翻譯方法取得了飛速發展，並逐漸成為了機器翻譯研究領域的核心內容。在此期間，學者們提出了多種基於統計的機器翻譯方法，包括基於詞的、基於短語的、基於層次短語的、基於句法的和基於語義的統計機器翻譯方法。

現有的基於語義的統計機器翻譯方法，是一種完全基於語義的統計機器翻譯方法。該方法的缺點非常突出，首先，此類翻譯方法所使用語義表達形式過於複雜，且通用性不夠(即相同語義對應不同語言的表達形式有較大差別)，同時搭建特定語言的語義分析器的難度極大，所以很難將語言表達結構作為一種“中間語”來作用於翻譯方法。其次，完全基於語義的統計機器翻譯系統所訓練出來的語義翻譯規則一般都過於臃腫，故此類翻譯方法現階段只停留在理論實驗階段，沒法在工業界中批量使用。

而現有的其他基於統計的機器翻譯方法，在建構機器翻譯模型時，並沒有深入到自然語言的語義層面，因而導致產生的譯文語義與原文語義有偏差，達不到語義一致的翻譯效果，從而嚴重地降低了機器翻譯品質。例如，來源語言英文“the apple product”裡的“apple”一詞表達的語義是“蘋果公司”，若將其翻譯成食品的“蘋果”，則造成語義的偏差，從而嚴重降低用戶的使用體驗。

綜上所述，由於完全基於語義的統計機器翻譯方法需要借助複雜的語義表達結構，因而該方法的實用性較差。而其他基於統計的機器翻譯方法，沒有考慮語義成分資訊，因而在處理句法語義差別較大的語言對時會凸顯翻譯語義不一致問題，導致雖然翻譯結果“詞詞都對”卻無法被人閱讀的問題。

通常，在基於統計的機器翻譯方法中，可以透過獲取高品質、大規模的雙語平行語料庫的方法，改善上述譯文語義與原文語義有偏差的問題。然而，對於很多語言來說，要獲取高品質、大規模的雙語平行語料庫較為困難。可見，透過獲取高品質、大規模的雙語平行語料庫的方法，改善基於統計的機器翻譯方法存在的譯文與原文語義有偏差的問題，並不是一個行之有效的方法。

綜上所述，採用現有的基於統計的機器翻譯方法進行翻譯時，存在原文與譯文語義不一致的問題。

本申請案提供一種基於統計的機器翻譯方法、裝置及電子設備，以解決現有技術存在原文與譯文語義不一致的問題。本申請案另外提供一種計算語義相似度的方法、裝置和電子設備，以及一種詞量化方法、裝置和電子設備。

本申請案提供一種基於統計的機器翻譯方法，包括：根據預先生成的翻譯規則，對待翻譯句子進行解碼，生成所述待翻譯句子的候選譯文；根據各個候選譯文的對翻譯機率產生影響的特徵，以及預先生成的翻譯機率預測模型，生成所述待翻譯句子到各個候選譯文的翻譯機率；所述對翻譯機率產生影響的特徵至少包括所述待翻譯句子和所述候選譯文的語義相似度；選取預設數量的所述翻譯機率排在高位的候選譯文，作為所述待翻譯句子的譯文。

可選的，所述待翻譯句子和候選譯文的語義相似度，採用如下步驟計算：獲取所述待翻譯句子的句子向量，以及所述候選譯文的句子向量；計算所述待翻譯句子的句子向量和所述候選譯文的句子向量之間的距離，作為所述待翻譯句子和候選譯文的語義相似度；其中，所述待翻譯句子的句子向量和所述候選譯文的句子向量包括句子的語義資訊。

可選的，所述待翻譯句子的句子向量和所述候選譯文的句子向量，採用如下步驟生成：根據預先生成的詞與詞向量的對應關係、與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，建構與所述待翻譯句子和候選譯文包括的N元短語分別對應的神經網路語言模型樣本；以最大化所述與待翻譯句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述與候選譯文包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述待翻譯句子的句子向量和所述候選譯文的句子向量之間的距離作為訓練目標，學習獲取所述待翻譯句子的句子向量和所述候選譯文的句子向量；其中，所述來源語言是指所述待翻譯句子所屬的語言；所述目的語言是指所述候選譯文所屬的語言；所述神經網路語言模型的輸入層包括與所述N元短語所在的句子對應的句子向量。

可選的，所述根據預先生成的詞與詞向量的對應關係、與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，建構與所述待翻譯句子和候選譯文包括的N元短語分別對應的神經網路語言模型樣本，包括：解析所述待翻譯句子和所述候選譯文，獲取所述待翻譯句子和所述候選譯文包括的詞；根據所述詞與詞向量的對應關係，獲取所述待翻譯句子和所述候選譯文包括的詞對應的詞向量；隨機設置所述待翻譯句子的句子向量和所述候選譯文的句子向量；針對所述待翻譯句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述待翻譯句子的句子向量，以及所述與來源語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本；針對所述候選譯文包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述候選譯文的句子向量，以及所述與目的語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

可選的，所述以最大化所述與待翻譯句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述與候選譯文包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述待翻譯句子的句子向量和所述候選譯文的句子向量之間的距離作為訓練目標，學習獲取所述待翻譯句子的句子向量和所述候選譯文的句子向量，包括：根據已建構的各個神經網路語言模型樣本，計算第一目標函數的值；判斷所述第一目標函數的值是否大於上一次所述第一目標函數的值；若是，則採用最優化演算法，更新所述待翻譯句子的句子向量和所述候選譯文的句子向量，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第一目標函數的值的步驟；其中，所述第一目標函數，是指第一平均值與第二平均值之和，與所述待翻譯句子的句子向量和所述候選譯文的句子向量之間的距離的差值；所述第一平均值，是指所述與待翻譯句子包括的各個N元短語對應的神經網路語言模型樣本的似然機率的平均值；所述第二平均值，是指所述與候選譯文包括的各個N元短語對應的神經網路語言模型樣本的似然機率的平均值。

可選的，所述最優化演算法採用隨機梯度演算法；所述採用最優化演算法，更新所述待翻譯句子的句子向量和所述候選譯文的句子向量，包括：根據預設的學習速率和所述第一目標函數，計算所述待翻譯句子的句子向量和所述候選譯文的句子向量的梯度；根據所述待翻譯句子的句子向量和所述候選譯文的句子向量的梯度，更新所述待翻譯句子的句子向量和所述候選譯文的句子向量。

可選的，所述向量之間的距離包括餘弦夾角距離或歐式距離。

可選的，所述神經網路語言模型包括前向神經網路演算語言模型或循環神經網路語言模型。

可選的，所述神經網路語言模型的輸入層到隱藏層的各個連接權重均相同；所述神經網路語言模型的輸入層到輸出層的各個連接權重為0。

可選的，所述神經網路語言模型的隱藏層的激勵函數為線性函數。

可選的，所述神經網路語言模型的隱藏層的向量值為輸入層的各個向量值的加和平均值或組合拼接。

可選的，所述詞與詞向量的對應關係、所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，採用如下步驟生成：獲取平行語料庫；解析所述平行語料庫包括的各個句子，獲取所述平行語料庫包括的所有詞；為所述平行語料庫包括的各個詞設置第一預設維度的詞向量，形成所述詞和詞向量的對應關係；以及為所述各個句子隨機設置第二預設維度的句子向量；針對所述平行語料庫中的各對平行語料，根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本；以最大化所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，學習獲取所述詞與詞向量的對應關係、所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。

可選的，所述根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本，包括：解析所述來源語言句子和所述目的語言句子，獲取所述來源語言句子和所述目的語言句子包括的詞；根據所述詞與詞向量的對應關係，獲取所述來源語言句子和所述目的語言句子包括的詞對應的詞向量；針對所述來源語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述來源語言句子的句子向量，以及所述與來源語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本；針對所述目的語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述目的語言句子的句子向量，以及所述與目的語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

可選的，所述以最大化所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，學習獲取所述詞與詞向量的對應關係、所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，包括：根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值；判斷所述第二目標函數的值是否大於上一次所述第二目標函數的值；若是，則採用最優化演算法，更新所述詞向量、所述來源語言句子的句子向量和所述目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值的步驟；其中，所述第二目標函數，是指第三平均值與第四平均值之和，與所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和的差值；所述第三平均值，是指所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值；所述第四平均值，是指所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值。

可選的，所述最優化演算法採用隨機梯度演算法；所述採用最優化演算法，更新所述詞向量、所述來源語言句子的句子向量和所述目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，包括：根據預設的學習速率和所述第二目標函數，計算所述詞向量、所述來源語言句子的句子向量和所述目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型的連接權重的梯度；根據所述詞向量、所述來源語言句子的句子向量和所述目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型的連接權重的梯度，更新所述詞向量、所述來源語言句子的句子向量和所述目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。

可選的，所述對翻譯機率產生影響的特徵還包括：所述待翻譯句子到所述候選譯文的短語翻譯機率、所述候選譯文到所述待翻譯句子的短語翻譯機率、所述待翻譯句子到所述候選譯文的詞翻譯機率、所述候選譯文到所述待翻譯句子的詞翻譯機率、所述候選譯文的句子機率和所述待翻譯句子與所述候選譯文調序與不調序的分類機率的至少一者。

可選的，所述根據預先生成的翻譯規則，對待翻譯句子進行解碼，生成所述待翻譯句子的候選譯文，採用如下方式演算法實現：CYK解碼演算法、基於堆疊的解碼演算法或移進-歸約解碼演算法。

可選的，所述根據預先生成的翻譯規則，對待翻譯句子進行解碼，生成所述待翻譯句子的候選譯文，包括：解析所述待翻譯句子，生成所述待翻譯句子的各個子字串；根據所述預先生成的翻譯規則，獲取各個所述子字串的候選譯文；根據所述子字串在所述待翻譯句子中的位置，將相鄰子字串的候選譯文進行組合拼接，形成所述待翻譯句子的候選譯文。

可選的，所述根據所述預先生成的翻譯規則，獲取各個所述子字串的候選譯文，包括：針對各個所述翻譯規則，判斷所述子字串是否屬於所述翻譯規則；若上述判斷結果為是，則根據所述翻譯規則，生成所述子字串的候選譯文。

可選的，透過線性回歸演算法，從預先儲存的平行預料中學習出所述翻譯機率預測模型。

相應的，本申請案還提供一種基於統計的機器翻譯裝置，包括：生成候選譯文單元，用於根據預先生成的翻譯規則，對待翻譯句子進行解碼，生成所述待翻譯句子的候選譯文；計算翻譯機率單元，用於根據各個候選譯文的對翻譯機率產生影響的特徵，以及預先生成的翻譯機率預測模型，生成所述待翻譯句子到各個候選譯文的翻譯機率；所述對翻譯機率產生影響的特徵至少包括所述待翻譯句子和所述候選譯文的語義相似度；選取單元，用於選取預設數量的所述翻譯機率排在高位的候選譯文，作為所述待翻譯句子的譯文。

可選的，還包括：計算語義相似度單元，用於計算所述待翻譯句子和候選譯文的語義相似度。

可選的，所述計算語義相似度單元包括：獲取子單元，用於獲取所述待翻譯句子的句子向量，以及所述候選譯文的句子向量；計算子單元，用於計算所述待翻譯句子的句子向量和所述候選譯文的句子向量之間的距離，作為所述待翻譯句子和候選譯文的語義相似度；其中，所述待翻譯句子的句子向量和所述候選譯文的句子向量包括句子的語義資訊。

可選的，還包括：生成句子向量單元，用於生成所述待翻譯句子的句子向量，以及所述候選譯文的句子向量。

可選的，所述生成句子向量單元包括：建構樣本子單元，用於根據預先生成的詞與詞向量的對應關係、與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，建構與所述待翻譯句子和候選譯文包括的N元短語分別對應的神經網路語言模型樣本；學習子單元，用於以最大化所述與待翻譯句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述與候選譯文包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述待翻譯句子的句子向量和所述候選譯文的句子向量之間的距離作為訓練目標，學習獲取所述待翻譯句子的句子向量和所述候選譯文的句子向量；其中，所述來源語言是指所述待翻譯句子所屬的語言；所述目的語言是指所述候選譯文所屬的語言；所述神經網路語言模型的輸入層包括與所述N元短語所在的句子對應的句子向量。

可選的，所述建構樣本子單元包括：解析子單元，用於解析所述待翻譯句子和所述候選譯文，獲取所述待翻譯句子和所述候選譯文包括的詞；映射子單元，用於根據所述詞與詞向量的對應關係，獲取所述待翻譯句子和所述候選譯文包括的詞對應的詞向量；設置子單元，用於隨機設置所述待翻譯句子的句子向量和所述候選譯文的句子向量；第一建構子單元，用於針對所述待翻譯句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述待翻譯句子的句子向量，以及所述與來源語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本；第二建構子單元，用於針對所述候選譯文包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述候選譯文的句子向量，以及所述與目的語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

可選的，所述學習子單元包括：計算子單元，用於根據已建構的各個神經網路語言模型樣本，計算第一目標函數的值；判斷子單元，用於判斷所述第一目標函數的值是否大於上一次所述第一目標函數的值；若是，則採用最優化演算法，更新所述待翻譯句子的句子向量和所述候選譯文的句子向量，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第一目標函數的值的步驟；其中，所述第一目標函數，是指第一平均值與第二平均值之和，與所述待翻譯句子的句子向量和所述候選譯文的句子向量之間的距離的差值；所述第一平均值，是指所述與待翻譯句子包括的各個N元短語對應的神經網路語言模型樣本的似然機率的平均值；所述第二平均值，是指所述與候選譯文包括的各個N元短語對應的神經網路語言模型樣本的似然機率的平均值。

可選的，還包括：訓練單元，用於生成所述詞與詞向量的對應關係、所述與來源語言對應的神經網路語言模型相與目的語言對應的神經網路語言模型。

可選的，所述訓練單元包括：獲取子單元，用於獲取平行語料庫；解析子單元，用於解析所述平行語料庫包括的各個句子，獲取所述平行語料庫包括的所有詞；設置子單元，用於為所述平行語料庫包括的各個詞設置第一預設維度的詞向量，形成所述詞和詞向量的對應關係；以及為所述各個句子隨機設置第二預設維度的句子向量；建構子單元，用於針對所述平行語料庫中的各對平行語料，根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本；學習子單元，用於以最大化所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，學習獲取所述詞與詞向量的對應關係、所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。

可選的，所述建構子單元包括：解析子單元，用於解析所述來源語言句子和所述目的語言句子，獲取所述來源語言句子和所述目的語言句子包括的詞；映射子單元，用於根據所述詞與詞向量的對應關係，獲取所述來源語言句子和所述目的語言句子包括的詞對應的詞向量；第一建構子單元，用於針對所述來源語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述來源語言句子的句子向量，以及所述與來源語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本；第二建構子單元，用於針對所述目的語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述目的語言句子的句子向量，以及所述與目的語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

可選的，所述學習子單元包括：計算子單元，用於根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值；判斷子單元，用於判斷所述第二目標函數的值是否大於上一次所述第二目標函數的值；若是，則採用最優化演算法，更新所述詞向量、所述來源語言句子的句子向量和所述目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值的步驟；其中，所述第二目標函數，是指第三平均值與第四平均值之和，與所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和的差值；所述第三平均值，是指所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值；所述第四平均值，是指所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值。

可選的，所述生成候選譯文單元包括：解析子單元，用於解析所述待翻譯句子，生成所述待翻譯句子的各個子字串；獲取子單元，用於根據所述預先生成的翻譯規則，獲取各個所述子字串的候選譯文；拼接子單元，用於根據所述子字串在所述待翻譯句子中的位置，將相鄰子字串的候選譯文進行組合拼接，形成所述待翻譯句子的候選譯文。

可選的，所述獲取子單元包括：判斷子單元，用於針對各個所述翻譯規則，判斷所述子字串是否屬於所述翻譯規則；生成子單元，用於若上述判斷結果為是，則根據所述翻譯規則，生成所述子字串的候選譯文。

相應的，本申請案還提供一種電子設備，包括：顯示器；處理器；以及記憶體，所述記憶體用於儲存基於統計的機器翻譯裝置，所述基於統計的機器翻譯裝置被所述處理器執行時，包括如下步驟：根據預先生成的翻譯規則，對待翻譯句子進行解碼，生成所述待翻譯句子的候選譯文；根據各個候選譯文的對翻譯機率產生影響的特徵，以及預先生成的翻譯機率預測模型，生成所述待翻譯句子到各個候選譯文的翻譯機率；所述對翻譯機率產生影響的特徵至少包括所述待翻譯句子和所述候選譯文的語義相似度；選取預設數量的所述翻譯機率排在高位的候選譯文，作為所述待翻譯句子的譯文。

此外，本申請案還提供一種語義相似度的計算方法，包括：獲取待計算的來源語言句子的句子向量，以及待計算的目的語言句子的句子向量；計算所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量之間的距離，作為所述待計算的來源語言句子和待計算的目的語言句子的語義相似度；其中，所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量包括句子的語義資訊。

可選的，所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量，採用如下步驟生成：根據預先生成的詞與詞向量的對應關係、與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，建構與所述待計算的來源語言句子和待計算的目的語言句子包括的N元短語分別對應的神經網路語言模型樣本；以最大化所述與待計算的來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述與待計算的目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量之間的距離作為訓練目標，學習獲取所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量；其中，所述神經網路語言模型的輸入層包括與所述N元短語所在的句子對應的句子向量。

可選的，所述根據預先生成的詞與詞向量的對應關係、與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，建構與所述待計算的來源語言句子和待計算的目的語言句子包括的N元短語分別對應的神經網路語言模型樣本，包括：解析所述待計算的來源語言句子和所述待計算的目的語言句子，獲取所述待計算的來源語言句子和所述待計算的目的語言句子包括的詞；根據所述詞與詞向量的對應關係，獲取所述待計算的來源語言句子和所述待計算的目的語言句子包括的詞對應的詞向量；隨機設置所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量；針對所述待計算的來源語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述待計算的來源語言句子的句子向量，以及所述與來源語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本；針對所述待計算的目的語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述待計算的目的語言句子的句子向量，以及所述與目的語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

可選的，所述以最大化所述與待計算的來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述與待計算的目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量之間的距離作為訓練目標，學習獲取所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量，包括：根據已建構的各個神經網路語言模型樣本，計算第一目標函數的值；判斷所述第一目標函數的值是否大於上一次所述第一目標函數的值；若是，則採用最優化演算法，更新所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第一目標函數的值的步驟；其中，所述第一目標函數，是指第一平均值與第二平均值之和，與所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量之間的距離的差值；所述第一平均值，是指所述與待計算的來源語言句子包括的各個N元短語對應的神經網路語言模型樣本的似然機率的平均值；所述第二平均值，是指所述與待計算的目的語言句子包括的各個N元短語對應的神經網路語言模型樣本的似然機率的平均值。

可選的，所述最優化演算法採用隨機梯度演算法；所述採用最優化演算法，更新所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量，包括：根據預設的學習速率和所述第一目標函數，計算所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量的梯度；根據所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量的梯度，更新所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量。

可選的，所述詞與詞向量的對應關係、所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，採用如下步驟生成：獲取平行語料庫；解析所述平行語料庫包括的各個句子，獲取所述平行語料庫包括的所有詞；為所述平行語料庫包括的各個詞設置第一預設維度的詞向量，形成所述詞和詞向量的對應關係；以及為所述各個句子隨機設置第二預設維度的句子向量；針對所述平行語料庫中的各對平行語料，根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與所述平行語料中來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本；以最大化所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，學習獲取所述詞與詞向量的對應關係、所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。

可選的，所述根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與所述平行語料中來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本，包括：解析所述平行語料中來源語言句子和目的語言句子，獲取所述平行語料中來源語言句子和目的語言句子包括的詞；根據所述詞與詞向量的對應關係，獲取所述平行語料中來源語言句子和目的語言句子包括的詞對應的詞向量；針對所述平行語料中來源語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述平行語料中來源語言句子的句子向量，以及所述與來源語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本；針對所述平行語料中目的語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述平行語料中目的語言句子的句子向量，以及所述與目的語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

可選的，所述以最大化所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，學習獲取所述詞與詞向量的對應關係、所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，包括：根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值；判斷所述第二目標函數的值是否大於上一次所述第二目標函數的值；若是，則採用最優化演算法，更新所述詞向量、所述平行語料中來源語言句子的句子向量和目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值的步驟；其中，所述第二目標函數，是指第三平均值與第四平均值之和，與所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和的差值；所述第三平均值，是指所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值；所述第四平均值，是指所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值。

可選的，所述最優化演算法採用隨機梯度演算法；所述採用最優化演算法，更新所述詞向量、所述平行語料中來源語言句子的句子向量和目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，包括：根據預設的學習速率和所述第二目標函數，計算所述詞向量、所述平行語料中來源語言句子的句子向量和目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型的連接權重的梯度；根據所述詞向量、所述平行語料中來源語言句子的句子向量和目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型的連接權重的梯度，更新所述詞向量、所述平行語料中來源語言句子的句子向量和目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。

相應的，本申請案還提供一種語義相似度的計算裝置，包括：獲取單元，用於獲取待計算的來源語言句子的句子向量，以及待計算的目的語言句子的句子向量；計算子單元，用於計算所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量之間的距離，作為所述待計算的來源語言句子和待計算的目的語言句子的語義相似度；其中，所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量包括句子的語義資訊。

可選的，還包括：生成句子向量單元，用於生成所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量。

可選的，所述生成句子向量單元包括：建構樣本子單元，用於根據預先生成的詞與詞向量的對應關係、與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，建構與所述待計算的來源語言句子和待計算的目的語言句子包括的N元短語分別對應的神經網路語言模型樣本；學習子單元，用於以最大化所述與待計算的來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述與待計算的目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量之間的距離作為訓練目標，學習獲取所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量；其中，所述神經網路語言模型的輸入層包括與所述N元短語所在的句子對應的句子向量。

可選的，所述建構樣本子單元包括：解析子單元，用於解析所述待計算的來源語言句子和所述待計算的目的語言句子，獲取所述待計算的來源語言句子和所述待計算的目的語言句子包括的詞；映射子單元，用於根據所述詞與詞向量的對應關係，獲取所述待計算的來源語言句子和所述待計算的目的語言句子包括的詞對應的詞向量；設置子單元，用於隨機設置所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量；第一建構子單元，用於針對所述待計算的來源語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述待計算的來源語言句子的句子向量，以及所述與來源語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本；第二建構子單元，用於針對所述待計算的目的語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述待計算的目的語言句子的句子向量，以及所述與目的語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

可選的，所述學習子單元包括：計算子單元，用於根據已建構的各個神經網路語言模型樣本，計算第一目標函數的值；判斷子單元，用於判斷所述第一目標函數的值是否大於上一次所述第一目標函數的值；若是，則採用最優化演算法，更新所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第一目標函數的值的步驟；其中，所述第一目標函數，是指第一平均值與第二平均值之和，與所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量之間的距離的差值；所述第一平均值，是指所述與待計算的來源語言句子包括的各個N元短語對應的神經網路語言模型樣本的似然機率的平均值；所述第二平均值，是指所述與待計算的目的語言句子包括的各個N元短語對應的神經網路語言模型樣本的似然機率的平均值。

可選的，還包括：訓練單元，用於生成所述詞與詞向量的對應關係、所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。

可選的，所述訓練單元包括：獲取子單元，用於獲取平行語料庫；解析子單元，用於解析所述平行語料庫包括的各個句子，獲取所述平行語料庫包括的所有詞；設置子單元，用於為所述平行語料庫包括的各個詞設置第一預設維度的詞向量，形成所述詞和詞向量的對應關係；以及為所述各個句子隨機設置第二預設維度的句子向量；建構子單元，用於針對所述平行語料庫中的各對平行語料，根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與所述平行語料中來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本；學習子單元，用於以最大化所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，學習獲取所述詞與詞向量的對應關係、所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。

可選的，所述建構子單元包括：解析子單元，用於解析所述平行語料中來源語言句子和目的語言句子，獲取所述平行語料中來源語言句子和目的語言句子包括的詞；映射子單元，用於根據所述詞與詞向量的對應關係，獲取所述平行語料中來源語言句子和目的語言句子包括的詞對應的詞向量；第一建構子單元，用於針對所述平行語料中來源語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述平行語料中來源語言句子的句子向量，以及所述與來源語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本；第二建構子單元，用於針對所述平行語料中目的語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述平行語料中目的語言句子的句子向量，以及所述與目的語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

可選的，所述學習子單元包括：計算子單元，用於根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值；判斷子單元，用於判斷所述第二目標函數的值是否大於上一次所述第二目標函數的值；若是，則採用最優化演算法，更新所述詞向量、所述平行語料中來源語言句子的句子向量和目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值的步驟；其中，所述第二目標函數，是指第三平均值與第四平均值之和，與所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和的差值；所述第三平均值，是指所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值；所述第四平均值，是指所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值。

相應的，本申請案還提供一種電子設備，包括：顯示器；處理器；以及記憶體，所述記憶體用於儲存語義相似度的計算裝置，所述語義相似度的計算裝置被所述處理器執行時，包括如下步驟：獲取待計算的來源語言句子的句子向量，以及待計算的目的語言句子的句子向量；計算所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量之間的距離，作為所述待計算的來源語言句子和待計算的目的語言句子的語義相似度；其中，所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量包括句子的語義資訊。

此外，本申請案還提供一種詞量化方法，包括：獲取平行語料庫；解析所述平行語料庫包括的各個句子，獲取所述平行語料庫包括的所有詞；為所述平行語料庫包括的各個詞設置第一預設維度的詞向量，形成詞和詞向量的對應關係；以及為所述各個句子隨機設置第二預設維度的句子向量；針對所述平行語料庫中的各對平行語料，根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與所述平行語料中來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本；以最大化所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，訓練所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，獲取所述詞與詞向量的對應關係；其中，所述神經網路語言模型的輸入層包括與所述N元短語所在的句子對應的句子向量。

可選的，所述以最大化所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，訓練所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，獲取所述詞與詞向量的對應關係，包括：根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值；判斷所述第二目標函數的值是否大於上一次所述第二目標函數的值；若是，則採用最優化演算法，更新所述詞向量、所述平行語料中來源語言句子的句子向量和目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值的步驟；其中，所述第二目標函數，是指第三平均值與第四平均值之和，與所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和的差值；所述第三平均值，是指所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值；所述第四平均值，是指所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值。

可選的，所述句子向量之間的距離包括餘弦夾角距離或歐式距離。

相應的，本申請案還提供一種詞量化裝置，包括：獲取單元，用於獲取平行語料庫；解析單元，用於解析所述平行語料庫包括的各個句子，獲取所述平行語料庫包括的所有詞；設置單元，用於為所述平行語料庫包括的各個詞設置第一預設維度的詞向量，形成詞和詞向量的對應關係；以及為所述各個句子隨機設置第二預設維度的句子向量；建構單元，用於針對所述平行語料庫中的各對平行語料，根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與所述平行語料中來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本；學習單元，用於以最大化所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，訓練所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，獲取所述詞與詞向量的對應關係；其中，所述神經網路語言模型的輸入層包括與所述N元短語所在的句子對應的句子向量。

可選的，所述建構單元包括：解析子單元，用於解析所述平行語料中來源語言句子和目的語言句子，獲取所述平行語料中來源語言句子和目的語言句子包括的詞；映射子單元，用於根據所述詞與詞向量的對應關係，獲取所述平行語料中來源語言句子和目的語言句子包括的詞對應的詞向量；第一建構子單元，用於針對所述平行語料中來源語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述平行語料中來源語言句子的句子向量，以及所述與來源語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本；第二建構子單元，用於針對所述平行語料中目的語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述平行語料中目的語言句子的句子向量，以及所述與目的語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

可選的，所述學習單元包括：計算子單元，用於根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值；判斷子單元，用於判斷所述第二目標函數的值是否大於上一次所述第二目標函數的值；若是，則採用最優化演算法，更新所述詞向量、所述平行語料中來源語言句子的句子向量和目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值的步驟；其中，所述第二目標函數，是指第三平均值與第四平均值之和，與所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和的差值；所述第三平均值，是指所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值；所述第四平均值，是指所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值。

相應的，本申請案還提供一種電子設備，包括：顯示器；處理器；以及記憶體，所述記憶體用於儲存詞量化裝置，所述詞量化裝置被所述處理器執行時，包括如下步驟：獲取平行語料庫；解析所述平行語料庫包括的各個句子，獲取所述平行語料庫包括的所有詞；為所述平行語料庫包括的各個詞設置第一預設維度的詞向量，形成詞和詞向量的對應關係；以及為所述各個句子隨機設置第二預設維度的句子向量；針對所述平行語料庫中的各對平行語料，根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與所述平行語料中來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本；以最大化所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，訓練所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，獲取所述詞與詞向量的對應關係；其中，所述神經網路語言模型的輸入層包括與所述N元短語所在的句子對應的句子向量。

與現有技術相比，本申請案具有以下優點：本申請案提供的基於統計的機器翻譯方法、裝置及電子設備，透過根據各個候選譯文的對翻譯機率產生影響的特徵，以及預先生成的翻譯機率預測模型，生成待翻譯句子到各個候選譯文的翻譯機率，其中所述對翻譯機率產生影響的特徵至少包括所述待翻譯句子和所述候選譯文的語義相似度，並選取預設數量的翻譯機率排在高位的候選譯文，作為待翻譯句子的譯文，使得在建構機器翻譯模型時，能夠深入到自然語言的語義層面，避免譯文與原文的語義有偏差，從而達到提高翻譯品質的效果。

101‧‧‧生成候選譯文單元

103‧‧‧計算翻譯機率單元

105‧‧‧選取單元

201‧‧‧計算語義相似度單元

202‧‧‧生成句子向量單元

203‧‧‧訓練單元

1011‧‧‧解析子單元

1013‧‧‧獲取子單元

1015‧‧‧拼接子單元

1801‧‧‧顯示器

1802‧‧‧處理器

1803‧‧‧記憶體

2001‧‧‧獲取單元

2003‧‧‧計算子單元

2011‧‧‧獲取子單元

2013‧‧‧計算子單元

2021‧‧‧建構樣本子單元

2023‧‧‧學習子單元

2031‧‧‧獲取子單元

2033‧‧‧解析子單元

2035‧‧‧設置子單元

2037‧‧‧建構子單元

2039‧‧‧學習子單元

2101‧‧‧顯示器

2102‧‧‧處理器

2103‧‧‧記憶體

2301‧‧‧獲取單元

2302‧‧‧解析單元

2303‧‧‧設置單元

2304‧‧‧建構單元

2305‧‧‧學習單元

2401‧‧‧顯示器

2402‧‧‧處理器

2403‧‧‧記憶體

圖1是本申請案的基於統計的機器翻譯方法實施例的流程圖；圖2是本申請案的基於統計的機器翻譯方法實施例步驟S101的具體流程圖；圖3是本申請案的基於統計的機器翻譯方法實施例計算語義相似度的具體流程圖；圖4是本申請案的基於統計的機器翻譯方法實施例生成句子向量的具體流程圖；圖5是本申請案的基於統計的機器翻譯方法實施例訓練神經網路語言模型的具體流程圖；圖6是本申請案的基於統計的機器翻譯方法實施例神經網路語言模型的示意圖；圖7是本申請案的基於統計的機器翻譯方法實施例建構神經網路語言模型樣本的具體流程圖；圖8是本申請案的基於統計的機器翻譯方法實施例與一對平行預料相關的神經網路語言模型樣本的示意圖；圖9是本申請案的基於統計的機器翻譯方法實施例步驟S505的具體流程圖；圖10是本申請案的基於統計的機器翻譯方法實施例步驟S401的具體流程圖；圖11是本申請案的基於統計的機器翻譯方法實施例步驟S403的具體流程圖；圖12是本申請案的基於統計的機器翻譯裝置實施例的示意圖；圖13是本申請案的基於統計的機器翻譯裝置實施例的具體示意圖；圖14是本申請案的基於統計的機器翻譯裝置實施例計算語義相似度單元201的具體示意圖；圖15是本申請案的基於統計的機器翻譯裝置實施例生成句子向量單元202的具體示意圖；圖16是本申請案的基於統計的機器翻譯裝置實施例訓練單元203的具體示意圖；圖17是本申請案的基於統計的機器翻譯裝置實施例生成候選譯文單元101的具體示意圖；圖18是本申請案的一種電子設備實施例的示意圖；圖19是本申請案的語義相似度的計算方法實施例的流程圖；圖20是本申請案的語義相似度的計算裝置實施例的示意圖；圖21是本申請案的又一種電子設備實施例的示意圖；圖22是本申請案的詞量化方法實施例的流程圖；圖23是本申請案的詞量化裝置實施例的示意圖；圖24是本申請案的再一種電子設備實施例的示意圖。

在下面的描述中闡述了很多具體細節以便於充分理解本申請案。但是本申請案能夠以很多不同於在此描述的其他方式來實施，本領域技術人員可以在不違背本申請案內涵的情況下做類似推廣，因此本申請案不受下面公開的具體實施的限制。

在本申請案中，提供了一種基於統計的機器翻譯方法、裝置及電子設備，一種計算語義相似度的方法、裝置和電子設備，以及一種詞量化方法、裝置和電子設備。在下面的實施例中逐一進行詳細說明。

本申請案提供的基於統計的機器翻譯方法，其核心的基本思想為：在建構機器翻譯模型時，深入到自然語言的語義層面，即：對各個候選譯文的翻譯機率進行評分時，考慮待翻譯句子和候選譯文之間的語義相似度。由於將語義相似度評估得分作為翻譯解碼的一個強特徵來影響譯文產生過程，使得解碼器偏向產生語義一致度高的翻譯，從而達到提高翻譯品質的效果。

請參考圖1，其為本申請案的基於統計的機器翻譯方法實施例的流程圖。所述方法包括如下步驟：步驟S101：根據預先生成的翻譯規則，對待翻譯句子進行解碼，生成所述待翻譯句子的候選譯文。

基於統計的機器翻譯方法，是指基於統計資訊，從待翻譯句子的多個候選譯文中，選取出翻譯機率排在高位的預設數量的候選譯文，作為最終的翻譯結果。因此，首先需要對待翻譯句子進行解碼，生成待翻譯句子的候選譯文。

本申請案實施例所述的翻譯規則，是指預先從給定的平行預料庫中學習獲得的翻譯規則。翻譯規則是機器翻譯過程的基本轉化單元。從平行預料庫中學習獲得翻譯規則的過程，主要包括如下階段：1)數據預處理；2)詞對齊；3)短語抽取。下面對上述階段進行簡要說明。

1)數據預處理

資料預處理階段，首先需要搜集或下載平行語料庫。本申請案實施例所述的平行語料庫，包括大量的平行預料，其中，每一對平行預料包括來源語言句子和目的語言句子，兩個句子互為翻譯。目前，網路上有大量可供下載的平行語料庫。搜尋適合目標領域(如醫療、新聞等)的平行語料庫是提高特定領域統計機器翻譯系統性能的重要方法。

在獲取到平行語料庫後，需要對其中的平行預料進行一定的文本規範化處理。例如，對英語進行詞素切分，如將's獨立為一個詞，將與詞相連的符號隔離開等；而對中文則需要進行分詞等處理。對文本進行規範化處理時，還應該盡可能過濾一些包含錯誤編碼的句子、過長的句子或長度不匹配(相差過大)的句子，以及對不可枚舉類型字串的識別、翻譯和泛化等處理，以使得能夠緩解詞對齊過程的資料稀疏問題。

在基於統計的機器翻譯過程中，可以將獲取的平行語料分為三部分，第一部分用於詞對齊及短語抽取，第二部分用於最小錯誤率訓練，第三部分則用於系統評價。其中，在第二部分和第三部分的資料中，每個來源語言句子最好能有多條參考翻譯。

2)詞對齊

透過詞對齊，能夠獲取每對平行預料中來源語言包括的詞和目的語言包括的詞之間的位置對應關係。在實際應用中，可以使用GIZA++對平行語料進行對齊。需要注意的是，由於GIZA++是“單向”的詞對齊，因此應當進行兩次詞對齊，第一次是從來源語言到目的語言的詞對齊，第二次是從目的語言到來源語言的詞對齊。由於IBM Model 2對齊效果不佳，而IBM Model 5耗時過長且對性能沒有較大貢獻，因此，一般來說，GIZA++需要依次進行IBM Model 1、HMM、IBM Model 3及IBM Model 4的詞對齊。

詞對齊階段的訓練時間，取決於平行語料的數量以及所設置的反覆運算次數。根據平行語料的數量以及所設置的反覆運算次數，詞對齊階段的訓練時間可能很長。一個參考資料為，1千萬對的中文-英文平行語料(約3億詞)在Inter Xeon 2.4GHz伺服器上執行時間約為6天。在實際應用中，如果詞對齊階段的訓練耗時過長，則可以使用MGIZA++和PGIZA++進行並行的詞對齊(其中，PGIZA++支持分散式的詞對齊)。然後，對兩個方向的GIZA++對齊結果進行合併，以供短語抽取之用。

3)短語抽取

短語抽取的基本準則為，兩個短語之間有至少一個詞對有連接，且沒有任何詞連接於短語外的詞。在實際應用中，可以採用Moses套裝軟體的短語抽取程式，進行短語抽取的處理。需要注意的是，抽取結果將佔有大量的磁碟空間。通常，若平行語料大小達到1千萬對，短語最大長度大於等於7，則需要至少應準備500GB的儲存空間。

在短語抽取完畢後，還需要進行短語特徵的提取，即計算短語的翻譯機率及詞的翻譯機率，具體包括：正向短語翻譯機率、反向短語翻譯機率、正向詞翻譯機率和反向詞翻譯機率等。其中，所述的正向短語翻譯機率，是指從來源語言短語到目的語言短語的短語翻譯機率；所述的反向短語翻譯機率，是指從目的語言短語翻譯到來源語言短語的短語翻譯機率；所述的正向詞翻譯機率，是指從來源語言短語翻譯到目的語言短語的詞翻譯機率；所述的反向詞翻譯機率，是指從目的語言短語翻譯到來源語言短語的詞翻譯機率。

在短語特徵提取過程中，需要對抽取的所有短語進行兩次排序。一般來說，中等規模(百萬對數量級的平行語料)的系統也需要進行外部排序，磁片讀寫速度對處理時間影響極大。通常在高速磁片上進行短語特徵的提取。參考執行時間及磁碟空間消耗為：對於千萬對數量級的平行語料，限制短語長度為7，外部排序運行於SCSI Raid 0+1磁碟陣列，執行時間3日11小時，峰值磁碟空間消耗813GB。

本申請案實施例所述的翻譯規則，既可以是以短語作為基本翻譯單元、不包括句法資訊的翻譯規則，還可以是基於句法結構對翻譯模型進行建模所獲得的包括句法資訊的翻譯規則。上述這些翻譯規則的不同方式，都只是具體實施方式的變更，都不偏離本申請案的核心，因此都在本申請案的保護範圍之內。

需要說明的是，根據不包括句法資訊的翻譯規則所生成的候選譯文，通常是不符合句法規則的，因而難於理解候選譯文；而根據包括句法資訊的翻譯規則所生成的候選譯文，通常是符合句法規則的。可見，根據包括句法資訊的翻譯規則，生成待翻譯句子的候選譯文，能夠達到提高翻譯品質的效果。

在本實施例中，從平行預料中抽取出的翻譯規則含有句法資訊，翻譯規則採用上下文無關文法表示，如表1所示：

在表1中，與編號1、3、4、5對應的規則為基本翻譯規則，與編號2、6、7對應的規則為組合翻譯規則。

本申請案實施例採用CYK演算法對待翻譯句子進行解碼，生成待翻譯句子的候選譯文。CYK演算法是由約翰．科克，Younger和嵩忠雄共同研究出來大約發表於1965年的一個演算法，用來判定任意給定的字串是否屬於一個上下文無關文法。CYK演算法採用了動態規劃的思想，普通的回溯法(backtracking)在最壞的情況下需要指數時間才能解決問題，而CYK演算法只需要多項式時間就能夠解決問題。CYK演算法的時間複雜度為O(n³)，其中n為字串長度。

請參考圖2，其為本申請案的基於統計的機器翻譯方法實施例步驟S101的具體流程圖。在本實施例中，透過CYK演算法對待翻譯句子進行解碼，生成待翻譯句子的候選譯文，包括如下步驟：

步驟S1011：解析所述待翻譯句子，生成所述待翻譯句子的各個子字串。

本申請案實施例所述的子字串，是指待翻譯句子的不同跨度的子字串。例如，待翻譯句子為“我在公園裡散步。”，則其子字串包括：“我”和“在”等僅包括一個字的子字串；“我在”和“公園”等包括兩個字的子字串；“在公園”和“公園裡”等包括三個字的子字串；“我在公園”等包括四個字的子字串，以及“我在公園裡散步”的子字串等。

步驟S1013：根據所述預先生成的翻譯規則，獲取各個所述子字串的候選譯文。

在本實施例中，根據所述預先生成的翻譯規則，獲取各個所述子字串的候選譯文，包括如下步驟：1)針對各個所述子字串，遍歷各個所述翻譯規則，判斷所述子字串是否屬於所述翻譯規則；2)若上述判斷結果為是，則將根據所述翻譯規則生成的譯文，作為所述子字串的候選譯文。

對於待翻譯句子的每一個子字串，均需要遍歷各個翻譯規則，判斷該子字串是否屬於該翻譯規則。當判定一個子字串屬於該翻譯規則時，則根據該翻譯規則生成目的語言的譯文，該譯文作為子字串的一個候選譯文。一個子字串可能屬於多個翻譯規則，因此，一個子字串可能對應多個候選譯文。

步驟S1015：根據所述子字串在所述待翻譯句子中的位置，將相鄰子字串的候選譯文進行組合拼接，形成所述待翻譯句子的候選譯文。

本申請案實施例所述的相鄰子字串，是指排列在一個子字串之前或之後的子字串，例如，待翻譯句子為“One tablet will purify a litre of water.”，子字串包括“One tablet”、“will”和“purify a litre of water”等，其中“One tablet”和“purify a litre of water”均為“will”的相鄰子字串，而“One tablet”並不是“purify a litre of water”的相鄰子字串。

透過步驟S1013獲取到待翻譯句子的各個子字串所對應的候選譯文後，將相鄰子字串的候選譯文進行拼接，生成待翻譯句子的多個候選譯文。例如，待翻譯句子為“One tablet will purify a litre of water.”，其中子字串“One tablet”的候選譯文包括“一顆藥丸”和“一部平板電腦”，子字串“will”的候選譯文包括“即可”，子字串“purify a litre of water”的候選譯文包括“淨化一升水”，子字串“One tablet”、“will”和“purify a litre of water”相鄰，將各個子字串的候選譯文組合拼接後，產生的候選譯文包括“一顆藥丸即可淨化一升水。”和“一部平板電腦即可淨化一升水。”等。

在實際應用中，對待翻譯句子進行解碼，不僅可以採用上述CYK解碼演算法，還可以採用基於堆疊的解碼演算法或移進-歸約解碼演算法等。上述這些解碼演算法在翻譯性能和解碼速度方面，各有不同的優缺點。其中，基於堆疊的解碼演算法和CYK解碼演算法一般具有較高的翻譯性能，但解碼速度較慢；而移進-歸約解碼演算法往往可以達到較高的解碼速度，但翻譯性能較低。上述這些不同的解碼方式，都只是具體實施方式的變更，都不偏離本申請案的核心，因此都在本申請案的保護範圍之內。

步驟S103：根據各個候選譯文的對翻譯機率產生影響的特徵，以及預先生成的翻譯機率預測模型，生成所述待翻譯句子到各個候選譯文的翻譯機率。

本申請案實施例所述的對翻譯機率產生影響的特徵，是指對所述待翻譯句子到各個候選譯文的翻譯機率產生影響的、統計類型的資訊，例如，雜訊通道模型中的翻譯模型、語言模型都可以作為對翻譯機率產生影響的特徵，此外，對翻譯機率產生影響的特徵還可以包括調序模型。具體的，在翻譯模型中，對翻譯機率產生影響的特徵包括：待翻譯句子到候選譯文的短語翻譯機率、候選譯文到待翻譯句子的短語翻譯機率、待翻譯句子到候選譯文的詞的譯機率、候選譯文到待翻譯句子的詞翻譯機率；在語言模型中，統計類型的資訊是指候選譯文的句子機率；在調序模型中，統計類型的資訊是指待翻譯句子與候選譯文調序與不調序的分類機率。下面逐一對上述翻譯模型、語言模型和調序模型等對翻譯機率產生影響的特徵進行說明。

1)翻譯模型

翻譯模型是一種語言到另一種語言的詞彙間的對應關係，而語言模型則體現了某種語言本身的性質。翻譯模型保證翻譯的意義，而語言模型保證翻譯的流暢。從中國對翻譯的傳統要求“信達雅”三點上看，翻譯模型體現了信與達，而雅則在語言模型中得到反映。

在步驟S101所述的短語特徵抽取過程中，從平行預料中學習獲得每一條翻譯規則所對應的正向短語翻譯機率、反向短語翻譯機率、正向詞翻譯機率和反向詞翻譯機率等資訊。關於上述各種翻譯機率的相關說明，請參見步驟S101中的相關描述，此處不再贅述。

基於短語特徵抽取所獲得的正向短語翻譯機率、反向短語翻譯機率、正向詞翻譯機率和反向詞翻譯機率，能夠計算獲取上述翻譯模型中的各種對翻譯機率產生影響的特徵，具體計算公式如下所述：

1)待翻譯句子到候選譯文的短語翻譯機率

計算公式：

其中，為待翻譯句子，為候選譯文，=s₁,...s_I,=t₁,...t_J。

2)候選譯文到待翻譯句子的短語翻譯機率

計算公式：

其中，為待翻譯句子，為候選譯文，=s₁,...s_I,=t₁,...t_J。

3)待翻譯句子到候選譯文的詞翻譯機率

計算公式：

其中，為待翻譯句子，為候選譯文，=s₁,...s_I,=t₁,...t_J。公式中a為隱含變數(即：詞對齊)。所謂詞對齊，是指目的語言句子中某個詞是由來源語言中哪個詞翻譯而來的。一個詞可以被翻譯為一個或多個詞，甚至不被翻譯。可見，獲取翻譯機率的問題可以轉化為詞對齊問題。IBM系列模型、HMM和Model 6都是詞對齊的參數化模型。它們之間的區別在於模型參數的數量及類型各不相同。例如，IBM Model 1中唯一的參數是詞翻譯機率，與詞在句子中的位置無關。公式中的(j,i)是詞對齊中的一條連接，表示來源語言中的第j個詞翻譯到目的語言中的第i個詞。

4)候選譯文到待翻譯句子的詞翻譯機率

計算公式：

其中，為待翻譯句子，為候選譯文，=s₁,...s_I,=t₁,...t_J，a為詞對齊資訊，此處不再贅述。

2)語言模型

語言模型(Language Model，簡寫為LM)是自然語言處理領域的基礎問題，其在詞性標注、句法分析、機器翻譯、資訊檢索等任務中起到了重要作用。簡而言之，統計語言模型表示為：在詞序列中，給定一個詞和上下文中所有詞，這個序列出現的機率。通俗的講，語言模型其實就是看一句話是不是正常人說出來的。例如，短語“今晚有大風”對應的英文翻譯可以為high winds tonight或large winds tonight，而high winds tonight的機率大於high winds tonight的機率，即：P(high winds tonight)>P(large winds tonight)。

語言模型形式化的描述就是給定一個字串，計算該字串是自然語言的機率P(w₁,w₂,...,w_t)。換句話說，P(w₁,w₂,...,w_t)被稱為語言模型，即用來計算一個句子機率的模型。其中，w₁到w_t依次表示該字串中的各個詞。簡單的推論是：P(w₁,w₂,...,w_t)=P(w₁)×P(w_2|w₁)×P(w₃|w₁,w₂)×...×P(w_t|w₁,w₂,...,w_t-1)。理論上，計算P(w_t|w₁,w₂,...,w_t-1)的最簡單、直接的方法是直接計數做除法，公式為：P(w_t|w₁,w₂,...,w_t-1)=p(w₁,w₂,...,w_t-1,w_t)/p(w₁,w₂,...,w_t-1)。然而，該方法將帶來資料稀疏嚴重的問題，且由於參數空間過大，從而導致方法的實用性低。

解決上述問題的方法是：近似地求P(w_t|w₁,w₂,...,w_t-1)，例如，常用的N-Gram語言模型就是用P(w_t|w_t-n+1,...,w_t-1)近似表示P w_t|w₁,w₂,...,w_t-1)。N- Gram語言模型被稱為瑪律科夫鏈。該模型基於瑪律科夫假設，即：第N個詞的出現只與前面N-1個詞相關，而與其他任何詞都不相關，整句的機率就是各個詞出現機率的乘積。其中，各個詞出現機率可以透過直接從平行語料中統計N個詞同時出現的次數得到。

在實際應用中，N值越大，則對下一個詞出現的約束資訊越多，具有更大的辨別力；N值越小，則在平行語料中出現的次數越多，具有更可靠的統計資訊，即具有更高的可靠性。理論上，N值越大越好，然而在實際應用中，N的值不能太大，否則計算仍然太大，常用的是二元語言模型(即：Bi-Gram語言模型)和三元語言模型(即：Tri-Gram語言模型)。經驗上，三元語言模型用的最多，儘管如此，原則上，能用二元語言模型解決，絕不使用三元語言模型。

N-Gram語言模型簡單有效，但是它只考慮了詞的位置關係，沒有考慮詞之間的相似度、詞語法和詞語義，並且還存在資料稀疏的問題。因此，又逐漸提出更多的語言模型，例如，基於類的N-Gram語言模型(Class-based N-Gram Model)，基於主題的N-Gram語言模型(topic-based N-Gram Model)，基於快取的N-Gram語言模型(cache-based N-Gram Model)，skipping N-Gram Model，指數語言模型(最大熵模型，條件隨機域模型)等。

隨著深度學習的興起，還提出了神經網路語言模型。用神經網路訓練語言模型，首先將每個單詞w_t-n+1,...,w_t-1映射到詞向量空間，再把各個單詞的詞向量組合成一個更大的向量作為神經網路輸入，輸出是P(w_t)。目前，神經網路語言模型包括前向神經網路語言模型(Feed-forward Neural Net Language Model，簡寫為ffnnlm)和循環神經網路語言模型(Recurrent Neural Net Language Model，簡寫為rnnlm)。神經網路語言模型解決了傳統N-Gram語言模型的兩個缺陷：(1)詞語之間的相似性可以透過詞向量來體現；(2)自帶平滑功能。在實際應用中，可以根據具體需求選擇上述一種或多種語言模型。

需要說明的是，在區分性訓練框架(即：需要參考平行語料進行有監督的訓練)下，允許使用多個語言模型，因此，使用由大規模平行語料訓練得到的無限領域語言模型配合領域相關的語言模型能夠得到最好的效果。

3)調序模型

許多語言對的語序是有很大差別的，例如，漢語語言和英語語言的語序差別很大。在上述詞對齊處理過程中，包含有詞調序模型，在區分性訓練中也需要較好的調序模型。調序模型可以是基於位置，也就是描述兩種語言每個句子不同位置的短語的調序機率，也可以是基於短語本身，例如Moses中的調序模型即是基於短語本身，描述在給定當前短語對條件下，其前後短語對是否互換位置。

以上對目前常用的對翻譯機率產生影響的特徵進行了說明。本申請案實施例提供的基於統計的機器翻譯方法，除了可以應用上述常用的對翻譯機率產生影響的特徵，還應用了語義模型中的對翻譯機率產生影響的特徵，即：待翻譯句子和候選譯文的語義相似度，將該特徵作為機器翻譯的一個強特徵來影響最終翻譯結果的產生過程，使得偏向產生語義一致度高的翻譯。

請參考圖3，其為本申請案的基於統計的機器翻譯方法實施例計算語義相似度的具體流程圖。本申請案實施例所述的待翻譯句子和候選譯文的語義相似度，採用如下步驟計算獲取：

步驟S301：獲取所述待翻譯句子的句子向量，以及所述候選譯文的句子向量。

句子向量作為本申請案實施例提出的新概念，能夠反映自然語言中句子的基本語義資訊，即：相關或者相似的句子，其句子向量之間的距離更接近。例如，“One tablet will purify a litre of water.”和“一顆藥丸即可淨化一升水。”分別對應的句子向量之間的距離，會遠遠小於“One tablet will purify a litre of water.”和“一部平板電腦即可淨化一升水。”分別對應的句子向量之間的距離。在理想情況下，“One tablet will purify a litre of water.”和“一顆藥丸即可淨化一升水。”的句子向量表示應該是完全一樣的，但是由於書寫錯誤等原因，導致二者的句子向量不會完全一致，但句子向量之間的距離是更接近的。在實際應用中，句子向量之間的距離可以用最傳統的歐氏距離來衡量，也可以用餘弦夾角來衡量。句子向量是一種固定維度的實數向量，為本申請案實施例所述的神經網路語言模型的一類參數，例如，將一個句子向量表示為[0.312,-0.187,-0.529,0.109,-0.542,...]。

請參考圖4，其為本申請案的基於統計的機器翻譯方法實施例生成句子向量的具體流程圖。在本實施例中，所述待翻譯句子的句子向量和所述候選譯文的句子向量，採用如下步驟生成：

步驟S401：根據預先生成的詞與詞向量的對應關係、與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，建構與所述待翻譯句子和候選譯文包括的N元短語分別對應的神經網路語言模型樣本。

本申請案實施例所述的來源語言是指待翻譯句子所屬的語言，所述的目的語言是指候選譯文所屬的語言。本申請案實施例所述的N元短語，是指N-GRAM語言模型中的N個詞構成的短語，例如，來源語言句子為“我在公園裡散步。”，則採用4元語言模型時，該句子包括如下4元短語：“我在公園裡”、“在公園裡散步”和“公園裡散步。”。在建構神經網路語言模型模型樣本時，需要針對各個N元短語分別建構神經網路語言模型模型樣本。

需要注意的是，如果N元短語的N值越大，則對第N個詞出現的約束資訊更多，具有更大的辨別力；N值越小，則在平行語料庫中出現的次數更多，具有更可靠的統計資訊，具有更高的可靠性。理論上，N值越大越好，經驗上，trigram用的最多，儘管如此，原則上，能用bigram解決，絕不使用trigram。

本申請案實施例所述的詞向量(Distributed Representation)是一種固定維度的實數向量，為神經網路語言模型的一類參數，例如，將一個詞向量表示為[0.792,-0.177,-0.107,0.109,-0.542,...]。詞向量作為神經網路語言模型的副產品，是在訓練神經網路語言模型的同時順便得到的。傳統的詞向量能夠反映自然語言中基本單元詞的基本語義資訊，即：相關或者相似的詞，其詞向量之間的距離更接近。例如，“麥克”和“話筒”分別對應的詞向量之間的距離，會遠遠小於“麥克”和“天氣”分別對應的詞向量之間的距離。在理想情況下，“麥克”和“話筒”的詞向量表示應該是完全一樣的，但是由於有些人會把英文名“邁克”也寫成“麥克”，導致“麥克”一詞帶上了一些人名的語義，因此不會和“話筒”的詞向量完全一致。詞向量之間的距離可以用最傳統的歐氏距離來衡量，也可以用餘弦夾角來衡量。

本申請案實施例所述的神經網路語言模型，包括與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。不同於傳統的神經網路語言模型，本申請案實施例所述的神經網路語言模型的輸入層還包括與N元短語所在的句子對應的句子向量。同時，在訓練神經網路語言模型的過程中，整個網路由來源語言句子相關的神經網路語言模型樣本，以及目的語言句子相關的神經網路語言模型樣本共同組成，整個網路的訓練目標為：最大化來源語言句子相關的神經網路語言模型樣本的似然機率之和，以及目的語言句子相關的神經網路語言模型樣本的似然機率之和，同時最小化所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和。

由於在計算神經網路語言模型的似然機率時，以N元短語所在的句子為參考背景，且整個網路的訓練目標包括最小化成對句子的句子向量距離。因此，本申請案實施例所述的詞向量，不僅能夠反映自然語言中基本單元詞的基本語義資訊，並且詞向量包括的語義資訊是跨語言的，即：兩個語義一致的不同語言的詞，其詞向量之間的幾何距離非常接近，例如“蘋果”和“Apple”。

需要說明的是，詞向量的表示並不是唯一的，不同的訓練方法將導致同一個詞的詞向量是不相同的。此外，詞向量的維度作為神經網路語言模型的超參數，一般維度越高越好，但過高維度的詞向量會帶來計算複雜的問題。在實際應用中，詞向量維度以200維比較常見。

本申請案實施例所述的神經網路語言模型樣本，是指神經網路語言模型的實例。本申請案實施例所述的神經網路語言模型是一個通用模型，其網路拓撲結構對每個神經網路語言模型樣本是相同的，即：神經網路語言模型與神經網路語言模型樣本之間的關係，類似於類和物件的關係。

決定神經網路拓撲結構(或體系結構)的是隱含層及其所含節點的個數，以及節點之間的連接方式。要從頭開始設計一個神經網路，需要決定隱含層和節點的數目，激勵函數的形式，以及對連接權重做一些限制等。在諸多類型的神經網路中，最常用的是前向傳播式神經網路，即：資料從輸入到輸出的過程是一個從前向後的傳播過程，後一節點的值透過它前面相連的節點傳過來，然後把值按照各個連接權重的大小加權輸入激勵函數再得到新的值，進一步傳播到下一個節點。

本申請案實施例所述的神經網路語言模型，既可以是前向神經網路語言模型，還可以是循環神經網路語言模型。前向神經網路語言模型的計算複雜度低於循環神經網路語言模型，而循環神經網路語言模型的精確度高於前向神經網路語言模型。在實際應用中，可以根據具體需求選擇上述神經網路語言模型之一。上述神經網路語言模型的各種不同方式，都只是具體實施方式的變更，都不偏離本申請案的核心，因此都在本申請案的保護範圍之內。為了降低計算的複雜度，本實施例採用前向神經網路語言模型。

請參考圖5，其為本申請案的基於統計的機器翻譯方法實施例訓練神經網路語言模型的具體流程圖。詞向量作為神經網路語言模型的副產品，是在訓練神經網路語言模型時得到的。在本實施例中，所述詞與詞向量的對應關係、所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，採用如下步驟生成：

步驟S501：獲取平行語料庫。

關於平行預料庫的相關說明，請參見步驟S101中資料預處理階段的相關描述，此處不再贅述。

步驟S502：解析所述平行語料庫包括的各個句子，獲取所述平行語料庫包括的所有詞。

要獲取詞與詞向量的對應關係，首先需要解析平行預料中每個句子，獲取平行預料庫包括的每個詞，例如，對英語進行詞素切分，如將's獨立為一個詞，將與詞相連的符號隔離開等；而對中文則需要進行分詞等處理。執行步驟S502後，獲取到平行預料庫中來源語言包括的每個詞，以及目的語言包括的每個詞。

步驟S503：為所述平行語料庫包括的各個詞設置第一預設維度的詞向量，形成所述詞和詞向量的對應關係；以及為所述各個句子隨機設置第二預設維度的句子向量。

在訓練神經網路語言模型的初始階段，首先需要為平行語料庫包括的各個詞設置初始的詞向量，形成初始的詞和詞向量的對應關係，即詞典。在實際應用中，既可以隨機為每個詞設置初始的詞向量，也可以將由其他訓練方法獲得的詞向量作為初始的詞向量。

由於本申請案實施例所述的神經網路語言模型的輸入層，還包括與N元短語所在的句子對應的句子向量，因此，在訓練神經網路語言模型的初始階段，還需要為平行語料庫中的各個句子設置初始的句子向量。在本實施例中，隨機為句子設置初始的句子向量。

本申請案實施例所述的第一預設維度和第二預設維度，既可以是相同的，也可以是不同的。由於第二預設維度為句子向量的維度，因此第二預設維度大於等於第一預設維度。通常，向量的維度越高則表達的語義越精確，但是計算複雜度也越高。在實際應用中，可以根據具體需求設置第一預設維度和第二預設維度。在本實施例中，為了降低計算複雜度，設置第一預設維度與第二預設維度為相同的維度值。實驗表明，200維度的詞向量和句子向量，即能夠獲得具有較強跨語言特徵的詞向量，又能夠使得計算複雜度較低。

步驟S504：針對所述平行語料庫中的各對平行語料，根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本。

請參見圖6，其為本申請案的基於統計的機器翻譯方法實施例神經網路語言模型的示意圖。本申請案實施例所述的神經網路語言模型包括：輸入層、隱藏層和輸出層。神經網路語言模型是採用神經網路建構的N-GRAM語言模型。因此，神經網路語言模型的輸入層變數是與N-GRAM語言模型的前N-1個詞相對應的詞向量，即： C(w_t-n+1)、C(w_t-n+1)、...、C(w_t-1)，而輸出層變數是與N-GRAM語言模型的第N個詞(即：尾詞)相對應的似然機率。由圖6可見，輸入層不僅包括N元短語的前N-1個詞分別對應的詞向量，還包括N元短語所在句子對應的句子向量D。

圖6中隱藏層的作用是將上文前N-1個詞的詞向量連同N元短語所在句子對應的句子向量一起作為上下文背景進行融合，真正充分地利用N元短語所處的句子資訊來預測下一個詞。在實際應用中，隱藏層的向量值可以是輸入層各個變數的加和平均值，還可以是輸入層各個變數的組合拼接。在本實施例中，設置隱藏層的向量值為輸入層各個變數(包括前N-1個詞的詞向量和句子向量)的加和平均值，以降低隱藏層的向量維度，達到減少計算複雜度的效果。

需要說明的是，本申請案實施例所述的神經網路語言模型的輸出層的尾詞，包括連接在前N-1個詞後的正確尾詞(即：正樣本)和至少一個錯誤尾詞(即：負樣本)。通常，神經網路語言模型的輸出層包括與上下文所有可能組合的尾詞，並且所有可能的組合的機率和為1。在實際應用中，為了減少計算複雜度、提高計算效率，可以從所有可能的尾詞中任意選取預設數量的尾詞作為負樣本。在本實施例中，任意選取25個尾詞形成負樣本。

在圖6中，每個輸入詞都被映射為一個向量，該映射用C表示，所以C(w_t-n+1)即為w_t-n+1的詞向量；輸出也是一個向量，向量中的第i個元素表示機率P(w_t=i|w_t-n+1,...,w_t-1)。輸出層採用Softmax函數計算，計算公式如下所示：

其中，M為輸出層向量的維度，是輸出詞w_t的未歸一化log機率，y_i是輸出詞i的未歸一化log機率，y的公式為：y=b+Wx+Utanh(d+Hx)

其中，參數包括：b、W、U、d、H；b為輸入層到輸出層的偏置因數，W為輸入層到輸出層的連接權重組成的變換矩陣，U為隱藏層到輸出層的連接權重組成的變換矩陣，tanh為隱藏層的激勵函數，d為輸入層到隱藏層的偏置因數，H為輸入層到隱藏層的連接權重組成的變換矩陣，x=(C(w_t-n+1)、C(w_t-n+1)、...、C(w_t-1)，D)，tanh(d+Hx)為隱藏層的向量值，Utanh(d+Hx)表示將隱藏層的向量值與隱藏層到輸出層的連接權重進行累乘融合。需要注意的是，x也是需要訓練的參數。訓練結束後，既能夠獲取到語言模型，還能夠獲取到詞向量。

在實際應用中，神經網路中節點的激勵函數可以為符號函數、S型(sigmoid)函數、雙曲正切函數或線性函數。實際上如果沒有激勵函數的話，神經元網路就等價於一個線性回歸函數，如果此激勵函數是某種特定的非線性函數，那神經網路又等價於邏輯回歸。

為了減少計算複雜度以及提高計算效率，在本實施例的與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型中，模型的輸入層到隱藏層的連接權重(即：圖6中的H矩陣中的各個元素值)設置為1；輸入層到輸出層的連接權重(即：圖6中的W矩陣中的各個元素值)均設置為0；隱含層中沒有使用激勵函數。因此，本實施例中，輸出層y的計算公式如下所示：y=b+Uh(w _t-n+1,...,w _t-1；W,D)。

其中，h(w_t-n+1,...,w_t-1；W,D)為隱藏層的向量值，並且隱藏層的向量值為輸入層各個變數(包括前N-1個詞的詞向量和句子向量)的加和平均值；W為所有詞對應的詞向量，D為輸入層的句子向量。

本申請案實施例所述的預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，是指預先設計好拓撲結構及節點激勵函數的神經網路語言模型。其中的各個連接權重作為神經網路語言模型的一類參數，在訓練過程中得到不斷的調整，直至達到訓練目標時獲取最終的連接權重，以供實際預測用。需要注意的是，在訓練初始階段，需要為各個連接權重預先設置初始值。在本實施例中，採用隨機為各個連接權重預先設置初始值的方式。

綜上所述，在訓練神經網路語言模型的過程中，需要調整的參數包括：詞向量、句子向量及神經網路語言模型的各個連接權重。

請參考圖7，其為本申請案的基於統計的機器翻譯方法實施例建構神經網路語言模型樣本的具體流程圖。具體的，針對每一對平行語料，根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本，包括如下步驟：

步驟S701：解析所述來源語言句子和所述目的語言句子，獲取所述來源語言句子和所述目的語言句子包括的詞。

為了建構一對平行預料中的所有與N元短語對應的神經網路語言模型樣本，首先需要解析平行預料中來源語言句子和目的語言句子，獲取句子包括的每個詞，這些詞將作為神經網路語言模型樣本的輸入層變數或輸出層變數。例如，對英語進行詞素切分，如將's獨立為一個詞，將與詞相連的符號隔離開等；而對中文則需要進行分詞等處理。執行步驟S701後，獲取到一對平行預料中來源語言句子包括的所有詞，以及目的語言句子包括的所有詞。

步驟S703：根據所述詞與詞向量的對應關係，獲取所述來源語言句子和所述目的語言句子包括的詞對應的詞向量。

神經網絡要求所有的輸入變數都必須是0-1(或-1--+1)之間的實數，因此，本資料無法用作神經網路的輸入。步驟S703實現從詞到詞向量的映射，以詞作為檢索條件，在詞與詞向量的對應關係進行查詢，獲取詞對應的詞向量，作為神經網路的輸入。需要注意的是，步驟S703階段的詞向量是初始的詞向量。

步驟S705：針對所述來源語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述來源語言句子的句子向量，以及所述與來源語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

本申請案實施例所述的神經網路語言模型，包括與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。根據與來源語言對應的神經網路語言模型，建構與來源語言句子包括的各個N元短語對應的神經網路語言模型樣本。根據與目的語言對應的神經網路語言模型，建構與目的語言句子包括的各個N元短語對應的神經網路語言模型樣本。

步驟S707：針對所述目的語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述目的語言句子的句子向量，以及所述與目的語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

步驟S707與步驟S706的區別僅在於二者面向不同的句子建構神經網路語言模型樣本，步驟S707面向目的語言句子，步驟S706面向來源語言句子。

請參考圖8，其為本申請案的基於統計的機器翻譯方法實施例與一對平行預料相關的神經網路語言模型樣本的示意圖。圖8中平行預料的來源語言句子為“我在公園裡散步。”，目的語言句子為“I am walking in the park.”。在本實施例中，神經網路語言模型採用4元語言模型，詞向量的維度為200維。由圖8可見，與該對平行預料相關的神經網路語言模型樣本，包括3個與來源語言對應的神經網路語言模型樣本，以及4個與目的語言對應的神經網路語言模型樣本，且每個神經網路語言模型樣本的輸入層均包括N元短語所處的句子對應的句子向量。

步驟S505：以最大化所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，學習獲取所述詞與詞向量的對應關係、所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。

在訓練神經網路語言模型過程中，逐步調整模型中的各類參數，例如，詞向量、句子向量及各個連接權重，當達到訓練目標時，獲取到最終的詞與詞向量的對應關係、與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。

請參考圖9，其為本申請案的基於統計的機器翻譯方法實施例步驟S505的具體流程圖。在本實施例中，步驟S505包括如下步驟：

步驟S5051：根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值。

本申請案實施例所述的第二目標函數，是指第三平均值與第四平均值之和，與所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和的差值；所述第三平均值，是指所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值；所述第四平均值，是指所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值。

上述第三平均值的形式化表示為：

其中，為第三平均值，N為所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的數量，d _src為N元短語所在的來源語言句子。第四平均值的形式化表示與第三平均值的形式化表示相同，不再贅述。

當建構好各個神經網路語言模型樣本後，就可以根據神經網路語言模型的輸入層變數及網路中的各個參數，計算各個神經網路語言模型樣本的似然機率，以及成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離，並計算第二目標函數的值。

步驟S5053：判斷所述第二目標函數的值是否大於上一次所述第二目標函數的值；若是，則採用最優化演算法，更新所述詞向量、所述來源語言句子的句子向量和所述目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值的步驟。

步驟S5051為一個訓練週期，要完成神經網路語言模型的訓練可能需要很多個訓練週期，經常是幾百個。停止訓練的條件是達到訓練目標，即：第二目標函數的值達到最大值。透過將本次訓練得到的第二目標函數的值與上一次訓練得到的第二目標函數的值進行比較，如果本次訓練得到的第二目標函數的值大於上一次訓練得到的第二目標函數的值，說明模型參數還可以進一步優化，需要繼續訓練，以達到訓練目標。反之，如果本次訓練得到的第二目標函數的值小於上一次訓練得到的第二目標函數的值，說明模型參數已達到訓練目標，可以停止訓練。訓練完成之後得到的神經網路語言模型就是在透過平行預料庫發現的模型，描述了平行預料庫中回應變數(即：輸出層變數)受預測變數(即：輸入層變數)影響的變化規律。

調整神經網路語言模型中各種參數的最基本演算法是錯誤回饋法，現在較新的有梯度演算法、類牛頓演算法、 Levenberg-Marquardt演算法、和遺傳演算法等。上述各種最優化演算法的不同方式，都只是具體實施方式的變更，都不偏離本申請案的核心，因此都在本申請案的保護範圍之內。

在本實施例中，最優化演算法採用隨機梯度演算法。採用隨機梯度演算法，更新所述詞向量、所述來源語言句子的句子向量和所述目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，包括：1)根據預設的學習速率和所述第二目標函數，計算所述詞向量、所述來源語言句子的句子向量和所述目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型的連接權重的梯度；2)根據所述詞向量、所述來源語言句子的句子向量和所述目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型的連接權重的梯度，更新所述詞向量、所述來源語言句子的句子向量和所述目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。

採用隨機梯度演算法，梯度更新的法則為：

其中，θ為各種參數值，為學習速率，d _src為源語言句子，d _tgt為目標語言句子， sim_cos(d_src,d_tgt)為來源語言句子和目的語言句子的句子向量之間的距離。

本申請案實施例所述的學習速率，決定每一次循環訓練中所產生的參數變化量。大的學習速率可能導致系統的不穩定；但小的學習速率導致較長的訓練時間，可能收斂很慢，但是能保證目標函數的值能夠最終趨於目標函數的最大值。所以一般情況下，傾向於選取較小的學習速率以保證系統的穩定性。學習速率的選取範圍在0.01-0.8之間。

在實際應用中，對於神經網路語言模型這種較複雜的網路，在目標函數曲面的不同部位可能需要不同的學習速率。為了減少尋找學習速率的訓練次數以及訓練時間，比較合適的方法是採用變化的自我調整學習速率，使網路的訓練在不同的階段設置不同大小的學習速率。

透過上述步驟S501至步驟S505，訓練生成與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，以及詞與詞向量的對應關係之後，就可以建構與所述待翻譯句子和候選譯文包括的N元短語分別對應的神經網路語言模型樣本。

請參考圖10，其為本申請案的基於統計的機器翻譯方法實施例步驟S401的具體流程圖。在本實施例中，步驟S401包括如下步驟：

步驟S4011：解析所述待翻譯句子和所述候選譯文，獲取所述待翻譯句子和所述候選譯文包括的詞。

步驟S4011與步驟S701的處理方法是相同的，二者不同之處僅在於面向的句子不同。步驟S701面向平行預料中的來源語言句子和目的語言句子，步驟S4011面向待翻譯句子和候選譯文。二者相同之處不再贅述，相關說明詳見步驟S701部分。

步驟S4013：根據所述詞與詞向量的對應關係，獲取所述待翻譯句子和所述候選譯文包括的詞對應的詞向量。

步驟S4013與步驟S703的處理方法是相同的，二者不同之處在於：步驟S703階段的詞向量是初始的詞向量，而步驟S4013階段的詞向量是訓練好的詞向量。二者相同之處不再贅述，相關說明詳見步驟S703部分。

步驟S4015：隨機設置所述待翻譯句子的句子向量和所述候選譯文的句子向量。

透過步驟S401建構的與所述待翻譯句子和候選譯文包括的N元短語分別對應的神經網路語言模型樣本，用於從中學習獲取待翻譯句子的句子向量和所述候選譯文的句子向量。因此，在建構樣本時，還需要為待翻譯句子和候選譯文分別設置初始的句子向量。

步驟S4017：針對所述待翻譯句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述待翻譯句子的句子向量，以及所述與來源語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

步驟S4017與步驟S705的處理方法是相同的，二者不同之處僅在於面向的句子不同。步驟S705面向平行預料中的來源語言句子，步驟S4017面向待翻譯句子。二者相同之處不再贅述，相關說明詳見步驟S705部分。

步驟S4019：針對所述候選譯文包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述候選譯文的句子向量，以及所述與目的語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

步驟S4019與步驟S707的處理方法是相同的，二者不同之處僅在於面向的句子不同。步驟S707面向平行預料中的目的語言句子，步驟S4017面向候選譯文。二者相同之處不再贅述，相關說明詳見步驟S707部分。

透過步驟S401建構好與所述待翻譯句子和候選譯文包括的N元短語分別對應的神經網路語言模型樣本之後，就可以對神經網路語言模型進行訓練。

步驟S403：以最大化所述與待翻譯句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述與候選譯文包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述待翻譯句子的句子向量和所述候選譯文的句子向量之間的距離作為訓練目標，學習獲取所述待翻譯句子的句子向量和所述候選譯文的句子向量。

步驟S403與步驟S505相對應，二者不同之處在於：1)面向的神經網路語言模型樣本不同；2)調整的參數不同。

1)面向的神經網路語言模型樣本不同

步驟S505面向平行預料庫中所有句子包括的N元短語分別對應的神經網路語言模型樣本，而步驟S403面向待翻譯句子和候選譯文包括的N元短語分別對應的神經網路語言模型樣本。

2)調整的參數不同

步驟S505調整的參數包括：詞向量、句子向量，以及與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型中的各個連接權重。而步驟S403僅調整待翻譯句子和候選譯文對應的句子向量。

綜上所述，步驟S505的訓練目標是獲取詞與詞向量的對應關係、與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型；而步驟S403的訓練目標是獲取待翻譯句子的句子向量和候選譯文的句子向量。步驟S403與步驟S505相同之處不再贅述，相關說明詳見步驟S505部分。

請參考圖11，其為本申請案的基於統計的機器翻譯方法實施例步驟S403的具體流程圖。在本實施例中，步驟S403包括：

步驟S4031：根據已建構的各個神經網路語言模型樣本，計算第一目標函數的值。

本申請案實施例所述的第一目標函數，是指第一平均值與第二平均值之和，與所述待翻譯句子的句子向量和所述候選譯文的句子向量之間的距離的差值；所述第一平均值，是指所述與待翻譯句子包括的各個N元短語對應的神經網路語言模型樣本的似然機率的平均值；所述第二平均值，是指所述與候選譯文包括的各個N元短語對應的神經網路語言模型樣本的似然機率的平均值。

當建構好待翻譯句子和候選譯文的各個神經網路語言模型樣本後，就可以根據神經網路語言模型的輸入層變數及網路中的各個參數，計算各個神經網路語言模型樣本的似然機率，以及所述待翻譯句子的句子向量和所述候選譯文的句子向量之間的距離，並計算第一目標函數的值。

步驟S4033：判斷所述第一目標函數的值是否大於上一次所述第一目標函數的值；若是，則採用最優化演算法，更新所述待翻譯句子的句子向量和所述候選譯文的句子向量，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第一目標函數的值的步驟。

步驟S4033與步驟S5053相對應，訓練過程是相同的，此處不再贅述，相關說明詳見步驟S5053部分。下述描述的步驟僅僅是示意性的。

在本實施例中，所述最優化演算法採用隨機梯度演算法；所述採用最優化演算法，更新所述待翻譯句子的句子向量和所述候選譯文的句子向量，包括：1)根據預設的學習速率和所述第一目標函數，計算所述待翻譯句子的句子向量和所述候選譯文的句子向量的梯度；2)根據所述待翻譯句子的句子向量和所述候選譯文的句子向量的梯度，更新所述待翻譯句子的句子向量和所述候選譯文的句子向量。

步驟S303：計算所述待翻譯句子的句子向量和所述候選譯文的句子向量之間的距離，作為所述待翻譯句子和候選譯文的語義相似度。

透過步驟S301獲取到待翻譯句子的句子向量和候選譯文的句子向量之後，就可以計算兩個句子向量之間的距離，將該距離作為待翻譯句子和候選譯文的語義相似度。

在獲取到各個候選譯文的對翻譯機率產生影響的特徵後，就可以根據各個候選譯文的對翻譯機率產生影響的特徵，以及預先生成的翻譯機率預測模型，生成待翻譯文本到各個候選譯文的翻譯機率。

本申請案實施例所述的預先生成的翻譯機率預測模型，是指透過機器學習演算法，從預先儲存的平行預料中學習出的翻譯機率預測模型。具體的，能夠採用的機器學習演算法包括線性回歸、回歸決策樹或反覆運算決策樹等演算法。不同演算法生成的翻譯機率的準確度不同，不同演算法的計算複雜度也不相同，在實際應用中，根據具體應用需求，可以選擇任意一種機器學習演算法生成翻譯機率預測模型。

在本實施例中，採用線性回歸演算法，從預先儲存的平行預料中學習出的翻譯機率預測模型。在基於線性回歸的翻譯機率預測模型中，每個對翻譯機率產生影響的特徵均有各自的權重，這些權重用於控制不同特徵對待翻譯文本到候選譯文的翻譯機率的影響力。

在基於統計的機器翻譯過程中，可以將獲取的平行語料分為三部分，第一部分用於詞對齊及短語抽取，第二部分用於翻譯機率預測模型的訓練，第三部分則用於系統評價。其中，在第二部分和第三部分的資料中，每個來源語言句子最好能有多條參考翻譯。

在本實施例中，採用最小化錯誤率訓練演算法，透過在所準備的上述第二部分資料--優化集(Tuning Set)上優化翻譯特徵的權重，使得給定的優化準則最優化。一般常見的優化準則包括資訊熵，BLEU，TER等。這一階段需要使用解碼器對優化集進行多次解碼，每次解碼產生M個得分最高的結果，並調整翻譯特徵的權重。當權重被調整時，N個結果的排序也會發生變化，而得分最高者，即解碼結果，將被用於計算BLEU得分或TER。當得到一組新的權重，使得整個優化集的得分得到改進後，將重新進行下一輪解碼。如此往復直至不能觀察到新的改進。

在實際應用中，根據選取的M值的不同、優化集的大小、模型大小及解碼器速度，訓練時間可能需要數小時或數日。透過翻譯特徵的權重，使得翻譯系統在客觀評價準則上的得分越來越高，同時，還需要不斷改進客觀評價準則，使得客觀評價準則與主觀評價準則越來越接近。

在進行實際翻譯過程中，可以根據具體需求，選擇上述對翻譯機率產生影響的各種特徵的任意組合，並在確定特徵的權重後，計算待翻譯句子到每一個候選翻譯的翻譯機率。

步驟S105：選取預設數量的所述翻譯機率排在高位的候選譯文，作為所述待翻譯句子的譯文。

透過步驟S103獲取到待翻譯句子到每一個候選翻譯的翻譯機率之後，從所有候選翻譯中選取預設數量的翻譯機率排在高位的候選譯文，作為待翻譯句子的候選譯文。

在本實施例中，選取所述翻譯機率中的最大值所對應的候選譯文，作為所述待翻譯句子的譯文，採用如下計算公式：

其中，t*為待翻譯句子的最終譯文，h _i(s,t)為第i個對翻譯機率產生影響的特徵，λ _i為第i個對翻譯機率產生影響的特徵所對應的權重，I為對翻譯機率產生影響的特徵的數量，T為候選譯文的數量，s為待翻譯句子，t為候選譯文。

在上述的實施例中，提供了一種基於統計的機器翻譯方法，與之相對應的，本申請案還提供一種基於統計的機器翻譯裝置。該裝置是與上述方法的實施例相對應。

請參看圖12，其為本申請案的基於統計的機器翻譯裝置實施例的示意圖。由於裝置實施例基本相似於方法實施例，所以描述得比較簡單，相關之處參見方法實施例的部分說明即可。下述描述的裝置實施例僅僅是示意性的。

本實施例的一種基於統計的機器翻譯裝置，包括：生成候選譯文單元101，用於根據預先生成的翻譯規則，對待翻譯句子進行解碼，生成所述待翻譯句子的候選譯文；計算翻譯機率單元103，用於根據各個候選譯文的對翻譯機率產生影響的特徵，以及預先生成的翻譯機率預測模型，生成所述待翻譯句子到各個候選譯文的翻譯機率；所述對翻譯機率產生影響的特徵至少包括所述待翻譯句子和所述候選譯文的語義相似度；選取單元105，用於選取預設數量的所述翻譯機率排在高位的候選譯文，作為所述待翻譯句子的譯文。

請參看圖13，其為本申請案的基於統計的機器翻譯裝置實施例的具體示意圖。可選的，還包括：計算語義相似度單元201，用於計算所述待翻譯句子和候選譯文的語義相似度。

請參看圖14，其為本申請案的基於統計的機器翻譯裝置實施例計算語義相似度單元201的具體示意圖。可選的，所述計算語義相似度單元201包括：獲取子單元2011，用於獲取所述待翻譯句子的句子向量，以及所述候選譯文的句子向量；計算子單元2013，用於計算所述待翻譯句子的句子向量和所述候選譯文的句子向量之間的距離，作為所述待翻譯句子和候選譯文的語義相似度；其中，所述待翻譯句子的句子向量和所述候選譯文的句子向量包括句子的語義資訊。

可選的，還包括：生成句子向量單元202，用於生成所述待翻譯句子的句子向量，以及所述候選譯文的句子向量。

請參看圖15，其為本申請案的基於統計的機器翻譯裝置實施例生成句子向量單元202的具體示意圖。可選的，所述生成句子向量單元202包括：建構樣本子單元2021，用於根據預先生成的詞與詞向量的對應關係、與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，建構與所述待翻譯句子和候選譯文包括的N元短語分別對應的神經網路語言模型樣本；學習子單元2023，用於以最大化所述與待翻譯句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述與候選譯文包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述待翻譯句子的句子向量和所述候選譯文的句子向量之間的距離作為訓練目標，學習獲取所述待翻譯句子的句子向量和所述候選譯文的句子向量；其中，所述來源語言是指所述待翻譯句子所屬的語言；所述目的語言是指所述候選譯文所屬的語言；所述神經網路語言模型的輸入層包括與所述N元短語所在的句子對應的句子向量。

可選的，所述建構樣本子單元2021包括：解析子單元，用於解析所述待翻譯句子和所述候選譯文，獲取所述待翻譯句子和所述候選譯文包括的詞；映射子單元，用於根據所述詞與詞向量的對應關係，獲取所述待翻譯句子和所述候選譯文包括的詞對應的詞向量；設置子單元，用於隨機設置所述待翻譯句子的句子向量和所述候選譯文的句子向量；第一建構子單元，用於針對所述待翻譯句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述待翻譯句子的句子向量，以及所述與來源語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本；第二建構子單元，用於針對所述候選譯文包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述候選譯文的句子向量，以及所述與目的語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

可選的，所述學習子單元2023包括：計算子單元，用於根據已建構的各個神經網路語言模型樣本，計算第一目標函數的值；判斷子單元，用於判斷所述第一目標函數的值是否大於上一次所述第一目標函數的值；若是，則採用最優化演算法，更新所述待翻譯句子的句子向量和所述候選譯文的句子向量，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第一目標函數的值的步驟；其中，所述第一目標函數，是指第一平均值與第二平均值之和，與所述待翻譯句子的句子向量和所述候選譯文的句子向量之間的距離的差值；所述第一平均值，是指所述與待翻譯句子包括的各個N元短語對應的神經網路語言模型樣本的似然機率的平均值；所述第二平均值，是指所述與候選譯文包括的各個N元短語對應的神經網路語言模型樣本的似然機率的平均值。

可選的，還包括：訓練單元203，用於生成所述詞與詞向量的對應關係、所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。

請參看圖16，其為本申請案的基於統計的機器翻譯裝置實施例訓練單203的具體示意圖。可選的，所述訓練單元203包括：獲取子單元2031，用於獲取平行語料庫；解析子單元2033，用於解析所述平行語料庫包括的各個句子，獲取所述平行語料庫包括的所有詞；設置子單元2035，用於為所述平行語料庫包括的各個詞設置第一預設維度的詞向量，形成所述詞和詞向量的對應關係；以及為所述各個句子隨機設置第二預設維度的句子向量；建構子單元2037，用於針對所述平行語料庫中的各對平行語料，根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本；學習子單元2039，用於以最大化所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，學習獲取所述詞與詞向量的對應關係、所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。

可選的，所述建構子單元2037包括：解析子單元，用於解析所述來源語言句子和所述目的語言句子，獲取所述來源語言句子和所述目的語言句子包括的詞；映射子單元，用於根據所述詞與詞向量的對應關係，獲取所述來源語言句子和所述目的語言句子包括的詞對應的詞向量；第一建構子單元，用於針對所述來源語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述來源語言句子的句子向量，以及所述與來源語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本；第二建構子單元，用於針對所述目的語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述目的語言句子的句子向量，以及所述與目的語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

可選的，所述學習子單元2039包括：計算子單元，用於根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值；判斷子單元，用於判斷所述第二目標函數的值是否大於上一次所述第二目標函數的值；若是，則採用最優化演算法，更新所述詞向量、所述來源語言句子的句子向量和所述目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值的步驟；其中，所述第二目標函數，是指第三平均值與第四平均值之和，與所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和的差值；所述第三平均值，是指所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值；所述第四平均值，是指所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值。

請參看圖17，其為本申請案的基於統計的機器翻譯裝置實施例生成候選譯文單元101的具體示意圖。可選的，所述生成候選譯文單元101包括：解析子單元1011，用於解析所述待翻譯句子，生成所述待翻譯句子的各個子字串；獲取子單元1013，用於根據所述預先生成的翻譯規則，獲取各個所述子字串的候選譯文；拼接子單元1015，用於根據所述子字串在所述待翻譯句子中的位置，將相鄰子字串的候選譯文進行組合拼接，形成所述待翻譯句子的候選譯文。

可選的，所述獲取子單元1013包括：判斷子單元，用於針對各個所述翻譯規則，判斷所述子字串是否屬於所述翻譯規則；生成子單元，用於若上述判斷結果為是，則根據所述翻譯規則，生成所述子字串的候選譯文。

請參考圖18，其為本申請案的又一電子設備實施例的示意圖。由於設備實施例基本相似於方法實施例，所以描述得比較簡單，相關之處參見方法實施例的部分說明即可。下述描述的設備實施例僅僅是示意性的。

本實施例的一種電子設備，該電子設備包括：顯示器1801；處理器1802；以及記憶體1803，所述記憶體1803用於儲存基於統計的機器翻譯裝置，所述基於統計的機器翻譯裝置被所述處理器1802執行時，包括如下步驟：根據預先生成的翻譯規則，對待翻譯句子進行解碼，生成所述待翻譯句子的候選譯文；根據各個候選譯文的對翻譯機率產生影響的特徵，以及預先生成的翻譯機率預測模型，生成所述待翻譯句子到各個候選譯文的翻譯機率；所述對翻譯機率產生影響的特徵至少包括所述待翻譯句子和所述候選譯文的語義相似度；選取預設數量的所述翻譯機率排在高位的候選譯文，作為所述待翻譯句子的譯文。

本申請案提供的基於統計的機器翻譯方法、裝置及電子設備，透過根據各個候選譯文的對翻譯機率產生影響的特徵，以及預先生成的翻譯機率預測模型，生成待翻譯句子到各個候選譯文的翻譯機率，其中所述對翻譯機率產生影響的特徵至少包括所述待翻譯句子和所述候選譯文的語義相似度，並選取預設數量的翻譯機率排在高位的候選譯文，作為待翻譯句子的譯文，使得在建構機器翻譯模型時，能夠深入到自然語言的語義層面，避免譯文與原文的語義有偏差，從而達到提高翻譯品質的效果。

本申請案還提供一種語義相似度的計算方法，其核心的基本思想為：將具有語義資訊的來源語言句子的句子向量與目的語言句子的句子向量之間的向量距離，作為來源語言句子和目的語言句子的語義相似度，其中句子向量表示的語義資訊是跨語言的。由於句子向量具有跨語言的語義資訊，使得能夠計算不同語言句子之間的語義相似度。

請參考圖19，其為本申請案提供的一種語義相似度的計算方法的實施例的流程示意圖，本實施例與第一實施例內容相同的部分不再贅述，請參見實施例一中的相應部分。本申請案提供的一種語義相似度的計算方法包括：

步驟S1901：獲取待計算的來源語言句子的句子向量，以及待計算的目的語言句子的句子向量。

步驟S1901與實施例一中步驟S301相對應，本實施例待計算的來源語言句子與實施例一的待翻譯句子相對應，待計算的目的語言句子與實施例一的候選譯文相對應。兩個步驟相同之處此處不再贅述，相關說明詳見步驟S301部分。

本申請案實施例所述的待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量包括句子的語義資訊。

在本實施例中，所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量，採用如下步驟生成：

步驟S2001：根據預先生成的詞與詞向量的對應關係、與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，建構與所述待計算的來源語言句子和待計算的目的語言句子包括的N元短語分別對應的神經網路語言模型樣本。

在本實施例中，步驟S2001包括：

步驟S20011：解析所述待計算的來源語言句子和所述待計算的目的語言句子，獲取所述待計算的來源語言句子和所述待計算的目的語言句子包括的詞。

步驟S20013：根據所述詞與詞向量的對應關係，獲取所述待計算的來源語言句子和所述待計算的目的語言句子包括的詞對應的詞向量。

步驟S20015：隨機設置所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量。

步驟S20017：針對所述待計算的來源語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述待計算的來源語言句子的句子向量，以及所述與來源語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

步驟S20019：針對所述待計算的目的語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述待計算的目的語言句子的句子向量，以及所述與目的語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

步驟S2003：以最大化所述與待計算的來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述與待計算的目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量之間的距離作為訓練目標，學習獲取所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量。

在本實施例中，步驟S2003包括：

步驟S20031：根據已建構的各個神經網路語言模型樣本，計算第一目標函數的值。

其中，所述第一目標函數，是指第一平均值與第二平均值之和，與所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量之間的距離的差值；所述第一平均值，是指所述與待計算的來源語言句子包括的各個N元短語對應的神經網路語言模型樣本的似然機率的平均值；所述第二平均值，是指所述與待計算的目的語言句子包括的各個N元短語對應的神經網路語言模型樣本的似然機率的平均值。

步驟S20033：判斷所述第一目標函數的值是否大於上一次所述第一目標函數的值；若是，則採用最優化演算法，更新所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第一目標函數的值的步驟。

在本實施例中，所述最優化演算法採用隨機梯度演算法；所述採用最優化演算法，更新所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量，包括：1)根據預設的學習速率和所述第一目標函數，計算所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量的梯度；2)根據所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量的梯度，更新所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量。

在本實施例中，所述詞與詞向量的對應關係、所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，採用如下步驟生成：

步驟S2101：獲取平行語料庫。

步驟S2103：解析所述平行語料庫包括的各個句子，獲取所述平行語料庫包括的所有詞。

步驟S2105：為所述平行語料庫包括的各個詞設置第一預設維度的詞向量，形成所述詞和詞向量的對應關係；以及為所述各個句子隨機設置第二預設維度的句子向量。

步驟S2107：針對所述平行語料庫中的各對平行語料，根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與所述平行語料中來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本。

在本實施例中，所述根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與所述平行語料中來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本，包括：

步驟S2201：解析所述平行語料中來源語言句子和目的語言句子，獲取所述平行語料中來源語言句子和目的語言句子包括的詞。

步驟S2203：根據所述詞與詞向量的對應關係，獲取所述平行語料中來源語言句子和目的語言句子包括的詞對應的詞向量。

步驟S2205：針對所述平行語料中來源語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述平行語料中來源語言句子的句子向量，以及所述與來源語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

步驟S2207：針對所述平行語料中目的語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述平行語料中目的語言句子的句子向量，以及所述與目的語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

步驟S2109：以最大化所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，學習獲取所述詞與詞向量的對應關係、所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。

在本實施例中，步驟S2109包括：

步驟S21091：根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值。

其中，所述第二目標函數，是指第三平均值與第四平均值之和，與所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和的差值；所述第三平均值，是指所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值；所述第四平均值，是指所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值。

步驟S21093：判斷所述第二目標函數的值是否大於上一次所述第二目標函數的值；若是，則採用最優化演算法，更新所述詞向量、所述平行語料中來源語言句子的句子向量和目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值的步驟。

在本實施例中，所述最優化演算法採用隨機梯度演算法；所述採用最優化演算法，更新所述詞向量、所述平行語料中來源語言句子的句子向量和目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，包括：1)根據預設的學習速率和所述第二目標函數，計算所述詞向量、所述平行語料中來源語言句子的句子向量和目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型的連接權重的梯度；2)根據所述詞向量、所述平行語料中來源語言句子的句子向量和目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型的連接權重的梯度，更新所述詞向量、所述平行語料中來源語言句子的句子向量和目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。

步驟S1903：計算所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量之間的距離，作為所述待計算的來源語言句子和待計算的目的語言句子的語義相似度。

步驟S1903與實施例一中步驟S303相對應，相同之處此處不再贅述，相關說明詳見步驟S303部分。

在上述的實施例中，提供了一種語義相似度的計算方法，與之相對應的，本申請案還提供一種語義相似度的計算裝置。該裝置是與上述方法的實施例相對應。

請參看圖20，其為本申請案的語義相似度的計算裝置實施例的示意圖。由於裝置實施例基本相似於方法實施例，所以描述得比較簡單，相關之處參見方法實施例的部分說明即可。下述描述的裝置實施例僅僅是示意性的。

本實施例的一種語義相似度的計算裝置，包括：獲取單元2001，用於獲取待計算的來源語言句子的句子向量，以及待計算的目的語言句子的句子向量；計算子單元2003，用於計算所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量之間的距離，作為所述待計算的來源語言句子和待計算的目的語言句子的語義相似度；其中，所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量包括句子的語義資訊。

請參考圖21，其為本申請案的又一電子設備實施例的示意圖。由於設備實施例基本相似於方法實施例，所以描述得比較簡單，相關之處參見方法實施例的部分說明即可。下述描述的設備實施例僅僅是示意性的。

本實施例的又一種電子設備，該電子設備包括：顯示器2101；處理器2102；以及記憶體2103，所述記憶體2103用於儲存語義相似度的計算裝置，所述語義相似度的計算裝置被所述處理器2102執行時，包括如下步驟：獲取待計算的來源語言句子的句子向量，以及待計算的目的語言句子的句子向量；計算所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量之間的距離，作為所述待計算的來源語言句子和待計算的目的語言句子的語義相似度；其中，所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量包括句子的語義資訊。

本申請案提供的語義相似度的計算方法、裝置及電子設備，透過獲取待計算的來源語言句子的句子向量，以及待計算的目的語言句子的句子向量；計算所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量之間的距離，作為所述待計算的來源語言句子和待計算的目的語言句子的語義相似度；其中，所述待計算的來源語言句子的句子向量和所述待計算的目的語言句子的句子向量包括句子的語義資訊，使得能夠計算不同語言句子之間的語義相似度。

本申請案還提供一種詞量化方法，下面首先介紹一下現有技術的詞量化方法。

現有技術利用神經網路語言模型，將基本的自然語言成分“詞”以較為合理的方式轉變成為更適應於機器學習的數學表達形式，即詞向量。詞向量能夠有效地抓取自然語言之間語義的資訊，因此，詞向量最大的優點是可計算性，若將所有詞向量放在一起形成一個向量空間，而每一向量則為該空間中的一個點，則可以根據點之間的“幾何距離”來判斷詞之間的語義相似度。例如，中文詞“話筒”和“麥克風”經過神經網路語言模型訓練後能產生對應的具有K維度實數向量：“話筒”=>[0.123534,-0.34155,0.256654,…,0.64324]，“麥克風”=>[0.120354,-0.34901,0.256934,…,0.643463]，可見這兩個詞向量在向量空間中的幾何距離非常接近。

目前，業界最為流行的一個神經網路語言模型為Google公司所提出的Word2Vec模型，此模型為文本建構一個神經網路語言模型，專門為自然語言最基本單元“詞”生成向量。簡單來說，此模型為每個N元語言模型樣本建構同樣的一種前向三層神經網路，輸入層變數是上文N-1個詞，每個詞用一個K維向量表示，然後將這N-1個的詞向量拼起來投射到網路的隱藏層，輸出層是一個對N元語言模型的尾詞的預測機率。

然而，現有的神經網路語言模型僅集中在單一語言上生成詞向量，因而，無法做到跨語言間的語義知識學習。綜上所述，現有技術存在生成的詞向量所表示的語義資訊僅適用於同一語言的同義詞，而無法適用於跨語言的互譯詞的問題。

本申請案提供一種詞量化方法，其核心的基本思想為：基於平行預料建構跨語言的神經網路語言模型，並且模型的輸入層包括N元語言模型樣本所在的句子對應的句子向量，在訓練神經網路語言模型時，以最大化平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，學習獲取詞向量。由於將N元短語上下文的前N-1個詞的詞向量連同N元短語所在句子對應的句子向量一起作為上下文背景進行融合，真正充分地利用N元短語所處的句子資訊來預測下一個詞，使得學習到的詞向量富含雙語的語義知識。

請參考圖22，其為本申請案提供的一種詞量化方法的實施例的流程示意圖，本實施例與第一實施例內容相同的部分不再贅述，請參見實施例一中的相應部分。本申請案提供的一種詞量化方法包括：

步驟S2201：獲取平行語料庫。

步驟S2201與實施例一中步驟S501相對應，相同之處此處不再贅述，相關說明詳見步驟S501部分。

步驟S2202：解析所述平行語料庫包括的各個句子，獲取所述平行語料庫包括的所有詞。

步驟S2202與實施例一中步驟S502相對應，相同之處此處不再贅述，相關說明詳見步驟S502部分。

步驟S2203：為所述平行語料庫包括的各個詞設置第一預設維度的詞向量，形成詞和詞向量的對應關係；以及為所述各個句子隨機設置第二預設維度的句子向量。

步驟S2203與實施例一中步驟S503相對應，相同之處此處不再贅述，相關說明詳見步驟S503部分。

步驟S2204：針對所述平行語料庫中的各對平行語料，根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與所述平行語料中來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本。

步驟S2204與實施例一中步驟S504相對應，相同之處此處不再贅述，相關說明詳見步驟S504部分。

在本實施例中，所述根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與所述平行語料中來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本，包括：解析所述平行語料中來源語言句子和目的語言句子，獲取所述平行語料中來源語言句子和目的語言句子包括的詞；根據所述詞與詞向量的對應關係，獲取所述平行語料中來源語言句子和目的語言句子包括的詞對應的詞向量；針對所述平行語料中來源語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述平行語料中來源語言句子的句子向量，以及所述與來源語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本；針對所述平行語料中目的語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述平行語料中目的語言句子的句子向量，以及所述與目的語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

步驟S2205：以最大化所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，訓練所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，獲取所述詞與詞向量的對應關係。

步驟S2205與實施例一中步驟S505相對應，相同之處此處不再贅述，相關說明詳見步驟S505部分。

在本實施例中，步驟S2205包括：根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值；判斷所述第二目標函數的值是否大於上一次所述第二目標函數的值；若是，則採用最優化演算法，更新所述詞向量、所述平行語料中來源語言句子的句子向量和目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值的步驟；其中，所述第二目標函數，是指第三平均值與第四平均值之和，與所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和的差值；所述第三平均值，是指所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值；所述第四平均值，是指所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值。

需要說明的是，本申請案實施例還提供了一種較佳的詞量化方法，該方法訓練的神經網路語言模型具有以下特點：1)採用三層前向神經網路演算語言模型；2)神經網路語言模型的輸入層到隱藏層的各個連接權重均相同，且輸入層到輸出層的各個連接權重為0；3)神經網路語言模型的隱藏層的激勵函數為線性函數，具體的，隱藏層的向量值為輸入層的各個向量值的加和平均值。訓練具有上述特點的神經網路語言模型，僅需要數小時的時間即可完成對千萬級別資料的學習。而現有技術在學習詞向量時所訓練神經網路語言模型，在大規模平行語料上的訓練時間往往需要花費數十天。可見，採用該較佳方法，能夠達到提高學習效率的效果。

在上述的實施例中，提供了一種詞量化方法，與之相對應的，本申請案還提供一種詞量化裝置。該裝置是與上述方法的實施例相對應。

請參看圖23，其為本申請案的詞量化裝置實施例的示意圖。由於裝置實施例基本相似於方法實施例，所以描述得比較簡單，相關之處參見方法實施例的部分說明即可。下述描述的裝置實施例僅僅是示意性的。

本實施例的一種詞量化裝置，包括：獲取單元2301，用於獲取平行語料庫；解析單元2302，用於解析所述平行語料庫包括的各個句子，獲取所述平行語料庫包括的所有詞；設置單元2303，用於為所述平行語料庫包括的各個詞設置第一預設維度的詞向量，形成詞和詞向量的對應關係；以及為所述各個句子隨機設置第二預設維度的句子向量；建構單元2304，用於針對所述平行語料庫中的各對平行語料，根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與所述平行語料中來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本；學習單元2305，用於以最大化所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，訓練所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，獲取所述詞與詞向量的對應關係；其中，所述神經網路語言模型的輸入層包括與所述N元短語所在的句子對應的句子向量。

可選的，所述建構單元2304包括：解析子單元，用於解析所述平行語料中來源語言句子和目的語言句子，獲取所述平行語料中來源語言句子和目的語言句子包括的詞；映射子單元，用於根據所述詞與詞向量的對應關係，獲取所述平行語料中來源語言句子和目的語言句子包括的詞對應的詞向量；第一建構子單元，用於針對所述平行語料中來源語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述平行語料中來源語言句子的句子向量，以及所述與來源語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本；第二建構子單元，用於針對所述平行語料中目的語言句子包括的各個N元短語，根據所述N元短語包括的詞對應的詞向量和所述平行語料中目的語言句子的句子向量，以及所述與目的語言對應的神經網路語言模型，建構與所述N元短語對應的神經網路語言模型樣本。

可選的，所述學習單元2305包括：計算子單元，用於根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值；判斷子單元，用於判斷所述第二目標函數的值是否大於上一次所述第二目標函數的值；若是，則採用最優化演算法，更新所述詞向量、所述平行語料中來源語言句子的句子向量和目的語言的句子向量及所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，並返回執行所述根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值的步驟；其中，所述第二目標函數，是指第三平均值與第四平均值之和，與所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和的差值；所述第三平均值，是指所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值；所述第四平均值，是指所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值。

請參考圖24，其為本申請案的再一電子設備實施例的示意圖。由於設備實施例基本相似於方法實施例，所以描述得比較簡單，相關之處參見方法實施例的部分說明即可。下述描述的設備實施例僅僅是示意性的。

本實施例的再一種電子設備，該電子設備包括：顯示器2401；處理器2402；以及記憶體2403，所述記憶體2403用於儲存詞量化裝置，所述詞量化裝置被所述處理器2402執行時，包括如下步驟：獲取平行語料庫；解析所述平行語料庫包括的各個句子，獲取所述平行語料庫包括的所有詞；為所述平行語料庫包括的各個詞設置第一預設維度的詞向量，形成詞和詞向量的對應關係；以及為所述各個句子隨機設置第二預設維度的句子向量；針對所述平行語料庫中的各對平行語料，根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與所述平行語料中來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本；以最大化所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，訓練所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，獲取所述詞與詞向量的對應關係；其中，所述神經網路語言模型的輸入層包括與所述N元短語所在的句子對應的句子向量。

本申請案提供的詞量化方法、裝置及電子設備，透過獲取平行語料庫；解析所述平行語料庫包括的各個句子，獲取所述平行語料庫包括的所有詞；為所述平行語料庫包括的各個詞設置第一預設維度的詞向量，形成詞和詞向量的對應關係；以及為所述各個句子隨機設置第二預設維度的句子向量；針對所述平行語料庫中的各對平行語料，根據所述詞與詞向量的對應關係、所述平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與所述平行語料中來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本；以最大化所述平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及所述平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化所述平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，訓練所述與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，獲取所述詞與詞向量的對應關係；其中，所述神經網路語言模型的輸入層包括與所述N元短語所在的句子對應的句子向量，使得生成的詞向量所具有的語義資訊適用於跨語言的互譯詞。

本申請案雖然以較佳實施例公開如上，但其並不是用來限定本申請案，任何本領域技術人員在不脫離本申請案的精神和範圍內，都可以做出可能的變動和修改，因此本申請案的保護範圍應當以本申請案申請專利範圍所界定的範圍為準。

在一個典型的配置中，計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。

記憶體可能包括電腦可讀媒體中的非永久性記憶體，隨機存取記憶體(RAM)和/或非易失性記憶體等形式，如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。

1、電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括，但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體，可用於儲存可以被計算設備訪問的資訊。按照本文中的界定，電腦可讀媒體不包括非暫存電腦可讀媒體(transitory media)，如調製的資料信號和載波。

2、本領域技術人員應明白，本申請案的實施例可提供為方法、系統或電腦程式產品。因此，本申請案可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且，本申請案可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。

Claims

一種基於統計的機器翻譯方法，其特徵在於，包括：根據預先生成的翻譯規則，對待翻譯句子進行解碼，生成該待翻譯句子的候選譯文；根據各個候選譯文的對翻譯機率產生影響的特徵，以及預先生成的翻譯機率預測模型，生成該待翻譯句子到各個候選譯文的翻譯機率；該對翻譯機率產生影響的特徵至少包括該待翻譯句子和該候選譯文的語義相似度；選取預設數量的該翻譯機率排在高位的候選譯文，作為該待翻譯句子的譯文。
根據申請專利範圍第1項所述的基於統計的機器翻譯方法，其中，該待翻譯句子和候選譯文的語義相似度，採用如下步驟計算：獲取該待翻譯句子的句子向量，以及該候選譯文的句子向量；計算該待翻譯句子的句子向量和該候選譯文的句子向量之間的距離，作為該待翻譯句子和候選譯文的語義相似度；其中，該待翻譯句子的句子向量和該候選譯文的句子向量包括句子的語義資訊。
根據申請專利範圍第2項所述的基於統計的機器翻譯方法，其中，該待翻譯句子的句子向量和該候選譯文的句子向量，採用如下步驟生成：根據預先生成的詞與詞向量的對應關係、與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，建構與該待翻譯句子和候選譯文包括的N元短語分別對應的神經網路語言模型樣本；以最大化該與待翻譯句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及該與候選譯文包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化該待翻譯句子的句子向量和該候選譯文的句子向量之間的距離作為訓練目標，學習獲取該待翻譯句子的句子向量和該候選譯文的句子向量；其中，該來源語言是指該待翻譯句子所屬的語言；該目的語言是指該候選譯文所屬的語言；該神經網路語言模型的輸入層包括與該N元短語所在的句子對應的句子向量。
根據申請專利範圍第3項所述的基於統計的機器翻譯方法，其中，該根據預先生成的詞與詞向量的對應關係、與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，建構與該待翻譯句子和候選譯文包括的N元短語分別對應的神經網路語言模型樣本，包括：解析該待翻譯句子和該候選譯文，獲取該待翻譯句子和該候選譯文包括的詞；根據該詞與詞向量的對應關係，獲取該待翻譯句子和該候選譯文包括的詞對應的詞向量；隨機設置該待翻譯句子的句子向量和該候選譯文的句子向量；針對該待翻譯句子包括的各個N元短語，根據該N元短語包括的詞對應的詞向量和該待翻譯句子的句子向量，以及該與來源語言對應的神經網路語言模型，建構與該N元短語對應的神經網路語言模型樣本；針對該候選譯文包括的各個N元短語，根據該N元短語包括的詞對應的詞向量和該候選譯文的句子向量，以及該與目的語言對應的神經網路語言模型，建構與該N元短語對應的神經網路語言模型樣本。
根據申請專利範圍第3項所述的基於統計的機器翻譯方法，其中，該以最大化該與待翻譯句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及該與候選譯文包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化該待翻譯句子的句子向量和該候選譯文的句子向量之間的距離作為訓練目標，學習獲取該待翻譯句子的句子向量和該候選譯文的句子向量，包括：根據已建構的各個神經網路語言模型樣本，計算第一目標函數的值；判斷該第一目標函數的值是否大於上一次該第一目標函數的值；若是，則採用最優化演算法，更新該待翻譯句子的句子向量和該候選譯文的句子向量，並返回執行該根據已建構的各個神經網路語言模型樣本，計算第一目標函數的值的步驟；其中，該第一目標函數，是指第一平均值與第二平均值之和，與該待翻譯句子的句子向量和該候選譯文的句子向量之間的距離的差值；該第一平均值，是指該與待翻譯句子包括的各個N元短語對應的神經網路語言模型樣本的似然機率的平均值；該第二平均值，是指該與候選譯文包括的各個N元短語對應的神經網路語言模型樣本的似然機率的平均值。
根據申請專利範圍第5項所述的基於統計的機器翻譯方法，其中，該最優化演算法採用隨機梯度演算法；該採用最優化演算法，更新該待翻譯句子的句子向量和該候選譯文的句子向量，包括：根據預設的學習速率和該第一目標函數，計算該待翻譯句子的句子向量和該候選譯文的句子向量的梯度；根據該待翻譯句子的句子向量和該候選譯文的句子向量的梯度，更新該待翻譯句子的句子向量和該候選譯文的句子向量。
根據申請專利範圍第3項所述的基於統計的機器翻譯方法，其中，該神經網路語言模型的輸入層到隱藏層的各個連接權重均相同；該神經網路語言模型的輸入層到輸出層的各個連接權重為0。
根據申請專利範圍第3項所述的基於統計的機器翻譯方法，其中，該神經網路語言模型的隱藏層的向量值為輸入層的各個向量值的加和平均值或組合拼接。
根據申請專利範圍第3項所述的基於統計的機器翻譯方法，其中，該詞與詞向量的對應關係、該與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，採用如下步驟生成：獲取平行語料庫；解析該平行語料庫包括的各個句子，獲取該平行語料庫包括的所有詞；為該平行語料庫包括的各個詞設置第一預設維度的詞向量，形成該詞和詞向量的對應關係；以及為該各個句子隨機設置第二預設維度的句子向量；針對該平行語料庫中的各對平行語料，根據該詞與詞向量的對應關係、該平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本；以最大化該平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及該平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化該平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，學習獲取該詞與詞向量的對應關係、該與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。
根據申請專利範圍第9項所述的基於統計的機器翻譯方法，其中，該根據該詞與詞向量的對應關係、該平行語料中來源語言句子和目的語言句子分別對應的句子向量、預設的與來源語言對應的神經網路語言模型和預設的與目的語言對應的神經網路語言模型，建構與來源語言句子和目的語言句子包括的N元短語分別對應的神經網路語言模型樣本，包括：解析該來源語言句子和該目的語言句子，獲取該來源語言句子和該目的語言句子包括的詞；根據該詞與詞向量的對應關係，獲取該來源語言句子和該目的語言句子包括的詞對應的詞向量；針對該來源語言句子包括的各個N元短語，根據該N元短語包括的詞對應的詞向量和該來源語言句子的句子向量，以及該與來源語言對應的神經網路語言模型，建構與該N元短語對應的神經網路語言模型樣本；針對該目的語言句子包括的各個N元短語，根據該N元短語包括的詞對應的詞向量和該目的語言句子的句子向量，以及該與目的語言對應的神經網路語言模型，建構與該N元短語對應的神經網路語言模型樣本。
根據申請專利範圍第9項所述的基於統計的機器翻譯方法，其中，該以最大化該平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，以及該平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率之和，同時最小化該平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和作為訓練目標，學習獲取該詞與詞向量的對應關係、該與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，包括：根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值；判斷該第二目標函數的值是否大於上一次該第二目標函數的值；若是，則採用最優化演算法，更新該詞向量、該來源語言句子的句子向量和該目的語言的句子向量及該與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，並返回執行該根據已建構的各個神經網路語言模型樣本，計算第二目標函數的值的步驟；其中，該第二目標函數，是指第三平均值與第四平均值之和，與該平行語料庫中所有成對的來源語言句子的句子向量和目的語言句子的句子向量之間的距離之和的差值；該第三平均值，是指該平行語料庫中所有來源語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值；該第四平均值，是指該平行語料庫中所有目的語言句子包括的N元短語分別對應的神經網路語言模型樣本的似然機率的平均值。
根據申請專利範圍第11項所述的基於統計的機器翻譯方法，其中，該最優化演算法採用隨機梯度演算法；該採用最優化演算法，更新該詞向量、該來源語言句子的句子向量和該目的語言的句子向量及該與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型，包括：根據預設的學習速率和該第二目標函數，計算該詞向量、該來源語言句子的句子向量和該目的語言的句子向量及該與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型的連接權重的梯度；根據該詞向量、該來源語言句子的句子向量和該目的語言的句子向量及該與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型的連接權重的梯度，更新該詞向量、該來源語言句子的句子向量和該目的語言的句子向量及該與來源語言對應的神經網路語言模型和與目的語言對應的神經網路語言模型。
根據申請專利範圍第1-12項之任意一項所述的基於統計的機器翻譯方法，其中，該對翻譯機率產生影響的特徵還包括：該待翻譯句子到該候選譯文的短語翻譯機率、該候選譯文到該待翻譯句子的短語翻譯機率、該待翻譯句子到該候選譯文的詞翻譯機率、該候選譯文到該待翻譯句子的詞翻譯機率、該候選譯文的句子機率和該待翻譯句子與該候選譯文調序與不調序的分類機率的至少一者。
根據申請專利範圍第1-12項之任意一項所述的基於統計的機器翻譯方法，其中，該根據預先生成的翻譯規則，對待翻譯句子進行解碼，生成該待翻譯句子的候選譯文，採用如下方式演算法實現：CYK解碼演算法、基於堆疊的解碼演算法或移進-歸約解碼演算法。
根據申請專利範圍第1項所述的基於統計的機器翻譯方法，其中，該根據預先生成的翻譯規則，對待翻譯句子進行解碼，生成該待翻譯句子的候選譯文，包括：解析該待翻譯句子，生成該待翻譯句子的各個子字串；根據該預先生成的翻譯規則，獲取各個該子字串的候選譯文；根據該子字串在該待翻譯句子中的位置，將相鄰子字串的候選譯文進行組合拼接，形成該待翻譯句子的候選譯文。
根據申請專利範圍第15項所述的基於統計的機器翻譯方法，其中，該根據該預先生成的翻譯規則，獲取各個該子字串的候選譯文，包括：針對各個該翻譯規則，判斷該子字串是否屬於該翻譯規則；若上述判斷結果為是，則根據該翻譯規則，生成該子字串的候選譯文。