TWI682325B - 辨識系統及辨識方法 - Google Patents
辨識系統及辨識方法 Download PDFInfo
- Publication number
- TWI682325B TWI682325B TW107141171A TW107141171A TWI682325B TW I682325 B TWI682325 B TW I682325B TW 107141171 A TW107141171 A TW 107141171A TW 107141171 A TW107141171 A TW 107141171A TW I682325 B TWI682325 B TW I682325B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- features
- parameters
- training
- processor
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
一種辨識方法,包含:接收一訓練語音或接收一訓練影像;以及擷取訓練語音中的複數個語音特徵,或擷取訓練影像中的複數個影像特徵;其中,當擷取出此些語音特徵後,依據此些語音特徵產生一特定數量的複數個語音參數,將此些語音參數輸入一深度神經網絡,以產生一辨識模型;其中,當擷取出此些影像特徵後,依據此些影像特徵產生特定數量的複數個影像參數,並將些影像參數輸入深度神經網絡,以產生辨識模型。
Description
本揭露是關於一種辨識系統及辨識方法,特別是關於一種可以辨識聲音或影像的辨識系統及辨識方法。
一般而言,在辨識影像或聲音時,可以用隱藏式馬可夫模型(Hidden Markov Models,HMM),此演算法透過對大量語音與影像數據進行數據統計,建立識別字的統計模型,然後從待識別語音和影像中分別提取特徵,並將此些特徵與統計模型中的多個參數比對,以獲得多個候選結果及其對應的比對分數,並選擇比對分數較高者所對應的候選結果,作為辨識結果。
然而,此演算法若要達到辨識影像及/或聲音兩者,使用的統計模型應分屬兩個系統,所需的儲存空間較高,亦無法以單一統計模型辨識出影像及/或聲音。
為了解決上述的問題,本揭露內容之一態樣提供了一種辨識系統,包含:一收音器、一攝像機以及一第一處理器。收音器用以接收一訓練語音。攝像機用以接收一訓練影像。第一處理器用以擷取訓練語音中的複數個語音特徵,或擷取訓練影像中的複數個影像特徵。其中,當第一處理器擷取出此些語音特徵後,依據此些語音特徵產生一特定數量的複數個語音參數,將此些語音參數輸入一深度神經網絡(Deep Neural Networks,DNN),以產生一辨識模型,當第一處理器擷取出此些影像特徵後,依據此些影像特徵產生特定數量的複數個影像參數,並將此些影像參數輸入深度神經網絡,以產生辨識模型。
本發明之另一態樣係於提供一種辨識方法,包含:接收一訓練語音或接收一訓練影像;以及擷取訓練語音中的複數個語音特徵,或擷取訓練影像中的複數個影像特徵;其中,當擷取出此些語音特徵後,依據此些語音特徵產生一特定數量的複數個語音參數,將此些語音參數輸入一深度神經網絡,以產生一辨識模型;其中,當擷取出此些影像特徵後,依據此些影像特徵產生特定數量的複數個影像參數,並將此些影像參數輸入該深度神經網絡,以產生辨識模型。
藉由本案所述之辨識系統及辨識方法,在訓練辨識模型的階段,能夠接收訓練語音或是訓練影像,藉由將擷取出來的語音特徵或是影像特徵轉換成一維特徵集(例如為一數列),並將此一維特徵集代入深度神經網絡,以產生辨識模型。本案只需一個辨識系統,即可產生語音、影像或其兩者的辨識結果,因此,本案所述之辨識系統及辨識方法可大幅降低運算量,且當同時以訓練語音及訓練影像進行辨識模型的訓練時,可提升辨識模型在預測新增資料時的準確度,故能夠達到精準地預測新增資料的類型的效果。
以下說明係為完成發明的較佳實現方式,其目的在於描述本發明的基本精神,但並不用以限定本發明。實際的發明內容必須參考之後的權利要求範圍。
必須了解的是,使用於本說明書中的”包含”、”包括”等詞,係用以表示存在特定的技術特徵、數值、方法步驟、作業處理、元件以及/或組件,但並不排除可加上更多的技術特徵、數值、方法步驟、作業處理、元件、組件,或以上的任意組合。
於請求項中使用如”第一”、"第二"、"第三"等詞係用來修飾權利要求中的元件,並非用來表示之間具有優先權順序,先行關係,或者是一個元件先於另一個元件,或者是執行方法步驟時的時間先後順序,僅用來區別具有相同名字的元件。
請參照第1A~1B、2圖,第1A圖係依照本發明一實施例繪示辨識系統之方塊圖。第1B圖係根據本發明之一實施例繪示一種辨識系統之示意圖。第2圖係根據本發明之一實施例繪示一種辨識方法200之流程圖。
於第1A圖中,辨識系統包含一第一電子裝置100,第一電子裝置100包含收音器10、攝像機20及第一處理器30。於一實施例中,第一電子裝置100例如為桌上型電腦、筆記型電腦或其他具有運算功能的裝置。於一實施例中,第一電子裝置100可以是位於雲端系統中的一伺服器或是一遠端伺服器。
於一實施例中,收音器10可以是一麥克風或具有收音功能的電子裝置。
於一實施例中,攝像機20可以是由至少一電荷耦合元件(Charge Coupled Device;CCD)或一互補式金氧半導體(Complementary Metal-Oxide Semiconductor;CMOS)感測器所組成。
於一實施例中,第一處理器30可以被實施為微控制單元(microcontroller)、微處理器(microprocessor)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit,ASIC)或一邏輯電路。
於一實施例中,辨識系統更包含一儲存裝置(未繪示),用以儲存第一處理器30的運算結果,儲存裝置可被實作為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之儲存媒體。
於第1B圖中,辨識系統更包含一第二電子裝置150,第一電子裝置100與第二電子裝置150之間藉由一通訊連結LK(例如為無線網路、有線網路或其他通訊方式)以傳輸訊息。於一實施例中,第二電子裝置150包含一第二處理器40及一儲存裝置50。於一實施例中,第二電子裝置150例如為語音盒子或其他可接收語音或圖像的電子裝置。
於一實施例中,第二處理器40可以被實施為微控制單元(microcontroller)、微處理器(microprocessor)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit,ASIC)或一邏輯電路。於一實施例中,第一處理器30的運算能力高於第二處理器40。
於一實施例中,儲存裝置50可被實作為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之儲存媒體。
以下請參閱第2圖敘述本揭露的辨識方法200之流程,辨識方法200中所提及的硬體可以由第1A或1B圖中的對應硬體以實現之。
於步驟210中,藉由收音器10接收一訓練語音或藉由攝像機20接收一訓練影像。例如,收音器10接收到的訓練語音為「零」的發音及/或是攝像機20拍攝到具有“0”圖樣的訓練影像。
於一實施例中,第一電子裝置100可同時或是先後接收一或多個訓練影像(例如依序輸入一組具有“0”到“9” 圖樣的訓練影像)及/或一或多個訓練語音(例如依序輸入一組具有「零」到「九」發音的訓練語音),在後續步驟中,僅先針對一筆訓練影像或是一個訓練語音進行處理,例如,先將訓練語音為「零」的發音及/或將訓練影像“0” 交由第一處理器30繼續進行步驟220,並以相同步驟依序處理其他訓練影像及/或訓練語音(例如,接著將訓練語音為「壹」的發音及/或將訓練影像“1”送往下個步驟220)。
於一實施例中,第一電子裝置100只需要接收到一個訓練語音或是一個訓練影像即可進行後續步驟,不需接收到訓練語音及訓練影像兩者。
於步驟220中,第一處理器30擷取訓練語音中的複數個語音特徵,或擷取訓練影像中的複數個影像特徵。於一實施例中,當第一處理器30接收到訓練語音時,擷取訓練語音中的複數個語音特徵,當第一處理器30接收到訓練影像時,擷取訓練語音中的複數個影像特徵,當第一處理器30接收到訓練影像及訓練語音時,依據接收到的順序以擷取出影像特徵及語音特徵。
於一實施例中,第一處理器30執行梅爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients,MFCC)演算法以擷取訓練語音中的此些語音特徵。然本發明並不限於應用梅爾倒頻譜係數演算法,亦可依系統實際實作方式採用其他擷取語音特徵的演算法。
於一實施例中,第一處理器30分析訓練影像中的每個像素,以取得此些影像特徵。例如,第一處理器30可以獲取訓練影像中每個點的像素值,將每個像素值都視為影像特徵。然本發明並不限於此,亦可依系統實際實作方式採用其他擷取影像特徵的演算法。
於步驟230中,當擷取出此些語音特徵後,第一處理器30依據此些語音特徵產生一特定數量的複數個語音參數,第一處理器30載入深度神經網絡的程序,將此些語音參數輸入一深度神經網絡(Deep Neural Networks,DNN)並執行深度神經網路的演算法程序;由於深度神經網絡為已知技術,為一種讓電腦可以自行分析資料找出特徵值的演算法,故此處不贅述之。當擷取出此些影像特徵後,第一處理器30依據此些影像特徵產生特定數量的複數個影像參數,並將此些影像參數輸入深度神經網絡。
於一實施例中,當第一處理器30擷取出此些語音特徵後,第一處理器30依據此些語音特徵產生特定數量的語音參數(例如為250個),並將此些語音參數以一維特徵集的方式呈現之。
於一實施例中,當第一處理器30擷取出此些影像特徵後,第一處理器30將此些影像特徵進行一化減運算以產生特定數量的影像參數(例如為250個),並將此些影像參數以一維特徵集的方式呈現之。
於一實施例中,無論第一處理器30處理的是語音特徵或是影像特徵,其輸出的語音參數或影像參數的數量都會是預設之特定數量(例如為250個)。其中,特定數量的設定並不限於此,亦可以例如為300、500或1000,可依據系統實作時進行調整。
於一實施例中,當第一處理器30處理的是影像特徵時,化減運算為將影像中所有像素分成複數個群組(例如原始影像為28*28為784個像素,將每三個像素分為一組,多餘無法成為一組的像素,則自成一組),並取出各群組中之一中間值作為影像參數之其中之一者(例如,某一組中的像素值為100、150、200,則取像素值150為影像參數之其中之一者,捨去100及200此兩個像素值),或是計算各群組的一平均值作為影像參數之其中之一者(例如,某一組中的像素值為100、150、200,則將此三者像素值取平均,得到平均值150,則取像素值150為影像參數之其中之一者),藉此可以化簡影像特徵的數量,以得到所需數量的影像參數(例如,在此例子特定數量可以設定為262個),並將此些影像參數以一維特徵集的方式(例如為數列)呈現之,第一處理器30並將此些影像參數以一維特徵集的方式代入深度神經網絡,並執行深度神經網絡的演算法程序。
其中,化減運算的方法並不限於此,可依據系統實作時進行調整。此外,語音特徵亦可以進行化簡運算,其方式與影像特徵的化簡運算相似,故此處不贅述之。
於步驟240中,第一處理器30應用深度神經網路建立辨識模型。由於深度神經網絡為已知技術,本案僅是應用深度神經網路建立辨識模型,故此處不贅述之。
於一實施例中,當第一處理器30處理此些語音參數時,第一處理器30將此些語音參數及一訓練答案(例如,答案為「零」的發音)輸入深度神經網絡,並執行深度神經網絡的演算法程序,以產生辨識模型。
於一實施例中,當第一處理器30處理此些影像參數時,將此些影像參數及訓練答案(例如,答案為“0”的影像)輸入深度神經網絡,以產生辨識模型。
於一實施例中,上述步驟210~240可以重複進行,以訓練辨識模型,提升辨識模型的辨識率,當訓練完成辨識模型後,第一處理器30透過通訊連結LK將辨識模型傳送至第二電子裝置150,第二電子裝置150可將辨識模型儲存於儲存裝置50中。接著,第二處理器40用以擷取一新增資料(例如,使用者念出一新增語音「零」及/或手寫一新增影像“0”)的複數個新增特徵,選取特定數量的此些新增特徵作為複數個新增參數(例如為250個),將此些新增參數代入第二電子裝置150中的辨識模型,以辨識新增資料,並產生一預測結果(例如,產生預測結果為:使用者念出了「零」或是使用者提供了包含“0”的影像)。
於一實施例中,在選取特定數量的此些新增特徵作為複數個新增參數之步驟中,此處所述的特定數量與步驟230所述的特定數量是相同的(例如皆設置為250),故辨識模型可以在不修改架構的情況下預測新資料的類型(即產生預測結果)。
於一實施例中,第二處理器40(例如為語音盒子中的微處理器)的運算能力不及第一處理器30(例如為伺服器中的處理器),透過上述步驟,第一處理器30可接收大量訓練資料(如訓練語音或訓練影像)並執行大量運算,以完成辨識模型的訓練,並將完成訓練的辨識模型傳送給第二電子裝置150,使得第二處理器40在接收新增資料後,直接應用辨識模型進行辨識,大幅減低了第二處理器40所需要的運算量。
換言之,第一處理器30可根據訓練資料(如訓練語音及/或訓練影像)的類型,將訓練資料轉換成一維特徵集,此一維特徵集中包含特定數量的參數。例如,在一維特徵集之中包含250個語音參數,在另一個一維特徵集之中包含250個影像參數,兩者一維特徵集中的參數數量相同,由於影像參數及語音參數的數量相同,無論輸入的是影像參數或語音參數,對於深度神經網絡而言,深度神經網絡都是接收到250筆數值,無須考慮此250筆數值為影像參數或語音參數,即可進行運算。因此,本發明可達到在同一個辨識系統上做到可接收兩種以上訓練資料(如訓練語音或訓練影像),並加以辨識的效果。
由此可知,無論辨識系統收到的是訓練語音或是訓練影像,都可以藉由將擷取出來的語音特徵或是影像特徵轉換成一維特徵集(例如為一數列),並將此一維特徵集代入深度神經網絡,以產生辨識模型。因此,本案只需一個辨識系統,即可產生語音、影像或其兩者的辨識結果。
請參閱第3圖,第3圖係依照本發明一實施例繪示辨識方法之一例。其中,步驟310~318是由第一電子裝置100執行之,步驟350~353是由第二電子裝置150執行之。於一實施例中,步驟310~318為辨識模型的訓練階段,藉由輸入大量的訓練資料(訓練語音及/或訓練影像)以產生辨識率高於一準確度門檻值(例如準確率為98%)的辨識模型,步驟350~353為應用辨識模型以預測出一新增資料(例如為手寫“0”的影像)所屬的類型(例如預測為數字“0”)。以下更具體地說明第3圖中的各個步驟。
於步驟310中,收音器10接收一訓練語音。
於步驟311中,第一處理器30擷取訓練語音中的複數個語音特徵。
於步驟312中,攝像機20接收一訓練影像。
於步驟313中,第一處理器30擷取訓練影像中的複數個影像特徵。
於一實施例中,當辨識系統同時接收到訓練語音及訓練影像時,步驟310~311與步驟312~313的執行順序可以互換。於一實施例中,第一處理器30僅執行步驟310~311或步驟312~313其中之一,視使用者輸入的是訓練語音或是訓練影像而定。
於步驟314中,第一處理器30產生一特定數量的複數個語音參數或影像參數。關於語音參數及/或影像參數的產生方式如
第2圖步驟230之對應段落所述,故此處不再贅述之。
於步驟315中,第一處理器30設置一訓練答案。例如,當訓練語音為對應「零」的發音時,將訓練語音的設置答案設為「零」的發音,及/或當訓練影像為“0”的影像時,將訓練影像的設置答案設為“0”的影像。
於步驟316中,第一處理器30將語音參數或影像參數輸入一深度神經網絡,並執行深度神經網絡的演算法程序。關於此步驟的細部內容如第2圖步驟230之對應段落所述,故此處不再贅述之。
於步驟317中,第一處理器30產生辨識模型。
於步驟318中,第一處理器30將深度神經網路輸出的一分析結果代入一修正準確度模型,藉此判斷深度神經網路輸出的分析結果所對應的一辨識率是否大於一準確度門檻值,若第一處理器30判斷深度神經網路輸出的分析結果所對應的辨識率不大於準確度門檻值,則應用一梯度下降演算法修正辨識模型中的一權重值及一偏權值。例如,第一處理器30判斷深度神經網路輸出的分析結果所對應的辨識率為60%,其不大於準確度門檻值98%時,則應用梯度下降演算法修正辨識模型中的權重值(weights)及偏權值(bias)。其中,應用梯度下降演算法調整深度神經網路中的權重值及偏權值係為本領域的已知技術,故此處不贅述之。另外,本案並不限於採用梯度下降演算法,任何可以調整深度神經網路之辨識率的演算法皆可考慮採用於辨識系統中。
其中,修正準確度模型包含複數組參數及函式,其可以採用已知的修正準確度模型,故此處不贅述之。
於一實施例中,第一處理器30在訓練辨識模型的階段,可藉由多次執行步驟310~318,輸入不同或相同的訓練資料(如訓練語音及/或訓練影像),以提升辨識模型的準確度。
於一實施例中,第一處理器30可將辨識模型儲存於第一電子裝置100中。
接著,第一處理器30將辨識模型傳送到第二處理器40。
於步驟350中,第二處理器40接收一新增資料。
於步驟351中,第二處理器40擷取新增資料的複數個新增特徵,並選取特定數量的此些新增特徵作為複數個新增參數。
於步驟352中,第二處理器40將此些新增參數代入辨識模型。
於步驟353中,第二處理器40產生一預測結果。
藉由本案所述之辨識系統及辨識方法,在訓練辨識模型的階段,能夠接收訓練語音或是訓練影像,藉由將擷取出來的語音特徵或是影像特徵轉換成一維特徵集(例如為一數列),並將此一維特徵集代入深度神經網絡,以產生辨識模型。本案只需一個辨識系統,即可產生語音、影像或其兩者的辨識結果,因此,本案所述之辨識系統及辨識方法可大幅降低運算量,且當同時以訓練語音及訓練影像進行辨識模型的訓練時,可提升辨識模型在預測新增資料時的準確度,故能夠達到精準地預測新增資料的類型的效果。
雖然本案已以實施例揭露如上,然其並非用以限定本案,任何熟習此技藝者,在不脫離本案之精神和範圍內,當可作各種之更動與潤飾,因此本案之保護範圍當視後附之申請專利範圍所界定者為準。
100‧‧‧第一電子裝置
10‧‧‧收音器
20‧‧‧攝像機
30‧‧‧第一處理器
40‧‧‧第二處理器
50‧‧‧儲存裝置
150‧‧‧第一處理器
LK‧‧‧通訊連結
200‧‧‧辨識方法
210~240、310~353‧‧‧步驟
第1A圖係依照本發明一實施例繪示辨識系統之方塊圖。 第1B圖係依照本發明一實施例繪示辨識系統之方塊圖。 第2圖係根據本發明之一實施例繪示一種辨識方法之流程圖。 第3圖係依照本發明一實施例繪示辨識方法之一例。
200‧‧‧辨識方法
210~240‧‧‧步驟
Claims (10)
- 一種辨識系統,包含:一收音器,用以接收一訓練語音;一攝像機,用以接收一訓練影像;以及一第一處理器,用以擷取該訓練語音中的複數個語音特徵,或擷取該訓練影像中的複數個影像特徵;其中,當該第一處理器擷取出該些語音特徵或該些影像特徵後,依據該些語音特徵或該些影像特徵產生一特定數量的複數個語音參數或複數個影像參數,將該些語音參數或該些影像參數輸入一深度神經網絡(Deep Neural Networks,DNN),以產生一辨識模型。
- 如申請專利範圍第1項所述之辨識系統,更包含:一第二處理器,用以擷取一新增資料的複數個新增特徵,選取該特定數量的該些新增特徵作為複數個新增參數,將該些新增參數代入該辨識模型,以辨識該新增資料,並產生一預測結果。
- 如申請專利範圍第1項所述之辨識系統,其中該第一處理器執行梅爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients,MFCC)演算法以擷取該訓練語音中的該些語音特徵,依據該些語音特徵產生該特定數量的該些個語音參數,並將該些語音參數以一維特徵集的方式呈現之。
- 如申請專利範圍第1項所述之辨識系統,其中該第一處理器分析該訓練影像中的每個像素,以取得該些影像特徵,並將該些影像特徵進行一化減運算以產生該特定數量的該些影像參數,並將該些影像參數以一維特徵集的方式呈現之。
- 如申請專利範圍第4項所述之辨識系統,其中該化減運算為將該些像素分成複數個群組,並取出各該些群組中之一中間值作為該些影像參數之其中之一者,或是計算各該些群組的一平均值作為該些影像參數之其中之一者。
- 如申請專利範圍第1項所述之辨識系統,其中該第一處理器將該些語音參數及一訓練答案輸入該深度神經網絡,以產生該辨識模型,或該第一處理器將該些影像參數及該訓練答案輸入該深度神經網絡,以產生該辨識模型。
- 如申請專利範圍第1項所述之辨識系統,其中該第一處理器判斷該深度神經網路輸出的一分析結果所對應的一辨識率是否大於一準確度門檻值,若該第一處理器判斷該深度神經網路輸出的該分析結果所對應的該辨識率不大於該準確度門檻值,則應用一梯度下降演算法修正該辨識模型中的一權重值及一偏權值。
- 一種辨識方法,包含:接收一訓練語音或接收一訓練影像;以及擷取該訓練語音中的複數個語音特徵,或擷取該訓練影像中的複數個影像特徵;其中,當擷取出該些語音特徵或該些影像特徵後,依據該些語音特徵或該些影像特徵產生一特定數量的複數個語音參數或複數個影像參數,將該些語音參數或該些影像參數輸入一深度神經網絡(Deep Neural Networks,DNN),以產生一辨識模型。
- 如申請專利範圍第8項所述之辨識方法,更包含:擷取一新增資料的複數個新增特徵,選取該特定數量的該些新增特徵作為複數個新增參數,將該些新增參數代入該辨識模型,以辨識 該新增資料,並產生一預測結果。
- 如申請專利範圍第8項所述之辨識方法,更包含:分析該訓練影像中的每個像素,以取得該些影像特徵,並將該些影像特徵進行一化減運算以產生該特定數量的該些影像參數,並將該些影像參數以一維特徵集的方式呈現之。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW107141171A TWI682325B (zh) | 2018-11-20 | 2018-11-20 | 辨識系統及辨識方法 |
| CN201811628418.1A CN111292764B (zh) | 2018-11-20 | 2018-12-28 | 辨识系统及辨识方法 |
| US16/689,435 US11216729B2 (en) | 2018-11-20 | 2019-11-20 | Recognition system and recognition method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW107141171A TWI682325B (zh) | 2018-11-20 | 2018-11-20 | 辨識系統及辨識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TWI682325B true TWI682325B (zh) | 2020-01-11 |
| TW202020730A TW202020730A (zh) | 2020-06-01 |
Family
ID=69942488
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW107141171A TWI682325B (zh) | 2018-11-20 | 2018-11-20 | 辨識系統及辨識方法 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US11216729B2 (zh) |
| CN (1) | CN111292764B (zh) |
| TW (1) | TWI682325B (zh) |
Families Citing this family (71)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
| US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
| KR20250004158A (ko) | 2013-02-07 | 2025-01-07 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
| US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
| US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
| WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
| US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
| US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
| US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US12223282B2 (en) | 2016-06-09 | 2025-02-11 | Apple Inc. | Intelligent automated assistant in a home environment |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| US12197817B2 (en) | 2016-06-11 | 2025-01-14 | Apple Inc. | Intelligent device arbitration and control |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
| DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
| US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
| DK179496B1 (en) * | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
| DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Multi-modal interfaces |
| US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
| DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
| US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
| US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
| US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
| US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
| US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
| DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
| DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
| DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
| US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
| US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
| US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
| DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
| US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
| DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | User activity shortcut suggestions |
| DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
| US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
| US12205265B2 (en) * | 2019-07-11 | 2025-01-21 | Lg Electronics Inc. | Artificial intelligence server |
| JP2021170511A (ja) * | 2020-04-17 | 2021-10-28 | 株式会社エンビジョンAescジャパン | 残容量推定装置、モデル生成装置、残容量推定方法、モデル生成方法、及びプログラム |
| US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
| US12301635B2 (en) | 2020-05-11 | 2025-05-13 | Apple Inc. | Digital assistant hardware abstraction |
| US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
| US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
| US11514926B2 (en) * | 2020-06-23 | 2022-11-29 | Amazon Technologies, Inc. | Low power mode for speech capture devices |
| US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
| US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
| TWI744036B (zh) * | 2020-10-14 | 2021-10-21 | 緯創資通股份有限公司 | 聲音辨識模型訓練方法及系統與電腦可讀取媒體 |
| TWI844747B (zh) * | 2020-11-09 | 2024-06-11 | 財團法人工業技術研究院 | 辨識系統及其圖資擴增與訓練方法 |
| TWI845797B (zh) * | 2020-12-17 | 2024-06-21 | 緯創資通股份有限公司 | 物件辨識裝置及物件辨識方法 |
| US12444418B1 (en) | 2023-09-05 | 2025-10-14 | Amazon Technologies, Inc. | Device selection for outputting content |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW201807619A (zh) * | 2016-08-26 | 2018-03-01 | 原相科技股份有限公司 | 基於深度學習架構的圖像辨識方法及系統 |
| TW201816669A (zh) * | 2016-10-19 | 2018-05-01 | 三星電子股份有限公司 | 用於神經網路量化的方法以及裝置 |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2005038774A1 (en) * | 2003-10-22 | 2005-04-28 | Auckland University Of Technology | Adaptive sound and image learning system and method |
| CN101472066A (zh) * | 2007-12-27 | 2009-07-01 | 华晶科技股份有限公司 | 影像撷取装置的近端控制方法及应用该方法的影像撷取装置 |
| KR101092820B1 (ko) * | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
| TWI423144B (zh) * | 2009-11-10 | 2014-01-11 | Inst Information Industry | Combined with the audio and video behavior identification system, identification methods and computer program products |
| CN102074232B (zh) * | 2009-11-25 | 2013-06-05 | 财团法人资讯工业策进会 | 结合影音的行为辨识系统及其辨识方法 |
| TWI437875B (zh) * | 2011-03-04 | 2014-05-11 | Tung Fa Wu | Instant Interactive 3D stereo imitation music device |
| KR102601848B1 (ko) * | 2015-11-25 | 2023-11-13 | 삼성전자주식회사 | 데이터 인식 모델 구축 장치 및 방법과 데이터 인식 장치 |
| CN106355171A (zh) * | 2016-11-24 | 2017-01-25 | 深圳凯达通光电科技有限公司 | 一种视频监控联网系统 |
| TWI617993B (zh) * | 2017-03-03 | 2018-03-11 | 財團法人資訊工業策進會 | 辨識系統及辨識方法 |
-
2018
- 2018-11-20 TW TW107141171A patent/TWI682325B/zh active
- 2018-12-28 CN CN201811628418.1A patent/CN111292764B/zh active Active
-
2019
- 2019-11-20 US US16/689,435 patent/US11216729B2/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW201807619A (zh) * | 2016-08-26 | 2018-03-01 | 原相科技股份有限公司 | 基於深度學習架構的圖像辨識方法及系統 |
| TW201816669A (zh) * | 2016-10-19 | 2018-05-01 | 三星電子股份有限公司 | 用於神經網路量化的方法以及裝置 |
Also Published As
| Publication number | Publication date |
|---|---|
| US11216729B2 (en) | 2022-01-04 |
| US20200160179A1 (en) | 2020-05-21 |
| CN111292764B (zh) | 2023-12-29 |
| CN111292764A (zh) | 2020-06-16 |
| TW202020730A (zh) | 2020-06-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI682325B (zh) | 辨識系統及辨識方法 | |
| US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
| TWI423144B (zh) | Combined with the audio and video behavior identification system, identification methods and computer program products | |
| US20200243069A1 (en) | Speech model personalization via ambient context harvesting | |
| WO2021051608A1 (zh) | 一种基于深度学习的声纹识别方法、装置及设备 | |
| CN113646833A (zh) | 语音对抗样本检测方法、装置、设备及计算机可读存储介质 | |
| CN110546656A (zh) | 前馈生成式神经网络 | |
| US20190279645A1 (en) | Reverberation compensation for far-field speaker recognition | |
| US12165634B2 (en) | Speech recognition method and apparatus, device, storage medium, and program product | |
| WO2018176894A1 (zh) | 一种说话人确认方法及装置 | |
| CN111292763A (zh) | 重音检测方法及装置、非瞬时性存储介质 | |
| CN110837758A (zh) | 一种关键词输入方法、装置及电子设备 | |
| TWI769520B (zh) | 多國語言語音辨識及翻譯方法與相關的系統 | |
| US12255936B2 (en) | Augmenting identifying metadata related to group communication session participants using artificial intelligence techniques | |
| US20180061395A1 (en) | Apparatus and method for training a neural network auxiliary model, speech recognition apparatus and method | |
| CN113886639B (zh) | 数字人视频生成方法、装置、电子设备及存储介质 | |
| JP7360814B2 (ja) | 音声処理装置及び音声処理プログラム | |
| CN113220889A (zh) | 语义分类方法及装置、存储介质及电子设备 | |
| JPWO2016152132A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
| CN113192530B (zh) | 模型训练、嘴部动作参数获取方法、装置、设备及介质 | |
| TWI780382B (zh) | 微控制器更新系統和方法 | |
| WO2022044269A1 (ja) | 学習装置、方法およびプログラム | |
| CN113990288A (zh) | 一种语音客服自动生成部署语音合成模型的方法及系统 | |
| US11869492B2 (en) | Anomaly detection system and method using noise signal and adversarial neural network | |
| JP4340939B2 (ja) | 学習装置および学習方法、認識装置および認識方法、並びに記録媒体 |