[go: up one dir, main page]

TWI651714B - 語音選項選擇系統與方法以及使用其之智慧型機器人 - Google Patents

語音選項選擇系統與方法以及使用其之智慧型機器人 Download PDF

Info

Publication number
TWI651714B
TWI651714B TW106145299A TW106145299A TWI651714B TW I651714 B TWI651714 B TW I651714B TW 106145299 A TW106145299 A TW 106145299A TW 106145299 A TW106145299 A TW 106145299A TW I651714 B TWI651714 B TW I651714B
Authority
TW
Taiwan
Prior art keywords
voice
options
sentence
option selection
response sentence
Prior art date
Application number
TW106145299A
Other languages
English (en)
Other versions
TW201928943A (zh
Inventor
王柔雯
郭紘賓
許殷銓
劉享翰
Original Assignee
隆宸星股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 隆宸星股份有限公司 filed Critical 隆宸星股份有限公司
Priority to TW106145299A priority Critical patent/TWI651714B/zh
Priority to CN201810007702.0A priority patent/CN109955270B/zh
Priority to US15/949,105 priority patent/US10672395B2/en
Application granted granted Critical
Publication of TWI651714B publication Critical patent/TWI651714B/zh
Publication of TW201928943A publication Critical patent/TW201928943A/zh

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • User Interface Of Digital Computer (AREA)
  • Toys (AREA)

Abstract

本發明揭露一種語音選項選擇系統與方法以及使用其之智慧型機器人。此種語音選項選擇方法包括:偵測一聲音訊號中是否存在第一命令語句;根據第一命令語句,判斷出與第一命令語句對應之一組語音選項;依序地播放出該組語音選項中的每一語音選項,其中於播放一語音選項後,將間隔一預設時間區段,再繼續播放次一語音選項;於預設時間區段內,偵測該聲音訊號中是否存在回應語句;若該聲音訊號中存在回應語句,則判斷該回應語句是否符合該些語音選項之一;以及若該回應語句符合該些語音選項之一,則輸出與該語音選項對應之任務內容。

Description

語音選項選擇系統與方法以及使用其之智慧型機器人
本發明乃是關於一種語音選項選擇系統與方法以及使用其之智慧型機器人,特別是指一種能夠清楚提供使用者選項且能夠正確辨識使用者所選擇之選項的語音選項選擇系統與方法以及使用其之智慧型機器人。
一般來說,機器人所指的能自動執行任務的機器裝置,由簡單的邏輯電路或是更高階的電腦程式來控制。因此,通常機器人是個高度機電整合的裝置。近年來,機器人領域的相關技術發展越來越多元,如:工業型機器人、服務型機器人…等。
由於大眾對於生活便利的追求,服務型機器人開始被越來越多人接受。服務型機器人的種類很多,應用範圍也很廣泛。服務型機器人,如:專業服務機器人(Professional Service Robot)、個人/家庭用服務機器人(Personal/Domestic Use Robot)…等等。常見地,個人/家庭用服務機器人能夠辨識使用者的語意,並根據使用者的指令提供服務或與使用者互動。
通常,當使用者對機器人發出指令時,機器人根據內建程式的設定可能會提供使用者多個服務選項進行選擇。然而,在背景音訊吵雜的情況下,機器人在辨識使用者的選擇指令時經常發生誤判。再者,使用者常需等待機器人將所有選項全部描述完後才 能發出選擇指令,同時,使用者所發出的選擇指令也必須完全符合機器人所提供之選項之一才能讓機器人順利進行語音辨識。此外,由於語言中存在有同音異字的狀況,因此即便使用者所發出之選擇指令的發音與機器人所提供之選項之一的發音相同,機器人也可能無法順利辨識使用者所發出的選擇指令。前述情形都會讓使用者在與機器人進行互動時感到不便。
為改善前述缺點,本發明提供了一種能夠清楚提供使用者選項且能夠正確辨識使用者所選擇之選項的語音選項選擇系統與方法以及使用其之智慧型機器人。
本發明所提供之語音選項選擇系統,運作於一休眠模式與一工作模式。此種語音選項選擇系統包括音訊偵測裝置、記憶體與處理器。處理器連接於音訊偵測裝置與記憶體。當語音選項選擇系統運作於休眠模式下,音訊偵測裝置會持續偵測一收音單元所接收之聲音訊號中是否存在一喚醒語句。記憶體設置以儲存一互動程式與一資料庫。須說明的是,此資料庫儲存有複數個第一命令語句、複數組語音選項與複數個任務內容,每一第一命令語句對應於其中一組語音選項,且每組語音選項中的每一語音選項對應於該些任務內容之一。
當偵測到喚醒語句時,音訊偵測裝置會產生一提示訊號來將處理器喚醒。於處理器由提示訊號喚醒後,語音選項選擇系統會進入工作模式。當語音選項選擇系統運作於工作模式下,處理器會執行互動程式以執行以下操作:控制音訊偵測裝置偵測收音單元所接收之聲音訊號中是否存在該些第一命令語句之一;根據所測到的第一命令語句,判斷出與第一命令語句對應之組語音選項;透過一播音單元,依序地播放出該組語音選項中的每一語音選項,其中於播放該些語音選項之一後,間隔一預設時間區段, 再繼續播放次一語音選項;於每一預設時間區段內,控制音訊偵測裝置偵測收音單元所接收之聲音訊號中是否存在一回應語句;若聲音訊號中存在回應語句,則判斷回應語句是否符合該些語音選項之一;以及若回應語句符合該些語音選項之一,則輸出與語音選項對應之任務內容,並使語音選項選擇系統回到休眠模式。
再者,本發明所提供之語音選項選擇方法適用於前述之語音選項選擇系統。本發明所提供之語音選項選擇方法主要是以前述之語音選項選擇系統中的互動程式來實現。除此之外,本發明所提供之智慧型機器人主要包括中央處理器與前述之語音選項選擇系統。中央處理器會根據語音選項選擇系統所輸出之任務內容產生控制指令,使得智慧型機器人根據控制指令執行一動作。
由於本發明所提供之語音選項選擇系統與方法,以及使用其之智慧型機器人在根據命令語句提供語音選項時能夠加入停頓的時間間隔,使得使用者欲發出選擇指令時不需等待機器人將所有選項全部描述完。另外,於描述語音選項的期間,本發明所提供之語音選項選擇系統與方法,以及使用其之智慧型機器人將暫停偵測收音單元所接收之聲音訊號中是否存在命令語句,此作法將可減少指令誤判的頻率。
100‧‧‧語音選項選擇系統
10‧‧‧音訊偵測裝置
20‧‧‧記憶體
22‧‧‧互動程式
24‧‧‧資料庫
30‧‧‧處理器
40‧‧‧收音單元
50‧‧‧播音單元
S210、S220、S230、S240、S250、S260‧‧‧步驟
S208、S242‧‧‧步驟
S252、S254、S256、S258‧‧‧步驟
圖1為根據本發明一例示性實施例繪示之語音選項選擇系統的方塊圖;圖2為根據本發明一例示性實施例繪示之語音選項選擇方法的流程圖;以及圖3為根據本發明一例示性實施例繪示之語音選項選擇方法中步驟S250的流程圖。
在下文將參看隨附圖式更充分地描述各種例示性實施例,在隨附圖式中展示一些例示性實施例。然而,本發明概念可能以許多不同形式來體現,且不應解釋為限於本文中所闡述之例示性實施例。確切而言,提供此等例示性實施例使得本發明將為詳盡且完整,且將向熟習此項技術者充分傳達本發明概念的範疇。在諸圖式中,類似數字始終指示類似元件。
大體而言,本發明所提供之語音選項選擇系統與方法,以及使用其之智慧型機器人最大的特點即在於,即便不設置降噪模組也能夠清楚提供使用者選項且能夠正確辨識使用者所選擇之選項。以下將以數個實施例來說明本發明所提供之語音情緒辨識系統與方法,以及使用其之智慧型機器人。
[語音選項選擇系統的一實施例]
首先說明本發明之語音選項選擇系統的架構,請參照圖1,圖1為根據本發明一例示性實施例繪示之語音選項選擇系統的方塊圖。
如圖1所示,本實施例所提供之語音選項選擇系統100包括音訊偵測裝置10、記憶體20與處理器30,且處理器30連接於音訊偵測裝置10與記憶體20。記憶體20設置以儲存互動程式22與資料庫24。資料庫24儲存有複數個第一命令語句、複數組語音選項與複數個任務內容。每一第一命令語句對應於其中一組語音選項,且每組語音選項中的每一語音選項對應於該些任務內容之一。
語音選項選擇系統100運作於一休眠模式與一工作模式。當語音選項選擇系統100運作於休眠模式時,音訊偵測裝置10會持續偵測一收音單元40(如:一麥克風)所接收之一聲音訊號中是否存在一喚醒語句,且當偵測到該喚醒語句時,音訊偵測裝置10便產生一提示訊號以喚醒處理器30。於處理器30被喚醒後,語音選項選擇系統100便會進入工作模式。
語音選項選擇系統100的主要工作機制為,當語音選項選擇系統100運作於工作模式時,處理器30會執行互動程式22以根據使用者所發出的命令語句提供多個語音選項,再根據使用者所發出的回應語句輸出與該些語音選項之一對應之任務內容。
須說明的是,音訊偵測裝置10偵測到喚醒語句後產生提示訊號以喚醒處理器30之喚醒方式應為該發明所屬技術領域中具有通常知識者所熟悉,因此以下便不細述此喚醒方式。另須說明的是,語音選項選擇系統100中的音訊偵測裝置10、記憶體20與處理器30可以韌體的形式來實現,或者由任何適合之硬體、韌體、軟體、及/或軟體、韌體及硬體之組合來實現。
[語音選項選擇方法的一實施例]
請參照圖2,圖2為根據本發明一例示性實施例繪示之語音選項選擇方法的方塊圖。
本實施例所提供之語音選項選擇方法是由圖1所繪示之語音選項選擇系統中的處理器30執行儲存於記憶體20中的一互動程式22來實現,故請同時參照圖1與圖2以利瞭解。如圖2所示,大體而言,本實施例所提供之語音選項選擇方法包括以下步驟:偵測收音單元所接收之聲音訊號,以及判斷收音單元所接收之聲音訊號是否存在第一命令語句(步驟S208與步驟S210);根據第一命令語句,判斷出與第一命令語句對應之一組語音選項(步驟S220);依序地播放出該組語音選項中的每一語音選項(步驟S230);判斷收音單元所接收之聲音訊號是否存在回應語句,以及判斷該些語音選項是否全部播放完畢(步驟S240與步驟S242);判斷回應語句是否符合該些語音選項之一(步驟S250);以及輸出與語音選項對應之任務內容(步驟S260)。
接著要說明的是本實施例所提供之語音選項選擇方法中各步驟的細節。
於處理器30被喚醒使得語音選項選擇系統100運作於工作模式後,便進入步驟S208與步驟S210。於步驟S208與步驟S210中,處理器30會控制音訊偵測裝置10偵測收音單元所接收之聲音訊號,以判斷所接收之聲音訊號是否存在第一命令語句。舉例來說,第一命令語句可為「唱歌」、「說故事」…等,第一命令語句可由系統建置者透過互動程式預先設定,也可由使用者透過互動程式進行新增。須說明的是,音訊偵測裝置10偵測收音單元40所接收之聲音訊號是否存在第一命令語句的方法為,將聲音訊號進行處理後與第一命令語句作比對。該發明所屬技術領域中具有通常知識者應可理解一般對聲音訊號進行音訊處理的方式,故於此便不針對聲音訊號進行音訊處理的方式做細述。
假設音訊偵測裝置10偵測到收音單元40所接收之聲音訊號是否存在有「說故事」之第一命令語句,則進入步驟S220,處理器30會透過資料庫24判斷出與「說故事」之第一命令語句對應之一組語音選項。舉例來說,與「說故事」之第一命令語句對應之一組語音選項可為:「項目一:小紅帽」、「項目二:醜小鴨」與「項目三:白雪公主」,但本發明於此並不限制。與第一命令語句對應之多個語音選項可由系統建置者透過互動程式預先設定,也可由使用者透過互動程式進行新增。
接著,判斷出與「說故事」之第一命令語句對應之該組語音選項後即進入步驟S230與步驟S240。於步驟S230中,處理器30會控制透過一播音單元50(如:喇叭)依序地播放出該組語音選項中的每一語音選項。值得注意的是,於處理器30控制播音單元50播放一個語音選項後,會計時一個預設時間區段,待計時結束後再控制播音單元50播放下一個語音選項。於步驟S240中,於每個預設時間區段內,處理器30會判斷收音單40元所接收之聲音訊號是否存在有回應語句。也就是說,使用者不用等到播音單元50撥放完 所有的語音選項後才發出回應語句,而可以在每個預設時間區段內發出回應語句。
亦值得注意的是,於處理器30控制播音單元50播放語音選項的期間,處理器30會控制音訊偵測裝置10停止偵測收音單元40所接收之聲音訊號,但於前述之預設時間區段內,處理器30會控制音訊偵測裝置10恢復偵測收音單元40所接收之聲音訊號。如此一來,於處理器30控制播音單元50播放語音選項的期間,便不會因為收音單元40接收到播音單元50所播放的語音選項而系統的誤判。
除此之外,於前述之預設時間區段內,當音訊偵測裝置10偵測到收音單元40所接收之聲音訊號的振幅高於一門檻值時,表示使用者可能正在發出回應語句,此時處理器30便會延長前述之預設時間區段,以確保系統不會因為預設時間區段不夠長而無法偵測到使用者較慢發出的回應語句。舉例來說,預設時間區段可為3秒鐘,當音訊偵測裝置10偵測到收音單元40所接收之聲音訊號的振幅高於一門檻值時,處理器30便會將此預設時間區段延長為5秒鐘或7秒鐘。須說明的是,此預設時間區段可由系統建置者透過互動程式預先設定,也可由使用者透過互動程式重新設定。
值得注意的是,每當預設時間區段計時結束後,還會進入步驟S242。於步驟S242中,處理器30會判斷該組語音選項中的所有語音選項是否播放完畢。若該些語音選項尚未全部播放完畢,則會回到步驟S230,處理器30會控制播音單元50繼續依序地播放出剩餘的該些語音選項;另一方面,若所有語音選項已播放完畢,則會回到步驟S208與步驟S210,以再次判斷收音單元40所接收之聲音訊號是否存在第一命令語句。
假設於前述之預設時間區段內,處理器30判斷出收音單40元所接收之聲音訊號存在有一回應語句,便進入步驟S250。於步驟S250中,判斷此回應語句是否符合該些語音選項之一。
請參照圖3,圖3為根據本發明一例示性實施例繪示之語音選項選擇方法中步驟S250的流程圖。如圖3所示,步驟S250是由以下步驟來實現:將回應語句轉換成文本資料(步驟S252);透過自然語音處理邏輯,將文本資料轉換為機器數據(步驟S254);根據機器數據判斷回應語句是否為該些語音選項之一、對應於該些語音選項之一的特定數字、與該些語音選項之一同義的字詞或者對應於該些語音選項之一的簡化字詞(步驟S256);以及根據機器數據產生對應於回應語句之拼音資料,並判斷回應語句之拼音資料與該些語音選項之一的拼音資料是否符合(步驟S258)。
首先,於步驟S252中,處理器30會將回應語句轉換成文本資料。舉例來說,處理器30可透過語音轉文本識別(Speech To Text;STT)演算法來將語句轉換成文本資料;也就是說,透過語音轉文本識別演算法,處理器30可以將使用者發出的回應語句轉換成使用者使用的文字。接著,於步驟S254中,處理器30會透過自然語音處理邏輯(Natural Language Processing;NLP),將文本資料轉換為機器數據;也就是說,透過自然語音處理邏輯,處理器30可以將對應於回應語句的文字轉換成處理器30可讀的機器數據,如此一來,處理器30才能根據機器數據判斷使用者發出的回應語句是否為該些語音選項之一。
為了能夠正確地判斷使用者發出的回應語句是否為該些語音選項之一,處理器30將執行步驟S256與步驟S258。
於步驟S256中,處理器30會將使用者發出的回應語句和每一個語音選項、對應於每一個語音選項的特定數字、與每一個語音選項同義的字詞,或者對應於每一個語音選項的簡化字詞作比對。承上例,由於和「說故事」之第一命令語句對應之該組語音選項為:「項目一:小紅帽」、「項目二:醜小鴨」與「項目三:白雪公主」,因此,若經比對後,使用者發出的回應語句符合「項目一」、「項目二」或「項目三」(即,完整的語音選項),處理器30 即可根據使用者發出的回應語句判斷出其選擇的語音選項。若經比對後,使用者發出的回應語句符合「1」、「2」或「3」(即,對應於每一個語音選項的特定數字),處理器30也能根據使用者發出的回應語句判斷出其選擇的語音選項。再者,若經比對後,使用者發出的回應語句符合「答案一」、「答案二」或「答案三」(即,每一個語音選項同義的字詞),處理器30也能根據使用者發出的回應語句判斷出其選擇的語音選項。此外,若經比對後,使用者發出的回應語句符合「項一」、「項二」或「項三」(即,對應於每一個語音選項的簡化字詞),處理器30也能根據使用者發出的回應語句判斷出其選擇的語音選項。
若於步驟S256中,處理器30能根據使用者發出的回應語句判斷出其選擇的語音選項,便進入步驟S260,處理器30將輸出與語音選項對應之任務內容。
然而,若於步驟S256中,處理器30無法根據使用者發出的回應語句判斷出使用者選擇的語音選項,則會進入步驟S258。於步驟S258中,處理器30根據機器數據產生對應於回應語句之拼音資料,並判斷回應語句之拼音資料與該些語音選項之一的拼音資料是否符合。進一步說明,由於該些語音選項「項目一」、「項目二」與「項目三」的拼音資料分別為「ㄒㄧㄤ`ㄇㄨ`ㄧ」、「ㄒㄧㄤ`ㄇㄨ`ㄦ`」與「ㄒㄧㄤ`ㄇㄨ`ㄙㄢ」,承上例,假設使用者發出的回應語句是「項目二」,則根據步驟S254中產生的機器數據,處理器30會產生對應於「項目二」的拼音資料,即「ㄒㄧㄤ`ㄇㄨ`ㄦ`」。此時,於步驟S258中,處理器30便可判斷出使用者所選擇的語音選項為項目二的「醜小鴨」。因此,於步驟S260中,處理器30便會輸出代表「說『醜小鴨』的故事」之任務內容的一指令。
值得注意的是,於本實施例中,拼音資料是以中文的注音符號作舉例,本發明於此並不限定。也就是說,於本發明之其他實施例中,拼音資料也可以是其他語言的拼音符號。
另外也值得注意的是,雖然特定之方法係參照在本文中所描繪之流程圖來進行描述,但是該發明所屬技術領域中具有通常知識者應該容易地理解,本發明所提供之語音選項選擇方法中各步驟的執行順序並不因此而限制。也就是說,於本發明之其他實施例所提供之語音選項選擇方法中,各步驟之執行順序可以改變、某些步驟可以被組合或者某些步驟可以省略。
因此,於圖3與前述說明中,雖然處理器30先執行了步驟S256後再執行步驟S258,但本發明於此並不限制步驟S256與步驟S258的順序性。因此,處理器30亦可先執行步驟S258再執行步驟S256。也就是說,若處理器30判斷回應語句之拼音資料與該些語音選項之一的拼音資料不符合,則進一步將使用者發出的回應語句和每一個語音選項、對應於每一個語音選項的特定數字、與每一個語音選項同義的字詞,或者對應於每一個語音選項的簡化字詞作比對。
此外,處理器30亦可同時執行步驟S256與步驟S258。於此情況下,若步驟S256較快執行完且使得處理器30能根據使用者發出的回應語句判斷出其選擇的語音選項,則無需再執行步驟S258;另一方面,若步驟S258較快執行完且使得處理器30能根據使用者發出的回應語句判斷出其選擇的語音選項,則無需再執行步驟S256。
[智慧型機器人的一實施例]
本實施例所提供之智慧型機器人包括中央處理器以及如前述任一實施例所描述之語音選項選擇系統。舉例來說,本實施例所提供之智慧型機器人可由一個人/家庭用服務機器人來實現。
於處理器30輸出代表與使用者所選擇之語音選項對應之任務內容的指令後,中央處理器會根據此指令控制智慧型機器人執行相關動作。如前述任一實施例所描述之語音選項選擇系統係設置於本實施例所提供之智慧型機器人中,前述之收音單元40可由智慧型機器人的麥克風來實現,前述之播音單元50可由智慧型機器人的喇叭來實現。
值得注意的是,於本實施例中,語音選項選擇系統中的處理器30為設置於智慧型機器人內的一內建處理單元,且若語音選項選擇系統中的處理器30為設置於智慧型機器人內的一內建處理單元,此內建處理單元須為較高規格的處理單元。
於本發明之其他實施例中,智慧型機器人同時具有設置於其內的內建處理單元與設置於其外的雲端伺服器。若智慧型機器人同時具有設置於其內的內建處理單元與設置於其外的雲端伺服器,此雲端伺服器需具有較高規格的運算能力,而此內建處理單元可為規格較低的處理單元。於此情況下,當智慧型機器人連接網路時,處理器30便會以設置於智慧型機器人外部的雲端伺服器來實現,而當智慧型機器人未連接網路時,處理器30便會以設置於智慧型機器人內部的內建處理單元來實現。
由於本實施例所提供之智慧型機器人由於設置有如前述任一實施例所描述之語音選項選擇系統,因此本實施例所提供之智慧型機器人在根據命令語句提供語音選項時能夠加入停頓的時間間隔,使得使用者欲發出選擇指令時不需等待機器人將所有選項全部描述完。同時,也因為本實施例所提供之智慧型機器人由於設置有如前述任一實施例所描述之語音選項選擇系統,在描述語音選項的期間,本實施例所提供之智慧型機器人會暫停偵測收音單元所接收之聲音訊號中是否存在命令語句,以減少指令誤判的頻率。
[實施例的可能功效]
於本發明所提供之語音選項選擇系統與方法,以及使用其之智慧型機器人中,在根據命令語句提供語音選項時會加入停頓的時間間隔,如此一來,使用者欲發出選擇指令時不需等待機器人將所有選項全部描述完。再者,於描述語音選項的期間,將暫停偵測收音單元所接收之聲音訊號中是否存在命令語句,此作法將可減少指令誤判的頻率。
此外,於本發明所提供之語音選項選擇系統與方法,以及使用其之智慧型機器人中,在根據使用者的回應語句判斷使用者所選擇的語音選項時,會將使用者發出的回應語句和每一個語音選項、對應於每一個語音選項的特定數字、與每一個語音選項同義的字詞,或者對應於每一個語音選項的簡化字詞作比對。另外,還會根據機器數據產生對應於回應語句之拼音資料,並將回應語句之拼音資料與該些語音選項之一的拼音資料作比對。如此一來,便能準確地根據使用者的回應語句判斷出使用者所選擇的語音選項,以減少選項誤判的頻率。
最後須說明地是,於前述說明中,儘管已將本發明技術的概念以多個示例性實施例具體地示出與闡述,然而在此項技術之領域中具有通常知識者將理解,在不背離由以下申請專利範圍所界定的本發明技術的概念之範圍的條件下,可對其作出形式及細節上的各種變化。

Claims (18)

  1. 一種語音選項選擇系統,運作於一休眠模式與一工作模式,包括:一音訊偵測裝置,於該休眠模式下,持續偵測一收音單元所接收之一聲音訊號中是否存在一喚醒語句,其中當偵測到該喚醒語句時,該音訊偵測裝置產生一提示訊號;一記憶體,設置以儲存一互動程式與一資料庫,其中該資料庫儲存有複數個第一命令語句、複數組語音選項與複數個任務內容,每一第一命令語句對應於其中一組語音選項,且每組語音選項中的每一語音選項對應於該些任務內容之一;以及一處理器,連接於該音訊偵測裝置與該記憶體,其中於該處理器由該提示訊號喚醒後,該語音選項選擇系統進入該工作模式,於該工作模式下,該處理器執行該互動程式以執行以下操作:控制該音訊偵測裝置偵測該收音單元所接收之該聲音訊號中是否存在該些第一命令語句之一;根據該第一命令語句,判斷出與該第一命令語句對應之該組語音選項;透過一播音單元,依序地播放出該組語音選項中的每一語音選項,其中於播放該些語音選項之一後,間隔一預設時間區段,再繼續播放次一該語音選項;於該預設時間區段內,控制該音訊偵測裝置偵測該收音單元所接收之該聲音訊號中是否存在一回應語句;若該聲音訊號中存在該回應語句,則判斷該回應語句是否符合該些語音選項之一;以及若該回應語句符合該些語音選項之一,則輸出與該語音選項對應之該任務內容,並使該語音選項選擇系統回到該休眠模式。
  2. 如請求項1所述之語音選項選擇系統,其中若該聲音訊號中不存在該回應語句,或該回應語句不符合該些語音選項之一,則該處理器進一步執行以下操作:判斷該些語音選項是否全部播放完畢;若該些語音選項尚未全部播放完畢,則透過該播音單元繼續依序地播放出剩餘的該些語音選項;以及若該些語音選項已全部播放完畢,則控制該音訊偵測裝置繼續偵測該收音單元所接收之該聲音訊號中是否存在該些第一命令語句之一。
  3. 如請求項1所述之語音選項選擇系統,其中當該處理器透過該播音單元依序地播放出該些語音選項時,該音訊偵測裝置停止偵測該收音單元所接收之該聲音訊號,而於該些預設時間區段內,該音訊偵測裝置恢復偵測該收音單元所接收之該聲音訊號。
  4. 如請求項1所述之語音選項選擇系統,其中於該預設時間區段內,若該收音單元所接收之該聲音訊號的振幅高於一門檻值時,則該處理器延長該預設時間區段。
  5. 如請求項1所述之語音選項選擇系統,其中於判斷該回應語句是否符合該些語音選項之一時,該處理器進一步執行以下操作:將該回應語句轉換成一文本資料;透過一自然語音處理邏輯,將該文本資料轉換為一機器數據;以及根據該機器數據判斷該回應語句是否符合該些語音選項之一。
  6. 如請求項5所述之語音選項選擇系統,其中當判斷該回應語句是否符合該些語音選項之一時,該處理器根據該機器數據判斷該回應語句是否為該些語音選項之一、對應於該些語音選項之一的一特定數字、與該些語音選項之一同義的一字詞或者對應於該些語音選項之一的一簡化字詞。
  7. 如請求項6所述之語音選項選擇系統,其中若該回應語句並非該些語音選項之一、對應於該些語音選項之一的該特定數字、與該些語音選項之一同義的該字詞或者對應於該些語音選項之一的該簡化字詞,則該處理器根據該機器數據產生對應於該回應語句之拼音資料,並判斷該回應語句之拼音資料與該些語音選項之一的拼音資料是否符合。
  8. 如請求項1所述之語音選項選擇系統,其中該記憶體更儲存有複數個第二命令語句,每一第二命令語句對應於該些任務內容之一,且當該處理器執行該互動程式時進一步執行以下操作:控制該音訊偵測裝置偵測該收音單元所接收之該聲音訊號中是否存在該些第二命令語句之一;以及根據該第二命令語句,輸出與該第二命令語句對應之該任務內容,並使該語音選項選擇系統回到該休眠模式。
  9. 一種語音選項選擇方法,適用於一種語音選項選擇系統,其中該語音選項選擇系統運作於一休眠模式與一工作模式,該語音選項選擇系統包括一音訊偵測裝置、一記憶體與一處理器,該資料庫儲存有複數個第一命令語句、複數組語音選項與複數個任務內容,每一第一命令語句對應於其中一組語音選項,且每組語音選項中的每一語音選項對應於該些任務內容之一,該處理器連接於該音訊偵測裝置與該記憶體,且該處理器設置以執行一互動程式以執行該語音選項選擇方法,包括:偵測一收音單元所接收之一聲音訊號中是否存在該些第一命令語句之一;根據該第一命令語句,判斷出與該第一命令語句對應之該組語音選項;透過一播音單元,依序地播放出該組語音選項中的每一語音選項,其中於播放該些語音選項之一後,間隔一預設時間區段,再繼續播放次一該語音選項;於該預設時間區段內,偵測該收音單元所接收之該聲音訊號中是否存在一回應語句;若該聲音訊號中存在該回應語句,則判斷該回應語句是否符合該些語音選項之一;以及若該回應語句符合該些語音選項之一,則輸出與該語音選項對應之該任務內容,並使該語音選項選擇系統回到該休眠模式。
  10. 如請求項9所述之語音選項選擇方法,更包括:判斷該些語音選項是否全部播放完畢;若該些語音選項尚未全部播放完畢,則透過該播音單元繼續依序地播放出剩餘的該些語音選項;以及若該些語音選項已全部播放完畢,則繼續偵測該收音單元所接收之該聲音訊號中是否存在該些第一命令語句之一。
  11. 如請求項9所述之語音選項選擇方法,其中當該播音單元依序地播放出該些語音選項時,停止偵測該收音單元所接收之該聲音訊號,而於該些預設時間區段內,恢復偵測該收音單元所接收之該聲音訊號。
  12. 如請求項9所述之語音選項選擇方法,其中於該預設時間區段內,若該收音單元所接收之該聲音訊號的振幅高於一門檻值時,則延長該預設時間區段。
  13. 如請求項9所述之語音選項選擇方法,其中判斷該回應語句是否符合該些語音選項之一的步驟包括:將該回應語句轉換成一文本資料;透過一自然語音處理邏輯,將該文本資料轉換為一機器數據;以及根據該機器數據判斷該回應語句是否符合該些語音選項之一。
  14. 如請求項13所述之語音選項選擇方法,其中於判斷該回應語句是否符合該些語音選項之一的步驟中,根據該機器數據判斷該回應語句是否為該些語音選項之一、對應於該些語音選項之一的一特定數字、與該些語音選項之一同義的一字詞或者對應於該些語音選項之一的一簡化字詞。
  15. 如請求項14所述之語音選項選擇方法,其中該回應語句並非該些語音選項之一、對應於該些語音選項之一的該特定數字、與該些語音選項之一同義的該字詞或者對應於該些語音選項之一的該簡化字詞,則根據該機器數據產生對應於該回應語句之拼音資料,並判斷該回應語句之拼音資料與該些語音選項之一的拼音資料是否符合。
  16. 如請求項9所述之語音選項選擇方法,其中該記憶體更儲存有複數個第二命令語句,每一第二命令語句對應於該些任務內容之一,且該語音選項選擇方法更包括:控制該音訊偵測裝置偵測該收音單元所接收之該聲音訊號中是否存在該些第二命令語句之一;以及根據該第二命令語句,輸出與該第二命令語句對應之該任務內容,並使該語音選項選擇系統回到該休眠模式。
  17. 一種智慧型機器人,包括:一中央處理器;以及一如請求項1所述之語音選項選擇系統,設置以根據一收音單元所接收之一聲音訊號中的一命令語句提供複數個語音選項,並辨識一回應語句,以輸出一任務內容;其中,該中央處理器根據該語音選項選擇系統所輸出之該任務內容產生一控制指令,使得該智慧型機器人根據該控制指令執行一動作。
  18. 如請求項17所述之智慧型機器人,其中於該語音選項選擇系統中,該處理器為一內建處理單元或一雲端伺服器。
TW106145299A 2017-12-22 2017-12-22 語音選項選擇系統與方法以及使用其之智慧型機器人 TWI651714B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW106145299A TWI651714B (zh) 2017-12-22 2017-12-22 語音選項選擇系統與方法以及使用其之智慧型機器人
CN201810007702.0A CN109955270B (zh) 2017-12-22 2018-01-04 语音选项选择系统与方法以及使用其的智能机器人
US15/949,105 US10672395B2 (en) 2017-12-22 2018-04-10 Voice control system and method for voice selection, and smart robot using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW106145299A TWI651714B (zh) 2017-12-22 2017-12-22 語音選項選擇系統與方法以及使用其之智慧型機器人

Publications (2)

Publication Number Publication Date
TWI651714B true TWI651714B (zh) 2019-02-21
TW201928943A TW201928943A (zh) 2019-07-16

Family

ID=66213756

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106145299A TWI651714B (zh) 2017-12-22 2017-12-22 語音選項選擇系統與方法以及使用其之智慧型機器人

Country Status (3)

Country Link
US (1) US10672395B2 (zh)
CN (1) CN109955270B (zh)
TW (1) TWI651714B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI739286B (zh) * 2020-01-21 2021-09-11 國立臺灣師範大學 互動學習系統
CN114267356A (zh) * 2021-12-30 2022-04-01 重庆特斯联智慧科技股份有限公司 一种人机交互物流机器人及其控制方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10896675B1 (en) * 2018-06-29 2021-01-19 X Development Llc Multi-tiered command processing
US11219309B2 (en) * 2018-10-31 2022-01-11 Compal Electronics, Inc. Smart liquor cabinet and management method for liquor cabinet
WO2021015308A1 (ko) * 2019-07-19 2021-01-28 엘지전자 주식회사 로봇 및 그의 기동어 인식 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI289988B (en) * 2002-12-20 2007-11-11 Ibm Telephony signals containing an IVR decision tree
CN101253548A (zh) * 2005-08-31 2008-08-27 微软公司 将语音引擎训练结合入交互式用户教学系统
TWI511124B (zh) * 2012-12-31 2015-12-01 Via Tech Inc 基於語音辨識的選擇方法及其行動終端裝置及資訊系統
TW201725580A (zh) * 2015-12-31 2017-07-16 Beijing Sogou Technology Development Co Ltd 語音輸入方法、裝置和終端設備
TW201738729A (zh) * 2016-04-05 2017-11-01 鴻海精密工業股份有限公司 語音控制系統及方法

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374879B2 (en) * 2002-02-04 2013-02-12 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
US8768702B2 (en) * 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US10705794B2 (en) * 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8588806B2 (en) * 2010-02-26 2013-11-19 Thl Holding Company, Llc Wireless device and methods for use in a paging network
US10381002B2 (en) * 2012-10-30 2019-08-13 Google Technology Holdings LLC Voice control user interface during low-power mode
EP3100259A4 (en) * 2014-01-31 2017-08-30 Hewlett-Packard Development Company, L.P. Voice input command
US9495959B2 (en) * 2014-02-27 2016-11-15 Ford Global Technologies, Llc Disambiguation of dynamic commands
WO2015145219A1 (en) * 2014-03-28 2015-10-01 Navaratnam Ratnakumar Systems for remote service of customers using virtual and physical mannequins
EP2933071A1 (en) * 2014-04-17 2015-10-21 Aldebaran Robotics Methods and systems for managing dialogs of a robot
WO2015199731A1 (en) * 2014-06-27 2015-12-30 Nuance Communications, Inc. System and method for allowing user intervention in a speech recognition process
KR102342623B1 (ko) * 2014-10-01 2021-12-22 엑스브레인, 인크. 음성 및 연결 플랫폼
US20160133255A1 (en) * 2014-11-12 2016-05-12 Dsp Group Ltd. Voice trigger sensor
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法
KR102387567B1 (ko) * 2015-01-19 2022-04-18 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US10504509B2 (en) * 2015-05-27 2019-12-10 Google Llc Providing suggested voice-based action queries
US10318112B2 (en) * 2016-05-27 2019-06-11 Rovi Guides, Inc. Systems and methods for enabling quick multi-application menu access to media options
US10249300B2 (en) * 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
TWI584270B (zh) * 2016-06-15 2017-05-21 瑞昱半導體股份有限公司 語音控制系統及其方法
KR102471499B1 (ko) * 2016-07-05 2022-11-28 삼성전자주식회사 영상처리장치, 영상처리장치의 구동방법 및 컴퓨터 판독가능 기록매체
CN106328132A (zh) * 2016-08-15 2017-01-11 歌尔股份有限公司 一种智能设备的语音交互控制方法和装置
GB2553840B (en) * 2016-09-16 2022-02-16 Emotech Ltd Robots, methods, computer programs and computer-readable media
KR102729069B1 (ko) * 2016-12-01 2024-11-13 삼성전자 주식회사 음성 신호를 입력 또는 출력하는 램프 장치 및 상기 램프 장치의 구동 방법
US20180174581A1 (en) * 2016-12-19 2018-06-21 Pilot, Inc. Voice-activated vehicle lighting control hub
US11100384B2 (en) * 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
CN106847285B (zh) * 2017-03-31 2020-05-05 上海思依暄机器人科技股份有限公司 一种机器人及其语音识别方法
KR20180118461A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
KR101949497B1 (ko) * 2017-05-02 2019-02-18 네이버 주식회사 사용자 발화의 표현법을 파악하여 기기의 동작이나 컨텐츠 제공 범위를 조정하여 제공하는 사용자 명령 처리 방법 및 시스템
KR102471493B1 (ko) * 2017-10-17 2022-11-29 삼성전자주식회사 전자 장치 및 음성 인식 방법
US10515640B2 (en) * 2017-11-08 2019-12-24 Intel Corporation Generating dialogue based on verification scores
US11221669B2 (en) * 2017-12-20 2022-01-11 Microsoft Technology Licensing, Llc Non-verbal engagement of a virtual assistant
CN108130683A (zh) * 2017-12-21 2018-06-08 迪尔阿扣基金两合公司 一种家用电器以及用于运行家用电器的方法
EP3506255A1 (en) * 2017-12-28 2019-07-03 Spotify AB Voice feedback for user interface of media playback device
US10601599B2 (en) * 2017-12-29 2020-03-24 Synaptics Incorporated Voice command processing in low power devices
US10650807B2 (en) * 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI289988B (en) * 2002-12-20 2007-11-11 Ibm Telephony signals containing an IVR decision tree
CN101253548A (zh) * 2005-08-31 2008-08-27 微软公司 将语音引擎训练结合入交互式用户教学系统
CN101253548B (zh) 2005-08-31 2012-01-04 微软公司 将语音引擎训练结合入交互式用户教学系统的方法
TWI511124B (zh) * 2012-12-31 2015-12-01 Via Tech Inc 基於語音辨識的選擇方法及其行動終端裝置及資訊系統
TW201725580A (zh) * 2015-12-31 2017-07-16 Beijing Sogou Technology Development Co Ltd 語音輸入方法、裝置和終端設備
TW201738729A (zh) * 2016-04-05 2017-11-01 鴻海精密工業股份有限公司 語音控制系統及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI739286B (zh) * 2020-01-21 2021-09-11 國立臺灣師範大學 互動學習系統
CN114267356A (zh) * 2021-12-30 2022-04-01 重庆特斯联智慧科技股份有限公司 一种人机交互物流机器人及其控制方法
CN114267356B (zh) * 2021-12-30 2024-04-02 重庆特斯联智慧科技股份有限公司 一种人机交互物流机器人及其控制方法

Also Published As

Publication number Publication date
TW201928943A (zh) 2019-07-16
CN109955270B (zh) 2022-04-26
CN109955270A (zh) 2019-07-02
US10672395B2 (en) 2020-06-02
US20190198018A1 (en) 2019-06-27

Similar Documents

Publication Publication Date Title
JP6926241B2 (ja) ホットワード認識音声合成
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
TWI651714B (zh) 語音選項選擇系統與方法以及使用其之智慧型機器人
US12094461B2 (en) Processing spoken commands to control distributed audio outputs
CN112201246B (zh) 基于语音的智能控制方法、装置、电子设备及存储介质
EP3933831B1 (en) Control method and control apparatus for speech interaction, electronic device, storage medium, and system
US10339166B1 (en) Systems and methods for providing natural responses to commands
US11237793B1 (en) Latency reduction for content playback
US11258671B1 (en) Functionality management for devices
US11693622B1 (en) Context configurable keywords
US20200211545A1 (en) Voice interaction method, apparatus and device, and storage medium
US20250356854A1 (en) Natural language processing system
US20250244949A1 (en) Multiple results presentation
US20250140234A1 (en) Configuring applications for natural language processing
US12386586B2 (en) Speech processing and multi-modal widgets
JP6306447B2 (ja) 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム
US12230266B1 (en) Data routing in a multi-assistant context
US12315507B1 (en) Automatic speech recognition (ASR) techniques
JP6897678B2 (ja) 情報処理装置及び情報処理方法
US11907676B1 (en) Processing orchestration for systems including distributed components
US11481188B1 (en) Application launch delay and notification
JP2024529888A (ja) 程度によるホットワード検出
US12046234B1 (en) Predicting on-device command execution
US12456015B1 (en) Natural language question generation
US12499777B1 (en) Speech recognition for language learning systems

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees