[go: up one dir, main page]

TW201409259A - 多媒體記錄系統及方法 - Google Patents

多媒體記錄系統及方法 Download PDF

Info

Publication number
TW201409259A
TW201409259A TW101130202A TW101130202A TW201409259A TW 201409259 A TW201409259 A TW 201409259A TW 101130202 A TW101130202 A TW 101130202A TW 101130202 A TW101130202 A TW 101130202A TW 201409259 A TW201409259 A TW 201409259A
Authority
TW
Taiwan
Prior art keywords
multimedia
text
file
label
topic
Prior art date
Application number
TW101130202A
Other languages
English (en)
Inventor
Tai-Ming Gou
yi-wen Cai
Chun-Ming Chen
Original Assignee
Hon Hai Prec Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Hai Prec Ind Co Ltd filed Critical Hon Hai Prec Ind Co Ltd
Priority to TW101130202A priority Critical patent/TW201409259A/zh
Priority to US13/596,138 priority patent/US20140058727A1/en
Publication of TW201409259A publication Critical patent/TW201409259A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一種多媒體記錄系統包括一儲存模組、一辨識模組及一標籤模組。該儲存模組儲存一多媒體檔案,其中該多媒體檔案對應於包含聲音內容的一多媒體資料,該多媒體資料接收自一電腦網路;該辨識模組用於將該多媒體資料的聲音內容轉換為文字;該標籤模組用於根據轉換的文字產生對應的標籤訊息,其中該標籤訊息對應於一個多媒體檔的某部分。

Description

多媒體記錄系統及方法
本發明涉及一種多媒體記錄系統及方法,特別涉及一種將語音轉換為文字並根據轉換得到的文字將對應於該語音的多媒體檔案進行標籤分段的多媒體記錄系統及方法。
一般的會議記錄通常由記錄者將參加會議人員的發言記錄在紙本或電子檔案中。然,由於記錄者在理解及文字表達上的不同可能會導致會議記錄的內容與發言者所表達的不一致,進而可能導致其他人員無法準確地理解會議的內容。另,儘管可以使用錄影/錄音等多媒體素材來直觀地呈現會議的內容,然,當要查閱關於特定主題的部分時,由於用戶無法確切獲知該主題所在的檔案中的段落,故,用戶只能盲目地搜尋整個檔案,如此導致了相當多的時間浪費。
鑒於以上內容,有必要提供一種可準確記錄與會者的內容及方便、快捷地查找相關主題的多媒體記錄系統及方法。
一種多媒體記錄系統,包括:
一儲存模組,用於儲存一多媒體檔案,其中該多媒體檔案對應於包含聲音內容的一多媒體資料,該多媒體資料接收自一電腦網路;
一辨識模組,用於將該多媒體資料的聲音內容轉換為文字;以及
一標籤模組,用於根據轉換的文字產生標籤訊息,其中該標籤訊息對應於該多媒體檔案的一個或多個部分。
一種多媒體記錄方法,包括如下步驟:
透過電腦網路接收一包含聲音內容的多媒體資料;
儲存對應於該多媒體資料的多媒體檔;
將該多媒體資料的聲音內容轉換為對應的文字;以及
根據轉換的文字產生對應於該多媒體檔案的一個或多個部分的標籤訊息。
上述多媒體記錄系統及方法透過將發言者的語音轉換為文字以及根據文字對該多媒體檔案進行標籤分段,進而產生對應多媒體會議或語音或視訊記錄的電腦文件,如此使得用戶可根據主題來方便、快捷地選擇對應的檔案。
請參考圖1,本發明多媒體記錄系統100應用於一雲端伺服器1000,該多媒體記錄系統100用於處理多媒體會議記錄相關的檔案,其中該雲端伺服器1000可由複數伺服器組成。在其他實施方式中,該多媒體記錄系統100還可應用於其他電腦系統內,如個人電腦,且該多媒體記錄系統100還可用於處理其他語音、視訊檔案。該多媒體記錄系統100的較佳實施方式包括一儲存模組110、一辨識模組120、一標籤模組130及一服務模組140。本實施方式中,該多媒體記錄系統100透過一電腦網路2000接收一包含多媒體資料D的多媒體資料流,其中該電腦網路2000可為一乙太網或一無線網路,如Wi-Fi。該多媒體資料D由一接收設備3000產生,如一攝影機,其中該攝影機包括一用於產生聲音內容的麥克風單元3100及一用於產生視訊內容的攝影單元3200。在其他實施方式中,該多媒體記錄系統100亦可接收包含該多媒體資料D的電腦檔案。另外,該多媒體資料D可以僅包括該接收設備3000產生的聲音內容或其他設備產生的聲音內容。
該儲存模組110包括一隨機訪問記憶體或一非易失性記憶體或一硬碟。該儲存模組110用於儲存數位訊息,如以多媒體檔案1110的形式將接收的多媒體資料D儲存於該儲存模組110內。該辨識模組120用於將該多媒體檔案1110的聲音內容轉換為文字,即將該多媒體資料D所包含的聲音內容轉換為對應的文字。當該多媒體檔案1110包含一視訊內容時,該辨識模組120還將該視訊內容作為參考來轉換聲音內容,如此可提高轉換的精準度。例如,該辨識模組120可根據該視訊內容中發言者的嘴形來獲知發言者的發音,進而使得當聲音內容不完整時該辨識模組120結合該發言者的發音來提高聲音內容至文字轉換的精準度。該辨識模組120還可根據該視訊內容來獲知發言者的身份或情緒,以將發言者的身份或情緒加入對應文字的描述中。該辨識模組120還可結合發言者使用的文件檔案來將聲音內容轉換為文字。例如,該辨識模組120將發言者的演示文件檔案的文字內容作為將聲音內容輪換為對應文字的關鍵字,以提高轉換的精準度。
本實施方式中,該辨識模組120包括一發音辨識資料庫1210及一語音/文字映射資料庫1220。該發音辨識資料庫1210儲存了對應的發音辨識規則,該語音/文字映射資料庫1220儲存了將聲音轉換為對應文字的資料。該辨識模組120將該多媒體檔案1110的聲音內容轉換為聲波訊號,並根據該發音辨識資料庫1210儲存的發音辨識規則從該聲波訊號獲得對應的聲音內容的不同發音部分,如聲音內容中的母音、子音等發音部分,還產生包含該語音部分的發音資料,之後,該辨識模組120將該發音資料與該語音/文字映射資料庫1220進行比較,以獲得該發音資料對應的文字。此外,該辨識模組120還可用發言者的聲音的音品判斷其身分,例如將該多媒體檔案1110的聲音內容與該辨識模組120的音品/身分映射資料庫中的音品/身分映射資料相比較,而藉以在文字中描述發言者的身分。
下表1為該標籤模組130產生的標籤訊息I。本實施方式中,該標籤模組130用於根據該辨識模組120轉換後的文字及一預設主題列表來產生對應的標籤訊息I,其中該預設主題列表儲存於該儲存模組110內。本實施方式中,該預設主題標準列表內的各主題均是透過一運行於該雲端伺服器1000的聲音辨識條件設置介面來預先設定的。該標籤模組130用於產生包含該預設主題列表中的預設主題的標籤訊息I,其中每一主題對應於該多媒體檔案1110中該主題的起始點。每一主題可包括該主題名稱的名稱域及一包含該多媒體檔案1110中該主題的起始點對應的時間域。例如,標籤訊息I包括主題1,主題1的名稱為第一子主題,主題1在該多媒體檔案1110的開始時間是00:02:10。
表1
該多媒體記錄系統100可選擇性的運用於不同的情境當中。例如,當應用於會議情境時,該儲存模組110根據該標籤訊息I將會議的相關訊息,如會議組織與會議內容(包括經轉換後得到的文字),作為一標籤檔案1120儲存於該儲存模組110內,其中每一標籤檔案1120對應於一多媒體檔案1110。當應用於記錄情境時,該儲存模組110則根據該標籤訊息I將錄影/錄音的相關訊息,如該錄影/錄音的主題及內容,作為該標籤檔案1120儲存。當應用於商務情境時,該儲存模組110則根據該標籤訊息I將交易的相關訊息,如客戶名稱及交易內容,作為一標籤檔案1120儲存。當該標籤檔案1120創建後,則可透過郵件等方式通知與該標籤檔案1120內容相關的人員。在其他實施方式中,各相關訊息亦可根據該標籤訊息I將其加入該多媒體檔案1110內。
請一併參考圖2及圖3,其中圖2為該多媒體記錄系統100透過一編輯介面Fe編輯一多媒體會議記錄的狀態圖,圖3為該多媒體記錄系統100透過一顯示介面Fd顯示一多媒體會議記錄的狀態圖。本實施方式中,該服務模組140透過該電腦網路2000提供一網路服務,如一網頁服務,其中該網路服務用於透過網頁的形式顯示該編輯介面Fe與顯示介面Fd。用戶可透過運行於該雲端伺服器1000或一多媒體接收器4000中的瀏覽器B來訪問該編輯介面Fe與顯示介面Fd,其中該多媒體接收器4000可為一電子設備,如電腦或便攜式設備。該編輯介面Fe用於編輯該標籤檔案1120的內容。該顯示介面Fd用於顯示該多媒體檔案1110及該標籤檔案1120的內容,其中每一標籤檔案1120均包括對應該標籤訊息I中的主題的標籤T。透過點擊主題旁的按鈕來選擇對應的標籤T,以查看多媒體檔案1110中對應該主題的內容。當該多媒體檔案1110包括一視訊內容時,該標籤檔案1120中的文字可作為該視訊內容的字幕。在其他實施方式中,該編輯介面Fe與該顯示介面Fd可以以應用程式的形式運行於該雲端伺服器1000或該多媒體接收器4000內。
請參考圖4,本發明多媒體記錄方法的較佳實施方式包括如下步驟:
步驟S1110,透過該電腦網路2000接收包含聲音內容的多媒體資料D。本實實施方式中,該多媒體資料D包括聲音內容及視訊內容。
步驟S1120,儲存對應於該多媒體資料D的該多媒體檔案1110。
步驟S1130,將與該多媒體資料D內包含的聲音內容對應的該多媒體檔案1110中的聲音內容轉換為文字。本實施方式中,該多媒體資料D中的視訊內容可以在轉換過程中用以參考。其他相關的檔案亦可在轉換過程中用來進行參考。
步驟S1140,根據轉換的文字及該預設主題列表產生對應於該多媒體檔案1110的某(些)部分的標籤訊息I。該標籤訊息I包括對應該預設主題列表的主題,其中每一主題對應於該多媒體檔案1110中該主題的起始點。在本實施方式中,該儲存模組110根據該標籤訊息I產生對應該多媒體檔案1110的標籤檔案1120。在其他實施方式中,亦可根據該標籤訊息I將相關訊息加入至該多媒體檔案1110內。
在本實施方式中,該電腦網路2000還提供一網路服務,如網頁服務,該網路服務可用於顯示該編輯介面Fe及該顯示介面Fd。該編輯介面Fe用於編輯該標籤檔案1120的內容。該顯示介面Fd用於顯示該多媒體檔案1110及該標籤檔案1120的內容,其中每一標籤檔案1120包括對應該標籤訊息I中的主題的標籤T。當一標籤T被選擇之後,該多媒體檔案1110中對應於該標籤T的部分則可被查看。
請參考圖5,其為步驟S1130的具體實施步驟,該步驟S1130包括如下步驟:
步驟S1131,將該多媒體資料D中的聲音內容轉換為聲波訊號。
步驟S1132,根據發音辨識規則從該聲波訊號中獲取對應的聲音內容的不同發音部分。
步驟S1133,根據該發音部分產生對應的發音資料。
步驟S1134,比較該發音資料與及該語音/文字映射資料以產生對應該發音資料的文字。
上述多媒體記錄系統及方法透過將發言者的語音轉換為文字並根據轉換的文字將對應於該語音的多媒體檔案進行標籤分段,進而產生關於多媒體會議記錄或錄影/錄音等多媒體素材的電腦檔案,使得用戶可據以方便、快捷地找到多媒體素材中的關於特定主題的部分。
綜上所述,本發明確已符合發明專利的要件,爰依法提出專利申請。惟,以上所述者僅為本發明的較佳實施方式,本發明的範圍並不以上述實施方式為限,舉凡熟悉本案技藝的人士援依本發明的精神所作的等效修飾或變化,皆應涵蓋於以下申請專利範圍內。
100...多媒體記錄系統
110...儲存模組
120...辨識模組
130...標籤模組
140...服務模組
1110...多媒體檔案
1120...標籤檔案
1210...發音辨識資料庫
1220...語音/文字映射資料庫
2000...電腦網路
1000...雲端伺服器
3000...接收設備
4000...多媒體接收器
3100...麥克風單元
3200...攝影單元
圖1是本發明多媒體記錄系統較佳實施方式的方框圖。
圖2為圖1中多媒體記錄系統透過一編輯介面編輯一多媒體會議記錄的狀態圖。
圖3為圖1中多媒體記錄系統透過一顯示介面顯示一多媒體會議記錄的狀態圖。
圖4為本發明多媒體記錄方法的較佳實施方式的流程圖。
圖5為圖4中步驟S1130的具體實施方式的流程圖。
100...多媒體記錄系統
110...儲存模組
120...辨識模組
130...標籤模組
140...服務模組
1110...多媒體檔案
1120...標籤檔案
1210...發音辨識資料庫
1220...語音/文字映射資料庫
2000...電腦網路
1000...雲端伺服器
3000...接收設備
4000...多媒體接收器
3100...麥克風單元
3200...攝影單元

Claims (20)

  1. 一種多媒體記錄系統,包括:
    一儲存模組,用於儲存一多媒體檔案,其中該多媒體檔案對應於包含聲音內容的一多媒體資料,該多媒體資料接收自一電腦網路;
    一辨識模組,用於將該多媒體資料的聲音內容轉換為文字;以及
    一標籤模組,用於根據轉換的文字產生標籤訊息,其中該標籤訊息對應於該多媒體檔案的一個或多個部分。
  2. 如申請專利範圍第1項所述之多媒體記錄系統,其中該標籤模組還根據轉換的文字及一預設主題列表來產生標籤訊息。
  3. 如申請專利範圍第2項所述之多媒體記錄系統,其中該標籤模組產生的標籤訊息包括一個或多個對應於該預設主題列表的主題,每一主題對應於該多媒體檔案中該主題的起始點。
  4. 如申請專利範圍第1項所述之多媒體記錄系統,其中該標籤訊息包括一個或多個主題,每一主題對應於該多媒體檔案在該主題的起始點。
  5. 如申請專利範圍第1項所述之多媒體記錄系統,還包括一服務模組,該服務模組用於透過該電腦網路提供該標籤訊息的一編輯介面。
  6. 如申請專利範圍第1項所述之多媒體記錄系統,還包括一服務模組,該服務模組用於透過該電腦網路提供一顯示介面,該顯示介面包括一個或多個對應於該標籤訊息的標籤,其中當該標籤被選擇時,該標籤所對應的多媒體檔案的部分的內容可以被查看。
  7. 如申請專利範圍第1項所述之多媒體記錄系統,其中該儲存模組還根據該標籤訊息生成對應該多媒體檔案的標籤檔案。
  8. 如申請專利範圍第1項所述之多媒體記錄系統,其中該多媒體資料還包括一視訊內容,該辨識模組將該多媒體資料的聲音內容轉換為文字時參考該視訊內容。
  9. 如申請專利範圍第1項所述之多媒體記錄系統,其中該辨識模組根據一文件檔案的文字內容將該多媒體資料轉換為文字。
  10. 如申請專利範圍第1項所述之多媒體記錄系統,該辨識模組包括一儲存發音辨識規則的發音辨識資料庫及一語音/文字映射資料的語音/文字映射資料庫,該辨識模組將該聲音內容轉換為聲波訊號,根據該發音辨識資料庫的發音辨識規則從該聲波訊號中獲取一個或多個發音部分,並根據該發音部分產生對應的發音資料,該辨識模組還將該發音資料與該語音/文字映射資料庫內的語音/文字映射資料進行比較,以獲取對應的文字。
  11. 一種多媒體記錄方法,包括如下步驟:
    透過電腦網路接收一包含聲音內容的多媒體資料;
    儲存對應於該多媒體資料的多媒體檔案;
    將該多媒體資料的聲音內容轉換為對應的文字;以及
    根據轉換的文字產生對應於該多媒體檔案的一個或多個部分的標籤訊息。
  12. 如申請專利範圍第11項所述之多媒體記錄方法,其中步驟“根據轉換的文字產生對應於該多媒體檔案的一個或多個部分的標籤訊息”包括:
    根據轉換的文字及一預設主題列表產生對應於該多媒體檔案的至少一部分的標籤訊息。
  13. 如申請專利範圍第12項所述之多媒體記錄方法,其中步驟“根據轉換的文字產生對應於該多媒體檔案的一個或多個部分的標籤訊息”還包括:
    產生包含對應於該預設主題列表的至少一主題的標籤訊息,每一主題對應該多媒體檔案中該主題的起始點。
  14. 如申請專利範圍第11項所述之多媒體記錄方法,其中步驟“根據轉換的文字產生對應於該多媒體檔案的一個或多個部分的標籤訊息”還包括:
    產生包括至少一主題的標籤訊息,每一主題對應該多媒體檔案中該主題的起始點。
  15. 如申請專利範圍第11項所述之多媒體記錄方法,還包括:
    透過一電腦網路提供該標籤訊息的編輯介面。
  16. 如申請專利範圍第11項所述之多媒體記錄方法,還包括:透過該電腦網路提供一顯示對應於該標籤訊息的一個或多個標籤的顯示介面,其中當一標籤被選擇時,該標籤所對應的該多媒體檔案的部分可以被查看。
  17. 如申請專利範圍第11項所述之多媒體記錄方法,還包括:根據該標籤訊息創建對應該多媒體檔案的標籤檔案。
  18. 如申請專利範圍第11項所述之多媒體記錄方法,其中步驟“透過電腦網路接收一包含聲音內容的多媒體資料”包括:
    透過該電腦網路接收包含該聲音內容及視訊內容的多媒體資料;
    步驟“將該多媒體資料的聲音內容轉換為對應的文字”包括:
    以該視訊內容作為參考將該多媒體資料的聲音內容轉換為對應的文字。
  19. 如申請專利範圍第11項所述之多媒體記錄方法,其中步驟“透過電腦網路接收一包含聲音內容的多媒體資料”還包括:
    根據一文件檔案內的文字內容將該聲音內容轉換為對應的文字。
  20. 如申請專利範圍第11項所述之多媒體記錄方法,其中步驟“透過電腦網路接收一包含聲音內容的多媒體資料”還包括:
    將該聲音內容轉換為聲波訊號;
    根據一發音辨識規則從該聲波訊號中獲取一個或多個發音部分;
    產生對應於該發音部分的發音資料;以及
    比較發音資料與該語音/文字映射資料,以獲得對應該發音資料的文字。
TW101130202A 2012-08-21 2012-08-21 多媒體記錄系統及方法 TW201409259A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW101130202A TW201409259A (zh) 2012-08-21 2012-08-21 多媒體記錄系統及方法
US13/596,138 US20140058727A1 (en) 2012-08-21 2012-08-28 Multimedia recording system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101130202A TW201409259A (zh) 2012-08-21 2012-08-21 多媒體記錄系統及方法

Publications (1)

Publication Number Publication Date
TW201409259A true TW201409259A (zh) 2014-03-01

Family

ID=50148789

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101130202A TW201409259A (zh) 2012-08-21 2012-08-21 多媒體記錄系統及方法

Country Status (2)

Country Link
US (1) US20140058727A1 (zh)
TW (1) TW201409259A (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9654521B2 (en) * 2013-03-14 2017-05-16 International Business Machines Corporation Analysis of multi-modal parallel communication timeboxes in electronic meeting for automated opportunity qualification and response
KR102149266B1 (ko) * 2013-05-21 2020-08-28 삼성전자 주식회사 전자 기기의 오디오 데이터의 관리 방법 및 장치
GB201406070D0 (en) * 2014-04-04 2014-05-21 Eads Uk Ltd Method of capturing and structuring information from a meeting

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060141437A1 (en) * 2004-12-23 2006-06-29 Wakamoto Carl I Encoding and decoding system for making and using interactive language training and entertainment materials
US7788695B2 (en) * 2006-08-25 2010-08-31 At&T Intellectual Property I, L.P. System and method of distributing multimedia content
US7640272B2 (en) * 2006-12-07 2009-12-29 Microsoft Corporation Using automated content analysis for audio/video content consumption
US8027668B2 (en) * 2007-07-20 2011-09-27 Broadcom Corporation Method and system for creating a personalized journal based on collecting links to information and annotating those links for later retrieval
JP5313466B2 (ja) * 2007-06-28 2013-10-09 ニュアンス コミュニケーションズ,インコーポレイテッド 音声の再生に同期して音声の内容を表示させる技術
WO2010065107A1 (en) * 2008-12-04 2010-06-10 Packetvideo Corp. System and method for browsing, selecting and/or controlling rendering of media with a mobile device
US20120046936A1 (en) * 2009-04-07 2012-02-23 Lemi Technology, Llc System and method for distributed audience feedback on semantic analysis of media content
CN101923856B (zh) * 2009-06-12 2012-06-06 华为技术有限公司 语音识别训练处理、控制方法及装置
US8638911B2 (en) * 2009-07-24 2014-01-28 Avaya Inc. Classification of voice messages based on analysis of the content of the message and user-provisioned tagging rules
US9560206B2 (en) * 2010-04-30 2017-01-31 American Teleconferencing Services, Ltd. Real-time speech-to-text conversion in an audio conference session
US10002608B2 (en) * 2010-09-17 2018-06-19 Nuance Communications, Inc. System and method for using prosody for voice-enabled search

Also Published As

Publication number Publication date
US20140058727A1 (en) 2014-02-27

Similar Documents

Publication Publication Date Title
US10586541B2 (en) Communicating metadata that identifies a current speaker
KR101513888B1 (ko) 멀티미디어 이메일 합성 장치 및 방법
US20190287535A1 (en) Method for recording, parsing, and transcribing deposition proceedings
US9053096B2 (en) Language translation based on speaker-related information
US20150187353A1 (en) Audio tagging
US10255710B2 (en) Audio media mood visualization
US20190199939A1 (en) Suggestion of visual effects based on detected sound patterns
US20180226073A1 (en) Context-based cognitive speech to text engine
US20160189713A1 (en) Apparatus and method for automatically creating and recording minutes of meeting
KR20160108348A (ko) 흉내 및 풍부한 멀티미디어로 응답하는 디지털 개인용 어시스턴트 상호작용 기법
US20140280186A1 (en) Crowdsourcing and consolidating user notes taken in a virtual meeting
US20160189103A1 (en) Apparatus and method for automatically creating and recording minutes of meeting
US20160189107A1 (en) Apparatus and method for automatically creating and recording minutes of meeting
WO2016119370A1 (zh) 一种实现录音的方法、装置和移动终端
US9361714B2 (en) Enhanced video description
CN117529773A (zh) 用户自主个性化文本转语音的声音生成
CN110019962A (zh) 一种视频文案信息的生成方法及装置
CN112673641B (zh) 对视频或语音消息的内联响应
WO2019026395A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN103631780B (zh) 多媒体记录系统及方法
TW201409259A (zh) 多媒體記錄系統及方法
JP7103681B2 (ja) 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム
JP2023530970A (ja) 人のスピーチの豊富な転写についての音声・ツー・テキスト・タグ付けのためのシステム
JP2011170622A (ja) コンテンツ提供システム、コンテンツ提供方法、およびコンテンツ提供プログラム
US20150079947A1 (en) Emotion Express EMEX System and Method for Creating and Distributing Feelings Messages