TW201409259A

TW201409259A - 多媒體記錄系統及方法

Info

Publication number: TW201409259A
Application number: TW101130202A
Authority: TW
Inventors: Tai-Ming Gou; yi-wen Cai; Chun-Ming Chen
Original assignee: Hon Hai Prec Ind Co Ltd
Priority date: 2012-08-21
Filing date: 2012-08-21
Publication date: 2014-03-01
Also published as: US20140058727A1

Abstract

一種多媒體記錄系統包括一儲存模組、一辨識模組及一標籤模組。該儲存模組儲存一多媒體檔案，其中該多媒體檔案對應於包含聲音內容的一多媒體資料，該多媒體資料接收自一電腦網路；該辨識模組用於將該多媒體資料的聲音內容轉換為文字；該標籤模組用於根據轉換的文字產生對應的標籤訊息，其中該標籤訊息對應於一個多媒體檔的某部分。

Description

多媒體記錄系統及方法

本發明涉及一種多媒體記錄系統及方法，特別涉及一種將語音轉換為文字並根據轉換得到的文字將對應於該語音的多媒體檔案進行標籤分段的多媒體記錄系統及方法。

一般的會議記錄通常由記錄者將參加會議人員的發言記錄在紙本或電子檔案中。然，由於記錄者在理解及文字表達上的不同可能會導致會議記錄的內容與發言者所表達的不一致，進而可能導致其他人員無法準確地理解會議的內容。另，儘管可以使用錄影/錄音等多媒體素材來直觀地呈現會議的內容，然，當要查閱關於特定主題的部分時，由於用戶無法確切獲知該主題所在的檔案中的段落，故，用戶只能盲目地搜尋整個檔案，如此導致了相當多的時間浪費。

鑒於以上內容，有必要提供一種可準確記錄與會者的內容及方便、快捷地查找相關主題的多媒體記錄系統及方法。

一種多媒體記錄系統，包括：

一儲存模組，用於儲存一多媒體檔案，其中該多媒體檔案對應於包含聲音內容的一多媒體資料，該多媒體資料接收自一電腦網路；

一辨識模組，用於將該多媒體資料的聲音內容轉換為文字；以及

一標籤模組，用於根據轉換的文字產生標籤訊息，其中該標籤訊息對應於該多媒體檔案的一個或多個部分。

一種多媒體記錄方法，包括如下步驟：

透過電腦網路接收一包含聲音內容的多媒體資料；

儲存對應於該多媒體資料的多媒體檔；

將該多媒體資料的聲音內容轉換為對應的文字；以及

根據轉換的文字產生對應於該多媒體檔案的一個或多個部分的標籤訊息。

上述多媒體記錄系統及方法透過將發言者的語音轉換為文字以及根據文字對該多媒體檔案進行標籤分段，進而產生對應多媒體會議或語音或視訊記錄的電腦文件，如此使得用戶可根據主題來方便、快捷地選擇對應的檔案。

請參考圖1，本發明多媒體記錄系統100應用於一雲端伺服器1000，該多媒體記錄系統100用於處理多媒體會議記錄相關的檔案，其中該雲端伺服器1000可由複數伺服器組成。在其他實施方式中，該多媒體記錄系統100還可應用於其他電腦系統內，如個人電腦，且該多媒體記錄系統100還可用於處理其他語音、視訊檔案。該多媒體記錄系統100的較佳實施方式包括一儲存模組110、一辨識模組120、一標籤模組130及一服務模組140。本實施方式中，該多媒體記錄系統100透過一電腦網路2000接收一包含多媒體資料D的多媒體資料流，其中該電腦網路2000可為一乙太網或一無線網路，如Wi-Fi。該多媒體資料D由一接收設備3000產生，如一攝影機，其中該攝影機包括一用於產生聲音內容的麥克風單元3100及一用於產生視訊內容的攝影單元3200。在其他實施方式中，該多媒體記錄系統100亦可接收包含該多媒體資料D的電腦檔案。另外，該多媒體資料D可以僅包括該接收設備3000產生的聲音內容或其他設備產生的聲音內容。

該儲存模組110包括一隨機訪問記憶體或一非易失性記憶體或一硬碟。該儲存模組110用於儲存數位訊息，如以多媒體檔案1110的形式將接收的多媒體資料D儲存於該儲存模組110內。該辨識模組120用於將該多媒體檔案1110的聲音內容轉換為文字，即將該多媒體資料D所包含的聲音內容轉換為對應的文字。當該多媒體檔案1110包含一視訊內容時，該辨識模組120還將該視訊內容作為參考來轉換聲音內容，如此可提高轉換的精準度。例如，該辨識模組120可根據該視訊內容中發言者的嘴形來獲知發言者的發音，進而使得當聲音內容不完整時該辨識模組120結合該發言者的發音來提高聲音內容至文字轉換的精準度。該辨識模組120還可根據該視訊內容來獲知發言者的身份或情緒，以將發言者的身份或情緒加入對應文字的描述中。該辨識模組120還可結合發言者使用的文件檔案來將聲音內容轉換為文字。例如，該辨識模組120將發言者的演示文件檔案的文字內容作為將聲音內容輪換為對應文字的關鍵字，以提高轉換的精準度。

本實施方式中，該辨識模組120包括一發音辨識資料庫1210及一語音/文字映射資料庫1220。該發音辨識資料庫1210儲存了對應的發音辨識規則，該語音/文字映射資料庫1220儲存了將聲音轉換為對應文字的資料。該辨識模組120將該多媒體檔案1110的聲音內容轉換為聲波訊號，並根據該發音辨識資料庫1210儲存的發音辨識規則從該聲波訊號獲得對應的聲音內容的不同發音部分，如聲音內容中的母音、子音等發音部分，還產生包含該語音部分的發音資料，之後，該辨識模組120將該發音資料與該語音/文字映射資料庫1220進行比較，以獲得該發音資料對應的文字。此外，該辨識模組120還可用發言者的聲音的音品判斷其身分，例如將該多媒體檔案1110的聲音內容與該辨識模組120的音品/身分映射資料庫中的音品/身分映射資料相比較，而藉以在文字中描述發言者的身分。

下表1為該標籤模組130產生的標籤訊息I。本實施方式中，該標籤模組130用於根據該辨識模組120轉換後的文字及一預設主題列表來產生對應的標籤訊息I，其中該預設主題列表儲存於該儲存模組110內。本實施方式中，該預設主題標準列表內的各主題均是透過一運行於該雲端伺服器1000的聲音辨識條件設置介面來預先設定的。該標籤模組130用於產生包含該預設主題列表中的預設主題的標籤訊息I，其中每一主題對應於該多媒體檔案1110中該主題的起始點。每一主題可包括該主題名稱的名稱域及一包含該多媒體檔案1110中該主題的起始點對應的時間域。例如，標籤訊息I包括主題1，主題1的名稱為第一子主題，主題1在該多媒體檔案1110的開始時間是00：02：10。

表1

該多媒體記錄系統100可選擇性的運用於不同的情境當中。例如，當應用於會議情境時，該儲存模組110根據該標籤訊息I將會議的相關訊息，如會議組織與會議內容（包括經轉換後得到的文字），作為一標籤檔案1120儲存於該儲存模組110內，其中每一標籤檔案1120對應於一多媒體檔案1110。當應用於記錄情境時，該儲存模組110則根據該標籤訊息I將錄影/錄音的相關訊息，如該錄影/錄音的主題及內容，作為該標籤檔案1120儲存。當應用於商務情境時，該儲存模組110則根據該標籤訊息I將交易的相關訊息，如客戶名稱及交易內容，作為一標籤檔案1120儲存。當該標籤檔案1120創建後，則可透過郵件等方式通知與該標籤檔案1120內容相關的人員。在其他實施方式中，各相關訊息亦可根據該標籤訊息I將其加入該多媒體檔案1110內。

請一併參考圖2及圖3，其中圖2為該多媒體記錄系統100透過一編輯介面Fe編輯一多媒體會議記錄的狀態圖，圖3為該多媒體記錄系統100透過一顯示介面Fd顯示一多媒體會議記錄的狀態圖。本實施方式中，該服務模組140透過該電腦網路2000提供一網路服務，如一網頁服務，其中該網路服務用於透過網頁的形式顯示該編輯介面Fe與顯示介面Fd。用戶可透過運行於該雲端伺服器1000或一多媒體接收器4000中的瀏覽器B來訪問該編輯介面Fe與顯示介面Fd，其中該多媒體接收器4000可為一電子設備，如電腦或便攜式設備。該編輯介面Fe用於編輯該標籤檔案1120的內容。該顯示介面Fd用於顯示該多媒體檔案1110及該標籤檔案1120的內容，其中每一標籤檔案1120均包括對應該標籤訊息I中的主題的標籤T。透過點擊主題旁的按鈕來選擇對應的標籤T，以查看多媒體檔案1110中對應該主題的內容。當該多媒體檔案1110包括一視訊內容時，該標籤檔案1120中的文字可作為該視訊內容的字幕。在其他實施方式中，該編輯介面Fe與該顯示介面Fd可以以應用程式的形式運行於該雲端伺服器1000或該多媒體接收器4000內。

請參考圖4，本發明多媒體記錄方法的較佳實施方式包括如下步驟：

步驟S1110，透過該電腦網路2000接收包含聲音內容的多媒體資料D。本實實施方式中，該多媒體資料D包括聲音內容及視訊內容。

步驟S1120，儲存對應於該多媒體資料D的該多媒體檔案1110。

步驟S1130，將與該多媒體資料D內包含的聲音內容對應的該多媒體檔案1110中的聲音內容轉換為文字。本實施方式中，該多媒體資料D中的視訊內容可以在轉換過程中用以參考。其他相關的檔案亦可在轉換過程中用來進行參考。

步驟S1140，根據轉換的文字及該預設主題列表產生對應於該多媒體檔案1110的某（些）部分的標籤訊息I。該標籤訊息I包括對應該預設主題列表的主題，其中每一主題對應於該多媒體檔案1110中該主題的起始點。在本實施方式中，該儲存模組110根據該標籤訊息I產生對應該多媒體檔案1110的標籤檔案1120。在其他實施方式中，亦可根據該標籤訊息I將相關訊息加入至該多媒體檔案1110內。

在本實施方式中，該電腦網路2000還提供一網路服務，如網頁服務，該網路服務可用於顯示該編輯介面Fe及該顯示介面Fd。該編輯介面Fe用於編輯該標籤檔案1120的內容。該顯示介面Fd用於顯示該多媒體檔案1110及該標籤檔案1120的內容，其中每一標籤檔案1120包括對應該標籤訊息I中的主題的標籤T。當一標籤T被選擇之後，該多媒體檔案1110中對應於該標籤T的部分則可被查看。

請參考圖5，其為步驟S1130的具體實施步驟，該步驟S1130包括如下步驟：

步驟S1131，將該多媒體資料D中的聲音內容轉換為聲波訊號。

步驟S1132，根據發音辨識規則從該聲波訊號中獲取對應的聲音內容的不同發音部分。

步驟S1133，根據該發音部分產生對應的發音資料。

步驟S1134，比較該發音資料與及該語音/文字映射資料以產生對應該發音資料的文字。

上述多媒體記錄系統及方法透過將發言者的語音轉換為文字並根據轉換的文字將對應於該語音的多媒體檔案進行標籤分段，進而產生關於多媒體會議記錄或錄影/錄音等多媒體素材的電腦檔案，使得用戶可據以方便、快捷地找到多媒體素材中的關於特定主題的部分。

綜上所述，本發明確已符合發明專利的要件，爰依法提出專利申請。惟，以上所述者僅為本發明的較佳實施方式，本發明的範圍並不以上述實施方式為限，舉凡熟悉本案技藝的人士援依本發明的精神所作的等效修飾或變化，皆應涵蓋於以下申請專利範圍內。

100．．．多媒體記錄系統

110．．．儲存模組

120．．．辨識模組

130．．．標籤模組

140．．．服務模組

1110．．．多媒體檔案

1120．．．標籤檔案

1210．．．發音辨識資料庫

1220．．．語音/文字映射資料庫

2000．．．電腦網路

1000．．．雲端伺服器

3000．．．接收設備

4000．．．多媒體接收器

3100．．．麥克風單元

3200．．．攝影單元

圖1是本發明多媒體記錄系統較佳實施方式的方框圖。

圖2為圖1中多媒體記錄系統透過一編輯介面編輯一多媒體會議記錄的狀態圖。

圖3為圖1中多媒體記錄系統透過一顯示介面顯示一多媒體會議記錄的狀態圖。

圖4為本發明多媒體記錄方法的較佳實施方式的流程圖。

圖5為圖4中步驟S1130的具體實施方式的流程圖。