明 細 書
音声コンテンツ生成システム、 情報交換システム、 プログラム、 音 声コンテンッ生成方法及び情報交換方法
技術分野
[0001 ] 本発明は、 音声コンテンツ生成システム、 プログラム、 音声コンテンツ生 成方法及びこれらにより生成された音声コンテンツを用いた情報交換システ ム及び情報交換方法に関する。
背景技術
[0002] インタ一ネットのブロードバンド化ゃポータブルオーディオプレ一ヤーの 普及に伴って、 新聞社やテレビ局等の音声による番組を配信するサービスが 増加してきている。 例えば、 複数のユーザが自由にコンテンツやコメントを 発信できるブログ (ウェブログ、 w e b I o g、 b I o g ) に音声を用いた もの (以下、 「音声ブログ」 という) やポータブルオーディオプレイヤ一に 自動的に音声コンテンツをダウンロードするサービス (ポッドキャスティン グ、 P o d c a s t i n g ) といったサ一ビスが提供されている。 さらに最 近では、 コンテンツプロバイダ等によるコンテンツ作成支援サイ トのサ一ビ スにより、 企業や団体のみならず、 個人ユーザによる音声ブログ等も急激に 増加している状況にある。
[0003] ここで、 コンテンツとは、 書籍や映画等の別のメディアへの感想や批評、 番組、 日記、 何らかの作品からの引用、 音楽、 寸劇等、 あらゆる種類の文章 および音声を指す。 上記音声ブログサービスでは、 あるユーザが作成したコ ンテンッに対し、 上記コンテンツを閲覧したユーザがそれに対するコメント を付けることができる。
[0004] ここで、 コメントとは、 コンテンツに対する感想、 批評、 同意、 反論等の ことである。 付けられたコメントに対し、 上記コンテンツおよびコメントを 閲覧した他のユーザがさらにコメントを付けたり、 または、 コンテンツ作成 者がコメントに対して、 さらにコンテンツを付け足すことによって、 コメン
トを含めたコンテンツが更新されていく。
[0005] 通常は、 音声で発信されるコンテンツに対し、 メールやゥヱブ上の入カフ オーム等により、 閲覧したユーザがテキストで返信や感想を送信し、 ウェブ サイ 卜で音声化される。 特許文献 1には、 テキストデータから合成音声を得 るためのテキスト音声変換装置が開示されている。
[0006] また、 音声のコンテンツに対し、 コメントを録音して音声ファイルとして 保存しアップ口一ドすることで、 すべてのコンテンツ及びコメントを音声と して聞くことができるようなサービスも知られている。
[0007] 特許文献 1 :特開 2 0 0 1 _ 3 5 0 4 9 0号公報
非特許文献 1 :古井 貞熙著、 「ディジタル音声処理」 、 東海大学出版会、 1
9 8 5年、 p 1 3 4 _ p 1 4 8
発明の開示
[0008] しかしながら、 上記した一般の音声ブログサービス技術では、 テキストデ -タで書かれたコンテンツやコメントを音声で配信することは可能であるが 、 音声データで寄せられたコメントを取扱うことができないという問題点が
[0009] また、 音声によるコメントを送信するには、 パーソナルコンピュータ (Ρ C ) 等の端末に録音機能が備えられていなければならないという別の問題点 もある。 例えば、 録音機能を有する携帯電話機を用いるユーザと、 録音機能 を有しない P Cユーザとの間では、 コメン卜の交換に支障を来たすことが考 えられる。
[0010] 本発明は、 上記した事情に鑑みてなされたものであって、 その目的とする ところは、 テキストデータ又は音声データが混在する情報源の内容を網羅で きる音声コンテンツを生成し、 該情報源にアクセスするユーザ間の情報交換 を円滑化できる音声コンテンッ生成システム、 音声コンテンッ生成システム を実現するためのプログラム、 該音声コンテンツ生成システムを用いた音声 コンテンツの生成方法及びその応用システム (情報交換システム) 等を提供 るしとに る。
[001 1 ] 本発明の第 1の視点によれば、 テキストから合成音声を生成する音声合成 手段を備えた音声コンテンツ生成システムであって、 音声データとテキスト データとが混在する情報源を入力とし、 前記テキストデータについて、 前記 音声合成手段を用いて合成音声を生成し、 該合成音声と前記音声データとを 所定の順序に従って編成した音声コンテンッを生成する音声コンテンッ生成 手段を備えたこと、 を特徴とする音声コンテンツ生成システム、 そのプログ ラム及び音声コンテンッ生成方法が提供される。
[0012] 本発明の第 2の視点によれば、 テキストから合成音声を生成する音声合成 手段を備えた音声コンテンッ生成システムであって、
音声データ又はテキストデータを主体とするコンテンツをそれぞれ登録可 能なマルチメディアデータベースと接続され、
前記マルチメディアデ一タベースに登録された前記テキストデータについ て、 前記音声合成手段を用いて合成音声を生成し、 該合成音声と前記音声デ ータとを所定の順序に従って編成した音声コンテンッを生成する音声コンテ ンッ生成手段を備えたこと、
を特徴とする音声コンテンッ生成システムが提供される。
[0013] 本発明の第 3の視点によれば、 本発明の第 2の視点による音声コンテンツ 生成システムを含み、 複数のユーザ端末間の情報交換に用いられる情報交換 システムであって、
—のユーザ端末から、 前記マルチメディアデータベースへのテキストデ一 タ又は音声データの登録を受け付ける手段と、
音声によるサービスを要求するユーザ端末に対して、 前記音声コンテンツ 生成手段により生成された音声コンテンツを送信する手段と、 を備え、 前記送信された音声コンテンツの再生と、 前記音声データ又はテキスト形 式によるコンテンッの追加登録とを繰り返すことにより、 前記各ユーザ端末 間の情報交換を実現すること、
を特徴とする情報交換システムが提供される。
[0014] 本発明の第 4の視点によれば、 音声データ又はテキストデータを主体とす
るコンテンッをそれぞれ登録可能なマルチメディァデータベースと接続され たコンピュータに実行させるプログラムであって、
前記マルチメディアデータベースに登録された前記テキストデータに対応 する合成音声を生成する音声合成手段と、
前記合成音声と前記音声データとを所定の順序に従って編成した音声コン テンッを生成する音声コンテンツ生成手段と、 の前記各手段として、 前記コ ンピュータを機能させるプログラムが提供される。
[0015] 本発明の第 5の視点によれば、 音声データ又はテキストデータを主体とす るコンテンツをそれぞれ登録可能であり、 更に前記各コンテンツと対応付け て、 作成日時、 環境、 過去のデータ作成回数、 作成者の氏名、 性別、 年齢、 住所のうち少なくとも一つを含むコンテンツ属性情報を登録可能なマルチメ ディアデータベースと接続された音声コンテンツ生成システムを用いた音声 コンテンッ生成方法であって、
前記音声コンテンッ生成システムが、 前記マルチメディアデ一タベースに 登録された前記テキストデータに対応する合成音声を生成するステップと、 前記音声コンテンッ生成システムが、 前記マルチメディアデ一タベースに 登録された前記コンテンツ属性情報に対応する合成音声を生成するステップ と、
前記音声コンテンツ生成システムが、 前記テキストデータに対応する合成 音声と前記音声データと前記コンテンツ属性情報に対応する合成音声とを所 定の順序に従って編成し、 音声のみにて聴取可能な音声コンテンツを生成す るステップと、 を含むこと、
を特徴とする音声コンテンッ生成方法が提供される。
[001 6] 本発明の第 6の視点によれば、 音声データ又はテキストデータを主体とす るコンテンッをそれぞれ登録可能なマルチメディァデータベースと接続され た音声コンテンッ生成システムと、 該音声コンテンッ生成システムに接続さ れたユーザ端末群とを用いた情報交換方法であって、
—のユーザ端末が、 前記マルチメディアデータベースに、 音声データ又は
テキストデータを主体とするコンテンツを登録するステップと、 前記音声コンテンッ生成システムが、 前記マルチメディアデ一タベースに 登録されたテキストデータについて、 対応する合成音声を生成するステップ と、
前記音声コンテンツ生成システムが、 前記テキストデータに対応する合成 音声と前記マルチメディアデータベースに登録された音声データとを所定の 順序に従つて編成した音声コンテンツを生成するステップと、
前記音声コンテンツ生成システムが、 他のユーザ端末からの要求に応じて 、 前記音声コンテンツを送信するステップと、 を含み、
前記音声コンテンツの再生と、 前記音声データ又はテキスト形式によるコ ンテンッの追加登録とを繰り返すことにより、 前記ユーザ端末間の情報交換 を実現すること、
を特徴とする情報交換方法が提供される。
[001 7] この発明によれば、 音声データ及びテキストデータの双方を等しく音声コ ンテンッ化することが可能となる。 より具体的には、 音声データとテキスト デ一タが混在しデ一タ形式が統一されていないコンテンツやコメントを適宜 編集して配信する音声ブログやポッドキャスティングを実現することが可能 となる。
[0018] なお、 以上の構成要素の任意の組合せ、 本発明の表現を方法、 装置、 シス テム、 記録媒体、 コンピュータプログラムなどの間で変換したものもまた、 本発明の態様として有効である。
図面の簡単な説明
[001 9] 上述した目的、 およびその他の目的、 特徴および利点は、 以下に述べる好 適な実施の形態、 およびそれに付随する以下の図面によってさらに明らかに なる。
[図 1 ]本発明の第 1、 第 2の実施形態に係る音声コンテンツ生成システムの構 成を示すプロック図である。
[図 2]本発明の第 1の実施形態に係る音声コンテンッ生成システムの動作を示
すフローチヤ一トである。
[図 3]本発明の第 3の実施形態に係る音声コンテンツ生成システムの構成を示 すプロック図である。
[図 4]本発明の第 3の実施形態に係る音声コンテンツ生成システムの動作を示 すフローチヤ一トである。
[図 5]本発明の第 4の実施形態に係る音声コンテンツ生成システムの構成を示 すプロック図である。
[図 6]本発明の第 4の実施形態に係る音声コンテンツ生成システムの動作を示 すフローチヤ一トである。
[図 7]本発明の第 5、 第 6の実施形態に係る音声コンテンッ生成システムの構 成を示すプロック図である。
[図 8]本発明の第 5の実施形態に係る音声コンテンツ生成システムの動作を示 すフローチヤ一トである。
[図 9]本発明の第 6の実施形態に係る音声コンテンツ生成システムの動作を示 すフローチヤ一トである。
[図 10]本発明の第 7の実施形態に係る音声コンテンツ生成システムの構成を 示すプロック図である。
[図 1 1 ]本発明の第 8の実施形態に係る情報交換システムの構成を示すブロッ ク図である。
[図 12]本発明の第 1の実施例に係る音声コンテンッ生成システムについて説 明するための図である。
[図 13]本発明の第 2、 第 7、 第 8の実施例に係る音声コンテンツ生成システ ムについて説明するための図である。
[図 14]本発明の第 2の実施例に係る補助データについて説明するための図で める。
[図 15]本発明の第 3の実施例に係る音声コンテンツ生成システムについて説 明するための図である。
[図 1 6]本発明の第 3の実施例の別の音声コンテンッ生成システムについて説
明するための図である。
[図 17]本発明の他の実施例から派生した実施例に係る音声コンテンツ生成シ ステムの構成を示すプロック図である。
[図 18]本発明の他の実施例から派生した実施例に係る音声コンテンツ生成方 法を表すフローチヤ一トである。
[図 19]本発明の第 4の実施例に係る音声コンテンツ生成システムについて説 明するための図である。
[図 20]本発明の第 5の実施例に係る音声コンテンツ生成システムについて説 明するための図である。
[図 21 ]本発明の第 6の実施例に係る音声コンテンツ生成システムについて説 明するための図である。
[図 22]本発明の第 1 1の実施例のシステム構成を説明するための図である。
[図 23]本発明の第 1 1の実施例の動作を説明するための図である。
[図 24]本発明の第 1 1の実施例の動作を説明するための図である。
[図 25]本発明の第 1 1の実施例の変形例を説明するための図である。
[図 26]本発明の第 8の実施形態に係るマルチメディアコンテンツユーザ対話 部の構成を示すプロック図である。
[図 27]本発明の第 8の実施形態に係るマルチメディアコンテンツユーザ対話 部の構成の変形例を示すブロック図である。
発明を実施するための最良の形態
[0020] 以下、 本発明を実施するための最良の形態について図面を参照して説明す る。 尚、 すべての図面において、 同様な構成要素には同様の符号を付し、 適 宜説明を省略する。
[0021 ] [第 1の実施形態]
図 1は、 本発明の第 1の実施形態に係る音声コンテンッ生成システムのブ ロック図である。 図 1を参照すると、 本実施形態に係る音声コンテンツ生成 システムは、 マルチメディアデータベース 1 0 1、 音声合成部 1 0 2、 音声 コンテンツ生成部 1 0 3とを備えて構成される。 本実施形態の音声コンテン
ッ生成システムは、 テキストから合成音声を生成する音声合成部 1 0 2を備 えた音声コンテンツ生成システムであって、 音声データ又はテキストデータ を主体とするコンテンツをそれぞれ登録可能なマルチメディアデータベース 1 0 1 と接続され、 マルチメディアデータベース 1 0 1に登録されたテキス トデータについて、 音声合成部 1 0 2を用いて合成音声を生成し、 該合成音 声と音声データとを所定の順序に従って編成した音声コンテンツを生成する 音声コンテンッ生成部 1 0 3を備える。
[0022] 音声コンテンツ生成システムの各構成要素は、 任意のコンピュータの C P U、 メモリ、 メモリにロードされた本図の構成要素を実現するプログラム、 そのプログラムを格納するハードディスクなどの記憶ュニット、 ネットヮー ク接続用インタフェースを中心にハ一ドウエアとソフトウエアの任意の組合 せによって実現される。 そして、 その実現方法、 装置にはいろいろな変形例 があることは、 当業者には理解されるところである。 以下説明する各図は、 ハ一ドウエア単位の構成ではなく、 機能単位のブロックを示している。
[0023] 本実施形態の音声コンテンツ生成システムを実現するプログラムは、 音声 データ又はテキストデータを主体とするコンテンツをそれぞれ登録可能なマ ルチメディアデータベース 1 0 1 と接続されたコンピュータ (不図示) に実 行させるプログラムであって、 マルチメディアデータベース 1 0 1に登録さ れたテキストデータに対応する合成音声を生成する音声合成部 1 0 2と、 合 成音声と前記音声データとを所定の順序に従って編成した音声コンテンツを 生成する音声コンテンツ生成部 1 0 3と、 の各手段として、 コンピュータを 機能させる。
[0024] 続いて、 図 1及び図 2を参照して、 本実施形態の動作について説明する。
マルチメディアデータベース 1 0 1には、 少なくとも 1つ以上の音声からな る音声記事データ及び少なくとも 1つ以上のテキス卜からなるテキスト記事 データが記憶されている。
[0025] ステップ S 9 0 1において、 音声コンテンツ生成部 1 0 3は、 マルチメデ ィァデータベース 1 0 1に記憶されている記事データを読み出し、 当該記事
データがテキスト記事データであるか音声記事データであるかを判断する。
[0026] テキスト記事データである場合には、 音声コンテンツ生成部 1 0 3は、 音 声合成部 1 0 2にテキスト記事データを出力する。 ステップ S 9 0 2におい て、 音声合成部 1 0 2は、 上記音声コンテンツ生成部 1 0 3から入力された テキスト記事データをテキスト音声合成技術により音声波形に変換 (以下、
「音声化」 乃至 「合成音声化」 と呼ぶ) し、 音声コンテンツ生成部 1 0 3に 出力する。 ここで、 テキスト音声合成技術 (T e x t—T o— S p e e c h : T T S ) とは、 例えば、 非特許文献 1に記載されているような、 入力され たテキストを解析し、 韻律や時間長を推定して合成音声として出力する技術 の総称である。
[0027] ステップ S 9 0 3において、 音声コンテンツ生成部 1 0 3は、 マルチメデ ィァデータベース 1 0 1に記憶されている各音声記事データと、 音声合成部 1 0 2において各テキスト記事データを音声化した各合成音と、 を用いてコ ンテンッを生成する。
[0028] 本実施形態によれば、 音声およびテキス卜が混在するマルチメディアデ一 タベース内のデータを用いて、 音声のみからなるコンテンツを作成すること が可能となる。 従って、 音声あるいはテキストのどちらの記事データも音声 による記事配信が可能となる。 このような音声コンテンツは、 特に音声プロ グゃポッドキャスティングとして利用するのに好適である。
[0029] また、 予め与えられた時間又は時間の範囲に収まるよう、 選択する記事デ ータの範囲を制限することも有効であり、 例えば、 音声コンテンツデータ全 体を番組と見立てた場合の時間を制御することが可能となる。 すなわち、 本 実施形態の音声コンテンッ生成システムにおいて、 音声コンテンッ生成部 1 0 3は、 音声コンテンツが予め定められた時間長に収まるように、 テキスト データ及び音声データを編集することができる。
[0030] また、 図 1の構成からマルチメディアデータベース 1 0 1を除外した構成 とすることもできる。 音声コンテンツ生成システムは、 テキストから合成音 声を生成する音声合成部 1 0 2を備えた音声コンテンッ生成システムであつ
て、 音声データとテキストデータとが混在する情報源を入力とし、 テキスト データについて、 音声合成部 1 0 2を用いて合成音声を生成し、 該合成音声 と音声データとを所定の順序に従って編成した音声コンテンツを生成する音 声コンテンツ生成部 1 0 3を備えてもよい。
[0031 ] [第 2の実施形態]
続いて、 提示順序データ、 音声特徴パラメータ、 音響効果パラメータ、 音 声時間長制御データのうち、 少なくとも一つを補助データとして記憶し、 そ れぞれ記事データの提示順序の制御、 テキスト記事データを音声に変換する 際の声質の制御、 効果音や B G Mなどの音響効果の付与、 提示時間長の制御 を行うようにした本発明の第 2の実施形態について図面を参照して説明する 。 本実施形態は、 第 1の実施形態と同様の構成で実現可能であるため、 図 1 を用いて説明する。
[0032] 本実施形態では、 マルチメディアデータベース 1 0 1に、 提示順序データ 、 音声特徴パラメータ、 音響効果パラメータ、 音声時間長制御データのうち 、 少なくとも 1つを補助データとして記憶する。 そして音声コンテンツ生成 部 1 0 3力 前記補助データを用いて音声コンテンツの編成を行うことを特 徵とするものである。
[0033] たとえば、 音声コンテンツ生成部 1 0 3は、 マルチメディアデータべ一ス
1 0 1に予め登録された提示順序データに従って、 テキストデータから生成 した合成音声と音声データとを読み上げる音声コンテンツを生成することが できる。 あるいは、 マルチメディアデータべ一ス 1 0 1には、 テキストデ一 タを音声に変換する際の音声特徴を規定する音声特徴パラメータが登録され ており、 音声コンテンツ生成部 1 0 3は、 音声特徴パラメータを読み出し、 音声合成部 1 0 2に、 音声特徴パラメータを用いた音声特徴による合成音声 を生成させることができる。
[0034] さらに、 マルチメディアデータベース 1 0 1には、 テキストデータから生 成した合成音声に付与する音響効果パラメータが登録されており、 音声コン テンッ生成部 1 0 3は、 音響効果パラメータを読み出し、 音声合成部 1 0 2
により生成された合成音声に音響効果パラメータを用いた音響効果を付与す ることができる。 また、 マルチメディアデータべ一ス 1 0 1には、 テキスト データから生成する合成音声の時間的長さを規定する音声時間長制御データ が登録されており、 音声コンテンツ生成部 1 0 3は、 音声時間長制御データ を読み出し、 音声合成部 1 0 2に、 音声時間長制御データに対応する音声時 間長を有する合成音声を生成させることができる。
[0035] 本実施形態によれば、 記事データを提示する順序、 テキスト記事データか ら音声コンテンッを生成する際の音声の音響的特徴、 付与される音響効果、 テキスト記事データから音声コンテンツを生成する際の時間長を変更するこ とが可能となる。 このため、 音声コンテンツをより理解し易く、 また閲覧 ( 聴取) の煩わしさが少ない態様とすることが可能となる。
[0036] また、 本実施形態の音声コンテンツ生成システムにおいて、 音声コンテン ッ生成部 1 0 3力 テキストデータから変換された合成音声と音声データと の連続状態、 所定の単語の出現頻度の差、 音声データ同士の音質の差、 音声 データ同士の平均ピツチ周波数の差、 音声データ同士の発話速度の差の少な くとも 1つを表す音響効果パラメータを生成し、 合成音声同士又は音声デ一 タ同士又は合成音声と音声データ間に跨るよう、 音響効果パラメータを用い た音響効果を付与することができる。
[0037] [第 3の実施形態]
続いて、 本発明の第 3の実施形態について図面を参照して説明する。 図 3 は、 本発明の第 3の実施形態に係る音声コンテンツ生成システムのブロック 図である。 図 3を参照すると、 本実施形態に係る音声コンテンツ生成システ ムは、 上記第 1、 第 2の実施形態の構成に加えて、 データ作成時情報変換部 (コンテンツ属性情報変換手段) 1 0 4を備えている。
[0038] マルチメディアデータベース 1 0 1には、 音声データ又はテキストデータ を主体とするコンテンツと対応付けて、 作成日時、 環境、 過去のデータ作成 回数、 作成者の氏名、 性別、 年齢、 住所のうち少なくとも一つを含むコンテ ンッ属性情報 (データ作成時情報) が登録されている。 本実施形態の音声コ
ンテンッ生成システムは、 更に、 コンテンツ属性情報の内容に対応する合成 音声を、 音声合成部 1 0 2に生成させるコンテンツ属性情報変換手段 (デ一 タ作成時情報変換部 1 0 4 ) を備える。 音声コンテンツ生成部 1 0 3は、 コ ンテンッ属性情報変換手段 (データ作成時情報変換部 1 0 4 ) により生成さ れた合成音声により各コンテンッの属性を確認可能な音声コンテンッを生成 する。
[0039] 続いて、 図 3及び図 4を参照して、 本実施形態の動作について説明する。
ステップ S 9 0 4において、 データ作成時情報変換部 1 0 4は、 マルチメデ ィァデータベース 1 0 1に記憶されている補助データ内のデータ作成時情報 をテキスト記事データに変換する。
[0040] ステップ S 9 0 5において、 上記変換されたテキスト記事データをマルチ メディアデータべ一ス 1 0 1に記憶して、 マルチメディアデータべ一ス 1 0 1が更新される。 以降の動作は、 第 1の実施形態で説明したとおりである。
[0041 ] このように、 本実施形態の音声コンテンツ生成方法は、 音声データ又はテ キストデータを主体とするコンテンツをそれぞれ登録可能であり、 更に各コ ンテンッと対応付けて、 作成日時、 環境、 過去のデータ作成回数、 作成者の 氏名、 性別、 年齢、 住所のうち少なくとも一つを含むコンテンツ属性情報 ( データ作成時情報) を登録可能なマルチメディアデータベース 1 0 1 と接続 された音声コンテンッ生成システムを用いた音声コンテンッ生成方法であつ て、 音声コンテンツ生成システムが、 マルチメディアデータべ一ス 1 0 1に 登録されたテキストデータに対応する合成音声を生成するステップ (S 9 0 2 ) と、 音声コンテンツ生成システムが、 マルチメディアデータべ一ス 1 0 1に登録されたコンテンツ属性情報 (データ作成時情報) に対応する合成音 声を生成するステップ (S 9 0 4、 S 9 0 2 ) と、 音声コンテンツ生成シス テムが、 テキストデータに対応する合成音声と音声データとコンテンツ属性 情報に対応する合成音声とを所定の順序に従って編成し、 音声のみにて聴取 可能な音声コンテンツを生成するステップ (S 9 0 3 ) と、 を含む。
[0042] 本実施形態によれば、 各記事データに対応する属性を表すデータ作成時情
報 (コンテンツ属性情報) が追加され、 各記事を音声で提示する際にァノテ —シヨン (注釈) を付与することが可能となる。 このため、 記事の作者に関 する情報や時系列情報など、 音声で聞く際に判りづらい点を補うことが可能 となる。
[0043] [第 4の実施形態]
続いて、 本発明の第 4の実施形態について図面を参照して説明する。 図 5 は、 本発明の第 4の実施形態に係る音声コンテンツ生成システムのブロック 図である。 図 5を参照すると、 本実施形態に係る音声コンテンツ生成システ ムは、 上記第 1、 第 2の実施形態の図 1の 1 0 1〜 1 0 3に、 記事データ入 力部 1 0 5と、 補助データ入力部 1 0 6とを備えている。
[0044] すなわち、 本実施形態の音声コンテンツ生成システムは、 更に、 マルチメ ディアデータベース 1 0 1に音声データ又はテキストデータを主体とするコ ンテンッと、 提示順序データとを登録するデータ入力手段 (補助データ入力 部 1 0 6 ) を備える。 また、 本実施形態の音声コンテンツ生成システムは、 更に、 マルチメディアデータベース 1 0 1に音声データ又はテキストデータ を主体とするコンテンツと、 音声特徴パラメータとを登録するデータ入力手 段 (補助データ入力部 1 0 6 ) を備える。
[0045] また、 本実施形態の音声コンテンツ生成システムは、 マルチメディアデ一 タベース 1 0 1に音声データ又はテキストデータを主体とするコンテンツと 、 音響効果パラメータとを登録するデータ入力手段 (補助データ入力部 1 0 6 ) と、 を備える。 さらに、 本実施形態の音声コンテンツ生成システムは、 マルチメディアデータベース 1 0 1に音声データ又はテキストデータを主体 とするコンテンツと、 音声時間長制御データとを登録するデータ入力手段 ( 補助データ入力部 1 0 6 ) と、 を備える。
[0046] 続いて、 図 5及び図 6を参照して、 本実施形態の動作について説明する。
ステップ S 9 0 6において、 記事データ入力部 1 0 5は、 音声記事データ又 はテキスト記事データをマルチメディアデータベース 1 0 1に入力する。
[0047] ステップ S 9 0 7において、 補助データ入力部 1 0 6は、 当該音声記事デ
ータあるいはテキスト記事データに対応する補助データをマルチメディアデ —タベース 1 0 1に入力する。 ここでの補助データも、 先に説明したように
、 提示順序データ、 音声特徴パラメータ、 音響効果パラメータ、 音声時間長 制御データのうちの少なくとも一つである。
[0048] そして、 ステップ S 9 0 8において、 マルチメディアデータべ一ス 1 0 1 が更新される。 以降の動作は、 第 1の実施形態で説明したとおりである。
[0049] 本実施形態によれば、 音声記事データ又はテキスト記事データに対応する 補助データをユーザに作成させることが可能となる。 従って、 ユーザの意向 を正しく反映した音声コンテンツ、 エンタテイメント性の高い音声コンテン ッの生成が可能となる。
[0050] [第 5の実施形態]
続いて、 本発明の第 5の実施形態について図面を参照して説明する。 図 7 は、 本発明の第 5の実施形態に係る音声コンテンツ生成システムのブロック 図である。 図 7を参照すると、 本実施形態に係る音声コンテンツ生成システ ムは、 上記第 1、 第 2の実施形態の構成に加えて、 補助データ生成部 1 0 7 を備えている。
[0051 ] すなわち、 本実施形態の音声コンテンツ生成システムは、 更に、 音声デ一 タ又はテキストデータに基づいて提示順序データを生成する提示順序データ 生成手段 (補助データ生成部 1 0 7 ) を備え、 音声コンテンツ生成部 1 0 3 は、 提示順序データに従って、 テキストデータから生成した合成音声と音声 データとを読み上げる音声コンテンツを生成する。 また、 本実施形態の音声 コンテンツ生成システムは、 更に、 音声データ又はテキストデータに基づい て音声特徴パラメータを生成する音声特徴パラメータ生成手段 (補助データ 生成部 1 0 7 ) を備え、 音声コンテンツ生成部 1 0 3は、 音声合成部 1 0 2 に、 音声特徴パラメータを用いた音声特徴による合成音声を生成させる。
[0052] さらに、 本実施形態の音声コンテンツ生成システムは、 更に、 音声データ 又はテキストデータに基づいて音響効果パラメータを生成する音響効果パラ メータ生成手段 (補助データ生成部 1 0 7 ) を備え、 音声コンテンツ生成部
1 0 3は、 音声合成部 1 0 2により生成された合成音声に音響効果パラメ一 タを用いた音響効果を付与する。 また、 本実施形態の音声コンテンツ生成シ ステムは、 更に、 音声データ又はテキストデータに基づいて音声時間長制御 データを生成する音声時間長制御データ生成手段 (補助データ生成部 1 0 7 ) を備え、 音声コンテンツ生成部 1 0 3は、 音声合成部 1 0 2に、 音声時間 長制御データに対応する音声時間長を有する合成音声を生成させる。
[0053] 続いて、 図 7及び図 8を参照して、 本実施形態の動作について説明する。
補助データ生成部 1 0 7は、 ステップ S 9 1 0においてマルチメディアデ一 タベース 1 0 1に記憶された音声記事データおよびテキスト記事データを読 み込み、 ステップ S 9 1 1において、 該記事データの内容から補助データを 生成する。
[0054] ステップ S 9 0 8において、 補助データ生成部 1 0 7により、 マルチメデ ィァデータベース 1 0 1が更新される。 以降の動作は、 第 1の実施形態で説 明したとおりである。
[0055] 本実施形態によれば、 データの内容に基づいて補助データを自動で作成す ることが可能となる。 このため、 データに対してその都度手動で補助データ を設定しなくても、 自動で音声特徴や音響効果を用い、 記事内容にふさわし い音声コンテンッゃェンタティメント性の高い音声コンテンッの生成が可能 となる。
[0056] より具体的には、 再生順序が隣接する前後の記事データの特性を用いて、 該当記事データ間または該当記事データに跨って付与する音響効果を決定す ることなども可能である。 これにより、 該当記事データ間またはそれらに跨 る B G Mやジングルなどの音響効果を付与できるため、 記事の切れ目をわか りやすくしたり、 雰囲気を盛り上げたりすることが可能となる。
[0057] また、 本実施形態の音声コンテンツ生成システムにおいて、 音響効果パラ メータ生成手段 (補助データ生成部 1 0 7 ) は、 テキストデータから変換さ れた合成音声と音声データとの連続状態、 所定の単語の出現頻度の差、 音声 データ同士の音質の差、 音声データ同士の平均ピッチ周波数の差、 音声デ一
タ同士の発話速度の差の少なくとも 1つを表し、 合成音声同士又は音声デ一 タ同士又は合成音声と音声データ間に跨って付与される音響効果パラメータ を生成することができる。
[0058] [第 6の実施形態]
続いて、 本発明の第 6の実施形態について図面を参照して説明する。 本実 施形態は、 第 5の実施形態と同様の構成で実現可能である。 本実施形態の音 声コンテンツ生成システムは、 第 5の実施形態とは、 補助データ生成部 1 0 7が、 データ作成時情報 (コンテンツ属性情報) に基づいて補助データを生 成する点で相違する。
[0059] すなわち、 本実施形態の音声コンテンツ生成システムは、 更に、 コンテン ッ属性情報 (データ作成時情報) に基づいて提示順序データを生成する提示 順序データ生成手段 (補助データ生成部 1 0 7 ) を備え、 音声コンテンツ生 成部 1 0 3は、 提示順序データに従って、 テキストデータから生成した合成 音声と音声データとを読み上げる音声コンテンツを生成する。 また、 本実施 形態の音声コンテンツ生成システムは、 更に、 コンテンツ属性情報 (データ 作成時情報) に基づいて音声特徴パラメータを生成する音声特徴パラメータ 生成手段 (補助データ生成部 1 0 7 ) を備え、 音声コンテンツ生成部 1 0 3 は、 音声合成部 1 0 2に、 音声特徴パラメータを用いた音声特徴による合成 音声を生成させる。
[0060] さらに、 本実施形態の音声コンテンツ生成システムは、 更に、 コンテンツ 属性情報 (データ作成時情報) に基づいて音響効果パラメータを生成する音 響効果パラメータ生成手段 (補助データ生成部 1 0 7 ) を備え、 音声コンテ ンッ生成部 1 0 3は、 音声合成部 1 0 2により生成された合成音声に音響効 果パラメータを用いた音響効果を付与する。 また、 本実施形態の音声コンテ ンッ生成システムは、 更に、 コンテンツ属性情報 (データ作成時情報) に基 づいて音声時間長制御データを生成する音声時間長制御データ生成手段 (補 助データ生成部 1 0 7 ) を備え、 音声コンテンツ生成部 1 0 3は、 音声合成 部 1 0 2に、 音声時間長制御データに対応する音声時間長を有する合成音声
を生成させる。
[0061 ] 以下、 図 7及び図 9を用いてその動作を説明する。 図 9を参照すると、 補 助データ生成部 1 0 7は、 ステップ S 9 2 0においてマルチメディアデータ ベース 1 0 1に記憶されたデータ作成時情報を読み込み、 ステップ S 9 2 1 において、 該データ作成時情報から補助データを作成する。 以降の動作は、 第 5の実施形態で説明したとおりである。
[0062] 本実施形態によれば、 データ作成時情報を用いて、 上記した補助データを 生成することが可能となる。 例えば、 各記事データの作者の属性情報を用い て音声変換し、 より理解しやすくすることが可能となる。
[0063] [第 7の実施形態]
続いて、 本発明の第 7の実施形態について図面を参照して説明する。 図 1 0は、 本発明の第 7の実施形態に係る音声コンテンツ生成システムのブロッ ク図である。 図 1 0を参照すると、 本実施形態に係る音声コンテンツ生成シ ステムは、 上記第 1、 第 2の実施形態の構成に加えて、 補助データ補正部 1 0 8を備えている。
[0064] そして、 補助データ補正部 1 0 8は、 処理対象となる記事データ以前の記 事データにかかる補助データを用いて、 該記事データにかかる補助データを 補正する。
[0065] すなわち、 本実施形態の音声コンテンツ生成システムは、 予め定める規則 に従って、 提示順序データを自動補正する提示順序データ補正手段 (補助デ —タ補正部 1 0 8 ) を備える。 また、 本実施形態の音声コンテンツ生成シス テムは、 予め定める規則に従って、 音声特徴パラメータを自動補正する音声 特徴パラメータ補正手段 (補助データ補正部 1 0 8 ) を備える。
[0066] さらに、 本実施形態の音声コンテンツ生成システムは、 予め定める規則に 従って、 音響効果パラメータを自動補正する音響効果パラメータ補正手段 ( 補助データ補正部 1 0 8 ) を備える。 また、 本実施形態の音声コンテンツ生 成システムは、 予め定める規則に従って、 音声時間長制御データを自動補正 する音声時間長制御データ補正手段 (補助データ補正部 1 0 8 ) を備える。
[0067] 本実施形態によれば、 該当記事データ以前に出力される記事データに係る 補助データに沿って上記補助データを補正することが可能となる。 これによ り、 該当音声コンテンツの中での雰囲気や流れを乱すことのない適切な音声 コンテンツを自動で生成することが可能となる。 また本実施形態によれば、 音声によるコンテンツに複数のコメントが付いた場合、 それぞれのコメント の声質や話し方が異なると、 コンテンツ全体としてのバランスが崩れるとい う課題も解消される。
[0068] [第 8の実施形態]
続いて、 本発明の第 8の実施形態について図面を参照して説明する。 図 1 1は、 本発明の第 8の実施形態に係る情報交換システムのブロック図である 。 図 1 1を参照すると、 本実施形態に係る情報交換システムは、 上記第 1、 第 2の実施形態の構成に加えて、 マルチメディアコンテンツ生成部 2 0 1 と 、 マルチメディアコンテンツユーザ対話部 2 0 2とを備えている。
[0069] マルチメディアコンテンツユーザ対話部 2 0 2は、 ユーザの操作に従って 、 マルチメディアデータベース 1 0 1から記事データを読み出して、 メッセ ージリスト形式で提示すると同時に、 各データの被閲覧回数やユーザの操作 の履歴などをマルチメディアデータベース 1 0 1に記録する。
[0070] マルチメディアコンテンツユーザ対話部 2 0 2の構成例を、 図 2 6および 図 2 7を用いて説明する。 図 2 6のマルチメディアコンテンツユーザ対話部 2 0 2は、 コンテンツ受信部 2 0 2 aと、 コンテンツ配信部 2 0 2 bと、 メ ッセージリスト生成部 2 0 2 cと、 閲覧回数計数部 2 0 2 dと、 を含む。 図 2 7のマルチメディアコンテンツユーザ対話部 2 0 2は、 図 2 6の閲覧回数 計数部 2 0 2 dに替えて、 閲覧履歴記憶部 2 0 2 eを含む。
[0071 ] コンテンツ受信部 2 0 2 aは、 ユーザ端末 2 0 3 aからコンテンツを受信 し、 マルチメディアコンテンツ生成部 2 0 1に出力する。 コンテンツ配信部 2 0 2 bは、 マルチメディアコンテンツ生成部 2 0 1で生成されたマルチメ ディアコンテンツをユーザ端末 2 0 3 bおよび 2 0 3 cに配信する。 メッセ —ジリスト生成部 2 0 2 cは、 マルチメディアデータべ一ス 1 0 1の記事リ
ストを読み出して、 メッセージリストを作成し、 メッセージリストを要求す るユーザ端末 2 0 3 bに出力する。 閲覧回数計数部 2 0 2 dは、 前記メッセ —ジリス卜に基づいて、 前記マルチメディアコンテンツが閲覧および再生さ れた回数を計数し、 マルチメディアデータベース 1 0 1に計数結果を出力す る。 また、 閲覧履歴記憶部 2 0 2 eは、 前記メッセージリストに基づいて、 前記マルチメディアコンテンツ内の各記事が閲覧された順番等を記憶し、 マ ルチメディアデータベース 1 0 1に出力する。
[0072] 本実施形態によれば、 上記各データの閲覧回数やユーザの閲覧履歴などを 補助データに反映することにより、 フィ一ドバック手段の乏しい音声コンテ ンッの聴取者に対して、 マルチメディアコンテンツユ一ザの閲覧履歴を反映 した音声コンテンツを提供することが可能となる。
[0073] 本発明の実施形態の情報交換システムは、 上記実施形態の音声コンテンッ 生成システムを含み、 複数のユーザ端末 2 0 3 a乃至 2 0 3 c間の情報交換 に用いられる情報交換システムであって、 一のユーザ端末 2 0 3 aから、 マ ルチメディアデータベース 1 0 1へのテキストデータ又は音声データの登録 を受け付ける手段 (コンテンツ受信部 2 0 2 a ) と、 音声によるサービスを 要求するユーザ端末 2 0 3 b、 2 0 3 cに対して、 音声コンテンツ生成部 1 0 3により生成された音声コンテンツを送信する手段 (コンテンツ配信部 2 0 2 b ) と、 を備え、 送信された音声コンテンツの再生と、 音声データ又は テキスト形式によるコンテンツの追加登録とを繰り返すことにより、 各ュ一 ザ端末間の情報交換を実現する。
[0074] 上記情報交換システムは、 更に、 マルチメディアデータベース 1 0 1に登 録されたテキストデータ又は音声データを閲覧または視聴するためのメッセ —ジリストを生成し、 アクセスするユーザ端末 2 0 3 b、 2 0 3 cに提示す る手段 (メッセージリスト生成部 2 0 2 c ) と、 メッセージリストに基づく 、 各データの閲覧回数及び再生回数をそれぞれ計数する手段 (閲覧回数計数 部 2 0 2 d ) と、 を備えるとともに、 音声コンテンツ生成部 1 0 3は、 閲覧 回数及び再生回数が所定値以上のテキストデータ及び音声データを再生する
音声コンテンツを生成することができる。
[0075] さらに、 上記情報交換システムは、 更に、 マルチメディアデータべ一ス 1 0 1に登録されたテキストデータ又は音声データを閲覧または視聴するため のメッセ一ジリストを生成し、 アクセスするユーザ端末 2 0 3 b、 2 0 3 c に提示する手段 (メッセージリスト生成部 2 0 2 c ) と、 メッセージリスト に基づく、 各データの閲覧履歴をユーザ毎に記録する手段 (閲覧履歴記憶部 2 0 2 e ) と、 を備えるとともに、 音声コンテンツ生成部 1 0 3は、 ユーザ 端末から指定された任意のユーザの閲覧履歴に従った順序でテキストデータ 及び音声データを再生する音声コンテンツを生成することができる。
[0076] さらに、 上記情報交換システムにおいて、 マルチメディアデータベースに 登録されるデータは、 テキストデータ又は音声データで構成されたウェブ口 グ記事コンテンツであり、 音声コンテンツ生成部 1 0 3は、 ウェブログ開設 者のウェブログ記事コンテンツを先頭に登録順に配置し、 次いで、 その他の ユーザから登録されたコメントを所定の規則に従って配置した音声コンテン ッを生成することができる。
[0077] また、 本実施形態の情報交換方法は、 音声データ又はテキストデータを主 体とするコンテンツをそれぞれ登録可能なマルチメディアデータベース 1 0 1 と接続された音声コンテンツ生成システムと、 該音声コンテンツ生成シス テムに接続されたユーザ端末群とを用いた情報交換方法であって、 一のユー ザ端末が、 マルチメディアデータベース 1 0 1に、 音声データ又はテキスト データを主体とするコンテンツを登録するステップと、 音声コンテンツ生成 システムが、 マルチメディアデータべ一ス 1 0 1に登録されたテキストデ一 タについて、 対応する合成音声を生成するステップと、 音声コンテンツ生成 システムが、 テキストデータに対応する合成音声とマルチメディアデータべ ース 1 0 1に登録された音声データとを所定の順序に従って編成した音声コ ンテンッを生成するステップと、 音声コンテンツ生成システムが、 他のュ一 ザ端末からの要求に応じて、 音声コンテンツを送信するステップと、 を含み 、 音声コンテンツの再生と、 音声データ又はテキスト形式によるコンテンツ
の追加登録とを繰り返すことにより、 ユーザ端末間の情報交換を実現する。 実施例
[0078] [実施例 1 ]
続いて、 上記第 1の実施形態に対応する本発明の第 1の実施例を説明する
。 以下、 本実施例の概要を示した図 1 2を参照して詳細に説明する。
[0079] マルチメディアデータベース 1 0 1には、 予め少なくとも 1つ以上の音声
、 および少なくとも 1つ以上のテキストが記憶されている。 この音声又はテ キス卜の内容は記事であり、 それぞれを音声記事データまたはテキスト記事 データ、 総称して記事データと呼ぶ。
[0080] ここでは、 音声記事データ V 1〜V 3とテキスト記事データ T 1、 T 2が それぞれマルチメディアデータベース 1 0 1内に記憶されているものとする
[0081 ] 音声コンテンツ生成部 1 0 3は、 マルチメディアデータべ一ス 1 0 1から 記事データを順次読み出す。
[0082] 次に、 該当記事データが音声記事データであるかテキスト記事データであ るかで処理を分ける。 音声記事データの場合は内容の音声をそのまま用いる 力 テキスト記事データである場合は、 いったん音声合成部 1 0 2に送り、 音声合成処理により音声化されてから音声コンテンツ生成部 1 0 3へと戻す
[0083] 本実施例では、 まず、 音声コンテンツ生成部 1 0 3がマルチメディアデ一 タベース 1 0 1から音声記事データ V 1を読み出す。
[0084] 次に、 音声コンテンッ生成部 1 0 3は、 テキスト記事データ T 1を読み出 し、 これはテキスト記事データなので音声合成部 1 0 2に送る。
[0085] 音声合成部 1 0 2では、 前記送られたテキスト記事データ T 1をテキスト 音声合成技術により合成音声化する。
[0086] ここで、 音響的特徴パラメータとは、 合成音の声質、 韻律、 時間長、 声の 高さ、 全体の話速等を決定する数値を指す。 前記したテキスト音声合成技術 によれば、 これら音響的特徴パラメータを用いて、 その特徴を持つ合成音を
生成することができる。
[0087] 音声合成部 1 0 2により、 テキスト記事データ T 1は音声化されて合成音
S Y T 1 となり、 音声コンテンッ生成部 1 0 3へと出力される。
[0088] その後、 音声コンテンツ生成部 1 0 3は、 音声記事データ V 2、 V 3、 テ キスト記事データ T 2の順に同様の処理を行い、 音声記事データ V 2、 V 3
、 合成音 S Y T 2の順に得る。
[0089] 音声コンテンツ生成部 1 0 3は、 V 1→S Y T 1→V 2→V 3→S Y T 2 という順番で再生されるように各音声を結合することで、 音声コンテンツを 生成する。
[0090] [実施例 2 ]
続いて、 上記第 2の実施形態に対応する本発明の第 2の実施例を説明する
。 以下、 本実施例の概要を示した図 1 3を参照して詳細に説明する。
[0091 ] マルチメディアデータベース 1 0 1には、 予め少なくとも 1つ以上の音声 記事データ、 および少なくとも 1つ以上のテキスト記事データが記憶されて いる。 また、 マルチメディアデータベース 1 0 1には、 それぞれの記事デ一 タに対し、 補助データが記憶されている。
[0092] 補助データは、 図 1 4に示すように、 提示順序データ、 音声特徴パラメ一 タ、 音響効果パラメータ、 音声時間長制御データのうち一つ以上を含む。
[0093] 提示順序データは、 各記事データが音声コンテンツ内に格納される順番、 言い換えると聴取時に提示される順序を表す。
[0094] 音声特徴パラメータは、 合成音声の特徴を示すパラメータであり、 合成音 の声質、 全体のテンポおよび声の高さ、 韻律、 抑揚、 イントネーション、 パ ヮ一、 局所的な継続時間長およびピッチ周波数、 等のうち、 少なくとも 1つ を含む。
[0095] 音響効果パラメータは、 音声記事データおよびテキスト記事データを音声 化した合成音に対して音響効果を付与するためのパラメータであり、 音響効 果は、 背景音楽 (B G M ) 、 間奏音楽 (ジングル) 、 効果音、 固定的な台詞 など、 あらゆる音声信号のうち、 少なくとも 1つを含む。
[0096] 音声時間長制御データは、 音声記事データおよびテキスト記事データを音 声化した合成音がコンテンツ内で再生される時間長を制御するためのデータ である。
[0097] 本実施例では、 補助データの中にフィールドで区切られて、 提示順序、 音 声特徴パラメータ、 音響効果パラメータ、 音声時間長制御データが記載され ているものとし、 必要ないパラメータは記載しない。 以下では、 説明のため 、 補助データの中に前記のいずれか一つが記載されているものとして説明す る。
[0098] ここでは最初に、 補助データの内容が提示順序データである場合について 説明する。 例として、 音声記事データ V 1〜V 3とテキスト記事データ T 1 、 丁 2、 および音声記事データ V 1〜V 3のそれぞれに対する提示順序デ一 タ A V 1〜A V 3力 テキスト記事データ T 1、 Τ 2のそれぞれに対する提 示順序データ A T 1、 A T 2がそれぞれマルチメディアデータべ一ス 1 0 1 内に記憶されているものとする。
[0099] 提示順序データ A V 1〜A V 3、 A T 1、 A T 2には、 それぞれ対応する 記事データである V 1〜V 3、 T 1、 Τ 2が音声コンテンツ内に格納される 順番、 言い換えると聴取時に提示される順序が記述されている。
[0100] 提示順序データの記述様式としては、 当該データの前後に提示されるデー タ名ゃ先頭や末尾であることを示す情報を記憶しておく方法等がある。 ここ では、 V 1→T 1→V 2→V 3→T 2という再生順序になるような提示順序 データが記憶されているものとする。
[0101 ] 音声コンテンツ生成部 1 0 3は、 マルチメディアデータべ一ス 1 0 1から 各提示順序データを読み出し、 提示順序を認識し、 その提示順序に従って、 マルチメディアデータベース 1 0 1から該当記事データを読み出す。
[0102] ここでも、 該当記事データが音声記事データであるかテキスト記事データ であるかで処理が分けられる。 即ち、 音声記事データの場合はそのまま用い るが、 テキスト記事データである場合は、 いったん音声合成部 1 0 2に送り 、 音声合成処理により音声化されてから音声コンテンツ生成部 1 0 3へと戻
される。
[0103] 本実施例では、 補助データ A V 1の情報に従って、 まず、 音声記事データ V 1がマルチメディアデータべ一ス 1 0 1から音声コンテンッ生成部 1 0 3 に出力される。
[0104] 次に、 補助データ A T 1の情報に従って、 テキスト記事データ T 1が音声 コンテンツ生成部 1 0 3に出力され、 これはテキスト記事データなので音声 合成部 1 0 2に送られる。 音声合成部 1 0 2では、 前記送られたテキスト記 事データ T 1をテキスト音声合成技術により合成音声化する。
[0105] テキスト記事データ T 1は音声化されて合成音 S Y T 1 となり、 音声コン テンッ生成部 1 0 3へと出力される。
[0106] その後、 音声記事データ V 2、 V 3、 テキスト記事データ T 2の順に同様 の処理を行い、 音声記事データ V 2、 V 3、 合成音 S Y T 2の順に音声コン テンッ生成部 1 0 3へと出力される。
[0107] 音声コンテンツ生成部 1 0 3は、 各提示順序データにより示された、 V 1 →S Y T 1→V 2→V 3→S Y T 2という順番で再生されるように、 データ の結合を行って、 音声コンテンツを生成する。
[0108] 上記の例では、 マルチメディアデータベース 1 0 1内で、 音声記事データ V 1〜V 3、 テキスト記事データ T 1、 Τ 2および補助データ A V 1〜A V 3、 A T 1、 A T 2は分散して記憶されているが、 上記データ群を一つにま とめたデータセットとして記憶しておき、 データセットを複数記憶するとい う方法も考えられる。
[0109] また上記の例では、 マルチメディアデータべ一ス 1 0 1に対して 1つの補 助データを設け、 一括して再生順序を記録することもできる。 その場合、 該 当補助データ内に、 V 1→T 1→V 2→V 3→T 2という再生順序を記録す る。
[01 1 0] また、 マルチメディアデータベースの種類によっては、 ランダムアクセス できない場合もある。 その場合は、 補助データによって再生順序を指定しな くても、 マルチメディアデータベースから各記事データを逐次読み出すこと
で、 再生順序が決定される。
[0111] また、 すべてのデータに補助データがついている必要はないし、 マルチメ ディアデータベース全体で 1つの補助データがついている形態でも良い。
[0112] 次に、 補助データが音声特徴パラメータである場合について説明する。 例 として、 テキスト記事データ T 1に対する補助データ A T 1に音声特徴パラ メータを含む場合を考える。
[0113] 音声コンテンツ生成部 1 03は、 テキスト記事データ T 1を音声合成部 1 02において音声化して合成音 SYT 1 とする際、 テキスト記事データ T 1 とともに当該音声特徴パラメータ AT 1を音声合成部 1 02に送り、 音声特 徵パラメータ AT 1を用いて合成音の特徴を決定する。 テキスト記事データ T 2と音声特徴パラメ一タ AT 2も同様である。
[0114] 音声特徴パラメータの記述様式としては、 パラメータを数値で設定する様 式が考えられる。 例えば、 音声特徴パラメータとして全体のテンポ T em p oと声の高さ P i t c hを数値で指定できるものとし、 補助データ AT 1に は {T emp o= 1 00、 P i t c h = 400} が、 補助データ A T 2には {T emp o= 1 20、 P i t c h = 300} という音声特徴パラメータが 与えられているものとする。
[0115] この場合、 音声合成部 1 02では、 S Y T 2が S Y T 1に比べて話速が 1 . 2倍で、 声の高さが 0. 75倍であるような特徴を持つような合成音 SY T 1、 S Y T 2が生成される。
[0116] このようにして、 合成音の特徴を変化させることで、 生成されたコンテン ッを音声で聞く際に、 テキスト記事データ T 1 と T 2の差別化を図ることが 可能となる。
[0117] また、 音声特徴パラメータの記述様式として、 予め与えられたパラメータ を選択する様式も考えられる。 例えば、 キャラクタ A、 キャラクタ B、 キヤ ラクタ Cという特徴を持つキャラクタを再現するためのパラメータを予め用 意して、 マルチメディアデータべ一ス 1 01にそれぞれ C h a A、 C h a B 、 C h a Cとして記憶させておくとする。
[0118] そして、 音響特徴パラメータとして、 キャラクタを再現するパラメータを C h a rで指定できるものとし、 補助データ A T 1には {C h a r =C h a C} 、 補助データ AT 2には {C h a r =C h a A} というパラメータが与 えられているものとする。
[0119] この場合、 音声合成部 1 02では、 SYT 1がキャラクタ C、 SYT 2が キャラクタ Aの特徴を持つ合成音となって出力される。 このようにして、 予 め与えられたキャラクタを選択することで、 特定の特徴を持つ合成音を簡単 に生成することができ、 補助データ内の情報量を削減することが可能となる
[0120] 次に、 補助データが音響効果パラメータである場合について説明する。 例 として、 音声記事データ V 1〜V3のそれぞれに対応する補助データ AV 1 〜AV3、 およびテキスト記事データ T 1、 T 2にそれぞれ対応する補助デ ータ AT 1、 AT 2に音響効果パラメータを含む場合を考える。 音響効果は 予めマルチメディアデータベース 1 01に記憶されている。
[0121] 音声コンテンツ生成部 1 03は、 当該音響効果パラメータに示された音響 効果を重畳した音声記事データ V 1〜V 3、 合成音 SYT 1、 SYT 2を再 生する音声コンテンッを生成する。
[0122] 音響効果パラメータの記述様式としては、 予め各音響効果に対して特有の 値を設定しておき、 補助データ内で上記の値を指示する様式が考えられる。
[0123] ここでは、 背景音楽 M u s i cA、 Mu s i c B、 効果音 S o u n d A、 S o u n d B、 S o u n d Cがマルチメディアデータべ一ス 1 01に記憶さ れているものとし、 音響特徴パラメータとしては、 背景音楽を BGM、 効果 音を S Eで設定できるものとする。 例えば、 補助データ AV 1〜AV3、 A T 1、 AT 2に、 それぞれ、 {BGM = Mu s i cA、 S E = S o u n d B } 、 {BGM = Mu s i c B、 S E = S o u n d C} 、 . . . というような パラメータが与えられているものとすると、 音声コンテンツ生成部 1 03で は、 音声記事データ V 1〜V3、 合成音 SYT 1、 SYT 2に設定された音 響効果が重畳されて、 音声コンテンツが生成される。
[0124] もちろん、 背景音楽ないし効果音のどちらかのみを重畳する、 あるいは両 方重畳しないようにすることも可能である。
[0125] 音響効果パラメータとして、 音響効果を重畳する絶対的あるいは相対的な 時刻情報を付与することも考えられる。 このようにすれば、 任意のタイミン グで音響効果を重畳することも可能である。
[0126] また、 音響効果パラメータとして、 該当音響効果の音量を付与することも 考えられる。 このようにすれば、 例えば記事の内容にあわせてジングルの音 量を指定することができる。
[0127] 次に、 補助データが音声時間長制御データである場合について説明する。
ここで、 音声時間長制御データとは、 音声記事データおよび合成音の時間長 が音声時間長制御データで指定された時間長を超えている場合、 音声時間長 制御データで定められた時間長になるように音声記事データおよびテキスト 記事データないし合成音を変更するためのデータを指す。
[0128] 例えば、 音声記事データ V 1 と合成音 S YT 1がそれぞれ 1 5秒、 1 3秒 であり、 音声時間長制御データとして iD u r = 1 0 [s e c] } という 記述があつたとする。 この場合、 音声コンテンツ生成部 1 03において、 V 1および S YT 1の時間長が 1 0秒になるように、 1 0秒を超える分のデ一 タを削除する。
[0129] また上記方法に代えて、 V 1および S YT 1の時間長が 1 0秒になるよう に話速を早める方法を採ることもできる。 話速を早める方法は、 P I CO L A ( o i n t e r I n t e r v a l し o n t r o l l e d O v e r L a p a n d A d d ) を用いる方法が考えられる。 さらに、 音声合成部 1 02で合成する段階で、 S Y T 1の時間長が 1 0秒になるように話速のパ ラメ一タを計算してから合成してもよい。
[0130] また、 音声時間長制御データは、 再生する最大の時間長を与える代わりに 、 再生する時間の最小長と最大長の組からなる範囲を与えても良い。 その場 合には、 与えられた最小時間長よりも短い場合には、 話速を遅くする処理を 行う。
[0131 ] また、 音声時間長制御データにおいて 0や負の時間長が与えられた場合、 例えば { D u r = 0 } の場合に、 音声コンテンツ内で再生されないように制 御することも可能である。
[0132] 本実施例のようにすると、 重要度等によって音声の時間長が変えられるた め、 音声コンテンッが長くなりすぎて聞くのが煩わしくなることを防ぐこと が可能となる。
[0133] 前記の実施例では、 音声特徴パラメータで予め与えられるパラメータや音 響効果は、 マルチメディアデータベース 1 0 1内に記憶してあるが、 それぞ れ別のデータベース D B 2、 D B 3を追加する構成をとり、 データベース D
B 2、 D B 3にパラメ一タを記憶しておいてもよい。 さらに、 D B 2、 D B
3は同一のデータベースでも構わない。
[0134] [実施例 3 ]
続いて、 上記第 4の実施形態に対応する本発明の第 3の実施例を説明する
。 以下、 本実施例の概要を示した図 1 5を参照して詳細に説明する。
[0135] 記事データ入力部 1 0 5では、 マルチメディアデータベース 1 0 1に記憶 される音声およびテキスト記事データを入力する。
[0136] 補助データ入力部 1 0 6では、 記事データ入力部 1 0 5で入力された音声 およびテキスト記事データに対応する補助データを入力する。 補助データは
、 前記の提示順序データ、 音声特徴パラメータ、 音響効果パラメータ、 音声 時間長制御デ一タのいずれかである。
[0137] マルチメディアデータベース 1 0 1に記憶されたデータおよび補助データ を用いて、 実施例 1および実施例 2に記載の通り、 音声コンテンツ生成部 1
0 3において音声コンテンッが生成される。
[0138] 例えば、 データ入力者は、 記事データ入力部 1 0 5を用いて、 音声記事デ
—タを入力する。 この音声は、 マイクロフォンを接続して録音することで入 力すればよい。
[0139] その後、 データ入力者は補助データ入力部 1 0 6を用いて、 該音声記事デ ータに対する音声時間長制御データを D u r = { 1 5 [ s e c ] } として入
力する。
[0140] 本実施例によれば、 データ入力者の好きなように補助データを入力でき、 自由にコンテンツを生成することが可能となる。
[0141 ] また、 音声記事データ及びテキスト記事データは別々のユーザが作成して もよい。 例えば、 図 1 6に示すように、 ユーザ 1が音声記事データ V 1、 V 2を、 ユーザ 2がテキスト記事データ T 1を、 ユーザ 3が音声記事データ V 3を、 ユーザ 4がテキスト記事データ T 2を、 各ユーザが対応する補助デ一 タとしてそれぞれ A V 1〜A V 3、 A T 1、 A T 2を入力するような場合が 考えられる。
[0142] また、 データを入力するデータ入力者と、 当該データに対応する補助デ一 タを入力するデータ入力者が異なっていても構わない。 これにより、 ブログ において元記事をユーザ Αが入力し、 それに対するコメントを別のユーザ B が入力し、 更にそれに対する返答のコメントをユーザ Aが入力した上で、 そ れらを統合した音声ブログコンテンツを容易に作成できる。
[0143] また、 前記第 3の実施例から派生する別の実施例として、 音声コンテンツ 生成部 1 0 3で生成された音声コンテンツを出力し、 上記音声コンテンツを 聴取したユーザがデータを操作する方法を、 図 1 7のブロック図と、 図 1 8 のフローチャートを用いて説明する。
[0144] 音声コンテンツ生成部 1 0 3は、 音声コンテンツを生成し (図 1 8のステ ップ S 9 3 1 ) 、 出力部 3 0 3では生成された音声コンテンツを出力し、 ュ —ザが聴取できるようにする (図 1 8のステップ S 9 3 2 ) 。
[0145] 上記出力部 3 0 3としては、 パーソナルコンピュータや携帯電話、 オーデ ィォプレイヤーに接続されたへッドフォンゃスピーカー等が考えられる。
[0146] 音声コンテンツを聴取したユーザは、 データ操作部 3 0 1において、 音声 記事データないしテキスト記事データを作成し、 作成された記事データは記 事データ入力部 1 0 5に送られる (図 1 8のステップ S 9 3 3 ) 。
[0147] データ操作部 3 0 1には、 音声記事データおよびテキスト記事データの入 力手段として、 電話機 (送話側) 、 マイク、 キーボード等のうち、 少なくと
も 1つを含み、 入力した音声記事データおよびテキスト記事データの確認手 段として、 電話機 (受話側) 、 スピーカ一、 モニタ一等のうち、 少なくとも
1つを含む。
[0148] 出力部 3 0 3とデータ操作部 3 0 1は、 マルチメディアデータベース 1 0
1、 音声合成部 1 0 2、 音声コンテンツ生成部 1 0 3、 記事データ入力部 1 0 5と離れた場所、 例えば、 前者がユーザの近く (クライアント側と呼ぶ) に設置されており、 後者がウェブサーバ (サーバ側と呼ぶ) に設置されてい てもよい。
[0149] 入力されたデータはマルチメディアデータべ一ス (図 1 7の 1 0 1、 1 0
1 a ) に記憶され (図 1 8のステップ S 9 3 4 ) 、 ユーザの指示またはシス テムの予め定められた動作により (図 1 8のステップ S 9 3 5の Y e s ) 、 新たなデータを加えられたコンテンツが生成される (図 1 8の S 9 3 1 ) 。
[0150] 上記生成されたコンテンツは、 さらにユーザに出力され、 ユーザのデータ の作成、 データベース更新、 新音声コンテンツ生成という繰り返し処理が可 能となる。
[0151 ] このような構成にすることで、 ユーザは音声コンテンツを聴取し、 上記コ ンテンッに対するコメントを音声記事データないしテキスト記事データとし て入力することができ、 上記データがマルチメディアデータベース (図 1 7 の 1 0 1、 1 0 1 a ) に記憶されることで、 新たなコンテンツを生成するこ とができる。
[0152] また、 ユーザが複数存在する場合も考えられる (不図示) 。 まず、 ユーザ
1がマルチメディアデータベース 1 0 1に音声記事データ V 1を入力し、 音 声コンテンツ C 1が生成されたものとする。
[0153] 次に、 ユーザ 2、 ユーザ 3、 ユーザ 4がそれぞれ音声コンテンツ C 1を聴 取し、 ユーザ 2、 ユーザ 3がそれぞれ音声記事データ V 2、 V 3を作成し、 ユーザ 4がテキスト記事データ T 4を作成する。 データ V 2、 V 3、 T 4は 、 記事データ入力部 1 0 5を経て、 マルチメディアデータベース 1 0 1へと 記憶され、 1ぉょび 2、 V 3、 T 4を用いて、 新コンテンツ C 2が生成
される。
[0154] なお、 マルチメディアデータベース 1 0 1は複数ユーザの競合を防ぐ機能 を持っていることが望ましい。
[0155] このような構成にすることで、 複数のユーザが作成した音声記事データと テキスト記事データを 1つのコンテンツに結合することが可能となる。
[0156] さらにこの場合、 上記のデータ作成時データに、 コンテンツを閲覧した日 時、 コメントを投稿した日時、 当該コメント投稿者の過去のコメント回数、 当該コンテンッに対して投稿された総コメント数等のデータを含めることが できる。
[0157] [実施例 4 ]
続いて、 上記第 5の実施形態に対応する本発明の第 4の実施例を説明する
。 以下、 本実施例の概要を示した図 1 9を参照して詳細に説明する。
[0158] 本実施例では、 マルチメディアデータベース 1 0 1、 音声合成部 1 0 2、 音声コンテンツ生成部 1 0 3は、 上記第 1、 第 2の実施例の 1 0 1〜1 0 3 と同様の機能を有するものである。
[0159] 補助データ生成部 1 0 7では、 マルチメディアデータベース 1 0 1に記憶 されている音声記事データおよびテキスト記事データの内容から、 対応する 補助データを生成する。
[0160] ここで補助データは、 提示順序データ、 音声特徴パラメータ、 音響効果パ ラメータ、 音声時間長制御データである。
[0161 ] 記事データが音声記事データの場合、 予めキーワードとそれに該当する補 助データの組みを登録しておく。 この組は、 例えばキーワード 「愉快な」 に 対して、 音響効果パラメータ 「効果音 =笑い」 を対応させる。
[0162] 補助データ生成部 1 0 7は、 例えば、 音声認識技術の一つであるキーヮ一 ドスポッティングを用いて、 音声記事データから、 前記予め定められたキー ヮ一ドが含まれているか否かを検出する。
[0163] ここで、 キーワードを検出できた場合、 補助データ生成部 1 0 7は、 該当 補助データを生成し登録する。
[01 64] また上記方法に代えて、 一旦音声認識によってテキスト化し、 前記キーヮ -ドを検出する方法を採ることも可能である。
[01 65] また、 音声記事データのパワー等の音響的特徴が、 予め定められた閾値を 超えた場合に補助データを結び付けても良い。 例えば、 音声波形の最大振幅 が 3 0 0 0 0を超えた場合に、 音声時間長制御データを短く、 例えば、 ί D u r = 5 [ s e c ] } にすることにより、 声が大き過ぎて煩いと感じやす い音声記事データを早聞き乃至スキップすることが可能となる。
[01 66] 記事データがテキスト記事データの場合も、 前記と同様にキーワードを検 出しても良い。 あるいは、 テキストマイニングツールによる意味抽出等を行 し、、 意味に該当する補助データを割り当てても良い。
[01 67] 本実施例によれば、 マルチメディアデータベース 1 0 1に記憶されている データから自動で補助データを生成できるため、 自動的に適切な提示順序や 音声特徴、 音響効果、 時間長などを有するコンテンツを生成することが可能 となる。
[01 68] また、 上記の第 3の実施例と本実施例を組み合わせてもよい。 例えば、 音 声記事データについては、 第 3の実施例に記載の通り、 補助データ入力部 1 0 6においてユーザが補助データを入力し、 テキスト記事データについては 本実施例に記載の通り、 補助データ生成部 1 0 7において補助データを生成 するという構成が可能である。
[01 69] このようにすれば、 作業を簡略化するために、 必要な時だけユーザが手動 で補助データを入力し、 通常は自動生成すると言ったシステムが構築できる
[01 70] [実施例 5 ]
続いて、 上記第 3の実施形態に対応する本発明の第 5の実施例を説明する
。 以下、 本実施例の概要を示した図 2 0を参照して詳細に説明する。
[01 71 ] 本実施例では、 マルチメディアデータベース 1 0 1、 音声合成部 1 0 2、 音声コンテンツ生成部 1 0 3は、 上記第 2の実施例の 1 0 1〜 1 0 3と同様 の機能を有するものである。
[0172] マルチメディアデータベース 1 0 1に、 各記事データに対応したデータ作 成時情報を記憶する。 データ作成時情報は、 該音声記事データもしくはテキ スト記事データを作成した際のデータ (属性情報) であり、 データを作成し た状況 (日時、 環境、 過去のデータ作成回数、 等) 、 作成した人の情報 (名 前、 性別、 年齢、 住所等) 、 等のうち、 少なくとも 1つを含む。 このデータ 作成時情報の記述様式としては、 あらゆる形式のテキストが考えられ、 任意 の形式を採ることができる。
[0173] データ作成時情報変換部 1 0 4では、 マルチメディアデータベース 1 0 1 からデータ作成時情報を読み出し、 テキストに変換し、 新たなテキスト記事 データとしてマルチメディアデータベース 1 0 1に登録する。
[0174] 例えば、 音声記事データ V 1に対応するデータ作成時情報 X V 1 として、
{ N a m e =太郎、 A d r e s s =東京、 A g e = 2 1 } と記憶されている ものとする。
[0175] データ作成時情報変換部 1 0 4では、 X V 1を 「東京にお住まいの 2 1歳 の太郎さんがこのデータを作成しました」 というテキスト記事データ T X 1 に変換する。
[0176] そして、 このテキスト記事データ T X 1は、 他のテキスト記事データと同 様にマルチメディアデータベース 1 0 1に記憶される。
[0177] その後、 生成されたテキスト記事データ T X 1は、 音声コンテンッ生成部
1 0 3と音声合成部 1 0 2により音声化されて音声コンテンツ生成に用いら れる。
[01 78] 本実施例のようにすると、 データ作成時情報を理解し易いテキス卜に変換 して音声化されるため、 コンテンツの中の各データがどのような作成時情報 を持っているかを、 音声コンテンッの聴取者が理解し易くすることが可能と なる。
[0179] また上記した実施例では、 データ作成時情報変換部 1 0 4が生成したテキ スト記事データは一旦テキスト記事データとしてマルチメディアデータべ一 ス 1 0 1に格納するものとして説明したが、 データ作成時情報変換部 1 0 4
、 直接、 音声合成部 1 02を制御することにより合成音を生成させ、 音声 記事データとして、 マルチメディアデータベース 1 0 1に格納することも可 能である。
[0180] さらに、 前記音声化した音声記事データを、 マルチメディアデータベース
1 0 1に格納せずに、 直接音声コンテンツ生成部 1 03に渡して音声コンテ ンッを生成することも可能である。 この場合は、 データ作成時情報変換部 1 04が変換を行うタイミングは、 音声コンテンツ生成部 1 03が与えるのが 良い。
[0181] [実施例 6]
続いて、 上記第 6の実施形態に対応する本発明の第 6の実施例を説明する 。 以下、 本実施例の概要を示した図 2 1を参照して詳細に説明する。
[0182] 本実施例では、 第 1の実施例に加えて、 補助データ生成部 1 07では、 マ ルチメディアデータベース 1 0 1に記憶されているデータ作成時情報から補 助データを作成する。
[0183] データ作成時情報は、 上記実施例 5に記載のデータ作成時情報と同一のも のである。 補助データは、 提示順序データ、 音声特徴パラメータ、 音響効果 パラメータ、 音声時間長制御データのいずれか一つ以上である。
[0184] 例として、 音声記事データ V 1、 V 2とテキスト記事データ T 1がマルチ メディアデータベース 1 0 1に記憶されているものとする。 記事データ V 1 、 V 2、 T 1には、 それぞれデータ作成時情報 X V 1、 X V 2、 X T 1が対 応して記憶されている。
[0185] データ作成時情報 XV 1、 XV 2、 X T 1は、 記事データ V 1、 V 2、 T
1のそれぞれにメタデータとして付属させてもよいし、 別のデータべ一スェ ントリーや別のファイルを用いて記憶させてもよい。
[0186] 補助データ生成部 1 07では、 データ作成時情報に記述されている名前、 性別、 作成日時等を元に、 補助データを作成する。 例えば、 データ作成時情 報 X V 1力《 {N am e =太郎、 T i m e = 2006年 2月 8日 } 、 XV 2が {G e n d e r =ma I e、 T i m e = 2006年 2月 1 0曰 } 、 X T 1力《
{ N a m e =花子、 G e n d e r = f e m a I e、 A g e = 1 8 } とし、う内 容であり、 現在が 2 0 0 6年 2月 1 0日であるとする。
[0187] 補助データ生成部 1 0 7では、 記事データ V 1については 「太郎用の背景 音楽、 前日以前に作成されたデータ用の音声時間長制御データ」 という内部 情報を生成し、 予め与えられた 「太郎用の背景音楽」 「前日以前に作られた データ用の音声時間長制御データ」 の実体を割り当てて、 記事データ V 1に 対応する補助データ A V 1を作成する。
[0188] また、 同様に、 記事データ V 2については 「男性用の音響効果、 当日に作 成されたデータ用の音声時間長制御データ」 による補助データ A V 2を、 記 事データ T 2については 「女性用の音声特徴パラメータ、 1 0歳代用の音響 効果」 による補助データ A T 1を作成する。 「女性用の音声特徴パラメータ 」 の実体なども、 同様に予め与えておく。
[0189] 本実施例によれば、 例えば、 当日に作成されたデータは通常のスピードで 、 作成された日時が以前であればあるほど音声の時間長を短くして軽く読ま せるといったことが可能になる。
[0190] また、 テキスト記事データの作者が登録してある場合は、 その作者に似せ た特徴を持つた合成音を生成すること等が可能となる。
[0191 ] また、 前記の第 3、 第 4の実施例と本実施例を組み合わせてもよい。 例え ば、 音声記事データ V 2のみに詳細なデータ作成時情報が存在している場合 、 音声記事データ V 1については、 第 3の実施例に記載の通り、 補助データ 入力部 1 0 6においてユーザが補助データ A V 1を入力し、 テキスト記事デ —タ T 1については、 第 4の実施例に記載のとおり、 補助データ生成部 1 0 7において補助データ A T 1を生成し、 音声記事データ V 2については、 本 実施例に記載のとおり、 データ作成時情報に従って補助データ生成部 1 0 7 において補助データ A V 2を作成するといつたことが可能である。
[0192] このようにすれば、 データ作成時情報の充実度合いによって補助データの 作成方法を変更するシステムを構築できる。
[0193] [実施例 7 ]
続いて、 上記第 2の実施形態の一変形例である本発明の第 7の実施例を説 明する。 本実施例は、 本発明の第 2の実施例と同様の構成にて実現可能であ るため、 先の図 1 3を参照して、 その動作を説明する。
[01 94] 音声コンテンツ生成部 1 0 3は、 マルチメディアデータべ一ス 1 0 1から 記事データを読み出す際に、 出力すべき音声コンテンツ上で時系列的に隣接 する 2つの記事データによって決定される音響効果パラメータを生成し、 該 当記事データ間の音響効果として適用する。
[01 95] ここで生成される音響効果パラメータの基準の一つは、 隣接する 2つの記 事データの種類が音声記事データであるかテキスト記事データであるかによ る 4種類の組み合わせである。
[01 96] 例えば、 先行データも後続データも音声記事データである場合には高音質 の音楽をジングルとして用いることで雰囲気を調和させることができる。 ま た、 先行データが音声記事データで後続データがテキスト記事データの場合 は音程下降チャイムを音響効果に用いることで、 次に自然性が下がることを 聴者に暗示することができる。 また、 先行データがテキスト記事データで後 続データが音声記事データの場合は音程上昇チャイムを音響効果に用いるこ とで、 次に自然性が上がることを聴者に期待させることができる。 また、 先 行データも後続データもテキスト記事データである場合には落ち着いた音楽 をジングルとして用いることで気分を落ち着かせる効果を与えることができ る。
[01 97] また別の一つの音響効果パラメータの基準は、 隣接する記事データがとも にテキスト記事データの場合に、 それぞれを形態素解析して単語出現頻度を 計算し、 そのユークリッド距離をテキスト記事データ間の距離として定義す る。 そして、 同距離に比例した長さのチャイムを音響効果に用いることで、 記事データ間の関係が深い場合と浅い場合を聞き分けやすくすることができ る。
[01 98] また別の一つの音響効果パラメータの基準は、 隣接する記事データがとも に音声記事データの場合に、 それぞれの音声記事データに対応する音声特徴
パラメータのうち音質が等しければ二つの記事に跨って音楽を流すことで、 記事データ間の繋ぎをスムースにすることができる。
[0199] また別の一つの音響効果パラメータの基準は、 隣接する記事データがとも に音声記事データの場合に、 それぞれの音声記事データに対応する音声特徴 パラメータのうち平均ピッチ周波数の値の差分の絶対値を計算し、 その値に 比例する長さの無音を用いることで、 記事データ間のピツチの違いに起因す る違和感を軽減することができる。
[0200] また別の一つの音響効果パラメータの基準は、 隣接する記事データがとも に音声記事データの場合に、 それぞれの音声記事データに対応する音声特徴 パラメータのうち発話速度の値の差分の絶対値を計算し、 その値に比例する 長さの音楽を挿入することで、 記事データ間の発話速度の違いに起因する違 和感を軽減する。
[0201 ] 本実施例では、 音声コンテンツ生成部 1 0 3が音響効果パラメータを生成 するものとして説明したが、 音響効果パラメータを一旦マルチメディアデ一 タベース 1 0 1に格納して、 改めて音声コンテンツ生成部 1 0 3が同音響効 果パラメータを読み出して制御する構成でも実現することが可能である。
[0202] あるいは、 音声コンテンツ生成部 1 0 3は音響効果パラメータを生成せず 、 対応する音響効果を直接適用することも可能である。
[0203] [実施例 8 ]
続いて、 上記第 2の実施形態の一変形例である本発明の第 8の実施例を説 明する。 本実施例は、 本発明の第 2の実施例と同様の構成にて実現可能であ るため、 先の図 1 3を参照して、 その動作を説明する。
[0204] 音声コンテンツ生成部 1 0 3は、 音声コンテンツを順次生成する過程で、 ある記事データを追加する際に全体の時間長が予め与えられた音声コンテン ッ全体の時間を超える場合は、 該当記事データを追加しないように動作する
[0205] これにより、 全体の時間長の上限を制限することができ、 音声コンテンツ を番組として扱いやすくする。
[0206] あるいは、 音声コンテンツ生成部 1 0 3は、 使うべきすべての記事データ をすベて使って作成した音声コンテンツ全体の時間長が、 予め与えられた音 声コンテンツ全体の時間を超える場合は、 各記事データを使うあるいは使わ ないすべての組み合わせについて音声コンテンツを一旦生成し、 その時間長 が予め与えられた音声コンテンツ全体の時間を超えずに一番近い組み合わせ を選択するよう動作させることも可能である。
[0207] また、 予め与えられた音声コンテンツ全体の時間の代わりに、 前記音声コ ンテンッ全体の時間の上限、 下限又はその双方を定め、 それに適合するよう に制御しても良い。
[0208] [実施例 9 ]
続いて、 上記第 7の実施形態に対応する本発明の第 9の実施例を説明する 。 以下、 本実施例の概要を示した図 1 0を参照して詳細に説明する。
[0209] 音声コンテンツ生成部 1 0 3は順次処理をする各記事データに対応する補 助データを一旦補助データ補正部 1 0 8に送る。
[0210] 補助データ補正部 1 0 8は、 該当時点以前に使用された補助データを参照 して、 該当補助データを補正し、 音声コンテンツ生成部 1 0 3に送る。
[021 1 ] 音声コンテンツ生成部 1 0 3は、 該修正された補助データを用いて音声コ ンテンッの生成を行う。
[0212] 補助データ補正部 1 0 8において補助データを補正する方法としては、 例 えば補助データが音響効果パラメータの場合、 過去の時点で使われた音響効 果パラメータの B G Mの種類を予め分類してタグを付しておく。
[0213] ここで、 音楽のタグとして、 クラシック、 ジャズ、 ロック、 J— P O Pの 4種類を付与可能である場合を考える。
[0214] 例えば、 過去において使われた B G Mがすべてクラシックであった場合、 処理中の該当音響効果パラメータの B G Mがクラシック以外のタグが付いて いたら、 強制的にクラシックのタグの付いた任意の音楽に補正する。
[0215] これにより、 生成される音声コンテンツはすべての B G Mがクラシックで 統一されることになり、 音声コンテンッ全体を番組として捉えた場合に全体
の雰囲気を統一することが可能となる。
[0216] [実施例 1 0 ]
続いて、 上記第 8の実施形態に対応する本発明の第 1 0の実施例を説明す る。 以下、 本実施例の概要を示した図 1 1を参照して詳細に説明する。
[0217] マルチメディアコンテンツ生成部 2 0 1は、 マルチメディアデータべ一ス
1 0 1から記事データを読み出して、 マルチメディアコンテンツを生成する
[0218] ここで生成されるマルチメディアコンテンツは、 文字情報や音声情報など を含んだ w e bページ、 ブログページ、 電子掲示板ページなどである。
[0219] 例えば、 w e bページの場合、 音声情報は文字情報と同じ H T M Lフアイ ルに同梱されるのではなく、 アクセスのためのリンクが提供されるものでも 良い。
[0220] マルチメディアコンテンツユーザ対話部 2 0 2は、 マルチメディアコンテ ンッの閲覧者の操作に従って、 該マルチメディアコンテンツを提供する。
[0221 ] マルチメディアコンテンツが主に H T M Lファイルで構成された w e bぺ —ジである場合は、 マルチメディアコンテンツユーザ対話部 2 0 2として、 ユーザ端末側の汎用の w e bブラウザを用いることができる。
[0222] マルチメディアコンテンツに設定されたリンクを閲覧者がクリックした等 の情報は、 マルチメディアコンテンツユーザ対話部 2 0 2が認識し、 マルチ メディアコンテンツ生成部 2 0 1に送られる。
[0223] マルチメディアコンテンツ生成部 2 0 1は、 前記閲覧者の操作に応じたマ ルチメディアコンテンツを生成し、 マルチメディアコンテンツユーザ対話部 2 0 2に送ることにより、 閲覧者にマルチメディアコンテンツが提示される
[0224] マルチメディアコンテンツユーザ対話部 2 0 2は、 マルチメディアデータ ベース 1 0 1に登録されたテキストデータおよび音声データを閲覧または試 聴するためのメッセージリストを作成する。 前記メッセージリストは、 マル チメディアデータベース 1 0 1に登録されているテキストデータおよび音声
データの一部乃至全部のリストであり、 ユーザはこれらのリス卜から閲覧ま たは視聴したいコンテンツを選択できる。
[0225] また、 マルチメディアコンテンツ生成部 2 0 1は、 その際に得られる閲覧 者毎に各記事の閲覧履歴を、 マルチメディアデータベース 1 0 1内に記録す る。 閲覧履歴としては、 どの記事の次にどの記事が見られたという閲覧順序 や、 あるいは、 その統計的な遷移情報、 各記事毎のこれまでの閲覧回数/再 生回数などを挙げることができる。
[0226] 本実施例において音声コンテンツ生成部 1 0 3は、 管理者権限を有するュ 一ザ等により予め設定された規則に従って、 記事を選択して音声コンテンツ を生成する。
[0227] その規則は特に限定するものではないが、 例えば、 前記した閲覧記録を読 み出し、 予め定められた記事数または予め定められた時間をオーバーしない 範囲で、 閲覧回数あるいは再生回数の高いものから順に記事を選択する方法 を採ることができる。
[0228] また同様に、 予め定められた記事数または予め定められた時間をオーバー しない範囲で、 前記した閲覧履歴を読み出し、 閲覧回数あるいは再生回数が 所定値以上のものを、 マルチメディアデータベース 1 0 1への登録時順に記 事を選択する方法を採ることもできる。
[0229] また、 前記閲覧履歴を読み出し、 直近のマルチメディアコンテンツの閲覧 者が記事を閲覧 (再生) した順番で音声コンテンツを生成する方法を採るこ とができる。 更に、 ログイン等によりマルチメディアコンテンツの閲覧者の 同定が可能なシステムにおいては、 ユーザが指定する閲覧者が記事を閲覧し た順番で音声コンテンツを生成する方法を採ることもできる。 上記各方法を 採ることにより、 閲覧の自由度が高いマルチメディアコンテンツの閲覧者 ( 例: P Cユーザ) の閲覧嗜好を反映させた音声コンテンツを得ることができ る。 例えば、 趣味や関心が共通する知人が閲覧した記事を音声にて早聞きす ることや、 有名人等特定のマルチメディアコンテンツのユーザの閲覧履歴を 音声のみで追体験することも可能となり、 新しい音声ブログやラジオ番組の
形を提供することが可能となる。
[0230] 上記記事の選択■並び替えを行うことにより、 再生順序に拘束される音声 コンテンツのリスナー (例:ポータブルオーディオプレ一ヤーのユーザ) に 対して、 効率的にコンテンツを閲覧する環境を提供することが可能となる。 もちろん、 音声コンテンツにおける記事の配置順序は上記した例に限られず 、 記事の性質やユーザのニーズに従って各種変形を施すことが可能である。
[0231 ] [実施例 1 1 ]
続いて、 本発明に係る音声コンテンッ生成システムを用いて提供可能なサ —ビスの詳細について本発明の第 1 1の実施例として説明する。 以下、 本実 施例では、 1人のコンテンツ作成者が作成したコンテンツ (初期コンテンツ ) に対して、 複数のコメント投稿者及び前記コンテンツ作成者によってコン テンッが追加され、 更新されていくような情報交換サービスについて説明す る。
[0232] 図 2 2のように、 インタ一ネットを介して、 大勢のユーザ (ここでは、 ュ —ザ 1〜3 ) が、 ユーザ端末 3 O O a〜 3 0 0 cを介して、 W e bサーバ 2 0 0に接続できる環境が存在している。
[0233] W e bサーバ 2 0 0は、 上記第 8の実施形態で説明したマルチメディアコ ンテンッ生成部 2 0 1及びマルチメディアコンテンツユーザ対話部 2 0 2を 構成する。 上記各実施形態で説明したマルチメディアデータベース 1 0 1、 音声合成部 1 0 2、 音声コンテンツ生成部 1 0 3を備える音声コンテンツ生 成システム 1 0 0と接続され、 ユーザからの要求に応じて、 合成音声と音声 データとを所定の順序に従って編成した音声コンテンツを提供可能となって いる。
[0234] 続いて、 図 2 3、 図 2 4を参照して、 ユーザ 1〜 3による投稿の都度、 コ ンテンッが更新されていく過程について説明する。 まず、 ユーザ 1力 ユー ザ端末 3 0 0 a (マイク付き P C ) のマイク等の収録機器より、 ユーザ 1の 音声コメントを収録して初期コンテンツ M C 1を作成する。 (図 2 3のステ ップ S 1 0 0 1 ) 。
[0235] またここでは、 ユーザ 1のみが開設者として初期コンテンツの投稿権限と 、 音声コンテンツの編成ルールの決定権限を有しているものとする。 以下、 ユーザ 1 (開設者) のコメントは連続するよう音声コンテンツの先頭に配置 され (開設者優先) 、 その他のユーザの投稿については、 過去の投稿の頻度 が多いほど、 コメントの再生順序が早くなる (投稿頻度優先) という編成ル ールが決定されているものとする。
[0236] 次に、 ユーザ 1は、 初期コンテンツ MC 1を We bサーバ 200にアップ ロードする。 アップロードされた初期コンテンツ MC 1は、 補助データ A 1 とともにマルチメディアデータべ一ス 1 0 1に記憶される。 音声コンテンツ 生成システム 1 00は、 初期コンテンツ MC 1及び補助データ A 1を用いて コンテンツ X C 1を編成する (図 24 XC 1参照) 。
[0237] 生成された音声コンテンツ XC 1は、 We bサーバ 200を介してインタ —ネット上に配信される (図 23のステップ S 1 002) 。
[0238] 音声コンテンツ XC 1を受信し、 その内容に接したユーザ 2は、 対応する 感想や意見、 応援メッセージ等を録音し、 音声コメント VCを作成し、 投稿 日時や投稿者名等の補助データ A 2を付して We bサーバ 200にアップ口 ―ドする (図 23のステップ S 1 003) 。
[0239] アップロードされた音声コメント VCは、 補助データ A 2とともにマルチ メディアデータべ一ス 1 0 1に記憶される。 音声コンテンツ生成システム 1 00は、 初期コンテンツ MC 1 と音声コメント VCに付与された補助データ A 1、 A 2等に基づいて、 再生順序を決定する。 ここでは、 1つのコンテン ッに対して 1つのコメントしか付いていないため、 先述の音声コンテンツの 編成ルールのとおり、 初期コンテンツ MC 1→音声コメント VCという再生 順序が決定され、 音声コンテンツ XC 2が生成される (図 24 XC 2参照
) o
[0240] 生成された音声コンテンツ XC 2は、 上記音声コンテンツ XC 1 と同様に
、 We bサーバ 200を介してインタ一ネット上に配信される。
[0241] 音声コンテンツ XC 2を受信し、 その内容に接したユーザ 3は、 そのュ一
ザ端末 300 cのデータ操作手段から、 対応する感想や意見、 応援メッセ一 ジ等をテキスト入力し、 テキストコメント TCを作成し、 投稿日時や投稿者 名等の補助データ A 3を付して We bサーバ 200にアップ口一ドする (図 23のステップ S 1 004) 。
[0242] アップロードされたテキストコメント TCは、 補助データ A 3とともにマ ルチメディアデータべ一ス 1 01に記憶される。 音声コンテンツ生成システ ム 1 00は、 初期コンテンツ MC 1、 音声コメント VC、 テキストコメント TCに付与された補助データ A 1〜A 3に基づいて、 再生順序を決定する。 ここでは、 ユーザ 3がユーザ 2よりも過去に多くのコメントを投稿していた と想定すると、 先述の音声コンテンツの編成ルール (投稿頻度優先) により 、 初期コンテンツ MC 1→テキストコメント TC→音声コメント VCという 再生順序が決定され、 テキストコメント TCを合成音声化した上で、 音声コ ンテンッ X C 3が生成される (図 24 XC3参照) 。
[0243] 音声コンテンツ XC 3を受信し、 その内容に接したユーザ 1は、 そのュ一 ザ端末 300 aのデータ操作手段から、 追加コンテンツ MC 2を作成し、 補 助データ A 4を付して We bサーバ 200にアップ口一ドする (図 23のス テツプ S 1 005) 。
[0244] アップロードされた追加コンテンツ MC 2は、 補助データ A4とともにマ ルチメディアデータべ一ス 1 01に記憶される。 音声コンテンツ生成システ ム 1 00は、 初期コンテンツ MC 1、 音声コメント VC、 テキストコメント TC、 追加コンテンツ MC 2に付与された補助データ A 1〜A 4に基づいて 、 再生順序を決定する。
[0245] ここでは、 先述の音声コンテンツの編成ルール (開設者優先) により、 初 期コンテンツ MC 1→追加コンテンツ MC 2→テキストコメント T C→音声 コメント VCという再生順序が決定され、 音声コンテンツ XC 4が生成され る (図 24 XC4参照) 。
[0246] 以上のように、 ユーザ 1 (開設者) のコンテンツ MC 1、 MC2を軸とし て、 他のユーザから寄せられたコメントが含まれた音声コンテンツの更新と
配信が繰り返されていく。
[0247] なお、 上記した例では、 音声コンテンツを初期コンテンツとしてアップ口 -ドした例を挙げて説明したが、 P Cや携帯電話の文字入力インターフエ一 スを用いて作成したテキストコンテンッを初期コンテンツとすることも勿論 可能である。 この場合、 テキストコンテンツは音声コンテンツ作成システム 1 0 0側に送信され、 その音声合成手段によって、 音声合成処理された上で 音声コンテンツとして配信される。
[0248] また、 上記した例では、 W e bサーバ 2 0 0が主としてュ一ザとの対話処 理を行い、 音声コンテンツ生成システム 1 0 0が、 音声合成処理や順番変更 処理を行うよう負荷分散するものとして説明したが、 これらを統合すること 、 あるいは、 その処理の一部を他のワークステーション等に担わせることも 可能である。
[0249] また、 上記した例では、 補助データ A 1〜A 4は、 再生順序の決定に用い られるものとして説明したが、 例えば、 図 2 5に示すように、 補助データ内 のデータ作成時情報を音声化し、 各コンテンツ及びコメントの登録日時につ いてのァノテ一シヨン (注釈) を付与した音声コンテンツ X C 1〜X C 4を 生成することも可能である。
[0250] また、 上記した例では、 テキストコメント T Cは、 テキスト形式のままマ ルチメディアデータベース 1 0 1に記憶されるものとして説明したが、 音声 合成処理を行って合成音化してから、 マルチメディアデータベース 1 0 1に 記憶しておくことも有効である。
[0251 ] [産業上の利用可能性]
以上説明したように、 本発明によれば、 テキストと音声が混在する情報源 のテキストを音声化し音声のみで聴取可能な音声コンテンッを生成すること ができる。 この特長は、 例えばブログや掲示板等といった、 パーソナルコン ピュータゃ携帯電話を用いて複数のユーザが音声又はテキス卜でコンテンツ を入力できる情報交換システムに好適に適用され、 テキス卜と音声の双方に よる投稿を許可し、 すべての記事を音声のみによって閲覧 (聴取) できるよ
うにした音声テキスト混在型ブログシステムを構築できる。
[0252] 以上、 本発明を実施するための好適な形態及びその具体的な実施例を説明 したが、 音声データとテキストデータとが混在する情報源を入力とし、 前記 テキストデータについて、 前記音声合成手段を用いて合成音声を生成し、 該 合成音声と前記音声データとを所定の順序に従って編成した音声コンテンツ を生成するという本発明の要旨を逸脱しない範囲で、 各種の変形を加えるこ とが可能であることはいうまでもない。 例えば、 上記した実施形態では、 本 発明をブログシステムに適用した例を挙げて説明したが、 その他音声データ とテキストデータとが混在する情報源から音声サ一ビスを行うシステムに適 用できることはもちろんである。
[0253] この出願は、 2 0 0 6年 6月 3 0日に出願された日本出願特願 2 0 0 6 _
1 8 1 3 1 9号を基礎とする優先権を主張し、 その開示の全てをここに取り 込む。