WO2008001500A1

WO2008001500A1 - Système de génération de contenus audio, système d'échange d'informations, programme, procédé de génération de contenus audio et procédé d'échange d'informations

Info

Publication number: WO2008001500A1
Application number: PCT/JP2007/000701
Authority: WO
Inventors: Yasuyuki Mitsui; Shinichi Doi; Reishi Kondo; Masanori Kato
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-06-30
Filing date: 2007-06-27
Publication date: 2008-01-03
Anticipated expiration: 2008-12-30
Also published as: JPWO2008001500A1; US20090319273A1

Description

明細書

音声コンテンツ生成システム、情報交換システム、プログラム、音声コンテンッ生成方法及び情報交換方法

技術分野

[0001 ] 本発明は、音声コンテンツ生成システム、プログラム、音声コンテンツ生成方法及びこれらにより生成された音声コンテンツを用いた情報交換システム及び情報交換方法に関する。

背景技術

[0002] インタ一ネットのブロードバンド化ゃポータブルオーディオプレ一ヤーの普及に伴って、新聞社やテレビ局等の音声による番組を配信するサービスが増加してきている。例えば、複数のユーザが自由にコンテンツやコメントを発信できるブログ（ウェブログ、 w e b I o g、 b I o g ) に音声を用いたもの（以下、「音声ブログ」という）やポータブルオーディオプレイヤ一に自動的に音声コンテンツをダウンロードするサービス（ポッドキャスティング、 P o d c a s t i n g ) といったサ一ビスが提供されている。さらに最近では、コンテンツプロバイダ等によるコンテンツ作成支援サイトのサ一ビスにより、企業や団体のみならず、個人ユーザによる音声ブログ等も急激に増加している状況にある。

[0003] ここで、コンテンツとは、書籍や映画等の別のメディアへの感想や批評、番組、日記、何らかの作品からの引用、音楽、寸劇等、あらゆる種類の文章および音声を指す。上記音声ブログサービスでは、あるユーザが作成したコンテンッに対し、上記コンテンツを閲覧したユーザがそれに対するコメントを付けることができる。

[0004] ここで、コメントとは、コンテンツに対する感想、批評、同意、反論等のことである。付けられたコメントに対し、上記コンテンツおよびコメントを閲覧した他のユーザがさらにコメントを付けたり、または、コンテンツ作成者がコメントに対して、さらにコンテンツを付け足すことによって、コメントを含めたコンテンツが更新されていく。

[0005] 通常は、音声で発信されるコンテンツに対し、メールやゥヱブ上の入カフオーム等により、閲覧したユーザがテキストで返信や感想を送信し、ウェブサイ卜で音声化される。特許文献 1には、テキストデータから合成音声を得るためのテキスト音声変換装置が開示されている。

[0006] また、音声のコンテンツに対し、コメントを録音して音声ファイルとして保存しアップ口一ドすることで、すべてのコンテンツ及びコメントを音声として聞くことができるようなサービスも知られている。

[0007] 特許文献 1 ：特開 2 0 0 1 _ 3 5 0 4 9 0号公報

非特許文献 1 ：古井貞熙著、「ディジタル音声処理」、東海大学出版会、 1

9 8 5年、 p 1 3 4 _ p 1 4 8

発明の開示

[0008] しかしながら、上記した一般の音声ブログサービス技術では、テキストデ -タで書かれたコンテンツやコメントを音声で配信することは可能であるが、音声データで寄せられたコメントを取扱うことができないという問題点が

[0009] また、音声によるコメントを送信するには、パーソナルコンピュータ（Ρ C ) 等の端末に録音機能が備えられていなければならないという別の問題点もある。例えば、録音機能を有する携帯電話機を用いるユーザと、録音機能を有しない P Cユーザとの間では、コメン卜の交換に支障を来たすことが考えられる。

[0010] 本発明は、上記した事情に鑑みてなされたものであって、その目的とするところは、テキストデータ又は音声データが混在する情報源の内容を網羅できる音声コンテンツを生成し、該情報源にアクセスするユーザ間の情報交換を円滑化できる音声コンテンッ生成システム、音声コンテンッ生成システムを実現するためのプログラム、該音声コンテンツ生成システムを用いた音声コンテンツの生成方法及びその応用システム（情報交換システム）等を提供るしとにる。 [001 1 ] 本発明の第 1の視点によれば、テキストから合成音声を生成する音声合成手段を備えた音声コンテンツ生成システムであって、音声データとテキストデータとが混在する情報源を入力とし、前記テキストデータについて、前記音声合成手段を用いて合成音声を生成し、該合成音声と前記音声データとを所定の順序に従って編成した音声コンテンッを生成する音声コンテンッ生成手段を備えたこと、を特徴とする音声コンテンツ生成システム、そのプログラム及び音声コンテンッ生成方法が提供される。

[0012] 本発明の第 2の視点によれば、テキストから合成音声を生成する音声合成手段を備えた音声コンテンッ生成システムであって、

音声データ又はテキストデータを主体とするコンテンツをそれぞれ登録可能なマルチメディアデータベースと接続され、

前記マルチメディアデ一タベースに登録された前記テキストデータについて、前記音声合成手段を用いて合成音声を生成し、該合成音声と前記音声データとを所定の順序に従って編成した音声コンテンッを生成する音声コンテンッ生成手段を備えたこと、

を特徴とする音声コンテンッ生成システムが提供される。

[0013] 本発明の第 3の視点によれば、本発明の第 2の視点による音声コンテンツ生成システムを含み、複数のユーザ端末間の情報交換に用いられる情報交換システムであって、

—のユーザ端末から、前記マルチメディアデータベースへのテキストデ一タ又は音声データの登録を受け付ける手段と、

音声によるサービスを要求するユーザ端末に対して、前記音声コンテンツ生成手段により生成された音声コンテンツを送信する手段と、を備え、前記送信された音声コンテンツの再生と、前記音声データ又はテキスト形式によるコンテンッの追加登録とを繰り返すことにより、前記各ユーザ端末間の情報交換を実現すること、

を特徴とする情報交換システムが提供される。

[0014] 本発明の第 4の視点によれば、音声データ又はテキストデータを主体とするコンテンッをそれぞれ登録可能なマルチメディァデータベースと接続されたコンピュータに実行させるプログラムであって、

前記マルチメディアデータベースに登録された前記テキストデータに対応する合成音声を生成する音声合成手段と、

前記合成音声と前記音声データとを所定の順序に従って編成した音声コンテンッを生成する音声コンテンツ生成手段と、の前記各手段として、前記コンピュータを機能させるプログラムが提供される。

[0015] 本発明の第 5の視点によれば、音声データ又はテキストデータを主体とするコンテンツをそれぞれ登録可能であり、更に前記各コンテンツと対応付けて、作成日時、環境、過去のデータ作成回数、作成者の氏名、性別、年齢、住所のうち少なくとも一つを含むコンテンツ属性情報を登録可能なマルチメディアデータベースと接続された音声コンテンツ生成システムを用いた音声コンテンッ生成方法であって、

前記音声コンテンッ生成システムが、前記マルチメディアデ一タベースに登録された前記テキストデータに対応する合成音声を生成するステップと、前記音声コンテンッ生成システムが、前記マルチメディアデ一タベースに登録された前記コンテンツ属性情報に対応する合成音声を生成するステップと、

前記音声コンテンツ生成システムが、前記テキストデータに対応する合成音声と前記音声データと前記コンテンツ属性情報に対応する合成音声とを所定の順序に従って編成し、音声のみにて聴取可能な音声コンテンツを生成するステップと、を含むこと、

を特徴とする音声コンテンッ生成方法が提供される。

[001 6] 本発明の第 6の視点によれば、音声データ又はテキストデータを主体とするコンテンッをそれぞれ登録可能なマルチメディァデータベースと接続された音声コンテンッ生成システムと、該音声コンテンッ生成システムに接続されたユーザ端末群とを用いた情報交換方法であって、

—のユーザ端末が、前記マルチメディアデータベースに、音声データ又はテキストデータを主体とするコンテンツを登録するステップと、前記音声コンテンッ生成システムが、前記マルチメディアデ一タベースに登録されたテキストデータについて、対応する合成音声を生成するステップと、

前記音声コンテンツ生成システムが、前記テキストデータに対応する合成音声と前記マルチメディアデータベースに登録された音声データとを所定の順序に従つて編成した音声コンテンツを生成するステップと、

前記音声コンテンツ生成システムが、他のユーザ端末からの要求に応じて、前記音声コンテンツを送信するステップと、を含み、

前記音声コンテンツの再生と、前記音声データ又はテキスト形式によるコンテンッの追加登録とを繰り返すことにより、前記ユーザ端末間の情報交換を実現すること、

を特徴とする情報交換方法が提供される。

[001 7] この発明によれば、音声データ及びテキストデータの双方を等しく音声コンテンッ化することが可能となる。より具体的には、音声データとテキストデ一タが混在しデ一タ形式が統一されていないコンテンツやコメントを適宜編集して配信する音声ブログやポッドキャスティングを実現することが可能となる。

[0018] なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

図面の簡単な説明

[001 9] 上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

[図 1 ]本発明の第 1、第 2の実施形態に係る音声コンテンツ生成システムの構成を示すプロック図である。

[図 2]本発明の第 1の実施形態に係る音声コンテンッ生成システムの動作を示すフローチヤ一トである。

[図 3]本発明の第 3の実施形態に係る音声コンテンツ生成システムの構成を示すプロック図である。

[図 4]本発明の第 3の実施形態に係る音声コンテンツ生成システムの動作を示すフローチヤ一トである。

[図 5]本発明の第 4の実施形態に係る音声コンテンツ生成システムの構成を示すプロック図である。

[図 6]本発明の第 4の実施形態に係る音声コンテンツ生成システムの動作を示すフローチヤ一トである。

[図 7]本発明の第 5、第 6の実施形態に係る音声コンテンッ生成システムの構成を示すプロック図である。

[図 8]本発明の第 5の実施形態に係る音声コンテンツ生成システムの動作を示すフローチヤ一トである。

[図 9]本発明の第 6の実施形態に係る音声コンテンツ生成システムの動作を示すフローチヤ一トである。

[図 10]本発明の第 7の実施形態に係る音声コンテンツ生成システムの構成を示すプロック図である。

[図 1 1 ]本発明の第 8の実施形態に係る情報交換システムの構成を示すブロック図である。

[図 12]本発明の第 1の実施例に係る音声コンテンッ生成システムについて説明するための図である。

[図 13]本発明の第 2、第 7、第 8の実施例に係る音声コンテンツ生成システムについて説明するための図である。

[図 14]本発明の第 2の実施例に係る補助データについて説明するための図でめる。

[図 15]本発明の第 3の実施例に係る音声コンテンツ生成システムについて説明するための図である。

[図 1 6]本発明の第 3の実施例の別の音声コンテンッ生成システムについて説明するための図である。

[図 17]本発明の他の実施例から派生した実施例に係る音声コンテンツ生成システムの構成を示すプロック図である。

[図 18]本発明の他の実施例から派生した実施例に係る音声コンテンツ生成方法を表すフローチヤ一トである。

[図 19]本発明の第 4の実施例に係る音声コンテンツ生成システムについて説明するための図である。

[図 20]本発明の第 5の実施例に係る音声コンテンツ生成システムについて説明するための図である。

[図 21 ]本発明の第 6の実施例に係る音声コンテンツ生成システムについて説明するための図である。

[図 22]本発明の第 1 1の実施例のシステム構成を説明するための図である。

[図 23]本発明の第 1 1の実施例の動作を説明するための図である。

[図 24]本発明の第 1 1の実施例の動作を説明するための図である。

[図 25]本発明の第 1 1の実施例の変形例を説明するための図である。

[図 26]本発明の第 8の実施形態に係るマルチメディアコンテンツユーザ対話部の構成を示すプロック図である。

[図 27]本発明の第 8の実施形態に係るマルチメディアコンテンツユーザ対話部の構成の変形例を示すブロック図である。

発明を実施するための最良の形態

[0020] 以下、本発明を実施するための最良の形態について図面を参照して説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

[0021 ] [第 1の実施形態]

図 1は、本発明の第 1の実施形態に係る音声コンテンッ生成システムのブロック図である。図 1を参照すると、本実施形態に係る音声コンテンツ生成システムは、マルチメディアデータベース 1 0 1、音声合成部 1 0 2、音声コンテンツ生成部 1 0 3とを備えて構成される。本実施形態の音声コンテンッ生成システムは、テキストから合成音声を生成する音声合成部 1 0 2を備えた音声コンテンツ生成システムであって、音声データ又はテキストデータを主体とするコンテンツをそれぞれ登録可能なマルチメディアデータベース 1 0 1 と接続され、マルチメディアデータベース 1 0 1に登録されたテキストデータについて、音声合成部 1 0 2を用いて合成音声を生成し、該合成音声と音声データとを所定の順序に従って編成した音声コンテンツを生成する音声コンテンッ生成部 1 0 3を備える。

[0022] 音声コンテンツ生成システムの各構成要素は、任意のコンピュータの C P U、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ュニット、ネットヮーク接続用インタフェースを中心にハ一ドウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハ一ドウエア単位の構成ではなく、機能単位のブロックを示している。

[0023] 本実施形態の音声コンテンツ生成システムを実現するプログラムは、音声データ又はテキストデータを主体とするコンテンツをそれぞれ登録可能なマルチメディアデータベース 1 0 1 と接続されたコンピュータ（不図示）に実行させるプログラムであって、マルチメディアデータベース 1 0 1に登録されたテキストデータに対応する合成音声を生成する音声合成部 1 0 2と、合成音声と前記音声データとを所定の順序に従って編成した音声コンテンツを生成する音声コンテンツ生成部 1 0 3と、の各手段として、コンピュータを機能させる。

[0024] 続いて、図 1及び図 2を参照して、本実施形態の動作について説明する。

マルチメディアデータベース 1 0 1には、少なくとも 1つ以上の音声からなる音声記事データ及び少なくとも 1つ以上のテキス卜からなるテキスト記事データが記憶されている。

[0025] ステップ S 9 0 1において、音声コンテンツ生成部 1 0 3は、マルチメディァデータベース 1 0 1に記憶されている記事データを読み出し、当該記事データがテキスト記事データであるか音声記事データであるかを判断する。

[0026] テキスト記事データである場合には、音声コンテンツ生成部 1 0 3は、音声合成部 1 0 2にテキスト記事データを出力する。ステップ S 9 0 2において、音声合成部 1 0 2は、上記音声コンテンツ生成部 1 0 3から入力されたテキスト記事データをテキスト音声合成技術により音声波形に変換（以下、

「音声化」乃至「合成音声化」と呼ぶ）し、音声コンテンツ生成部 1 0 3に出力する。ここで、テキスト音声合成技術（T e x t—T o— S p e e c h ： T T S ) とは、例えば、非特許文献 1に記載されているような、入力されたテキストを解析し、韻律や時間長を推定して合成音声として出力する技術の総称である。

[0027] ステップ S 9 0 3において、音声コンテンツ生成部 1 0 3は、マルチメディァデータベース 1 0 1に記憶されている各音声記事データと、音声合成部 1 0 2において各テキスト記事データを音声化した各合成音と、を用いてコンテンッを生成する。

[0028] 本実施形態によれば、音声およびテキス卜が混在するマルチメディアデ一タベース内のデータを用いて、音声のみからなるコンテンツを作成することが可能となる。従って、音声あるいはテキストのどちらの記事データも音声による記事配信が可能となる。このような音声コンテンツは、特に音声プログゃポッドキャスティングとして利用するのに好適である。

[0029] また、予め与えられた時間又は時間の範囲に収まるよう、選択する記事データの範囲を制限することも有効であり、例えば、音声コンテンツデータ全体を番組と見立てた場合の時間を制御することが可能となる。すなわち、本実施形態の音声コンテンッ生成システムにおいて、音声コンテンッ生成部 1 0 3は、音声コンテンツが予め定められた時間長に収まるように、テキストデータ及び音声データを編集することができる。

[0030] また、図 1の構成からマルチメディアデータベース 1 0 1を除外した構成とすることもできる。音声コンテンツ生成システムは、テキストから合成音声を生成する音声合成部 1 0 2を備えた音声コンテンッ生成システムであつて、音声データとテキストデータとが混在する情報源を入力とし、テキストデータについて、音声合成部 1 0 2を用いて合成音声を生成し、該合成音声と音声データとを所定の順序に従って編成した音声コンテンツを生成する音声コンテンツ生成部 1 0 3を備えてもよい。

[0031 ] [第 2の実施形態]

続いて、提示順序データ、音声特徴パラメータ、音響効果パラメータ、音声時間長制御データのうち、少なくとも一つを補助データとして記憶し、それぞれ記事データの提示順序の制御、テキスト記事データを音声に変換する際の声質の制御、効果音や B G Mなどの音響効果の付与、提示時間長の制御を行うようにした本発明の第 2の実施形態について図面を参照して説明する。本実施形態は、第 1の実施形態と同様の構成で実現可能であるため、図 1 を用いて説明する。

[0032] 本実施形態では、マルチメディアデータベース 1 0 1に、提示順序データ、音声特徴パラメータ、音響効果パラメータ、音声時間長制御データのうち、少なくとも 1つを補助データとして記憶する。そして音声コンテンツ生成部 1 0 3力前記補助データを用いて音声コンテンツの編成を行うことを特徵とするものである。

[0033] たとえば、音声コンテンツ生成部 1 0 3は、マルチメディアデータべ一ス

1 0 1に予め登録された提示順序データに従って、テキストデータから生成した合成音声と音声データとを読み上げる音声コンテンツを生成することができる。あるいは、マルチメディアデータべ一ス 1 0 1には、テキストデ一タを音声に変換する際の音声特徴を規定する音声特徴パラメータが登録されており、音声コンテンツ生成部 1 0 3は、音声特徴パラメータを読み出し、音声合成部 1 0 2に、音声特徴パラメータを用いた音声特徴による合成音声を生成させることができる。

[0034] さらに、マルチメディアデータベース 1 0 1には、テキストデータから生成した合成音声に付与する音響効果パラメータが登録されており、音声コンテンッ生成部 1 0 3は、音響効果パラメータを読み出し、音声合成部 1 0 2 により生成された合成音声に音響効果パラメータを用いた音響効果を付与することができる。また、マルチメディアデータべ一ス 1 0 1には、テキストデータから生成する合成音声の時間的長さを規定する音声時間長制御データが登録されており、音声コンテンツ生成部 1 0 3は、音声時間長制御データを読み出し、音声合成部 1 0 2に、音声時間長制御データに対応する音声時間長を有する合成音声を生成させることができる。

[0035] 本実施形態によれば、記事データを提示する順序、テキスト記事データから音声コンテンッを生成する際の音声の音響的特徴、付与される音響効果、テキスト記事データから音声コンテンツを生成する際の時間長を変更することが可能となる。このため、音声コンテンツをより理解し易く、また閲覧（聴取）の煩わしさが少ない態様とすることが可能となる。

[0036] また、本実施形態の音声コンテンツ生成システムにおいて、音声コンテンッ生成部 1 0 3力テキストデータから変換された合成音声と音声データとの連続状態、所定の単語の出現頻度の差、音声データ同士の音質の差、音声データ同士の平均ピツチ周波数の差、音声データ同士の発話速度の差の少なくとも 1つを表す音響効果パラメータを生成し、合成音声同士又は音声デ一タ同士又は合成音声と音声データ間に跨るよう、音響効果パラメータを用いた音響効果を付与することができる。

[0037] [第 3の実施形態]

続いて、本発明の第 3の実施形態について図面を参照して説明する。図 3 は、本発明の第 3の実施形態に係る音声コンテンツ生成システムのブロック図である。図 3を参照すると、本実施形態に係る音声コンテンツ生成システムは、上記第 1、第 2の実施形態の構成に加えて、データ作成時情報変換部 (コンテンツ属性情報変換手段） 1 0 4を備えている。

[0038] マルチメディアデータベース 1 0 1には、音声データ又はテキストデータを主体とするコンテンツと対応付けて、作成日時、環境、過去のデータ作成回数、作成者の氏名、性別、年齢、住所のうち少なくとも一つを含むコンテンッ属性情報（データ作成時情報）が登録されている。本実施形態の音声コンテンッ生成システムは、更に、コンテンツ属性情報の内容に対応する合成音声を、音声合成部 1 0 2に生成させるコンテンツ属性情報変換手段（デ一タ作成時情報変換部 1 0 4 ) を備える。音声コンテンツ生成部 1 0 3は、コンテンッ属性情報変換手段（データ作成時情報変換部 1 0 4 ) により生成された合成音声により各コンテンッの属性を確認可能な音声コンテンッを生成する。

[0039] 続いて、図 3及び図 4を参照して、本実施形態の動作について説明する。

ステップ S 9 0 4において、データ作成時情報変換部 1 0 4は、マルチメディァデータベース 1 0 1に記憶されている補助データ内のデータ作成時情報をテキスト記事データに変換する。

[0040] ステップ S 9 0 5において、上記変換されたテキスト記事データをマルチメディアデータべ一ス 1 0 1に記憶して、マルチメディアデータべ一ス 1 0 1が更新される。以降の動作は、第 1の実施形態で説明したとおりである。

[0041 ] このように、本実施形態の音声コンテンツ生成方法は、音声データ又はテキストデータを主体とするコンテンツをそれぞれ登録可能であり、更に各コンテンッと対応付けて、作成日時、環境、過去のデータ作成回数、作成者の氏名、性別、年齢、住所のうち少なくとも一つを含むコンテンツ属性情報（データ作成時情報）を登録可能なマルチメディアデータベース 1 0 1 と接続された音声コンテンッ生成システムを用いた音声コンテンッ生成方法であつて、音声コンテンツ生成システムが、マルチメディアデータべ一ス 1 0 1に登録されたテキストデータに対応する合成音声を生成するステップ（S 9 0 2 ) と、音声コンテンツ生成システムが、マルチメディアデータべ一ス 1 0 1に登録されたコンテンツ属性情報（データ作成時情報）に対応する合成音声を生成するステップ（S 9 0 4、 S 9 0 2 ) と、音声コンテンツ生成システムが、テキストデータに対応する合成音声と音声データとコンテンツ属性情報に対応する合成音声とを所定の順序に従って編成し、音声のみにて聴取可能な音声コンテンツを生成するステップ（S 9 0 3 ) と、を含む。

[0042] 本実施形態によれば、各記事データに対応する属性を表すデータ作成時情報（コンテンツ属性情報）が追加され、各記事を音声で提示する際にァノテ —シヨン（注釈）を付与することが可能となる。このため、記事の作者に関する情報や時系列情報など、音声で聞く際に判りづらい点を補うことが可能となる。

[0043] [第 4の実施形態]

続いて、本発明の第 4の実施形態について図面を参照して説明する。図 5 は、本発明の第 4の実施形態に係る音声コンテンツ生成システムのブロック図である。図 5を参照すると、本実施形態に係る音声コンテンツ生成システムは、上記第 1、第 2の実施形態の図 1の 1 0 1〜 1 0 3に、記事データ入力部 1 0 5と、補助データ入力部 1 0 6とを備えている。

[0044] すなわち、本実施形態の音声コンテンツ生成システムは、更に、マルチメディアデータベース 1 0 1に音声データ又はテキストデータを主体とするコンテンッと、提示順序データとを登録するデータ入力手段（補助データ入力部 1 0 6 ) を備える。また、本実施形態の音声コンテンツ生成システムは、更に、マルチメディアデータベース 1 0 1に音声データ又はテキストデータを主体とするコンテンツと、音声特徴パラメータとを登録するデータ入力手段（補助データ入力部 1 0 6 ) を備える。

[0045] また、本実施形態の音声コンテンツ生成システムは、マルチメディアデ一タベース 1 0 1に音声データ又はテキストデータを主体とするコンテンツと、音響効果パラメータとを登録するデータ入力手段（補助データ入力部 1 0 6 ) と、を備える。さらに、本実施形態の音声コンテンツ生成システムは、マルチメディアデータベース 1 0 1に音声データ又はテキストデータを主体とするコンテンツと、音声時間長制御データとを登録するデータ入力手段（補助データ入力部 1 0 6 ) と、を備える。

[0046] 続いて、図 5及び図 6を参照して、本実施形態の動作について説明する。

ステップ S 9 0 6において、記事データ入力部 1 0 5は、音声記事データ又はテキスト記事データをマルチメディアデータベース 1 0 1に入力する。

[0047] ステップ S 9 0 7において、補助データ入力部 1 0 6は、当該音声記事データあるいはテキスト記事データに対応する補助データをマルチメディアデ —タベース 1 0 1に入力する。ここでの補助データも、先に説明したように

、提示順序データ、音声特徴パラメータ、音響効果パラメータ、音声時間長制御データのうちの少なくとも一つである。

[0048] そして、ステップ S 9 0 8において、マルチメディアデータべ一ス 1 0 1 が更新される。以降の動作は、第 1の実施形態で説明したとおりである。

[0049] 本実施形態によれば、音声記事データ又はテキスト記事データに対応する補助データをユーザに作成させることが可能となる。従って、ユーザの意向を正しく反映した音声コンテンツ、エンタテイメント性の高い音声コンテンッの生成が可能となる。

[0050] [第 5の実施形態]

続いて、本発明の第 5の実施形態について図面を参照して説明する。図 7 は、本発明の第 5の実施形態に係る音声コンテンツ生成システムのブロック図である。図 7を参照すると、本実施形態に係る音声コンテンツ生成システムは、上記第 1、第 2の実施形態の構成に加えて、補助データ生成部 1 0 7 を備えている。

[0051 ] すなわち、本実施形態の音声コンテンツ生成システムは、更に、音声デ一タ又はテキストデータに基づいて提示順序データを生成する提示順序データ生成手段（補助データ生成部 1 0 7 ) を備え、音声コンテンツ生成部 1 0 3 は、提示順序データに従って、テキストデータから生成した合成音声と音声データとを読み上げる音声コンテンツを生成する。また、本実施形態の音声コンテンツ生成システムは、更に、音声データ又はテキストデータに基づいて音声特徴パラメータを生成する音声特徴パラメータ生成手段（補助データ生成部 1 0 7 ) を備え、音声コンテンツ生成部 1 0 3は、音声合成部 1 0 2 に、音声特徴パラメータを用いた音声特徴による合成音声を生成させる。

[0052] さらに、本実施形態の音声コンテンツ生成システムは、更に、音声データ又はテキストデータに基づいて音響効果パラメータを生成する音響効果パラメータ生成手段（補助データ生成部 1 0 7 ) を備え、音声コンテンツ生成部 1 0 3は、音声合成部 1 0 2により生成された合成音声に音響効果パラメ一タを用いた音響効果を付与する。また、本実施形態の音声コンテンツ生成システムは、更に、音声データ又はテキストデータに基づいて音声時間長制御データを生成する音声時間長制御データ生成手段（補助データ生成部 1 0 7 ) を備え、音声コンテンツ生成部 1 0 3は、音声合成部 1 0 2に、音声時間長制御データに対応する音声時間長を有する合成音声を生成させる。

[0053] 続いて、図 7及び図 8を参照して、本実施形態の動作について説明する。

補助データ生成部 1 0 7は、ステップ S 9 1 0においてマルチメディアデ一タベース 1 0 1に記憶された音声記事データおよびテキスト記事データを読み込み、ステップ S 9 1 1において、該記事データの内容から補助データを生成する。

[0054] ステップ S 9 0 8において、補助データ生成部 1 0 7により、マルチメディァデータベース 1 0 1が更新される。以降の動作は、第 1の実施形態で説明したとおりである。

[0055] 本実施形態によれば、データの内容に基づいて補助データを自動で作成することが可能となる。このため、データに対してその都度手動で補助データを設定しなくても、自動で音声特徴や音響効果を用い、記事内容にふさわしい音声コンテンッゃェンタティメント性の高い音声コンテンッの生成が可能となる。

[0056] より具体的には、再生順序が隣接する前後の記事データの特性を用いて、該当記事データ間または該当記事データに跨って付与する音響効果を決定することなども可能である。これにより、該当記事データ間またはそれらに跨る B G Mやジングルなどの音響効果を付与できるため、記事の切れ目をわかりやすくしたり、雰囲気を盛り上げたりすることが可能となる。

[0057] また、本実施形態の音声コンテンツ生成システムにおいて、音響効果パラメータ生成手段（補助データ生成部 1 0 7 ) は、テキストデータから変換された合成音声と音声データとの連続状態、所定の単語の出現頻度の差、音声データ同士の音質の差、音声データ同士の平均ピッチ周波数の差、音声デ一タ同士の発話速度の差の少なくとも 1つを表し、合成音声同士又は音声デ一タ同士又は合成音声と音声データ間に跨って付与される音響効果パラメータを生成することができる。

[0058] [第 6の実施形態]

続いて、本発明の第 6の実施形態について図面を参照して説明する。本実施形態は、第 5の実施形態と同様の構成で実現可能である。本実施形態の音声コンテンツ生成システムは、第 5の実施形態とは、補助データ生成部 1 0 7が、データ作成時情報（コンテンツ属性情報）に基づいて補助データを生成する点で相違する。

[0059] すなわち、本実施形態の音声コンテンツ生成システムは、更に、コンテンッ属性情報（データ作成時情報）に基づいて提示順序データを生成する提示順序データ生成手段（補助データ生成部 1 0 7 ) を備え、音声コンテンツ生成部 1 0 3は、提示順序データに従って、テキストデータから生成した合成音声と音声データとを読み上げる音声コンテンツを生成する。また、本実施形態の音声コンテンツ生成システムは、更に、コンテンツ属性情報（データ作成時情報）に基づいて音声特徴パラメータを生成する音声特徴パラメータ生成手段（補助データ生成部 1 0 7 ) を備え、音声コンテンツ生成部 1 0 3 は、音声合成部 1 0 2に、音声特徴パラメータを用いた音声特徴による合成音声を生成させる。

[0060] さらに、本実施形態の音声コンテンツ生成システムは、更に、コンテンツ属性情報（データ作成時情報）に基づいて音響効果パラメータを生成する音響効果パラメータ生成手段（補助データ生成部 1 0 7 ) を備え、音声コンテンッ生成部 1 0 3は、音声合成部 1 0 2により生成された合成音声に音響効果パラメータを用いた音響効果を付与する。また、本実施形態の音声コンテンッ生成システムは、更に、コンテンツ属性情報（データ作成時情報）に基づいて音声時間長制御データを生成する音声時間長制御データ生成手段（補助データ生成部 1 0 7 ) を備え、音声コンテンツ生成部 1 0 3は、音声合成部 1 0 2に、音声時間長制御データに対応する音声時間長を有する合成音声を生成させる。

[0061 ] 以下、図 7及び図 9を用いてその動作を説明する。図 9を参照すると、補助データ生成部 1 0 7は、ステップ S 9 2 0においてマルチメディアデータベース 1 0 1に記憶されたデータ作成時情報を読み込み、ステップ S 9 2 1 において、該データ作成時情報から補助データを作成する。以降の動作は、第 5の実施形態で説明したとおりである。

[0062] 本実施形態によれば、データ作成時情報を用いて、上記した補助データを生成することが可能となる。例えば、各記事データの作者の属性情報を用いて音声変換し、より理解しやすくすることが可能となる。

[0063] [第 7の実施形態]

続いて、本発明の第 7の実施形態について図面を参照して説明する。図 1 0は、本発明の第 7の実施形態に係る音声コンテンツ生成システムのブロック図である。図 1 0を参照すると、本実施形態に係る音声コンテンツ生成システムは、上記第 1、第 2の実施形態の構成に加えて、補助データ補正部 1 0 8を備えている。

[0064] そして、補助データ補正部 1 0 8は、処理対象となる記事データ以前の記事データにかかる補助データを用いて、該記事データにかかる補助データを補正する。

[0065] すなわち、本実施形態の音声コンテンツ生成システムは、予め定める規則に従って、提示順序データを自動補正する提示順序データ補正手段（補助デ —タ補正部 1 0 8 ) を備える。また、本実施形態の音声コンテンツ生成システムは、予め定める規則に従って、音声特徴パラメータを自動補正する音声特徴パラメータ補正手段（補助データ補正部 1 0 8 ) を備える。

[0066] さらに、本実施形態の音声コンテンツ生成システムは、予め定める規則に従って、音響効果パラメータを自動補正する音響効果パラメータ補正手段（補助データ補正部 1 0 8 ) を備える。また、本実施形態の音声コンテンツ生成システムは、予め定める規則に従って、音声時間長制御データを自動補正する音声時間長制御データ補正手段（補助データ補正部 1 0 8 ) を備える。 [0067] 本実施形態によれば、該当記事データ以前に出力される記事データに係る補助データに沿って上記補助データを補正することが可能となる。これにより、該当音声コンテンツの中での雰囲気や流れを乱すことのない適切な音声コンテンツを自動で生成することが可能となる。また本実施形態によれば、音声によるコンテンツに複数のコメントが付いた場合、それぞれのコメントの声質や話し方が異なると、コンテンツ全体としてのバランスが崩れるという課題も解消される。

[0068] [第 8の実施形態]

続いて、本発明の第 8の実施形態について図面を参照して説明する。図 1 1は、本発明の第 8の実施形態に係る情報交換システムのブロック図である。図 1 1を参照すると、本実施形態に係る情報交換システムは、上記第 1、第 2の実施形態の構成に加えて、マルチメディアコンテンツ生成部 2 0 1 と、マルチメディアコンテンツユーザ対話部 2 0 2とを備えている。

[0069] マルチメディアコンテンツユーザ対話部 2 0 2は、ユーザの操作に従って、マルチメディアデータベース 1 0 1から記事データを読み出して、メッセージリスト形式で提示すると同時に、各データの被閲覧回数やユーザの操作の履歴などをマルチメディアデータベース 1 0 1に記録する。

[0070] マルチメディアコンテンツユーザ対話部 2 0 2の構成例を、図 2 6および図 2 7を用いて説明する。図 2 6のマルチメディアコンテンツユーザ対話部 2 0 2は、コンテンツ受信部 2 0 2 aと、コンテンツ配信部 2 0 2 bと、メッセージリスト生成部 2 0 2 cと、閲覧回数計数部 2 0 2 dと、を含む。図 2 7のマルチメディアコンテンツユーザ対話部 2 0 2は、図 2 6の閲覧回数計数部 2 0 2 dに替えて、閲覧履歴記憶部 2 0 2 eを含む。

[0071 ] コンテンツ受信部 2 0 2 aは、ユーザ端末 2 0 3 aからコンテンツを受信し、マルチメディアコンテンツ生成部 2 0 1に出力する。コンテンツ配信部 2 0 2 bは、マルチメディアコンテンツ生成部 2 0 1で生成されたマルチメディアコンテンツをユーザ端末 2 0 3 bおよび 2 0 3 cに配信する。メッセ —ジリスト生成部 2 0 2 cは、マルチメディアデータべ一ス 1 0 1の記事リストを読み出して、メッセージリストを作成し、メッセージリストを要求するユーザ端末 2 0 3 bに出力する。閲覧回数計数部 2 0 2 dは、前記メッセ —ジリス卜に基づいて、前記マルチメディアコンテンツが閲覧および再生された回数を計数し、マルチメディアデータベース 1 0 1に計数結果を出力する。また、閲覧履歴記憶部 2 0 2 eは、前記メッセージリストに基づいて、前記マルチメディアコンテンツ内の各記事が閲覧された順番等を記憶し、マルチメディアデータベース 1 0 1に出力する。

[0072] 本実施形態によれば、上記各データの閲覧回数やユーザの閲覧履歴などを補助データに反映することにより、フィ一ドバック手段の乏しい音声コンテンッの聴取者に対して、マルチメディアコンテンツユ一ザの閲覧履歴を反映した音声コンテンツを提供することが可能となる。

[0073] 本発明の実施形態の情報交換システムは、上記実施形態の音声コンテンッ生成システムを含み、複数のユーザ端末 2 0 3 a乃至 2 0 3 c間の情報交換に用いられる情報交換システムであって、一のユーザ端末 2 0 3 aから、マルチメディアデータベース 1 0 1へのテキストデータ又は音声データの登録を受け付ける手段（コンテンツ受信部 2 0 2 a ) と、音声によるサービスを要求するユーザ端末 2 0 3 b、 2 0 3 cに対して、音声コンテンツ生成部 1 0 3により生成された音声コンテンツを送信する手段（コンテンツ配信部 2 0 2 b ) と、を備え、送信された音声コンテンツの再生と、音声データ又はテキスト形式によるコンテンツの追加登録とを繰り返すことにより、各ュ一ザ端末間の情報交換を実現する。

[0074] 上記情報交換システムは、更に、マルチメディアデータベース 1 0 1に登録されたテキストデータ又は音声データを閲覧または視聴するためのメッセ —ジリストを生成し、アクセスするユーザ端末 2 0 3 b、 2 0 3 cに提示する手段（メッセージリスト生成部 2 0 2 c ) と、メッセージリストに基づく、各データの閲覧回数及び再生回数をそれぞれ計数する手段（閲覧回数計数部 2 0 2 d ) と、を備えるとともに、音声コンテンツ生成部 1 0 3は、閲覧回数及び再生回数が所定値以上のテキストデータ及び音声データを再生する音声コンテンツを生成することができる。

[0075] さらに、上記情報交換システムは、更に、マルチメディアデータべ一ス 1 0 1に登録されたテキストデータ又は音声データを閲覧または視聴するためのメッセ一ジリストを生成し、アクセスするユーザ端末 2 0 3 b、 2 0 3 c に提示する手段（メッセージリスト生成部 2 0 2 c ) と、メッセージリストに基づく、各データの閲覧履歴をユーザ毎に記録する手段（閲覧履歴記憶部 2 0 2 e ) と、を備えるとともに、音声コンテンツ生成部 1 0 3は、ユーザ端末から指定された任意のユーザの閲覧履歴に従った順序でテキストデータ及び音声データを再生する音声コンテンツを生成することができる。

[0076] さらに、上記情報交換システムにおいて、マルチメディアデータベースに登録されるデータは、テキストデータ又は音声データで構成されたウェブ口グ記事コンテンツであり、音声コンテンツ生成部 1 0 3は、ウェブログ開設者のウェブログ記事コンテンツを先頭に登録順に配置し、次いで、その他のユーザから登録されたコメントを所定の規則に従って配置した音声コンテンッを生成することができる。

[0077] また、本実施形態の情報交換方法は、音声データ又はテキストデータを主体とするコンテンツをそれぞれ登録可能なマルチメディアデータベース 1 0 1 と接続された音声コンテンツ生成システムと、該音声コンテンツ生成システムに接続されたユーザ端末群とを用いた情報交換方法であって、一のユーザ端末が、マルチメディアデータベース 1 0 1に、音声データ又はテキストデータを主体とするコンテンツを登録するステップと、音声コンテンツ生成システムが、マルチメディアデータべ一ス 1 0 1に登録されたテキストデ一タについて、対応する合成音声を生成するステップと、音声コンテンツ生成システムが、テキストデータに対応する合成音声とマルチメディアデータべース 1 0 1に登録された音声データとを所定の順序に従って編成した音声コンテンッを生成するステップと、音声コンテンツ生成システムが、他のュ一ザ端末からの要求に応じて、音声コンテンツを送信するステップと、を含み、音声コンテンツの再生と、音声データ又はテキスト形式によるコンテンツの追加登録とを繰り返すことにより、ユーザ端末間の情報交換を実現する。実施例

[0078] [実施例 1 ]

続いて、上記第 1の実施形態に対応する本発明の第 1の実施例を説明する

。以下、本実施例の概要を示した図 1 2を参照して詳細に説明する。

[0079] マルチメディアデータベース 1 0 1には、予め少なくとも 1つ以上の音声

、および少なくとも 1つ以上のテキストが記憶されている。この音声又はテキス卜の内容は記事であり、それぞれを音声記事データまたはテキスト記事データ、総称して記事データと呼ぶ。

[0080] ここでは、音声記事データ V 1〜V 3とテキスト記事データ T 1、 T 2がそれぞれマルチメディアデータベース 1 0 1内に記憶されているものとする

[0081 ] 音声コンテンツ生成部 1 0 3は、マルチメディアデータべ一ス 1 0 1から記事データを順次読み出す。

[0082] 次に、該当記事データが音声記事データであるかテキスト記事データであるかで処理を分ける。音声記事データの場合は内容の音声をそのまま用いる力テキスト記事データである場合は、いったん音声合成部 1 0 2に送り、音声合成処理により音声化されてから音声コンテンツ生成部 1 0 3へと戻す

[0083] 本実施例では、まず、音声コンテンツ生成部 1 0 3がマルチメディアデ一タベース 1 0 1から音声記事データ V 1を読み出す。

[0084] 次に、音声コンテンッ生成部 1 0 3は、テキスト記事データ T 1を読み出し、これはテキスト記事データなので音声合成部 1 0 2に送る。

[0085] 音声合成部 1 0 2では、前記送られたテキスト記事データ T 1をテキスト音声合成技術により合成音声化する。

[0086] ここで、音響的特徴パラメータとは、合成音の声質、韻律、時間長、声の高さ、全体の話速等を決定する数値を指す。前記したテキスト音声合成技術によれば、これら音響的特徴パラメータを用いて、その特徴を持つ合成音を生成することができる。

[0087] 音声合成部 1 0 2により、テキスト記事データ T 1は音声化されて合成音

S Y T 1 となり、音声コンテンッ生成部 1 0 3へと出力される。

[0088] その後、音声コンテンツ生成部 1 0 3は、音声記事データ V 2、 V 3、テキスト記事データ T 2の順に同様の処理を行い、音声記事データ V 2、 V 3

、合成音 S Y T 2の順に得る。

[0089] 音声コンテンツ生成部 1 0 3は、 V 1→S Y T 1→V 2→V 3→S Y T 2 という順番で再生されるように各音声を結合することで、音声コンテンツを生成する。

[0090] [実施例 2 ]

続いて、上記第 2の実施形態に対応する本発明の第 2の実施例を説明する

。以下、本実施例の概要を示した図 1 3を参照して詳細に説明する。

[0091 ] マルチメディアデータベース 1 0 1には、予め少なくとも 1つ以上の音声記事データ、および少なくとも 1つ以上のテキスト記事データが記憶されている。また、マルチメディアデータベース 1 0 1には、それぞれの記事デ一タに対し、補助データが記憶されている。

[0092] 補助データは、図 1 4に示すように、提示順序データ、音声特徴パラメ一タ、音響効果パラメータ、音声時間長制御データのうち一つ以上を含む。

[0093] 提示順序データは、各記事データが音声コンテンツ内に格納される順番、言い換えると聴取時に提示される順序を表す。

[0094] 音声特徴パラメータは、合成音声の特徴を示すパラメータであり、合成音の声質、全体のテンポおよび声の高さ、韻律、抑揚、イントネーション、パヮ一、局所的な継続時間長およびピッチ周波数、等のうち、少なくとも 1つを含む。

[0095] 音響効果パラメータは、音声記事データおよびテキスト記事データを音声化した合成音に対して音響効果を付与するためのパラメータであり、音響効果は、背景音楽（B G M ) 、間奏音楽（ジングル）、効果音、固定的な台詞など、あらゆる音声信号のうち、少なくとも 1つを含む。 [0096] 音声時間長制御データは、音声記事データおよびテキスト記事データを音声化した合成音がコンテンツ内で再生される時間長を制御するためのデータである。

[0097] 本実施例では、補助データの中にフィールドで区切られて、提示順序、音声特徴パラメータ、音響効果パラメータ、音声時間長制御データが記載されているものとし、必要ないパラメータは記載しない。以下では、説明のため、補助データの中に前記のいずれか一つが記載されているものとして説明する。

[0098] ここでは最初に、補助データの内容が提示順序データである場合について説明する。例として、音声記事データ V 1〜V 3とテキスト記事データ T 1 、丁 2、および音声記事データ V 1〜V 3のそれぞれに対する提示順序デ一タ A V 1〜A V 3力テキスト記事データ T 1、 Τ 2のそれぞれに対する提示順序データ A T 1、 A T 2がそれぞれマルチメディアデータべ一ス 1 0 1 内に記憶されているものとする。

[0099] 提示順序データ A V 1〜A V 3、 A T 1、 A T 2には、それぞれ対応する記事データである V 1〜V 3、 T 1、 Τ 2が音声コンテンツ内に格納される順番、言い換えると聴取時に提示される順序が記述されている。

[0100] 提示順序データの記述様式としては、当該データの前後に提示されるデータ名ゃ先頭や末尾であることを示す情報を記憶しておく方法等がある。ここでは、 V 1→T 1→V 2→V 3→T 2という再生順序になるような提示順序データが記憶されているものとする。

[0101 ] 音声コンテンツ生成部 1 0 3は、マルチメディアデータべ一ス 1 0 1から各提示順序データを読み出し、提示順序を認識し、その提示順序に従って、マルチメディアデータベース 1 0 1から該当記事データを読み出す。

[0102] ここでも、該当記事データが音声記事データであるかテキスト記事データであるかで処理が分けられる。即ち、音声記事データの場合はそのまま用いるが、テキスト記事データである場合は、いったん音声合成部 1 0 2に送り、音声合成処理により音声化されてから音声コンテンツ生成部 1 0 3へと戻される。

[0103] 本実施例では、補助データ A V 1の情報に従って、まず、音声記事データ V 1がマルチメディアデータべ一ス 1 0 1から音声コンテンッ生成部 1 0 3 に出力される。

[0104] 次に、補助データ A T 1の情報に従って、テキスト記事データ T 1が音声コンテンツ生成部 1 0 3に出力され、これはテキスト記事データなので音声合成部 1 0 2に送られる。音声合成部 1 0 2では、前記送られたテキスト記事データ T 1をテキスト音声合成技術により合成音声化する。

[0105] テキスト記事データ T 1は音声化されて合成音 S Y T 1 となり、音声コンテンッ生成部 1 0 3へと出力される。

[0106] その後、音声記事データ V 2、 V 3、テキスト記事データ T 2の順に同様の処理を行い、音声記事データ V 2、 V 3、合成音 S Y T 2の順に音声コンテンッ生成部 1 0 3へと出力される。

[0107] 音声コンテンツ生成部 1 0 3は、各提示順序データにより示された、 V 1 →S Y T 1→V 2→V 3→S Y T 2という順番で再生されるように、データの結合を行って、音声コンテンツを生成する。

[0108] 上記の例では、マルチメディアデータベース 1 0 1内で、音声記事データ V 1〜V 3、テキスト記事データ T 1、 Τ 2および補助データ A V 1〜A V 3、 A T 1、 A T 2は分散して記憶されているが、上記データ群を一つにまとめたデータセットとして記憶しておき、データセットを複数記憶するという方法も考えられる。

[0109] また上記の例では、マルチメディアデータべ一ス 1 0 1に対して 1つの補助データを設け、一括して再生順序を記録することもできる。その場合、該当補助データ内に、 V 1→T 1→V 2→V 3→T 2という再生順序を記録する。

[01 1 0] また、マルチメディアデータベースの種類によっては、ランダムアクセスできない場合もある。その場合は、補助データによって再生順序を指定しなくても、マルチメディアデータベースから各記事データを逐次読み出すことで、再生順序が決定される。

[0111] また、すべてのデータに補助データがついている必要はないし、マルチメディアデータベース全体で 1つの補助データがついている形態でも良い。

[0112] 次に、補助データが音声特徴パラメータである場合について説明する。例として、テキスト記事データ T 1に対する補助データ A T 1に音声特徴パラメータを含む場合を考える。

[0113] 音声コンテンツ生成部 1 03は、テキスト記事データ T 1を音声合成部 1 02において音声化して合成音 SYT 1 とする際、テキスト記事データ T 1 とともに当該音声特徴パラメータ AT 1を音声合成部 1 02に送り、音声特徵パラメータ AT 1を用いて合成音の特徴を決定する。テキスト記事データ T 2と音声特徴パラメ一タ AT 2も同様である。

[0114] 音声特徴パラメータの記述様式としては、パラメータを数値で設定する様式が考えられる。例えば、音声特徴パラメータとして全体のテンポ T em p oと声の高さ P i t c hを数値で指定できるものとし、補助データ AT 1には {T emp o= 1 00、 P i t c h = 400} が、補助データ A T 2には {T emp o= 1 20、 P i t c h = 300} という音声特徴パラメータが与えられているものとする。

[0115] この場合、音声合成部 1 02では、 S Y T 2が S Y T 1に比べて話速が 1 . 2倍で、声の高さが 0. 75倍であるような特徴を持つような合成音 SY T 1、 S Y T 2が生成される。

[0116] このようにして、合成音の特徴を変化させることで、生成されたコンテンッを音声で聞く際に、テキスト記事データ T 1 と T 2の差別化を図ることが可能となる。

[0117] また、音声特徴パラメータの記述様式として、予め与えられたパラメータを選択する様式も考えられる。例えば、キャラクタ A、キャラクタ B、キヤラクタ Cという特徴を持つキャラクタを再現するためのパラメータを予め用意して、マルチメディアデータべ一ス 1 01にそれぞれ C h a A、 C h a B 、 C h a Cとして記憶させておくとする。 [0118] そして、音響特徴パラメータとして、キャラクタを再現するパラメータを C h a rで指定できるものとし、補助データ A T 1には {C h a r =C h a C} 、補助データ AT 2には {C h a r =C h a A} というパラメータが与えられているものとする。

[0119] この場合、音声合成部 1 02では、 SYT 1がキャラクタ C、 SYT 2がキャラクタ Aの特徴を持つ合成音となって出力される。このようにして、予め与えられたキャラクタを選択することで、特定の特徴を持つ合成音を簡単に生成することができ、補助データ内の情報量を削減することが可能となる

[0120] 次に、補助データが音響効果パラメータである場合について説明する。例として、音声記事データ V 1〜V3のそれぞれに対応する補助データ AV 1 〜AV3、およびテキスト記事データ T 1、 T 2にそれぞれ対応する補助データ AT 1、 AT 2に音響効果パラメータを含む場合を考える。音響効果は予めマルチメディアデータベース 1 01に記憶されている。

[0121] 音声コンテンツ生成部 1 03は、当該音響効果パラメータに示された音響効果を重畳した音声記事データ V 1〜V 3、合成音 SYT 1、 SYT 2を再生する音声コンテンッを生成する。

[0122] 音響効果パラメータの記述様式としては、予め各音響効果に対して特有の値を設定しておき、補助データ内で上記の値を指示する様式が考えられる。

[0123] ここでは、背景音楽 M u s i cA、 Mu s i c B、効果音 S o u n d A、 S o u n d B、 S o u n d Cがマルチメディアデータべ一ス 1 01に記憶されているものとし、音響特徴パラメータとしては、背景音楽を BGM、効果音を S Eで設定できるものとする。例えば、補助データ AV 1〜AV3、 A T 1、 AT 2に、それぞれ、 {BGM = Mu s i cA、 S E = S o u n d B } 、 {BGM = Mu s i c B、 S E = S o u n d C} 、 . . . というようなパラメータが与えられているものとすると、音声コンテンツ生成部 1 03では、音声記事データ V 1〜V3、合成音 SYT 1、 SYT 2に設定された音響効果が重畳されて、音声コンテンツが生成される。 [0124] もちろん、背景音楽ないし効果音のどちらかのみを重畳する、あるいは両方重畳しないようにすることも可能である。

[0125] 音響効果パラメータとして、音響効果を重畳する絶対的あるいは相対的な時刻情報を付与することも考えられる。このようにすれば、任意のタイミングで音響効果を重畳することも可能である。

[0126] また、音響効果パラメータとして、該当音響効果の音量を付与することも考えられる。このようにすれば、例えば記事の内容にあわせてジングルの音量を指定することができる。

[0127] 次に、補助データが音声時間長制御データである場合について説明する。

ここで、音声時間長制御データとは、音声記事データおよび合成音の時間長が音声時間長制御データで指定された時間長を超えている場合、音声時間長制御データで定められた時間長になるように音声記事データおよびテキスト記事データないし合成音を変更するためのデータを指す。

[0128] 例えば、音声記事データ V 1 と合成音 S YT 1がそれぞれ 1 5秒、 1 3秒であり、音声時間長制御データとして iD u r = 1 0 [s e c] } という記述があつたとする。この場合、音声コンテンツ生成部 1 03において、 V 1および S YT 1の時間長が 1 0秒になるように、 1 0秒を超える分のデ一タを削除する。

[0129] また上記方法に代えて、 V 1および S YT 1の時間長が 1 0秒になるように話速を早める方法を採ることもできる。話速を早める方法は、 P I CO L A ( o i n t e r I n t e r v a l し o n t r o l l e d O v e r L a p a n d A d d ) を用いる方法が考えられる。さらに、音声合成部 1 02で合成する段階で、 S Y T 1の時間長が 1 0秒になるように話速のパラメ一タを計算してから合成してもよい。

[0130] また、音声時間長制御データは、再生する最大の時間長を与える代わりに、再生する時間の最小長と最大長の組からなる範囲を与えても良い。その場合には、与えられた最小時間長よりも短い場合には、話速を遅くする処理を行う。 [0131 ] また、音声時間長制御データにおいて 0や負の時間長が与えられた場合、例えば { D u r = 0 } の場合に、音声コンテンツ内で再生されないように制御することも可能である。

[0132] 本実施例のようにすると、重要度等によって音声の時間長が変えられるため、音声コンテンッが長くなりすぎて聞くのが煩わしくなることを防ぐことが可能となる。

[0133] 前記の実施例では、音声特徴パラメータで予め与えられるパラメータや音響効果は、マルチメディアデータベース 1 0 1内に記憶してあるが、それぞれ別のデータベース D B 2、 D B 3を追加する構成をとり、データベース D

B 2、 D B 3にパラメ一タを記憶しておいてもよい。さらに、 D B 2、 D B

3は同一のデータベースでも構わない。

[0134] [実施例 3 ]

続いて、上記第 4の実施形態に対応する本発明の第 3の実施例を説明する

。以下、本実施例の概要を示した図 1 5を参照して詳細に説明する。

[0135] 記事データ入力部 1 0 5では、マルチメディアデータベース 1 0 1に記憶される音声およびテキスト記事データを入力する。

[0136] 補助データ入力部 1 0 6では、記事データ入力部 1 0 5で入力された音声およびテキスト記事データに対応する補助データを入力する。補助データは

、前記の提示順序データ、音声特徴パラメータ、音響効果パラメータ、音声時間長制御デ一タのいずれかである。

[0137] マルチメディアデータベース 1 0 1に記憶されたデータおよび補助データを用いて、実施例 1および実施例 2に記載の通り、音声コンテンツ生成部 1

0 3において音声コンテンッが生成される。

[0138] 例えば、データ入力者は、記事データ入力部 1 0 5を用いて、音声記事デ

—タを入力する。この音声は、マイクロフォンを接続して録音することで入力すればよい。

[0139] その後、データ入力者は補助データ入力部 1 0 6を用いて、該音声記事データに対する音声時間長制御データを D u r = { 1 5 [ s e c ] } として入力する。

[0140] 本実施例によれば、データ入力者の好きなように補助データを入力でき、自由にコンテンツを生成することが可能となる。

[0141 ] また、音声記事データ及びテキスト記事データは別々のユーザが作成してもよい。例えば、図 1 6に示すように、ユーザ 1が音声記事データ V 1、 V 2を、ユーザ 2がテキスト記事データ T 1を、ユーザ 3が音声記事データ V 3を、ユーザ 4がテキスト記事データ T 2を、各ユーザが対応する補助デ一タとしてそれぞれ A V 1〜A V 3、 A T 1、 A T 2を入力するような場合が考えられる。

[0142] また、データを入力するデータ入力者と、当該データに対応する補助デ一タを入力するデータ入力者が異なっていても構わない。これにより、ブログにおいて元記事をユーザ Αが入力し、それに対するコメントを別のユーザ B が入力し、更にそれに対する返答のコメントをユーザ Aが入力した上で、それらを統合した音声ブログコンテンツを容易に作成できる。

[0143] また、前記第 3の実施例から派生する別の実施例として、音声コンテンツ生成部 1 0 3で生成された音声コンテンツを出力し、上記音声コンテンツを聴取したユーザがデータを操作する方法を、図 1 7のブロック図と、図 1 8 のフローチャートを用いて説明する。

[0144] 音声コンテンツ生成部 1 0 3は、音声コンテンツを生成し（図 1 8のステップ S 9 3 1 ) 、出力部 3 0 3では生成された音声コンテンツを出力し、ュ —ザが聴取できるようにする（図 1 8のステップ S 9 3 2 ) 。

[0145] 上記出力部 3 0 3としては、パーソナルコンピュータや携帯電話、オーディォプレイヤーに接続されたへッドフォンゃスピーカー等が考えられる。

[0146] 音声コンテンツを聴取したユーザは、データ操作部 3 0 1において、音声記事データないしテキスト記事データを作成し、作成された記事データは記事データ入力部 1 0 5に送られる（図 1 8のステップ S 9 3 3 ) 。

[0147] データ操作部 3 0 1には、音声記事データおよびテキスト記事データの入力手段として、電話機（送話側）、マイク、キーボード等のうち、少なくとも 1つを含み、入力した音声記事データおよびテキスト記事データの確認手段として、電話機（受話側）、スピーカ一、モニタ一等のうち、少なくとも

1つを含む。

[0148] 出力部 3 0 3とデータ操作部 3 0 1は、マルチメディアデータベース 1 0

1、音声合成部 1 0 2、音声コンテンツ生成部 1 0 3、記事データ入力部 1 0 5と離れた場所、例えば、前者がユーザの近く（クライアント側と呼ぶ）に設置されており、後者がウェブサーバ（サーバ側と呼ぶ）に設置されていてもよい。

[0149] 入力されたデータはマルチメディアデータべ一ス（図 1 7の 1 0 1、 1 0

1 a ) に記憶され（図 1 8のステップ S 9 3 4 ) 、ユーザの指示またはシステムの予め定められた動作により（図 1 8のステップ S 9 3 5の Y e s ) 、新たなデータを加えられたコンテンツが生成される（図 1 8の S 9 3 1 ) 。

[0150] 上記生成されたコンテンツは、さらにユーザに出力され、ユーザのデータの作成、データベース更新、新音声コンテンツ生成という繰り返し処理が可能となる。

[0151 ] このような構成にすることで、ユーザは音声コンテンツを聴取し、上記コンテンッに対するコメントを音声記事データないしテキスト記事データとして入力することができ、上記データがマルチメディアデータベース（図 1 7 の 1 0 1、 1 0 1 a ) に記憶されることで、新たなコンテンツを生成することができる。

[0152] また、ユーザが複数存在する場合も考えられる（不図示）。まず、ユーザ

1がマルチメディアデータベース 1 0 1に音声記事データ V 1を入力し、音声コンテンツ C 1が生成されたものとする。

[0153] 次に、ユーザ 2、ユーザ 3、ユーザ 4がそれぞれ音声コンテンツ C 1を聴取し、ユーザ 2、ユーザ 3がそれぞれ音声記事データ V 2、 V 3を作成し、ユーザ 4がテキスト記事データ T 4を作成する。データ V 2、 V 3、 T 4は、記事データ入力部 1 0 5を経て、マルチメディアデータベース 1 0 1へと記憶され、 1ぉょび 2、 V 3、 T 4を用いて、新コンテンツ C 2が生成される。

[0154] なお、マルチメディアデータベース 1 0 1は複数ユーザの競合を防ぐ機能を持っていることが望ましい。

[0155] このような構成にすることで、複数のユーザが作成した音声記事データとテキスト記事データを 1つのコンテンツに結合することが可能となる。

[0156] さらにこの場合、上記のデータ作成時データに、コンテンツを閲覧した日時、コメントを投稿した日時、当該コメント投稿者の過去のコメント回数、当該コンテンッに対して投稿された総コメント数等のデータを含めることができる。

[0157] [実施例 4 ]

続いて、上記第 5の実施形態に対応する本発明の第 4の実施例を説明する

。以下、本実施例の概要を示した図 1 9を参照して詳細に説明する。

[0158] 本実施例では、マルチメディアデータベース 1 0 1、音声合成部 1 0 2、音声コンテンツ生成部 1 0 3は、上記第 1、第 2の実施例の 1 0 1〜1 0 3 と同様の機能を有するものである。

[0159] 補助データ生成部 1 0 7では、マルチメディアデータベース 1 0 1に記憶されている音声記事データおよびテキスト記事データの内容から、対応する補助データを生成する。

[0160] ここで補助データは、提示順序データ、音声特徴パラメータ、音響効果パラメータ、音声時間長制御データである。

[0161 ] 記事データが音声記事データの場合、予めキーワードとそれに該当する補助データの組みを登録しておく。この組は、例えばキーワード「愉快な」に対して、音響効果パラメータ「効果音 =笑い」を対応させる。

[0162] 補助データ生成部 1 0 7は、例えば、音声認識技術の一つであるキーヮ一ドスポッティングを用いて、音声記事データから、前記予め定められたキーヮ一ドが含まれているか否かを検出する。

[0163] ここで、キーワードを検出できた場合、補助データ生成部 1 0 7は、該当補助データを生成し登録する。 [01 64] また上記方法に代えて、一旦音声認識によってテキスト化し、前記キーヮ -ドを検出する方法を採ることも可能である。

[01 65] また、音声記事データのパワー等の音響的特徴が、予め定められた閾値を超えた場合に補助データを結び付けても良い。例えば、音声波形の最大振幅が 3 0 0 0 0を超えた場合に、音声時間長制御データを短く、例えば、 ί D u r = 5 [ s e c ] } にすることにより、声が大き過ぎて煩いと感じやすい音声記事データを早聞き乃至スキップすることが可能となる。

[01 66] 記事データがテキスト記事データの場合も、前記と同様にキーワードを検出しても良い。あるいは、テキストマイニングツールによる意味抽出等を行し、、意味に該当する補助データを割り当てても良い。

[01 67] 本実施例によれば、マルチメディアデータベース 1 0 1に記憶されているデータから自動で補助データを生成できるため、自動的に適切な提示順序や音声特徴、音響効果、時間長などを有するコンテンツを生成することが可能となる。

[01 68] また、上記の第 3の実施例と本実施例を組み合わせてもよい。例えば、音声記事データについては、第 3の実施例に記載の通り、補助データ入力部 1 0 6においてユーザが補助データを入力し、テキスト記事データについては本実施例に記載の通り、補助データ生成部 1 0 7において補助データを生成するという構成が可能である。

[01 69] このようにすれば、作業を簡略化するために、必要な時だけユーザが手動で補助データを入力し、通常は自動生成すると言ったシステムが構築できる

[01 70] [実施例 5 ]

続いて、上記第 3の実施形態に対応する本発明の第 5の実施例を説明する

。以下、本実施例の概要を示した図 2 0を参照して詳細に説明する。

[01 71 ] 本実施例では、マルチメディアデータベース 1 0 1、音声合成部 1 0 2、音声コンテンツ生成部 1 0 3は、上記第 2の実施例の 1 0 1〜 1 0 3と同様の機能を有するものである。 [0172] マルチメディアデータベース 1 0 1に、各記事データに対応したデータ作成時情報を記憶する。データ作成時情報は、該音声記事データもしくはテキスト記事データを作成した際のデータ（属性情報）であり、データを作成した状況（日時、環境、過去のデータ作成回数、等）、作成した人の情報（名前、性別、年齢、住所等）、等のうち、少なくとも 1つを含む。このデータ作成時情報の記述様式としては、あらゆる形式のテキストが考えられ、任意の形式を採ることができる。

[0173] データ作成時情報変換部 1 0 4では、マルチメディアデータベース 1 0 1 からデータ作成時情報を読み出し、テキストに変換し、新たなテキスト記事データとしてマルチメディアデータベース 1 0 1に登録する。

[0174] 例えば、音声記事データ V 1に対応するデータ作成時情報 X V 1 として、

{ N a m e =太郎、 A d r e s s =東京、 A g e = 2 1 } と記憶されているものとする。

[0175] データ作成時情報変換部 1 0 4では、 X V 1を「東京にお住まいの 2 1歳の太郎さんがこのデータを作成しました」というテキスト記事データ T X 1 に変換する。

[0176] そして、このテキスト記事データ T X 1は、他のテキスト記事データと同様にマルチメディアデータベース 1 0 1に記憶される。

[0177] その後、生成されたテキスト記事データ T X 1は、音声コンテンッ生成部

1 0 3と音声合成部 1 0 2により音声化されて音声コンテンツ生成に用いられる。

[01 78] 本実施例のようにすると、データ作成時情報を理解し易いテキス卜に変換して音声化されるため、コンテンツの中の各データがどのような作成時情報を持っているかを、音声コンテンッの聴取者が理解し易くすることが可能となる。

[0179] また上記した実施例では、データ作成時情報変換部 1 0 4が生成したテキスト記事データは一旦テキスト記事データとしてマルチメディアデータべ一ス 1 0 1に格納するものとして説明したが、データ作成時情報変換部 1 0 4 、直接、音声合成部 1 02を制御することにより合成音を生成させ、音声記事データとして、マルチメディアデータベース 1 0 1に格納することも可能である。

[0180] さらに、前記音声化した音声記事データを、マルチメディアデータベース

1 0 1に格納せずに、直接音声コンテンツ生成部 1 03に渡して音声コンテンッを生成することも可能である。この場合は、データ作成時情報変換部 1 04が変換を行うタイミングは、音声コンテンツ生成部 1 03が与えるのが良い。

[0181] [実施例 6]

続いて、上記第 6の実施形態に対応する本発明の第 6の実施例を説明する。以下、本実施例の概要を示した図 2 1を参照して詳細に説明する。

[0182] 本実施例では、第 1の実施例に加えて、補助データ生成部 1 07では、マルチメディアデータベース 1 0 1に記憶されているデータ作成時情報から補助データを作成する。

[0183] データ作成時情報は、上記実施例 5に記載のデータ作成時情報と同一のものである。補助データは、提示順序データ、音声特徴パラメータ、音響効果パラメータ、音声時間長制御データのいずれか一つ以上である。

[0184] 例として、音声記事データ V 1、 V 2とテキスト記事データ T 1がマルチメディアデータベース 1 0 1に記憶されているものとする。記事データ V 1 、 V 2、 T 1には、それぞれデータ作成時情報 X V 1、 X V 2、 X T 1が対応して記憶されている。

[0185] データ作成時情報 XV 1、 XV 2、 X T 1は、記事データ V 1、 V 2、 T

1のそれぞれにメタデータとして付属させてもよいし、別のデータべ一スェントリーや別のファイルを用いて記憶させてもよい。

[0186] 補助データ生成部 1 07では、データ作成時情報に記述されている名前、性別、作成日時等を元に、補助データを作成する。例えば、データ作成時情報 X V 1力《 {N am e =太郎、 T i m e = 2006年 2月 8日 } 、 XV 2が {G e n d e r =ma I e、 T i m e = 2006年 2月 1 0曰 } 、 X T 1力《 { N a m e =花子、 G e n d e r = f e m a I e、 A g e = 1 8 } とし、う内容であり、現在が 2 0 0 6年 2月 1 0日であるとする。

[0187] 補助データ生成部 1 0 7では、記事データ V 1については「太郎用の背景音楽、前日以前に作成されたデータ用の音声時間長制御データ」という内部情報を生成し、予め与えられた「太郎用の背景音楽」「前日以前に作られたデータ用の音声時間長制御データ」の実体を割り当てて、記事データ V 1に対応する補助データ A V 1を作成する。

[0188] また、同様に、記事データ V 2については「男性用の音響効果、当日に作成されたデータ用の音声時間長制御データ」による補助データ A V 2を、記事データ T 2については「女性用の音声特徴パラメータ、 1 0歳代用の音響効果」による補助データ A T 1を作成する。「女性用の音声特徴パラメータ」の実体なども、同様に予め与えておく。

[0189] 本実施例によれば、例えば、当日に作成されたデータは通常のスピードで、作成された日時が以前であればあるほど音声の時間長を短くして軽く読ませるといったことが可能になる。

[0190] また、テキスト記事データの作者が登録してある場合は、その作者に似せた特徴を持つた合成音を生成すること等が可能となる。

[0191 ] また、前記の第 3、第 4の実施例と本実施例を組み合わせてもよい。例えば、音声記事データ V 2のみに詳細なデータ作成時情報が存在している場合、音声記事データ V 1については、第 3の実施例に記載の通り、補助データ入力部 1 0 6においてユーザが補助データ A V 1を入力し、テキスト記事デ —タ T 1については、第 4の実施例に記載のとおり、補助データ生成部 1 0 7において補助データ A T 1を生成し、音声記事データ V 2については、本実施例に記載のとおり、データ作成時情報に従って補助データ生成部 1 0 7 において補助データ A V 2を作成するといつたことが可能である。

[0192] このようにすれば、データ作成時情報の充実度合いによって補助データの作成方法を変更するシステムを構築できる。

[0193] [実施例 7 ] 続いて、上記第 2の実施形態の一変形例である本発明の第 7の実施例を説明する。本実施例は、本発明の第 2の実施例と同様の構成にて実現可能であるため、先の図 1 3を参照して、その動作を説明する。

[01 94] 音声コンテンツ生成部 1 0 3は、マルチメディアデータべ一ス 1 0 1から記事データを読み出す際に、出力すべき音声コンテンツ上で時系列的に隣接する 2つの記事データによって決定される音響効果パラメータを生成し、該当記事データ間の音響効果として適用する。

[01 95] ここで生成される音響効果パラメータの基準の一つは、隣接する 2つの記事データの種類が音声記事データであるかテキスト記事データであるかによる 4種類の組み合わせである。

[01 96] 例えば、先行データも後続データも音声記事データである場合には高音質の音楽をジングルとして用いることで雰囲気を調和させることができる。また、先行データが音声記事データで後続データがテキスト記事データの場合は音程下降チャイムを音響効果に用いることで、次に自然性が下がることを聴者に暗示することができる。また、先行データがテキスト記事データで後続データが音声記事データの場合は音程上昇チャイムを音響効果に用いることで、次に自然性が上がることを聴者に期待させることができる。また、先行データも後続データもテキスト記事データである場合には落ち着いた音楽をジングルとして用いることで気分を落ち着かせる効果を与えることができる。

[01 97] また別の一つの音響効果パラメータの基準は、隣接する記事データがともにテキスト記事データの場合に、それぞれを形態素解析して単語出現頻度を計算し、そのユークリッド距離をテキスト記事データ間の距離として定義する。そして、同距離に比例した長さのチャイムを音響効果に用いることで、記事データ間の関係が深い場合と浅い場合を聞き分けやすくすることができる。

[01 98] また別の一つの音響効果パラメータの基準は、隣接する記事データがともに音声記事データの場合に、それぞれの音声記事データに対応する音声特徴パラメータのうち音質が等しければ二つの記事に跨って音楽を流すことで、記事データ間の繋ぎをスムースにすることができる。

[0199] また別の一つの音響効果パラメータの基準は、隣接する記事データがともに音声記事データの場合に、それぞれの音声記事データに対応する音声特徴パラメータのうち平均ピッチ周波数の値の差分の絶対値を計算し、その値に比例する長さの無音を用いることで、記事データ間のピツチの違いに起因する違和感を軽減することができる。

[0200] また別の一つの音響効果パラメータの基準は、隣接する記事データがともに音声記事データの場合に、それぞれの音声記事データに対応する音声特徴パラメータのうち発話速度の値の差分の絶対値を計算し、その値に比例する長さの音楽を挿入することで、記事データ間の発話速度の違いに起因する違和感を軽減する。

[0201 ] 本実施例では、音声コンテンツ生成部 1 0 3が音響効果パラメータを生成するものとして説明したが、音響効果パラメータを一旦マルチメディアデ一タベース 1 0 1に格納して、改めて音声コンテンツ生成部 1 0 3が同音響効果パラメータを読み出して制御する構成でも実現することが可能である。

[0202] あるいは、音声コンテンツ生成部 1 0 3は音響効果パラメータを生成せず、対応する音響効果を直接適用することも可能である。

[0203] [実施例 8 ]

続いて、上記第 2の実施形態の一変形例である本発明の第 8の実施例を説明する。本実施例は、本発明の第 2の実施例と同様の構成にて実現可能であるため、先の図 1 3を参照して、その動作を説明する。

[0204] 音声コンテンツ生成部 1 0 3は、音声コンテンツを順次生成する過程で、ある記事データを追加する際に全体の時間長が予め与えられた音声コンテンッ全体の時間を超える場合は、該当記事データを追加しないように動作する

[0205] これにより、全体の時間長の上限を制限することができ、音声コンテンツを番組として扱いやすくする。 [0206] あるいは、音声コンテンツ生成部 1 0 3は、使うべきすべての記事データをすベて使って作成した音声コンテンツ全体の時間長が、予め与えられた音声コンテンツ全体の時間を超える場合は、各記事データを使うあるいは使わないすべての組み合わせについて音声コンテンツを一旦生成し、その時間長が予め与えられた音声コンテンツ全体の時間を超えずに一番近い組み合わせを選択するよう動作させることも可能である。

[0207] また、予め与えられた音声コンテンツ全体の時間の代わりに、前記音声コンテンッ全体の時間の上限、下限又はその双方を定め、それに適合するように制御しても良い。

[0208] [実施例 9 ]

続いて、上記第 7の実施形態に対応する本発明の第 9の実施例を説明する。以下、本実施例の概要を示した図 1 0を参照して詳細に説明する。

[0209] 音声コンテンツ生成部 1 0 3は順次処理をする各記事データに対応する補助データを一旦補助データ補正部 1 0 8に送る。

[0210] 補助データ補正部 1 0 8は、該当時点以前に使用された補助データを参照して、該当補助データを補正し、音声コンテンツ生成部 1 0 3に送る。

[021 1 ] 音声コンテンツ生成部 1 0 3は、該修正された補助データを用いて音声コンテンッの生成を行う。

[0212] 補助データ補正部 1 0 8において補助データを補正する方法としては、例えば補助データが音響効果パラメータの場合、過去の時点で使われた音響効果パラメータの B G Mの種類を予め分類してタグを付しておく。

[0213] ここで、音楽のタグとして、クラシック、ジャズ、ロック、 J— P O Pの 4種類を付与可能である場合を考える。

[0214] 例えば、過去において使われた B G Mがすべてクラシックであった場合、処理中の該当音響効果パラメータの B G Mがクラシック以外のタグが付いていたら、強制的にクラシックのタグの付いた任意の音楽に補正する。

[0215] これにより、生成される音声コンテンツはすべての B G Mがクラシックで統一されることになり、音声コンテンッ全体を番組として捉えた場合に全体の雰囲気を統一することが可能となる。

[0216] [実施例 1 0 ]

続いて、上記第 8の実施形態に対応する本発明の第 1 0の実施例を説明する。以下、本実施例の概要を示した図 1 1を参照して詳細に説明する。

[0217] マルチメディアコンテンツ生成部 2 0 1は、マルチメディアデータべ一ス

1 0 1から記事データを読み出して、マルチメディアコンテンツを生成する

[0218] ここで生成されるマルチメディアコンテンツは、文字情報や音声情報などを含んだ w e bページ、ブログページ、電子掲示板ページなどである。

[0219] 例えば、 w e bページの場合、音声情報は文字情報と同じ H T M Lフアイルに同梱されるのではなく、アクセスのためのリンクが提供されるものでも良い。

[0220] マルチメディアコンテンツユーザ対話部 2 0 2は、マルチメディアコンテンッの閲覧者の操作に従って、該マルチメディアコンテンツを提供する。

[0221 ] マルチメディアコンテンツが主に H T M Lファイルで構成された w e bぺ —ジである場合は、マルチメディアコンテンツユーザ対話部 2 0 2として、ユーザ端末側の汎用の w e bブラウザを用いることができる。

[0222] マルチメディアコンテンツに設定されたリンクを閲覧者がクリックした等の情報は、マルチメディアコンテンツユーザ対話部 2 0 2が認識し、マルチメディアコンテンツ生成部 2 0 1に送られる。

[0223] マルチメディアコンテンツ生成部 2 0 1は、前記閲覧者の操作に応じたマルチメディアコンテンツを生成し、マルチメディアコンテンツユーザ対話部 2 0 2に送ることにより、閲覧者にマルチメディアコンテンツが提示される

[0224] マルチメディアコンテンツユーザ対話部 2 0 2は、マルチメディアデータベース 1 0 1に登録されたテキストデータおよび音声データを閲覧または試聴するためのメッセージリストを作成する。前記メッセージリストは、マルチメディアデータベース 1 0 1に登録されているテキストデータおよび音声データの一部乃至全部のリストであり、ユーザはこれらのリス卜から閲覧または視聴したいコンテンツを選択できる。

[0225] また、マルチメディアコンテンツ生成部 2 0 1は、その際に得られる閲覧者毎に各記事の閲覧履歴を、マルチメディアデータベース 1 0 1内に記録する。閲覧履歴としては、どの記事の次にどの記事が見られたという閲覧順序や、あるいは、その統計的な遷移情報、各記事毎のこれまでの閲覧回数/再生回数などを挙げることができる。

[0226] 本実施例において音声コンテンツ生成部 1 0 3は、管理者権限を有するュ一ザ等により予め設定された規則に従って、記事を選択して音声コンテンツを生成する。

[0227] その規則は特に限定するものではないが、例えば、前記した閲覧記録を読み出し、予め定められた記事数または予め定められた時間をオーバーしない範囲で、閲覧回数あるいは再生回数の高いものから順に記事を選択する方法を採ることができる。

[0228] また同様に、予め定められた記事数または予め定められた時間をオーバーしない範囲で、前記した閲覧履歴を読み出し、閲覧回数あるいは再生回数が所定値以上のものを、マルチメディアデータベース 1 0 1への登録時順に記事を選択する方法を採ることもできる。

[0229] また、前記閲覧履歴を読み出し、直近のマルチメディアコンテンツの閲覧者が記事を閲覧（再生）した順番で音声コンテンツを生成する方法を採ることができる。更に、ログイン等によりマルチメディアコンテンツの閲覧者の同定が可能なシステムにおいては、ユーザが指定する閲覧者が記事を閲覧した順番で音声コンテンツを生成する方法を採ることもできる。上記各方法を採ることにより、閲覧の自由度が高いマルチメディアコンテンツの閲覧者（例： P Cユーザ）の閲覧嗜好を反映させた音声コンテンツを得ることができる。例えば、趣味や関心が共通する知人が閲覧した記事を音声にて早聞きすることや、有名人等特定のマルチメディアコンテンツのユーザの閲覧履歴を音声のみで追体験することも可能となり、新しい音声ブログやラジオ番組の形を提供することが可能となる。

[0230] 上記記事の選択■並び替えを行うことにより、再生順序に拘束される音声コンテンツのリスナー（例：ポータブルオーディオプレ一ヤーのユーザ）に対して、効率的にコンテンツを閲覧する環境を提供することが可能となる。もちろん、音声コンテンツにおける記事の配置順序は上記した例に限られず、記事の性質やユーザのニーズに従って各種変形を施すことが可能である。

[0231 ] [実施例 1 1 ]

続いて、本発明に係る音声コンテンッ生成システムを用いて提供可能なサ —ビスの詳細について本発明の第 1 1の実施例として説明する。以下、本実施例では、 1人のコンテンツ作成者が作成したコンテンツ（初期コンテンツ ) に対して、複数のコメント投稿者及び前記コンテンツ作成者によってコンテンッが追加され、更新されていくような情報交換サービスについて説明する。

[0232] 図 2 2のように、インタ一ネットを介して、大勢のユーザ（ここでは、ュ —ザ 1〜3 ) が、ユーザ端末 3 O O a〜 3 0 0 cを介して、 W e bサーバ 2 0 0に接続できる環境が存在している。

[0233] W e bサーバ 2 0 0は、上記第 8の実施形態で説明したマルチメディアコンテンッ生成部 2 0 1及びマルチメディアコンテンツユーザ対話部 2 0 2を構成する。上記各実施形態で説明したマルチメディアデータベース 1 0 1、音声合成部 1 0 2、音声コンテンツ生成部 1 0 3を備える音声コンテンツ生成システム 1 0 0と接続され、ユーザからの要求に応じて、合成音声と音声データとを所定の順序に従って編成した音声コンテンツを提供可能となっている。

[0234] 続いて、図 2 3、図 2 4を参照して、ユーザ 1〜 3による投稿の都度、コンテンッが更新されていく過程について説明する。まず、ユーザ 1力ユーザ端末 3 0 0 a (マイク付き P C ) のマイク等の収録機器より、ユーザ 1の音声コメントを収録して初期コンテンツ M C 1を作成する。（図 2 3のステップ S 1 0 0 1 ) 。 [0235] またここでは、ユーザ 1のみが開設者として初期コンテンツの投稿権限と、音声コンテンツの編成ルールの決定権限を有しているものとする。以下、ユーザ 1 (開設者）のコメントは連続するよう音声コンテンツの先頭に配置され（開設者優先）、その他のユーザの投稿については、過去の投稿の頻度が多いほど、コメントの再生順序が早くなる（投稿頻度優先）という編成ルールが決定されているものとする。

[0236] 次に、ユーザ 1は、初期コンテンツ MC 1を We bサーバ 200にアップロードする。アップロードされた初期コンテンツ MC 1は、補助データ A 1 とともにマルチメディアデータべ一ス 1 0 1に記憶される。音声コンテンツ生成システム 1 00は、初期コンテンツ MC 1及び補助データ A 1を用いてコンテンツ X C 1を編成する（図 24 XC 1参照）。

[0237] 生成された音声コンテンツ XC 1は、 We bサーバ 200を介してインタ —ネット上に配信される（図 23のステップ S 1 002) 。

[0238] 音声コンテンツ XC 1を受信し、その内容に接したユーザ 2は、対応する感想や意見、応援メッセージ等を録音し、音声コメント VCを作成し、投稿日時や投稿者名等の補助データ A 2を付して We bサーバ 200にアップ口 ―ドする（図 23のステップ S 1 003) 。

[0239] アップロードされた音声コメント VCは、補助データ A 2とともにマルチメディアデータべ一ス 1 0 1に記憶される。音声コンテンツ生成システム 1 00は、初期コンテンツ MC 1 と音声コメント VCに付与された補助データ A 1、 A 2等に基づいて、再生順序を決定する。ここでは、 1つのコンテンッに対して 1つのコメントしか付いていないため、先述の音声コンテンツの編成ルールのとおり、初期コンテンツ MC 1→音声コメント VCという再生順序が決定され、音声コンテンツ XC 2が生成される（図 24 XC 2参照

) o

[0240] 生成された音声コンテンツ XC 2は、上記音声コンテンツ XC 1 と同様に

、 We bサーバ 200を介してインタ一ネット上に配信される。

[0241] 音声コンテンツ XC 2を受信し、その内容に接したユーザ 3は、そのュ一ザ端末 300 cのデータ操作手段から、対応する感想や意見、応援メッセ一ジ等をテキスト入力し、テキストコメント TCを作成し、投稿日時や投稿者名等の補助データ A 3を付して We bサーバ 200にアップ口一ドする（図 23のステップ S 1 004) 。

[0242] アップロードされたテキストコメント TCは、補助データ A 3とともにマルチメディアデータべ一ス 1 01に記憶される。音声コンテンツ生成システム 1 00は、初期コンテンツ MC 1、音声コメント VC、テキストコメント TCに付与された補助データ A 1〜A 3に基づいて、再生順序を決定する。ここでは、ユーザ 3がユーザ 2よりも過去に多くのコメントを投稿していたと想定すると、先述の音声コンテンツの編成ルール（投稿頻度優先）により、初期コンテンツ MC 1→テキストコメント TC→音声コメント VCという再生順序が決定され、テキストコメント TCを合成音声化した上で、音声コンテンッ X C 3が生成される（図 24 XC3参照）。

[0243] 音声コンテンツ XC 3を受信し、その内容に接したユーザ 1は、そのュ一ザ端末 300 aのデータ操作手段から、追加コンテンツ MC 2を作成し、補助データ A 4を付して We bサーバ 200にアップ口一ドする（図 23のステツプ S 1 005) 。

[0244] アップロードされた追加コンテンツ MC 2は、補助データ A4とともにマルチメディアデータべ一ス 1 01に記憶される。音声コンテンツ生成システム 1 00は、初期コンテンツ MC 1、音声コメント VC、テキストコメント TC、追加コンテンツ MC 2に付与された補助データ A 1〜A 4に基づいて、再生順序を決定する。

[0245] ここでは、先述の音声コンテンツの編成ルール（開設者優先）により、初期コンテンツ MC 1→追加コンテンツ MC 2→テキストコメント T C→音声コメント VCという再生順序が決定され、音声コンテンツ XC 4が生成される（図 24 XC4参照）。

[0246] 以上のように、ユーザ 1 (開設者）のコンテンツ MC 1、 MC2を軸として、他のユーザから寄せられたコメントが含まれた音声コンテンツの更新と配信が繰り返されていく。

[0247] なお、上記した例では、音声コンテンツを初期コンテンツとしてアップ口 -ドした例を挙げて説明したが、 P Cや携帯電話の文字入力インターフエ一スを用いて作成したテキストコンテンッを初期コンテンツとすることも勿論可能である。この場合、テキストコンテンツは音声コンテンツ作成システム 1 0 0側に送信され、その音声合成手段によって、音声合成処理された上で音声コンテンツとして配信される。

[0248] また、上記した例では、 W e bサーバ 2 0 0が主としてュ一ザとの対話処理を行い、音声コンテンツ生成システム 1 0 0が、音声合成処理や順番変更処理を行うよう負荷分散するものとして説明したが、これらを統合すること、あるいは、その処理の一部を他のワークステーション等に担わせることも可能である。

[0249] また、上記した例では、補助データ A 1〜A 4は、再生順序の決定に用いられるものとして説明したが、例えば、図 2 5に示すように、補助データ内のデータ作成時情報を音声化し、各コンテンツ及びコメントの登録日時についてのァノテ一シヨン（注釈）を付与した音声コンテンツ X C 1〜X C 4を生成することも可能である。

[0250] また、上記した例では、テキストコメント T Cは、テキスト形式のままマルチメディアデータベース 1 0 1に記憶されるものとして説明したが、音声合成処理を行って合成音化してから、マルチメディアデータベース 1 0 1に記憶しておくことも有効である。

[0251 ] [産業上の利用可能性]

以上説明したように、本発明によれば、テキストと音声が混在する情報源のテキストを音声化し音声のみで聴取可能な音声コンテンッを生成することができる。この特長は、例えばブログや掲示板等といった、パーソナルコンピュータゃ携帯電話を用いて複数のユーザが音声又はテキス卜でコンテンツを入力できる情報交換システムに好適に適用され、テキス卜と音声の双方による投稿を許可し、すべての記事を音声のみによって閲覧（聴取）できるようにした音声テキスト混在型ブログシステムを構築できる。

[0252] 以上、本発明を実施するための好適な形態及びその具体的な実施例を説明したが、音声データとテキストデータとが混在する情報源を入力とし、前記テキストデータについて、前記音声合成手段を用いて合成音声を生成し、該合成音声と前記音声データとを所定の順序に従って編成した音声コンテンツを生成するという本発明の要旨を逸脱しない範囲で、各種の変形を加えることが可能であることはいうまでもない。例えば、上記した実施形態では、本発明をブログシステムに適用した例を挙げて説明したが、その他音声データとテキストデータとが混在する情報源から音声サ一ビスを行うシステムに適用できることはもちろんである。

[0253] この出願は、 2 0 0 6年 6月 3 0日に出願された日本出願特願 2 0 0 6 _

1 8 1 3 1 9号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

請求の範囲

[1 ] テキス卜から合成音声を生成する音声合成手段を備えた音声コンテンツ生成システムであって、

音声データとテキストデータとが混在する情報源を入力とし、前記テキストデータについて、前記音声合成手段を用いて合成音声を生成し、該合成音声と前記音声データとを所定の順序に従って編成した音声コンテンツを生成する音声コンテンツ生成手段を備えたこと、

を特徴とする音声コンテンッ生成システム。

[2] テキス卜から合成音声を生成する音声合成手段を備えた音声コンテンツ生成システムであって、

を特徴とする音声コンテンッ生成システム。

[3] 前記マルチメディアデータベースには、前記音声データ又はテキストデ一タを主体とするコンテンツと対応付けて、作成日時、環境、過去のデータ作成回数、作成者の氏名、性別、年齢、住所のうち少なくとも一つを含むコンテンッ属性情報が登録されており、

更に、前記コンテンツ属性情報の内容に対応する合成音声を、前記音声合成手段に生成させるコンテンツ属性情報変換手段を備え、

前記音声コンテンッ生成手段は、前記コンテンッ属性情報変換手段により生成された合成音声により各コンテンッの属性を確認可能な音声コンテンッを生成すること、

を特徴とする請求項 2に記載の音声コンテンツ生成システム。

[4] 前記音声コンテンツ生成手段は、前記マルチメディアデータベースに予め登録された提示順序データに従って、前記テキストデータから生成した合成音声と前記音声データとを読み上げる音声コンテンツを生成すること、を特徴とする請求項 2又は 3に記載の音声コンテンツ生成システム。

[5] 更に、前記マルチメディアデータベースに音声データ又はテキストデータを主体とするコンテンツと、前記提示順序データとを登録するデータ入力手段を備えたこと、

を特徴とする請求項 4に記載の音声コンテンツ生成システム。

[6] 更に、前記音声データ又はテキストデータに基づいて前記提示順序データを生成する提示順序データ生成手段を備え、

前記音声コンテンツ生成手段は、前記提示順序データに従って、前記テキストデータから生成した合成音声と前記音声データとを読み上げる音声コンテンッを生成すること、

を特徴とする請求項 4又は 5に記載の音声コンテンツ生成システム。

[7] 更に、前記コンテンッ属性情報に基づいて前記提示順序データを生成する提示順序データ生成手段を備え、

[8] 予め定める規則に従って、前記提示順序データを自動補正する提示順序データ補正手段を備えたこと、

を特徴とする請求項 4乃至 7いずれか一に記載の音声コンテンツ生成システム。

[9] 前記マルチメディアデータベースには、前記テキストデータを音声に変換する際の音声特徴を規定する音声特徴パラメータが登録されており、前記音声コンテンツ生成手段は、前記音声特徴パラメータを読み出し、前記音声合成手段に、前記音声特徴パラメータを用いた音声特徴による合成音声を生成させること、を特徴とする請求項 2乃至 8いずれか一に記載の音声コンテンツ生成システム。

[10] 更に、前記マルチメディアデータベースに音声データ又はテキストデータを主体とするコンテンツと、前記音声特徴パラメータとを登録するデータ入力手段を備えたこと、

を特徴とする請求項 9に記載の音声コンテンツ生成システム。

[1 1 ] 更に、前記音声データ又はテキストデータに基づいて前記音声特徴パラメータを生成する音声特徴パラメータ生成手段を備え、

前記音声コンテンツ生成手段は、前記音声合成手段に、前記音声特徴パラメータを用いた音声特徴による合成音声を生成させること、

を特徴とする請求項 9又は 1 0に記載の音声コンテンツ生成システム。

[12] 更に、前記コンテンツ属性情報に基づいて前記音声特徴パラメータを生成する音声特徴パラメータ生成手段を備え、

を特徴とする請求項 3、 9、 1 0いずれか一に記載の音声コンテンツ生成システム。

[13] 予め定める規則に従って、前記音声特徴パラメータを自動補正する音声特徵パラメータ補正手段を備えたこと、

を特徴とする請求項 9乃至 1 2いずれか一に記載の音声コンテンッ生成システム。

[14] 前記マルチメディアデータベースには、前記テキストデータから生成した合成音声に付与する音響効果パラメータが登録されており、

前記音声コンテンツ生成手段は、前記音響効果パラメータを読み出し、前記音声合成手段により生成された合成音声に前記音響効果パラメータを用いた音響効果を付与すること、

を特徴とする請求項 2乃至 1 3いずれか一に記載の音声コンテンッ生成システム。

[15] 前記マルチメディアデータベースに音声データ又はテキストデータを主体とするコンテンツと、前記音響効果パラメータとを登録するデータ入力手段と、を備えたこと、

を特徴とする請求項 1 4に記載の音声コンテンッ生成システム。

[16] 前記音声コンテンッ生成手段が、

前記テキストデータから変換された合成音声と前記音声データとの連続状態、所定の単語の出現頻度の差、音声データ同士の音質の差、音声データ同士の平均ピッチ周波数の差、音声データ同士の発話速度の差の少なくとも 1 つを表す音響効果パラメータを生成し、前記合成音声同士又は前記音声デ一タ同士又は前記合成音声と音声データ間に跨るよう、前記音響効果パラメ一タを用いた音響効果を付与すること、

を特徴とする請求項 1 4又は 1 5に記載の音声コンテンツ生成システム。

[17] 更に、前記音声データ又はテキストデータに基づいて前記音響効果パラメータを生成する音響効果パラメータ生成手段を備え、

前記音声コンテンツ生成手段は、前記音声合成手段により生成された合成音声に前記音響効果パラメータを用いた音響効果を付与すること、

[18] 更に、前記コンテンツ属性情報に基づいて前記音響効果パラメータを生成する音響効果パラメータ生成手段を備え、

を特徴とする請求項 3、 1 4、 1 5いずれか一に記載の音声コンテンツ生成システム。

[19] 前記音響効果パラメータ生成手段は、

前記テキストデータから変換された合成音声と前記音声データとの連続状態、所定の単語の出現頻度の差、音声データ同士の音質の差、音声データ同士の平均ピッチ周波数の差、音声データ同士の発話速度の差の少なくとも 1 つを表し、前記合成音声同士又は前記音声データ同士又は前記合成音声と音声データ間に跨って付与される音響効果パラメータを生成すること、を特徴とする請求項 1 7又は 1 8に記載の音声コンテンツ生成システム。

[20] 予め定める規則に従って、前記音響効果パラメータを自動補正する音響効果パラメータ補正手段を備えたこと、

を特徴とする請求項 1 4乃至 1 9いずれか一に記載の音声コンテンツ生成システム。

[21 ] 前記マルチメディアデータベースには、前記テキストデータから生成する合成音声の時間的長さを規定する音声時間長制御データが登録されており、前記音声コンテンッ生成手段は、前記音声時間長制御データを読み出し、前記音声合成手段に、前記音声時間長制御データに対応する音声時間長を有する合成音声を生成させること、

を特徴とする請求項 2乃至 2 0いずれか一に記載の音声コンテンツ生成システム。

[22] 前記マルチメディアデータベースに音声データ又はテキストデータを主体とするコンテンツと、前記音声時間長制御データとを登録するデータ入力手段と、を備えたこと、

を特徴とする請求項 2 1に記載の音声コンテンツ生成システム。

[23] 更に、前記音声データ又はテキストデータに基づいて前記音声時間長制御データを生成する音声時間長制御データ生成手段を備え、

前記音声コンテンツ生成手段は、前記音声合成手段に、前記音声時間長制御データに対応する音声時間長を有する合成音声を生成させること、を特徴とする請求項 2 1又は 2 2に記載の音声コンテンツ生成システム。

[24] 更に、前記コンテンッ属性情報に基づいて前記音声時間長制御データを生成する音声時間長制御データ生成手段を備え、

前記音声コンテンツ生成手段は、前記音声合成手段に、前記音声時間長制御データに対応する音声時間長を有する合成音声を生成させること、を特徴とする請求項 3、 2 1、 2 2いずれか一に記載の音声コンテンツ生成システム。

[25] 予め定める規則に従って、前記音声時間長制御データを自動補正する音声時間長制御デ一タ補正手段を備えたこと、

を特徴とする請求項 2 1乃至 2 4いずれか一に記載の音声コンテンツ生成システム。

[26] 前記音声コンテンツ生成手段は、音声コンテンツが予め定められた時間長に収まるように、前記テキストデータ及び前記音声データを編集すること、を特徴とする請求項 1乃至 2 5いずれか一に記載の音声コンテンッ生成システム。

[27] 請求項 2乃至 2 6いずれか一に記載の音声コンテンツ生成システムを含み、複数のユーザ端末間の情報交換に用いられる情報交換システムであって、

を特徴とする情報交換システム。

[28] 更に、

前記マルチメディアデータベースに登録されたテキストデータ又は音声デ —タを閲覧乃至視聴するためのメッセージリストを生成し、アクセスするュ一ザ端末に提示する手段と、

前記メッセージリス卜に基づく、前記各データの閲覧回数及び再生回数をそれぞれ計数する手段と、を備えるとともに、

前記音声コンテンッ生成手段は、前記閲覧回数及び再生回数が所定値以上のテキストデータ及び音声データを再生する音声コンテンツを生成することを特徴とする請求項 2 7に記載の情報交換システム。

[29] 更に、

前記メッセージリス卜に基づく、前記各データの閲覧履歴をユーザ毎に記録する手段と、を備えるとともに、

前記音声コンテンツ生成手段は、前記ユーザ端末から指定された任意のュ一ザの閲覧履歴に従った順序でテキストデータ及び音声データを再生する音声コンテンツを生成すること、

を特徴とする請求項 2 7に記載の情報交換システム。

[30] 前記マルチメディアデータベースに登録されるデータは、テキストデータ又は音声データで構成されたウェブ口グ記事コンテンツであり、

前記音声コンテンッ生成手段は、ウェブ口グ開設者のウェブ口グ記事コンテンッを先頭に登録順に配置し、次いで、その他のユーザから登録されたコメントを前記所定の規則に従って配置した音声コンテンツを生成すること、を特徴とする請求項 2 7乃至 2 9いずれか一に記載の情報交換システム。

[31 ] 音声データ又はテキストデータを主体とするコンテンツをそれぞれ登録可能なマルチメディアデータベースと接続されたコンピュータに実行させるプ口グラムであって、

前記合成音声と前記音声データとを所定の順序に従って編成した音声コンテンッを生成する音声コンテンツ生成手段と、の前記各手段として、前記コンピュータを機能させるプログラム。

[32] 音声データ又はテキストデータを主体とするコンテンツをそれぞれ登録可能であり、更に前記各コンテンツと対応付けて、作成日時、環境、過去のデータ作成回数、作成者の氏名、性別、年齢、住所のうち少なくとも一つを含むコンテンッ属性情報を登録可能なマルチメディアデータベースと接続された音声コンテンッ生成システムを用いた音声コンテンッ生成方法であって、前記音声コンテンッ生成システムが、前記マルチメディアデ一タベースに登録された前記テキストデータに対応する合成音声を生成するステップと、前記音声コンテンッ生成システムが、前記マルチメディアデ一タベースに登録された前記コンテンツ属性情報に対応する合成音声を生成するステップと、

を特徴とする音声コンテンッ生成方法。

音声データ又はテキストデータを主体とするコンテンツをそれぞれ登録可能なマルチメディアデータベースと接続された音声コンテンツ生成システムと、該音声コンテンツ生成システムに接続されたユーザ端末群とを用いた情報交換方法であって、

—のユーザ端末が、前記マルチメディアデータベースに、音声データ又はテキストデータを主体とするコンテンツを登録するステップと、

前記音声コンテンッ生成システムが、前記マルチメディアデ一タベースに登録されたテキストデータについて、対応する合成音声を生成するステップと、

前記音声コンテンツの再生と、前記音声データ又はテキスト形式によるコンテンッの追加登録とを繰り返すことにより、前記ユーザ端末間の情報交換を実現すること、を特徴とする情報交換方法。