JP2006279111A - Information processor, information processing method and program - Google Patents
Information processor, information processing method and program Download PDFInfo
- Publication number
- JP2006279111A JP2006279111A JP2005090291A JP2005090291A JP2006279111A JP 2006279111 A JP2006279111 A JP 2006279111A JP 2005090291 A JP2005090291 A JP 2005090291A JP 2005090291 A JP2005090291 A JP 2005090291A JP 2006279111 A JP2006279111 A JP 2006279111A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- information
- information processing
- detection
- photographed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 30
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000001514 detection method Methods 0.000 claims description 54
- 238000000034 method Methods 0.000 claims description 27
- 230000008859 change Effects 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 6
- 238000004458 analytical method Methods 0.000 abstract description 3
- 230000010354 integration Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Landscapes
- Image Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理方法およびプログラムに関する。 The present invention relates to an information processing apparatus, an information processing method, and a program.
従来、テレビ会議システムにおいて、カメラの制御を無線通信により取得した参加者の位置情報により制御する技術が提案されている。たとえば予めテレビ会議システムの本体装置側に会議参加者の重要度情報を組み込んでおき、この情報をもとにカメラを制御する。また、参加者が携帯している無線通信機能を有する発信機から定期的に自局情報のデータを送信し、テレビ会議システムの本体側では、発信機からの自局情報をアンテナ2本で受信し、電波強度の差から位置情報を計算・蓄積し、カメラ制御権のある発信機に対して、カメラの撮影位置を抽出し、カメラ制御権のある発信機を携帯する参加者が画面に正しく表示することを可能とする(特許文献1)。また、インデックスとインデックスに関連付けられた重要度からビデオストリームの重要度を定める方法が提案されている(特許文献2)。 2. Description of the Related Art Conventionally, in a video conference system, a technique has been proposed in which camera control is controlled based on participant location information acquired by wireless communication. For example, the importance level information of the conference participant is incorporated in advance in the main device side of the video conference system, and the camera is controlled based on this information. In addition, data of the local station is periodically transmitted from a transmitter having a wireless communication function carried by a participant, and the main station side of the video conference system receives the local station information from the transmitter with two antennas. Then, the location information is calculated and stored from the difference in radio field intensity, the shooting position of the camera is extracted from the transmitter with the camera control right, and the participant carrying the transmitter with the camera control right is displayed correctly on the screen. It is possible to display (Patent Document 1). A method for determining the importance of a video stream from the index and the importance associated with the index has been proposed (Patent Document 2).
従来から、会議においては、振り返りや、欠席者、関連者へ会議の状況を伝えるために議事録が作成されることがあった。近年、録音・録画が容易に行えるようになり、画像や音声を収録する場合もある。例えば、間隔を置いて定期的に開催される会議においては、会議の冒頭で前回の会議の要約を視聴することにより、会議の効率が上がることが知られている。このためには、主に手作業で録音や録画の要約を作成する必要があり、コストや手間に重大な課題があるために、一般的な会議では殆ど普及していない。 Conventionally, in meetings, minutes have been created to reflect on the status of the meeting to review, absentees and related parties. In recent years, recording / recording can be easily performed, and images and sounds may be recorded. For example, in a meeting that is regularly held at intervals, it is known that viewing the summary of the previous meeting at the beginning of the meeting increases the efficiency of the meeting. For this purpose, it is necessary to create a recording or a summary of the recording mainly by hand, and there are serious problems in cost and labor.
一方で、要約をすることなしに、未編集の録音や録画を視聴する場合を想定すると、視聴するために会議と同じ時間を要するなど、再利用のための効率が悪いという課題があった。そのため、未編集の録音や録画のビデオは殆ど活用されることはなかった。 On the other hand, assuming that an unedited recording or recording is viewed without summarizing, there is a problem that the efficiency for reuse is low, for example, it takes the same time as a meeting to view. For this reason, unedited recordings and recorded videos were rarely used.
そこで、本発明は、上記問題点に鑑みてなされたもので、振り返りを支援できる情報処理装置、情報処理方法およびプログラムを提供することを目的とする。 Therefore, the present invention has been made in view of the above problems, and an object thereof is to provide an information processing apparatus, an information processing method, and a program that can support reflection.
上記課題を解決するために、本発明は、撮影手段で撮影した映像情報に基づいて、音響情報から特徴量を認識する技術および画像情報から特徴量を認識する技術の少なくとも一方を用いて、該特徴量を抽出する抽出手段と、前記抽出手段が抽出した特徴量を集計する集計手段と、前記集計手段による集計結果に基づいて、前記撮影手段が撮影した空間の状態を推定する推定手段とを備えることを特徴とする情報処理装置である。これにより、特徴量を用いて撮影手段が撮影した空間の状態を推定することによって振り返りを支援できる。 In order to solve the above problems, the present invention uses at least one of a technique for recognizing a feature quantity from acoustic information and a technique for recognizing a feature quantity from image information based on video information photographed by a photographing means. Extracting means for extracting feature quantities, totalizing means for totaling the feature quantities extracted by the extracting means, and estimation means for estimating the state of the space photographed by the photographing means based on the totaling results by the totaling means It is an information processing apparatus characterized by comprising. Thereby, the reflection can be supported by estimating the state of the space photographed by the photographing means using the feature amount.
前記推定手段は、前記集計手段による集計結果を所定の重要度に関連付けることによって前記撮影手段が撮影した空間の状態を推定することを特徴とする。 The estimating means estimates a state of a space photographed by the photographing means by associating a result of the summing by the summing means with a predetermined importance.
前記推定手段は、前記集計手段による集計結果に基づいて、前記映像内のキーパーソンを推定することを特徴とする。前記推定手段は、キーパーソンが発話した部分、発話速度が所定の速度よりも速い部分、音声が所定の大きさよりも大きい部分、ピッチが所定のピッチよりも高い部分、挙手した後の部分、議決した後の部分、所定の期間内に所定の回数だけ話者交代がある部分、起立している人がいる部分、板書している人がいる部分、所定の回数よりも私語が少ない部分および発話の後に所定区間だけ発言しない区間がある部分のうち少なくとも1つを、前記撮影手段が撮影した空間の状態として推定することを特徴とする。 The estimating means estimates a key person in the video based on a counting result by the counting means. The estimation means includes a part where the key person speaks, a part where the speech speed is faster than a predetermined speed, a part where the voice is larger than a predetermined level, a part where the pitch is higher than the predetermined pitch, a part after raising a hand, After that, the part where there is a change of the speaker a predetermined number of times within the predetermined period, the part where the person is standing, the part where the person who is writing on the board is present, the part where the private language is less than the predetermined number and the utterance In this case, at least one of the portions in which there is a section that does not speak only after a predetermined section is estimated as the state of the space photographed by the photographing means.
本発明の情報処理装置は、前記映像情報を再生する再生装置の利用履歴を記録する記録手段と、前記再生装置の利用履歴に基づいて、前記重要度を算出する関数を学習する制御手段とをさらに備える。前記抽出手段は、発話単語数、発話音素数、感動詞の出現回数、声量、声量の時間変化、音素のピッチ変化および顔の傾きのうち少なくとも1つを、前記特徴量として抽出することを特徴とする。前記音響情報から特徴量を認識する技術は、音源推定、発話単位検出、発話衝突検出、話速検出、ピッチ検出、音量検出、無音区間検出、音質同定、言い淀み検出および拍手検出のうちの少なくとも1つを含むことを特徴とする。 The information processing apparatus according to the present invention includes a recording unit that records a usage history of a playback device that plays back the video information, and a control unit that learns a function for calculating the importance based on the usage history of the playback device. Further prepare. The extraction means extracts at least one of the number of utterance words, the number of utterance phonemes, the number of appearances of impression verbs, the volume of voice, the time change of the volume of voice, the pitch change of phonemes, and the inclination of the face as the feature quantity. And The technology for recognizing the feature amount from the acoustic information is at least one of sound source estimation, utterance unit detection, utterance collision detection, speech speed detection, pitch detection, sound volume detection, silence interval detection, sound quality identification, speech detection and applause detection. It is characterized by including one.
前記画像情報から特徴量を認識する技術は、顔検出、所作検出および位置検出のうちの少なくとも1つを含むことを特徴とする。前記集計手段は、発話単位に前記特徴量を集計することを特徴とする。本発明の情報処理装置は、前記推定手段が推定した撮影手段が撮影した空間の状態に基づいて、前記映像情報に対して索引を付与する付与手段をさらに備える。 The technique for recognizing a feature amount from the image information includes at least one of face detection, action detection, and position detection. The aggregation means is characterized in that the feature amounts are aggregated in utterance units. The information processing apparatus according to the present invention further includes an adding unit that adds an index to the video information based on a state of a space captured by the imaging unit estimated by the estimation unit.
本発明は、撮影手段で撮影した映像情報に基づいて、音響情報から特徴量を認識する技術および画像情報から特徴量を認識する技術の少なくとも一方を用いて、該特徴量を抽出する抽出ステップと、前記特徴量を集計する集計ステップと、前記特徴量の集計結果に基づいて、前記撮影手段が撮影した空間の状態を推定する推定ステップとを有する情報処理方法である。前記推定ステップは、前記特徴量の集計結果を、所定の重要度に関連付けることによって前記撮影手段が撮影した空間の状態を推定することを特徴とする。前記推定ステップは、前記特徴量の集計結果に基づいて、前記映像内のキーパーソンを推定することを特徴とする。 The present invention provides an extraction step of extracting the feature quantity using at least one of a technique for recognizing a feature quantity from acoustic information and a technique for recognizing a feature quantity from image information based on video information photographed by a photographing means. An information processing method comprising: a totaling step for totaling the feature quantities; and an estimation step for estimating the state of the space photographed by the photographing means based on the totalization results of the feature quantities. The estimation step is characterized in that the state of the space photographed by the photographing unit is estimated by associating the total result of the feature amount with a predetermined importance. The estimating step is characterized in that a key person in the video is estimated based on the total result of the feature amount.
本発明の情報処理方法は、前記映像情報を再生する再生装置の利用履歴を記録するステップと、前記再生装置の利用履歴に基づいて、前記重要度を算出する関数を学習するステップとをさらに有することを特徴とする。本発明の情報処理方法は、前記推定された撮影手段が撮影した空間の状態に基づいて、前記映像情報に対して索引を付与するステップをさらに有する。 The information processing method of the present invention further includes a step of recording a usage history of a playback device that plays back the video information, and a step of learning a function for calculating the importance based on the usage history of the playback device. It is characterized by that. The information processing method of the present invention further includes a step of assigning an index to the video information based on the estimated state of the space photographed by the photographing means.
本発明は、撮影手段で撮影した映像情報に基づいて、音響情報から特徴量を認識する技術および画像情報から特徴量を認識する技術の少なくとも一方を用いて、該特徴量を抽出するステップ、前記特徴量を集計するステップ、前記特徴量の集計結果に基づいて、前記撮影手段が撮影する空間の状態を推定するステップをコンピュータに実行させるためのプログラムである。 The present invention includes a step of extracting the feature quantity using at least one of a technique for recognizing a feature quantity from acoustic information and a technique for recognizing a feature quantity from image information based on video information photographed by a photographing means, A program for causing a computer to execute a step of totalizing feature amounts and a step of estimating a state of a space photographed by the photographing unit based on the result of summing the feature amounts.
本発明によれば、振り返りを支援できる情報処理装置、情報処理方法およびプログラムを提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the information processing apparatus, the information processing method, and program which can support reflection can be provided.
以下、本発明を実施するための最良の形態について説明する。 Hereinafter, the best mode for carrying out the present invention will be described.
まず、第1実施例について説明する。図1は、第1実施例によるシステムの全体構成を示す図である。図1に示すように、システム1は、センサー2、マルチモーダル認識部3、音声・画像記録部4、データベース5、再生・利用部6および利用記録部7を備える。センサー2は、マイクロホンやディジタルビデオカメラ(撮影手段)等によって構成される。マイクロホンは、たとえば会議中の音声信号を入力するものである。ディジタルカメラは、会議中の風景が画像情報を入力するものである。これらの音声信号および画像情報は同期が取られている。
First, the first embodiment will be described. FIG. 1 is a diagram showing an overall configuration of a system according to the first embodiment. As shown in FIG. 1, the
マルチモーダル認識部3は、挙手、起立、板書などの動作解析などの画像処理、話者交代、話者同定や、キーパーソンの抽出などにより会議の重要部分(会議のさび)を推定するものである。この会議の重要な部分は、音楽に例えると、「さび」相当する部分である。次に、マルチモーダル認識部3は、この重要度重みを発話単位(utterance)毎に集計し、会議の重要部分を同定する。
The
会議中の重要な部分は、たとえば以下のような特性がある。
・キーパーソンが発話する。
・発話速度が速い(音素の時間密度が高い)。
・声が大きく、ピッチが高い。
・挙手・議決した直後の部分。
・話者交代が比較的多い。
・起立、板書している人がいる。
・他の人の私語が少ない。
・発話単位の直後に誰も発言しない区間があることが多い。
・オンサイトの会議でも発話重複が起きる。
なお、情報統合部50は、これらを撮影手段が撮影した空間の状態として推定する。
An important part of the conference has the following characteristics, for example.
・ Key person speaks.
・ Speech speed is fast (phoneme time density is high).
・ Voice is loud and pitch is high.
・ The part immediately after raising the hand / voting.
・ Speaker changes are relatively frequent.
・ Some people are standing and writing on the board.
・ There are few other people's private languages.
・ There is often a section where no one speaks immediately after the utterance unit.
・ Duplicate utterances occur in on-site meetings.
The information integration unit 50 estimates these as the state of the space photographed by the photographing unit.
また、マルチモーダル認識部3は、会議中に複数の閲覧者がいる場合には、重みを加算し、重要度を更新する。音声・画像記録部4は、会議中に得た音声信号および映像信号を記録する。データベース5は、マルチモーダル認識部3が同定した重要度を、データベース5に記録された音声および画像のメタ情報として記録する。このメタ情報を再生時に用いることで、重要な部分を容易に検索することができる。
In addition, when there are a plurality of viewers during the conference, the
再生・利用部6は、容易に早送り・巻き戻しできるビデオ再生装置である。利用記録部7は、会議に関連する人が、早送りやスキップなどをせずに閲覧した部分を利用記録として記録するものである。利用記録部7は、重要度情報をマルチモーダル認識部3に提供する。ここで、重要度情報とは、記録されたビデオが繰り返し見られるなど、重要だと思われる部分や、早送りでスキップされることが多い部分など、ビデオを見るときの操作から得られる情報である。また、手作業で重要な部分にラベルつけを行い、重要度情報としてもよい。マルチモーダル認識部3は、利用記録部7からの重要度情報にあわせて、重要度重みを算出する関数を学習しなおし、精度を高める。
The playback / use unit 6 is a video playback device that can easily fast forward and rewind. The usage recording unit 7 records a portion viewed by a person related to the conference without fast-forwarding or skipping as a usage record. The usage recording unit 7 provides importance level information to the
次に、マルチモーダル認識部3について説明する。図2は、第1実施例に係るマルチモーダル認識部3の構成を示すブロック図である。図2に示すように、マルチモーダル認識部3は、音声認識部10、画像認識部20、教師なし学習制御部30、教師あり学習制御部40および情報統合部50を備える。なお、以下において認識と検出については、一般的な用語を使っているだけで、特に区別していない。
Next, the
音声認識部10は、撮影手段で撮影した映像情報に基づいて、音響情報から特徴量を認識する技術を用いて、特徴量を抽出するものである。また、音声認識部10は、所定の音声認識技術を用いて音声信号から重要度に関連しそうな情報を数え上げるものである。音声認識部10は、音源推定部11、発話単位検出部12、発話衝突検出部13、話速検出部14、ピッチ・音量検出部15、無音区間検出部16、言い淀み検出部17および拍手検出部18を備える。音源推定部11は、マイクロホンアレー等を用いて、音源位置を推定する。なお、画像中の顔位置を用いて、音源を推定するようにしてもよいし、音・画像で情報融合により音源を推定してもよい。
The voice recognition unit 10 extracts a feature amount using a technique for recognizing a feature amount from acoustic information based on video information photographed by a photographing unit. The voice recognition unit 10 counts information that is likely to be related to the importance level from the voice signal by using a predetermined voice recognition technique. The speech recognition unit 10 includes a sound
発話単位検出部12は、発話の始端および終端により発話を検出する。発話衝突検出部13は、複数の話者の発話検出から、発話の衝突を検出する。ここで、話者の衝突とは、時間軸上で重複する部分である。話速検出部14は、音素認識と、単位時間当たりの音素数から検出できる。ピッチ・音量検出部15は、会議中の音声信号からピッチおよび音量を検出するものである。ピッチ・音量検出部15は、たとえばピッチをアクセント句等の基本周波数(FO)などを用いて検出する。また、ピッチ・音量検出部15は、音量をエネルギーから検出する。
The utterance
無音区間検出部16は、発話検出から誰も発話しない区間を得るものである。言い淀み検出部17は、「ええとー」「あのー」などのワードスポッティングなどを用いて認識できる。拍手検出部18は、音声認識技術を用いて、音から拍手を検出する。なお、画像から拍手を検出するようにしてもよい。なお、音声認識部10は、構文解析を伴う音声認識を行わず、ピッチや声量の検出、音素の時間密度、言い淀みの感動詞程度の容易に実装可能な認識のみを行うのが良い。
The
画像認識部20は、撮影手段で撮影した映像情報に基づいて、画像情報から特徴量を認識する技術を用いて、特徴量を抽出するものである。また、画像認識部20は、所定の画像処理技術を用いて画像信号から得られる重要度に関連しそうな情報を数え上げる。画像認識部20は、顔検出部21、所作検出部22、各人の位置を検出する位置検出部23を備える。顔検出部21は、従来からある画像処理技術を用いて各人の顔の状態を検出するものである。所作検出部22は、起立、板書などの動き、ジェスチャーなどの所作を検出するものである。位置検出部23は、各人の位置を検出するものである。
The image recognizing unit 20 extracts a feature amount using a technique for recognizing a feature amount from image information based on video information photographed by a photographing unit. Further, the image recognition unit 20 counts information that seems to be related to the importance obtained from the image signal by using a predetermined image processing technique. The image recognition unit 20 includes a
声質・顔同定部25は、声による話者同定や、顔の同定を使って話者同定する。音声認識部10および画像認識部20は、認識技術の進展に伴い、他の項目を認識し、または検出することができる。実際の運用に当たっては、新たに認識される情報を追加して、統合することができる。教師なし学習制御部30は、教師なし学習を制御するものであり、SOM(自己組織化マップ)などにより、複数の入力の同時生起確率などから生成されるマップを構成する。教師なし学習制御部30は、音声認識部10および画像認識部20から得られた情報に基づき、同時生起確率などから教師なしの学習を行う。
The voice quality /
教師あり学習制御部40は、情報統合部50により統合された情報と、利用記録部7からの重要度情報に基づいて、その関連を学習する。この学習には、たとえば階層型ニューラルネットワークを用いることができる。但し、一般的に重要度と関連しそうな検出結果などとの関連を、初期値として類推に基づいて与えることを前提としており、初期値でも相応の効用を得ることができる。この教師あり学習に基づけば、たとえ、各認識部分が誤認識しても、誤認識を前提とした重要度との関連付けを得ることができるので、各認識部分は精度に課題があっても採用することができる。すなわち、現実のデータに基づいてより精度良く重要度を認識できるようにする。一旦、学習が終われば、統合された情報から、重要度を推定できるし、それを初期値として、更に追加学習も可能である。これにより、使用するに従って、徐々に学習結果が蓄積され、重要度を推定することができる。
The supervised
情報統合部50は、音声認識部10および画像認識部20が抽出した特徴量をたとえば発話単位に集計し、この集計結果に基づいて、撮影手段が撮影した空間の状態を推定する。たとえば、情報統合部50は、集計結果を所定の重要度に関連付けることによって撮影手段が撮影した空間の状態を推定する。次に、情報統合部50は、推定した撮影手段が撮影した空間の状態に基づいて、映像情報に対して索引(インデックス)を付与する。これによりたとえば会議の重要部分を簡単に振り返ることができる。 The information integration unit 50 totals the feature amounts extracted by the voice recognition unit 10 and the image recognition unit 20 in units of utterances, for example, and estimates the state of the space photographed by the photographing unit based on the summation result. For example, the information integration unit 50 estimates the state of the space photographed by the photographing unit by associating the aggregation result with a predetermined importance. Next, the information integration unit 50 assigns an index to the video information based on the estimated state of the space photographed by the photographing unit. This makes it possible to easily look back on important parts of the conference, for example.
また、情報統合部50は、音声認識部10、画像認識部20、他のセンサー情報60、教師なし学習制御部30および教師あり学習制御部40からの情報を収集し、統合することによって、時間・重要度グラフを作成し、作成した時間・重要度グラフをデータベース5に送る。収集する過程で、例えば、音源推定で、発話者の音源(口)位置を推定して顔検出の基礎情報に用いたり、口位置を音源推定の候補として用いることもできる。検出された顔から顔同定、声から声質同定を協調してより頑強な同定が可能になる。このように、各認識要素の結果を相互に利用することにより、統合し、複数の情報を得ることができる。
In addition, the information integration unit 50 collects and integrates information from the voice recognition unit 10, the image recognition unit 20,
次に、システムの動作について説明する。図3は、第1実施例に係るシステムの動作フローチャートである。ステップS11で、教師あり学習制御部40は、情報統合部50により統合された情報と、利用記録部7からの重要度情報に基づいて、その関連を学習する。ステップS12で、マイクロホンから会議中の音声信号を入力する。ディジタルカメラから会議中の風景が画像情報を入力する。ステップS13で、音声認識部10および画像認識部20は、時間ごとの重要度重みを算出する。
Next, the operation of the system will be described. FIG. 3 is an operation flowchart of the system according to the first embodiment. In step S <b> 11, the supervised
ステップS14で、情報統合部は、重要度重みを発話単位に集計して会議の重要部分を同定する。ステップS15で、データベース5に、情報統合部50が同定した重要度を、音声および画像のメタ情報として記録する。このメタ情報を再生時に用いることにより、会議の重要な部分を容易に検索することができる。
In step S14, the information integration unit identifies the important part of the conference by counting the importance weights for each utterance. In step S15, the importance level identified by the information integration unit 50 is recorded in the
本実施例をまとめると、音響情報の特徴量には、現在の技術でも容易に認識できる、声の大きさ、音源方向、声の高低、発話速度、発話の衝突検出、話者交代、沈黙、や、ある程度は実用的に認識ができる、話者同定、拍手などが含まれる。また、画像情報からの特徴量には、顔、顔向き、視線方向、顔から人の同定、挙手、起立している、板書、筆記、体の動き、照明の明るさ、プロジェクタースクリーンの画像切り替え、入場、退席、まばたきの頻度、びんぼうゆすりなどが含まれる。これらの認識結果を集計して、予め定められた(または、他の方法で定めた)重要度と関連付ける(学習)。この関連付けに基づいて、音響や画像の特徴量から重要度を推定する。 To summarize this embodiment, the feature amount of the acoustic information can be easily recognized by the current technology, such as voice volume, sound source direction, voice pitch, utterance speed, utterance collision detection, speaker change, silence, In addition, speaker identification, applause, etc., which can be recognized practically to some extent, are included. Also, the feature amount from the image information includes face, face orientation, line-of-sight direction, identification of person from face, raising hand, standing, board writing, writing, body movement, lighting brightness, projector screen image switching , Admission, leaving, blinking frequency, bottle bow and so on. These recognition results are aggregated and associated with a degree of importance determined in advance (or determined by another method) (learning). Based on this association, the importance level is estimated from the feature amount of the sound or the image.
より高度に、話の内容や、見る人の興味などを認識して、重要度を重み付けすることも将来は不可能ではないものであるが、現状の技術では見通しが立たない。そこで、本発明は、取得できる情報、特に、高度な認識機能を持った人間の振る舞いを多数収集し、学習することによって重要度を推定する。 Although it is not impossible in the future to recognize the content of the story and the interests of the viewers and weight the importance, it is not possible with the current technology. Therefore, the present invention estimates importance by collecting and learning a large amount of information that can be acquired, in particular, human behavior having advanced recognition functions.
例えば、
・「(1)興味深い話」があると、「(2)顔を上げる」癖がある。
・「(1)話がつまらない」と「(2)貧乏ゆすり」をする。
・「(1)発言の前」に「(2)口を開けて待っている。」
・「(1)議論が沸騰する」と、「(2)話者交代が頻繁に起きる。」
・「(1)議論が停滞する」と、「(2)誰も発話しない時間」が増える。
マルチモーダル認識部3によって、上記(2)を認識して集計することにより、上記(1)を推定してメタデータを付与する。話がつまらないとか、議論が沸騰するなど、個別の認識は有用性が乏しいが、「重要度」を評価するに長けた人が、ビデオを見ながら重要度な部分にメタ情報を振っておけば、「認識できる事象」と、「重要度」のある程度の関連付けは学習により可能になる。
For example,
・ When there is "(1) interesting story", there is a habit of "(2) raising your face".
・ Do “(1) The story is boring” and “(2) Poverty slurp”.
・ "(1) Before speaking""(2) Waiting with your mouth open."
・ "(1) Discussions boil" and "(2) Speaker changes occur frequently."
・ "(1) Discussion is stagnant" and "(2) Time when no one speaks" increases.
The
また、記録したビデオを見る複数の人が、「社長の話」は見る人が多かったが、「Dさんの発言」は早送りして誰も見なかったなどを観測することにより、Dさんが発話している場面よりも、社長が発話している場面のほうが重要度が高そうであるということが推定できる。これらのことから、技術的に可能な範囲で認識できる情報から、具体的に何を話しているかを認識することなしに、重要度を推定することができる。 In addition, many people who watch the recorded video, many people were watching "President's story", but by observing that no one saw D-san's remarks, It can be inferred that the scene in which the president speaks seems to be more important than the scene in which it is speaking. From these facts, the importance can be estimated from information that can be recognized as far as technically possible, without recognizing what is specifically spoken.
重要度は、音声認識の研究で行われている、音声・画像を見ながら手作業で入力する「ハンドラベル」のほか、記録したビデオを再生する際に、繰り返し見たり、早送りして見なかったりすることを自動的認識し、「視聴率」のようなものにより定めることができる。これらを繰り返し関連付けすることにより、帰納的に特徴量から重要度が得られる。 In addition to the “hand label” that is input manually while watching the voice and image, which is being studied in speech recognition research, the importance level is not repeated or fast-forwarded when playing back recorded video. Can be automatically determined and determined by something like "viewing rate". By repeatedly associating these, the degree of importance can be obtained from the feature quantity inductively.
次に、第2実施例について説明する。図4は、第2実施例に係るシステムの全体構成を示す図である。図4に示すように、システム100は、センサー2、マルチモーダル認識部103、音声・画像記録部4、データベース5、再生・利用部6を備える。なお、同一箇所については同一符号を付して説明する。図5は、第2実施例に係るマルチモーダル認識部103の構成を示すブロック図である。
Next, a second embodiment will be described. FIG. 4 is a diagram illustrating an overall configuration of a system according to the second embodiment. As shown in FIG. 4, the
図5に示すように、マルチモーダル認識部103は、音声認識部10、画像認識部20、情報統合部50および地位・立場入力部70を備える。音声認識部10は、撮影手段で撮影した映像情報に基づいて、音響情報から特徴量を認識する技術を用いて、特徴量を抽出する。また、所定の音声認識技術を用いて音声信号から重要度に関連しそうな情報を数え上げるものである。音声認識部10は、音源推定部11、発話単位検出部12、発話衝突検出部13、話速検出部14、ピッチ・音量検出部15、無音区間検出部16、言い淀み検出部17および拍手検出部18を備える。画像認識部20は、撮影手段で撮影した映像情報に基づいて、画像情報から特徴量を認識する技術を用いて、特徴量を抽出する。また、画像認識部20は、所定の画像処理技術を用いて画像信号から得られる重要度に関連しそうな情報を数え上げるものである。地位・立場入力部70は、発話者の地位・立場に関する情報を手動によって入力するものである。地位・立場入力部70より事前に情報を付与することができる。
As shown in FIG. 5, the
音声認識部10および画像認識部20によって、発話単語数、発話音素数、感動詞の出現回数、声量、声量の時間変化、音素のピッチ変化および顔の傾きを特徴量として抽出する。 The speech recognition unit 10 and the image recognition unit 20 extract the number of uttered words, the number of uttered phonemes, the number of appearances of impression verbs, the amount of voice, the time change of the voice amount, the change of phoneme pitch, and the face inclination as feature amounts.
一般的に、キーパーソンは、以下のような特性がある。
・発話時間が多い。
・発話中に言いよどみが少ない。
・声量が大きく、変化が少ない。
・音声のピッチ変化が比較的少ない。
・立場・地位が高い。
・キーパーソンの発話中に参加者が書き取る操作をすることが多い。
Generally, a key person has the following characteristics.
・ Large utterance time.
・ There is little stagnation during speaking.
・ Sound volume is high and changes are small.
・ There is relatively little pitch change of voice.
・ Position / position is high.
・ Participants often perform writing operations during keyperson utterances.
一方で、キーパーソンではない人は、
・発話時間の割に単語数が少ない。
・いいよどみが多く感動詞(ええと…、あの…)などが多い。
・声量が小さく、声量の変化も大きい。
・音声のピッチの変化が大きい。
・立場・地位が低い。
On the other hand, if you are not a key person,
・ There are few words for speaking time.
・ There are many good stagnations, and there are many impression verbs (um…, that…).
・ Voice volume is small and change in voice volume is large.
・ Voice pitch change is large.
・ Position / position is low.
そこで、情報統合部50は、抽出した特徴量を集計し、この集計結果に基づいて、撮影手段が撮影した空間内のキーパーソンを推定するものである。また、情報統合部50は、所定区間内で、発話単語数(音素数でも可)、言い淀みの感動詞、声量、声量の変化率、音声のピッチ変化、顔の傾き(地位に関連すると考えられる)を、所定の重みで換算し、場面ごとの重要度係数を算出する。情報統合部50は、この重要度係数に基づいて、場面ごとにキーパーソンを推定する。なお、メールのやり取りなどからも係数を導出することができ、勘案に含めることもできる。手動の操作などにより、特定の人の重みを加算したり、特定の人をキーパーソンと設定することもできる。 Therefore, the information integration unit 50 aggregates the extracted feature amounts, and estimates a key person in the space photographed by the photographing unit based on the summation result. In addition, the information integration unit 50 considers that the number of utterance words (the number of phonemes is acceptable), the verbal excitement verb, the voice volume, the change rate of the voice volume, the voice pitch change, the face inclination (related to the position within a predetermined section. Is converted with a predetermined weight, and an importance coefficient for each scene is calculated. The information integration unit 50 estimates a key person for each scene based on the importance coefficient. It should be noted that the coefficient can also be derived from the exchange of e-mails and included in consideration. The weight of a specific person can be added by a manual operation or the like, or a specific person can be set as a key person.
次に、第2実施例によるシステムの動作を説明する。図6は、第2実施例に係るシステムの動作フローチャートである。ステップS21で、マイクロホンから会議中の音声信号を入力する。ディジタルカメラから会議中の風景が画像情報を入力する。ステップS22で、情報統合部50は、所定区間内で、発話単語数、感動詞、声量、声量の変化率、音声のピッチ変化、顔の傾きなどを、所定の重みで換算し、場面ごとの重要度係数を算出する。 Next, the operation of the system according to the second embodiment will be described. FIG. 6 is an operation flowchart of the system according to the second embodiment. In step S21, an audio signal during the conference is input from the microphone. The image of the scenery during the meeting is input from the digital camera. In step S22, the information integration unit 50 converts the number of uttered words, excitement verbs, voice volume, change rate of voice volume, change in voice pitch, face inclination, and the like with predetermined weights within a predetermined section. Calculate the importance factor.
ステップS23で、情報統合部50は、重要度係数に基づいて、場面ごとのキーパーソンを推定する。ステップS24で、データベース5に、情報統合部50が重要度係数を、音声および画像のメタ情報として記録する。このメタ情報を再生時に用いることにより、キーパーソンを容易に検索することができる。
In step S23, the information integration unit 50 estimates a key person for each scene based on the importance coefficient. In step S24, the information integration unit 50 records the importance coefficient in the
第2実施例によれば、ブレーンストーミング形式のミーティングでは、事前の情報から必ずしもキーパーソンが同定できない場合でも、後からキーパーソンを推定することができる。また、シーンごとにキーパーソンが入れ替わるという特性にも対応することができる。 According to the second embodiment, in a brainstorming type meeting, even if the key person cannot always be identified from the prior information, the key person can be estimated later. In addition, it is possible to cope with the characteristic that the key person is switched for each scene.
なお、本発明による情報処理方法は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を用いて実現され、プログラムをハードディスク装置や、CD−ROM、DVDまたはフレキシブルディスクなどの可搬型記憶媒体等からインストールし、または通信回路からダウンロードし、CPUがこのプログラムを実行することで、各ステップが実現される。このプログラムは、撮影手段で撮影した映像情報に基づいて、音響情報から特徴量を認識する技術および画像情報から特徴量を認識する技術の少なくとも一方を用いて、該特徴量を抽出するステップ、前記特徴量を集計するステップ、前記特徴量の集計結果に基づいて、前記撮影手段が撮影する空間の状態を推定するステップをコンピュータに実行させる。 The information processing method according to the present invention is realized using, for example, a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and the like, and the program is stored in a hard disk device, a CD-ROM, or a DVD. Alternatively, each step is realized by installing from a portable storage medium such as a flexible disk or downloading from a communication circuit and the CPU executing this program. This program extracts the feature amount using at least one of a technique for recognizing a feature amount from acoustic information and a technique for recognizing a feature amount from image information based on video information photographed by a photographing means, Causing the computer to execute a step of totalizing feature amounts and a step of estimating a state of a space photographed by the photographing unit based on the result of the feature amount summation.
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。 Although the preferred embodiments of the present invention have been described in detail above, the present invention is not limited to the specific embodiments, and various modifications, within the scope of the gist of the present invention described in the claims, It can be changed.
1、100 システム
2 センサー
3、103 マルチモーダル認識部
4 音声、画像記録部
5 データベース
6 再生・利用部
7 利用記録部
10 音声認識部
20 画像認識部
30 教師なし学習制御部
40 教師あり学習制御部
50 情報統合部
70 地位・立場入力部
DESCRIPTION OF SYMBOLS 1,100 System 2 Sensor 3,103 Multimodal recognition part 4 Voice,
Claims (16)
前記抽出手段が抽出した特徴量を集計する集計手段と、
前記集計手段による集計結果に基づいて、前記撮影手段が撮影した空間の状態を推定する推定手段と
を備えることを特徴とする情報処理装置。 Extraction means for extracting the feature quantity using at least one of a technique for recognizing the feature quantity from the acoustic information and a technique for recognizing the feature quantity from the image information based on the video information photographed by the photographing means;
Tally means for tallying the feature quantities extracted by the extracting means;
An information processing apparatus comprising: an estimation unit configured to estimate a state of a space photographed by the photographing unit based on a counting result obtained by the counting unit.
前記再生装置の利用履歴に基づいて、前記重要度を算出する関数を学習する制御手段とをさらに備えることを特徴とする請求項2に記載の情報処理装置。 Recording means for recording a usage history of a playback device for playing back the video information;
The information processing apparatus according to claim 2, further comprising: a control unit that learns a function for calculating the importance based on a usage history of the playback apparatus.
前記特徴量を集計する集計ステップと、
前記特徴量の集計結果に基づいて、前記撮影手段が撮影した空間の状態を推定する推定ステップと
を有することを特徴とする情報処理方法。 An extraction step for extracting the feature quantity using at least one of a technique for recognizing the feature quantity from the acoustic information and a technique for recognizing the feature quantity from the image information based on the video information photographed by the photographing means;
A totalizing step for totalizing the feature quantities;
An information processing method comprising: an estimation step of estimating a state of a space photographed by the photographing means based on the total result of the feature amount.
前記再生装置の利用履歴に基づいて、前記重要度を算出する関数を学習するステップとをさらに有することを特徴とする請求項11に記載の情報処理方法。 Recording a usage history of a playback device for playing back the video information;
The information processing method according to claim 11, further comprising a step of learning a function for calculating the importance based on a usage history of the playback device.
前記特徴量を集計するステップ、
前記特徴量の集計結果に基づいて、前記撮影手段が撮影した空間の状態を推定するステップをコンピュータに実行させるためのプログラム。
Extracting the feature amount using at least one of a technology for recognizing the feature amount from the acoustic information and a technology for recognizing the feature amount from the image information based on the video information photographed by the photographing means;
Summing up the feature quantities;
A program for causing a computer to execute a step of estimating a state of a space photographed by the photographing unit based on a result of counting the feature values.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005090291A JP2006279111A (en) | 2005-03-25 | 2005-03-25 | Information processor, information processing method and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005090291A JP2006279111A (en) | 2005-03-25 | 2005-03-25 | Information processor, information processing method and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2006279111A true JP2006279111A (en) | 2006-10-12 |
Family
ID=37213454
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005090291A Pending JP2006279111A (en) | 2005-03-25 | 2005-03-25 | Information processor, information processing method and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2006279111A (en) |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009151785A (en) * | 2007-12-20 | 2009-07-09 | Thomson Licensing | Apparatus and method for calculating feature map of audio-video document |
| JP2013522708A (en) * | 2010-03-12 | 2013-06-13 | アルカテル−ルーセント | Method for automatically attaching tags to media content, and media server and application server for realizing such method |
| JP2015076875A (en) * | 2013-10-11 | 2015-04-20 | 富士ゼロックス株式会社 | System, method and program for navigating video stream |
| US9947368B2 (en) | 2016-08-10 | 2018-04-17 | Fuji Xerox Co., Ltd. | Information processing apparatus, information processing method, and non-transitory computer readable medium |
| JP2020035030A (en) * | 2018-08-28 | 2020-03-05 | 株式会社 日立産業制御ソリューションズ | Conference evaluation apparatus, conference evaluation method, and conference evaluation program |
| JP2020135424A (en) * | 2019-02-20 | 2020-08-31 | Kddi株式会社 | Information processor, information processing method, and program |
| JPWO2021235246A1 (en) * | 2020-05-21 | 2021-11-25 | ||
| CN113986005A (en) * | 2021-10-13 | 2022-01-28 | 电子科技大学 | Multimodal fusion sight line estimation framework based on ensemble learning |
| JP2023020023A (en) * | 2021-07-30 | 2023-02-09 | 株式会社日立製作所 | System and method for creating summary video of meeting held in virtual space |
-
2005
- 2005-03-25 JP JP2005090291A patent/JP2006279111A/en active Pending
Cited By (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009151785A (en) * | 2007-12-20 | 2009-07-09 | Thomson Licensing | Apparatus and method for calculating feature map of audio-video document |
| JP2013522708A (en) * | 2010-03-12 | 2013-06-13 | アルカテル−ルーセント | Method for automatically attaching tags to media content, and media server and application server for realizing such method |
| JP2015076875A (en) * | 2013-10-11 | 2015-04-20 | 富士ゼロックス株式会社 | System, method and program for navigating video stream |
| US10984836B2 (en) | 2016-08-10 | 2021-04-20 | Fuji Xerox Co., Ltd. | Information processing apparatus, information processing method, and non-transitory computer readable medium |
| US10453497B2 (en) | 2016-08-10 | 2019-10-22 | Fuji Xerox Co., Ltd. | Information processing apparatus, information processing method, and non-transitory computer readable medium |
| US10658008B2 (en) | 2016-08-10 | 2020-05-19 | Fuji Xerox Co., Ltd. | Information processing apparatus, information processing method, and non-transitory computer readable medium |
| US9947368B2 (en) | 2016-08-10 | 2018-04-17 | Fuji Xerox Co., Ltd. | Information processing apparatus, information processing method, and non-transitory computer readable medium |
| US11315607B2 (en) | 2016-08-10 | 2022-04-26 | Fujifilm Business Innovation Corp. | Information processing apparatus, information processing method, and non-transitory computer readable medium |
| JP2020035030A (en) * | 2018-08-28 | 2020-03-05 | 株式会社 日立産業制御ソリューションズ | Conference evaluation apparatus, conference evaluation method, and conference evaluation program |
| JP2020135424A (en) * | 2019-02-20 | 2020-08-31 | Kddi株式会社 | Information processor, information processing method, and program |
| JP6997733B2 (en) | 2019-02-20 | 2022-01-18 | Kddi株式会社 | Information processing equipment, information processing methods, and programs |
| JPWO2021235246A1 (en) * | 2020-05-21 | 2021-11-25 | ||
| JP2023020023A (en) * | 2021-07-30 | 2023-02-09 | 株式会社日立製作所 | System and method for creating summary video of meeting held in virtual space |
| JP7546522B2 (en) | 2021-07-30 | 2024-09-06 | 株式会社日立製作所 | System and method for creating a summary video of a meeting held in a virtual space |
| CN113986005A (en) * | 2021-10-13 | 2022-01-28 | 电子科技大学 | Multimodal fusion sight line estimation framework based on ensemble learning |
| CN113986005B (en) * | 2021-10-13 | 2023-07-07 | 电子科技大学 | Multi-mode fusion sight estimation framework based on ensemble learning |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN100394438C (en) | Information processing device and method thereof | |
| CN1910654B (en) | Method and system for determining the topic of a conversation and obtaining and presenting related content | |
| US8086461B2 (en) | System and method for tracking persons of interest via voiceprint | |
| Chaudhuri et al. | Ava-speech: A densely labeled dataset of speech activity in movies | |
| CN113874936A (en) | Customized output for optimizing user preferences in distributed systems | |
| CN114097027A (en) | Speaker attribution record generation | |
| WO2022039967A1 (en) | Training speech recognition systems using word sequences | |
| US20130211826A1 (en) | Audio Signals as Buffered Streams of Audio Signals and Metadata | |
| US11355099B2 (en) | Word extraction device, related conference extraction system, and word extraction method | |
| JP2011217197A (en) | Electronic apparatus, reproduction control system, reproduction control method, and program thereof | |
| US11687576B1 (en) | Summarizing content of live media programs | |
| JP2003255979A (en) | Data editing method, data editing device, data editing program | |
| CN114792522A (en) | Audio signal processing, conference recording and presentation method, device, system and medium | |
| CN111415128A (en) | Method, system, apparatus, device and medium for controlling conference | |
| US20120035919A1 (en) | Voice recording device and method thereof | |
| CN101909191B (en) | Video processing apparatus and video processing method | |
| JP2006279111A (en) | Information processor, information processing method and program | |
| Wyatt et al. | A Privacy-Sensitive Approach to Modeling Multi-Person Conversations. | |
| JP3838159B2 (en) | Speech recognition dialogue apparatus and program | |
| JP2006201496A (en) | Filtering device | |
| US12300233B2 (en) | Media segment representation using fixed weights | |
| JP2006279898A (en) | Information processing apparatus and method | |
| JP4353084B2 (en) | Video reproduction method, apparatus and program | |
| JP3927155B2 (en) | Dialog recording apparatus and dialog recording program | |
| CN111785293B (en) | Voice transmission method, device and equipment and storage medium |