JP3714871B2

JP3714871B2 - サンプリングされたディジタル動画シーケンス中の推移を検出する方法

Info

Publication number: JP3714871B2
Application number: JP2000528081A
Authority: JP
Inventors: ラタコンダ，クリッシュナ
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1998-01-07
Filing date: 1999-01-06
Publication date: 2005-11-09
Anticipated expiration: 2019-01-06
Also published as: DE69918533D1; JP2002501341A; US6459459B1; DE69918533T2; EP1053635B1; WO1999035825A1; EP1053635A1

Description

【０００１】
関連出願
１９９７年１２月１９日提出のＲａｔａｋｏｎｄａの“ディジタル動画の階層的要約及び閲覧方法（Method for Hierachical Summarization and Browsing of Digital Video）”と題された同時係属出願第０８／９９４,５５８号。
【０００２】
発明の分野
本発明は、ディジタル動画シーケンス中の、ディゾルブ，フェード，フェードを含むディゾルブを含む推移の検出に関する。
【０００３】
発明の背景
推移は、動画シーケンス中のシーンの急転を柔らげる特殊な視覚効果である。ディゾルブ推移は、動画シーケンスの内容が、通常予め規定した時間パターンにしたがって、１つのシーンから他のシーンに徐々に変化する期間である。これは、プロによる映画や高性能カメラの先端ユーザによって撮影された消費者動画に共通して発生する。ディゾルブ領域内において、次のシーンは最初のシーンがフェードアウトする間に現れ（フェードインし）、ディゾルブ領域が終わるまでに次のシーンが最初のシーンに取って代わる。ディゾルブは次のシーンへのフェードインに引き続く空のスクリーンへのフェードアウトとの組み合わせによって発生する。ディゾルブ領域は、変化する期間の長さであり、プロフェッショナルな動画での１秒からシャープ（登録商標）ＶＬ−ＤＣ１型ビューカム（登録商標）のような最新の市販ディジタルカムコーダでの約６秒までの範囲である。
【０００４】
ディゾルブ及びフェードによる推移を検出する目的は、動画要約の準備に先立つ非圧縮又は圧縮動画シーケンスを前処理することにあり、これにより、ユーザは多数の動画シーケンスを迅速に一覧したり、或いは、編集時において編集／インデクシング（索引）システムによりディゾルブ又はフェード中の偽キーフレームが検出されるような望ましくない効果を避けることができる。かような偽キーフレームは動画の要約にはほとんど価値を有さない。
【０００５】
一般にフェードはシーンと所与の色（通常黒又は白）の間の推移である。フェード領域は、固定色から動画シーンへの推移であればフェードインと呼び、動画シーンから固定色への推移であればフェードアウトと呼ぶ。
ここで云う色は黒と白を含む。ディゾルブ推移は、中間的な白へのフェード、黒へのフェード又はグレー相へのフェードを含む。ディゾルブ又はフェード推移における最初と最後の画像を“アンカーフレーム”と呼ぶ。ディゾルブ又はフェード推移の動画シーンは、静的又は動的なコンテンツのいずれを特徴としても良い。
【０００６】
公知の先行技術は、統計的な設定におけるディゾルブ及びフェード領域の検出に関係している。さらに、以下に引用する先行技術は、圧縮された動画領域において直接作動するようなケーパビリティに関しては何も参照していない。この分野における先行論文は、ディゾルブに対するモデル、即ち画像強度の変動に対するモデルを仮定している。かような論文は、ディゾルブが、ディゾルブイベントにおける最初と最後のフレームであるアンカーフレーム間の輝度の直線的変化をもたらすとしている。アンカーフレーム間の中間フレームは、フレーム内強度の標準偏差で表現した放物線プロファイルを有する。即ち、中間フレームについてのフレーム番号対フレーム内標準偏差のプロットは放物線のプロファイルを有する。このプロファイルは、動画シーケンス中のディゾルブに対して構文解析するための記号として使用する。しかしながら、このプロファイルはディゾルブを伴わないシーケンスの他の部分にも生じ得る。かような偽のディゾルブの検出を除くために、公知の技法は、ディゾルブの最長時間を１秒間以下に制限する。この人工的制限は、実際には満たし得ない。さらに、この線形モデルも必ずしも満たされ得るものではない。シャープ（登録商標）ＶＬ−ＤＣ１型ビューカム（登録商標）のようなカムコーダから得られるディゾルブは、通常、区分的線形である。容量性回路を用いるアナログ式カムコーダは、容量が指数変化するので全く異なるプロファイルのディゾルブを生じる。
【０００７】
Ａｉｇｒａｉｎ他は、“フィルムの編集及び推移効果の自動的リアルタイム分析とその応用（The Automatic Real-Time Analysis of Film Editing and Tragition Effects and its Applications）”（コンピュータとグラフィックス，第１８卷，Ｎｏ.１，９３−１０３頁，１９９４年）において、クロスディゾルブ，フェードイン及びフェードアウトを検出するための統計学的モデルを提案している。これらのモデルは、推移が直線的であるとの仮説で作成される。グレーへのフェード推移がディゾルブ推移の一部を成す場合は考慮されていない。
【０００８】
Ｈａｎｐａｃｈｅｒｎの米国特許第４,３１９,２８６号は、動画信号と音声信号の時間的な損失を検出する回路を記述している。この特許は、連続するサンプリングされていないディジタル動画信号におけるコマーシャルの前で生じる急速な黒色へのフェード推移を捕捉する“コマーシャルキラー”を記述している。
【０００９】
Ａｌａｔｔａｒの米国特許第５,２４５,４３６号及び第５,２８３,６４５号は、サンプリングされたディジタル動画入力について記述している。米国特許第５,２８３,６４５号は、ディゾルブ検出用の統計学的フレームワークを記述している。提案された方法は、ディゾルブ推移は時間に関し線形であると仮定している。特許第５,２４５,４３６号は、黒色のような固定色から動き動画シーンへのフェードイン推移又は動き動画シーンから黒色のような固定色へのフェードアウト推移を、連続動画フレーム間の平均差と相対的平均変化の測定に基づいて検出するメカニズムを記述している。フェードが発生するか否かの決定は、フレーム毎になされ、また画像全体の平均値の変化を１セットの予定値と比較することに基づいている。
【００１０】
発明の要約
動画シーケンス中の推移を検出する方法は、ディジタル動画シーケンスを動画プロセッサに入力することと、ディジタル動画シーケンスの単調に変化する画像強度（輝度）のプロファイルを検出することと、推移イベントのような輝度プロファイルを持つディジタル動画シーケンスにタグを付けることを含んでいる。
【００１１】
本発明は、公知の先行技術における多くの困難な問題を克服する、ディゾルブを検出する方法である。
この方法は、ディゾルブの生成に適したモデルに関係するものではなく、偽ディゾルブに対抗するものである。この方法は、ディゾルブシーケンス内の制限された動きにも対抗できる。
【００１２】
本発明の目的は、動画シーケンス中のディゾルブイベントを検出する新しい方法を提供することにある。
本発明の他の目的は、非圧縮ディジタル動画並びにＪＰＥＧ及びＭＰＥＧのようなＤＣＴ（離散余弦変換）に基づく圧縮動画のいずれでも機能する動画シーケンス中のディゾルブイベントを検出する新しい方法を提供することにある。
【００１３】
本発明の他の目的は、ＭＰＥＧ−２圧縮動画で機能する動画シーケンス中のディゾルブイベントを検出し、ディゾルブイベントの検出は、ＭＰＥＧ−２圧縮ビットストリームを最小限復号して行なわれる新しい方法を提供することにある。本発明の他の目的は、ノイズが存在していても正確にディゾルブ／フェードを検出する、動画シーケンス中のディゾルブイベントを検出する新しい方法を提供することにある。
【００１４】
本発明の目的は、シーンの動きに無反応な動画シーケンス中のディゾルブイベントを検出する新しい方法を提供することにある。
本発明のさらなる目的は、サンプリングされたディジタル動画シーケンス中のフェードインとフェードアウトを含むディゾルブイベントを検出する、統一され高速で且つロバストな方法を提供することにある。
【００１５】
本発明のさらに他の目的は、ディゾルブイベントを生成するために使用するメカニズム又はモデルとは無関係に、かようなイベントの検出能力を提供することにある。
【００１６】
好適な実施形態の詳細な説明
本発明による方法は、動画入力ストリームが圧縮されているか非圧縮であるかにかかわりなく、又、シーンの動き又は信号ノイズにかかわりなくディゾルブイベントを検出できる堅固な検出方法で、公知の先行技術における困難な問題を殆ど解決する方法を提供する。この方法は、ディゾルブの生成に適したモデルに関係するものではなく、偽ディゾルブに対抗するものである。この方法は、ディゾルブシーケンス内の制限された動きにも対抗できる。ここに開示する発明は、入力動画シーケンスが、サンプリングされた動画（非圧縮又は伸長）又はＪＰＥＧ又はＭＰＥＧによる圧縮動画シーケンスのいずれであっても適用できる。
【００１７】
ここではディゾルブイベントとも記述するディゾルブの検出は、動画インデクシング，動画編集，動画圧縮のような多くのディジタル動画アプリケーションにおいて主要な前処理ステップの一つである。引用している私の同時係属出願に記載したように、動画要約において、動画要約から偽のキーフレームを検出して除外しないかぎり、ディゾルブは、アンカーフレーム間で偽のキーフレームを検出するかもしれない。ここでは、ディゾルブシーケンス中の最初と最後の画像を“アンカーフレーム”と命名する。動画圧縮において、動き補償による予測は、貧しい予測による圧縮効率の低下を避けるために、ディゾルブ領域内の圧縮モードを適切に選択することにより避けられる。
【００１８】
ＭＰＥＧ規格により圧縮された動画のような圧縮動画の場合、動画符号化器の符号化効率の損失は、ディゾルブ領域における動き補償予測の使用によることが多い。一般に、符号化効率の損失は、動画フレーム当たりのビット予算が制限されているので、動画シーケンス中のブロッキングアーチファクトを生じる結果を招く。ディゾルブがディジタル動画シーケンス中で検出されると、圧縮期間中に上記の影響を阻止するステップが取られる。
【００１９】
本発明は、サンプリングされた動画シーケンス又は圧縮動画ビットストリームのいずれかを記録する動画カメラで実行可能で、又は、ＰＣ又は他のコンピュータのような動画編集装置において実行可能である。ここで使用する用語“動画プロセッサ”は、動画カメラ，編集装置，コンピュータ又は本発明の方法によるディジタル動画の操作に使用する他の装置である。カメラ又はカムコーダの場合は、ディゾルブ又はフェード領域の位置をメモリに蓄積する。本発明の方法は、動画要約の計算の前に前処理ステージとして実行される。ディゾルブ／フェードの検出結果は、動画要約モジュールにより使用されて、ディゾルブ又はフェード領域において検出されたかもしれない偽のキーフレームを避ける。
【００２０】
ディジタル動画中のディゾルブイベントを検出するために、ディゾルブシーケンスの主要な区別特徴を識別しなければならない。全中間フレーム中の特定位置における画素のグレイ値のプロファイルを考える。ディゾルブの定義から、プロファイルは、独立変数である時間が中間フレームを横断変化するに伴い、ただ増加するのみか又は一定値に留まる単調な曲線か、或は、減少するのみか一定値に留まる単調な曲線であることが判る。これは、ディゾルブの生成のために仮定したいかなるモデルとも無関係であり、空間的に変化するモデル、即ち、フレームを横断し変化するモデルをも含んでいる。もし２枚のフレーム間の全画素が単調なプロファイルに従うならば、通常の一定フレームの場合を除き、また厳格な単調性を仮定する２枚のフレームの間にはディゾルブがある筈である。この二重の暗示（即ち、プロファイル＜＝＞ディゾルブ）によれば、かようなプロファイルが動画フレームのシーケンス中に存在すれば、そのプロファイルは、ディゾルブイベントの可能な最適指標であることは明らかである。これは、ディジタル動画シーケンスに対して単調に変化する画像輝度のプロファイルを検出し、シーケンスが単調に変化する画像輝度のプロファイルを有していればその動画シーケンスに転換イベントとしてタグ付けして、本発明によるディゾルブイベント検出方法の基礎を形成している。ここで記述する推移イベントは、ディゾルブ，フェード，フェードを含むディゾルブを内容としている。
【００２１】
本発明の方法は図１に示すフローチャートで表され、全体を１０とする。この方法は、Ｍ×Ｎ（Ｍ≧１，Ｎ≧１）個の画像ブロックの時間における平均値の観測に基づいている。ディゾルブ又はフェードがあれば、平均値の変化が図２，図３，図４に示すように単調になる。画像ブロック平均値の変化における単調性は、従って、本発明においてディゾルブ又はフェードを検出するために用いる基本的な判定基準である。厳密な単調性は、平均変化（差）の絶対値が厳密にゼロより大きい時に生じる。
【００２２】
ディゾルブのプロファイルに対する空間変化モデルが画素から画素に変化し、例えばｆ（ｔ，ｉ，ｊ）、ここでｔは時間次元を現わしｉ，ｊは画像へのインデックスであると仮定する。（ｉ，ｊ）において共存するが時間的には異なるフレームにある２つの画素値Ｌ（ｉ，ｊ）とＭ（ｉ，ｊ）が与えられると、“プロファイルの関数”ｆ（ｔ，ｉ，ｊ）は、フェードイン又はフェードアウト（即ち、ＬがＭにフェードイン又はフェードアウト）することによりＬ（ｉ，ｊ）の値が時間と共にＭ（ｉ，ｊ）の値に推移する。例えば、図３に示すように、時間６（即ちＭ）のｉ，ｊにおける値はＬの値にフェードインし、（単調な）推移はｆ（ｔ，ｉ，ｊ）により表現される。
【００２３】
このディゾルブに対する空間変化モデルがブロック内でほぼ一定であり、（即ちｆ（ｔ，ｉ，ｊ）をブロックＢに対するｆ（ｔ，Ｂ）で置き換えることができる）と仮定すれば、中間フレームを横断追跡したときブロックの平均値は単調なプロファイルを持つ。フレームＬとＭ間のディゾルブのプロファイルはブロック（Ｂ）の場合、次式で表現されると仮定する。
【００２４】
【数１】

【００２５】
式中、ｆ（ｔ．，．）は、フレームＬ及びＭ（アンカーフレーム）間のディゾルブに対する正規化した単調なプロファイルである。もしｆ（．，．）がブロックの単なる関数であり（ブロック内画素と共に変化しない）ならば、ブロック（Ｂ）の平均プロファイルを次式で表現できることは容易に理解できよう。
【００２６】
【数２】

【００２７】
式中、ＶはブロックＢ内の画素数である。式（１）と（２）において、Ｌ及びＭは、２つの時点に位置する２つのフレームの画素強度の分布を意味する。インデックスｉ，ｊは特定ブロックＢ内で移動する。ｆはブロック内画素に対して同一であるので、ｆ（ｔ，Ｂ）の表記を使用する。今、式（１）に“平均演算”を適用する。即ち、ブロックＢにつき各数値を合計し、その合計値をＮで割る。ｆ（ｔ，Ｂ）は定数であると仮定するので、生き残って外に現れる。その結果が式（２）であり、同じプロファイル（即ちｆ（ｔ，Ｂ））を有するので、“ブロック平均”の関係が規定される。従って、ブロック内の画素がこの同じプロファイルを有するならば、ブロックの平均も同じプロファイルを有する。
【００２８】
よって、ブロックの平均値は、フェードとディゾルブの検出に使用する動画フレームの代表的な特徴である。平均値を用いると後述の３つの利点が得られるが、それ以外のもう１つの利点として、このプロセスがカメラの動き又はシーン中の個別被写体の動き並びにノイズに対し不感になると云う事実がある。これは、ロバストな方法を得る上で特に重要である。
【００２９】
かように、式（１）と（２）による、ブロックの平均プロファイルも従って単調である。もし、ｆ（．，．）がブロック内で同じでなければ、平均プロファイルは単調である必要はないことに留意すべきである。また、ｆ（．，．）が所与のブロック内の画素に対して同じでなければならないことにも注意すべきである。２つの異なるブロックは異なる正規化単調プロファイルを持ち得る。個別画素のプロファイルの代わりにブロックの平均プロファイルを用いることにより下記の利点が得られる。
【００３０】
１．個別画素はノイズの影響を受けやすく、単調なプロファイルを生み出さないことがある。ブロック中の全画素についての固有積分により平均プロファイルにおけるノイズの影響が低減する。
２．（ＭＰＥＧ−２ビットストリ−ム上で直接ディゾルブの検出を実施したい場合に）ブロックの平均プロファイルは制限された復号でＭＰＥＧ−２ビットストリームから容易に得られ、計算時間が短縮できる。
３．平均プロファイルを追跡することにより、（追跡すべき点数が減少するので）プロファイルの追跡時の計算量を低減できる。
前述のように、単調シーケンスはディゾルブイベントを示す。番号ｎ_i，ｉ＝１…Ｄの所与のシーケンスが単調であることを確かめるために、Ｓ_aとＳ_bの値を分析する。次式で得られる２つの値Ｓ_aとＳ_bを検討する。
【００３１】
【数３】

【００３２】
シーケンスが単調である場合にのみ、Ｓ_aとＳ_bが等しいことは明らかである。厳密な単調性を確保するためには、Ｓ_a（又はＳ_b）は、後述するような小さい値よりも大きくなければならない。
【００３３】
本発明の好適な実施形態において、画像ブロックは、水平“ストライプ”であり、高さは８横列に等しく（Ｍ＝８）、幅は画像幅Ｎに等しい。“平均（ｍｅａｎｓ）”は、従って、“横列”の平均に低減する。横列を用いるのは次の２重の理由による。（１）横列平均化はＭＰＥＧ動画ビットストリームを直接処理する際に最小限の復号で実現でき、即ち、後述するように動画を最初に復号する必要がない。（２）代表的な動画シーケンスにおいて水平方向の動きが一般に大きいので、フェード／ディゾルブ中の動きも縦の動き成分よりも大きい水平の動き成分を持ちやすい。もし垂直ブロックを用いると、方法手順は適用できるが、大きな水平方向の動きの場合に“不一致”が生じることが多い。さらに、画素でなく画像ブロックを使用することにより、ノイズがあってもディゾルブ／フェードを正確に検出でき、本方法をロバストなものにする。
【００３４】
図１を参照し、本発明の方法による第１の実施形態をステップ毎に記述する。
ステップ１：カムコーダ又は編集装置に出現する画像のような動画フレーム又は動画フィールドのようなサンプリングされた入力ディジタル動画（ブロック１２）を複数の重なりのないＭ×Ｎブロックに分割する（ブロック１４）。これらのブロックの数Ｐを後続処理のために保管する。“Ｐ”はさらなる画像処理において使用されるブロック数である。前述のように、本発明の方法のステップは、カムコーダ，コンピュータ，他の編集装置において実施され、動画の要約又は編集のプロセスにおいて実行される。
【００３５】
ステップ２：Ｐ個のブロックの各々の平均値を計算する（ブロック１６）。Ｐ平均値を先行ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥＮＧＴＨ−１画像における対応値と共に保管し（ブロック１８）、時系列の平均値の単調性を評価する。ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥＮＧＴＨ値（ここでは、“Ｄ"とも表記する）（ブロック２０）は、単調性を測定するために用いる画像のサブシーケンスの長さを決定する（ブロック２２）。
これは、推定値であり、ディゾルブイベントの期待される最小長に基づいてユーザにより入力パラメータとして供給される。
ステップ３：Ｐ個の画像ブロックの各々について２つの量Ｓ_aとＳ_bを計算して平均値の単調性を評価する（ブロック２４）。サブシーケンス中の平均値が単調な傾向を示していれば、これらの値は等しい。
【００３６】
ステップ４：Ｐ個の画像ブロックの各々について、Ｓ_aとＳ_bの絶対差を予め定義した閾値（しきい値）ＴＨＲＥＳＨと比較する（ブロック２６）。閾値ＴＨＲＥＳＨより小さい絶対差を示すブロック数Ｑを所与の画像カウントＲＡＴＩＯ×Ｐ（ＲＡＴＩＯは入力パラメータ）と比較する。ＲＡＴＩＯ値は、０.０と１.０の間の値であり、ＲＡＴＩＯに対する典型的な値は、０.６から０.９の範囲である。ＱがＲＡＴＩＯ×Ｐより大きければ単調条件が満たされる。これは、単調傾向を示すＲＡＴＩＯ×Ｐの平均値が少なくとも存在することを意味する。
【００３７】
ステップ５：ステップ４で単調条件が満される場合、ステップ４の条件を満足するＱ個の平均値に対して発見された数量Ｓ_aの合計として定義されるＳを計算する（ブロック２８）。ステップ４の条件が満されなかった場合、サブシーケンスはディゾルブ又はフェードの一部でないとしてタグ付けする（ブロック３０）。ステップ７に進む。
【００３８】
ステップ６：Ｓ値を、ＴＯＴ＿ＥＲＲＯＲ×Ｑの値と比較する（ブロック３２）。ＳがＴＯＴ＿ＥＲＲＯＲ×Ｑの値より大きければ、そのサブシーケンスをディゾルブ又はフェード領域の一部に属するものとしてタグ付けする（ブロック３４）。このテストは、平均値の変動における厳格な単調性を保証する。ＳがＴＯＴ＿ＥＲＲＯＲ×Ｑの値より小さいか又は等しい場合は、そのサブシーケンスをディゾルブ又はフェード推移の一部で無いとしてタグ付けする（ブロック３４）。ステップ７に進む。
【００３９】
ステップ７：ディジタル動画シーケンス中の全てのサブシーケンスについて１から７までを繰り返す。サブシーケンススライディング制御機構は、シーケンス中の連続サブシーケンスの位置を決定する。１つの可能性は、一度に１フレームだけサブシーケンスをスライディングさせることである（ブロック２２）。この場合、最も古い平均値は破棄され、最新の入力動画画像から得られたＰ個の平均値で置換する。もう１つの可能性は、連続サブシーケンスの位置を１度に１つより多いフレームだけ増大することである。
【００４０】
ステップ８：全てのサブシーケンスのタグを検査する。偽の（孤立した）ディゾルブ／フェードサブシーケンスを除去し、予め規定した画像数であるＫより離れていないディゾルブ／フェードのサブシーケンスを連結する（ブロック３６）。このステップは、負のディゾルブ／フェードのタグを、Ｋ枚の画像範囲で検出されたディゾルブ／フェードサブシーケンス間で生じたものであれば、正のディゾルブ／フェードサブシーケンスの識別子に変えるステップを含んでいる。シーケンス中の他の領域は全て、ディゾルブ／フェード領域でないとしてタグ付けする。
【００４１】
ステップ９：検出したディゾルブ／フェード領域の２枚のアンカーフレーム間にシーン転換があることを確認する（ブロック３８）。このステップは静止画像のシーケンスがディゾルブ又はフェード領域として検出できないことを保証する。２枚のアンカーフレームのブロック平均値の絶対差が予め規定した閾値を超えるかどうかをテストするために実行できる。
【００４２】
ステップ１０：ステップ９におけるテストが真であれば、動画シーケンス中の期間をディゾルブ／フェード推移としてタグ付けする（ブロック４０）。真でなければ、ディゾルブ／フェード領域でないとしてタグ付けする（ブロック４２）。Ｐの値、即ち処理に用いるブロック数は次のようにして選択する。フレームをフレーム全体にわたる隣接ブロックにタイル分割する。但し、ディゾルブ検出には全部のフレームを使用する訳ではない。全ブロックを使用する場合は、Ｐは画像中のブロックの総数と等しく、そうでなければ、ブロック総数より少ない。第１のオプションは、通常のオペレーションモードであり、第２のオプションは、（１）フレームが大きく、即ち１９２０×１０８０画素で、特に計算機資源が制限されている場合に計算コストを低減し、（２）シーンに関し、ユーザ個人が持ち得る又は動画データから抽出できる先見的な知識を内有させるために装備する。（２）の場合、例えば、独立して動くオブジェクトによるブロックの或る特定のサブセットに及ぶ領域中の動きを検出した場合、かようなブロックは無視し、連続するプロセスを被写体の動きではないフェード又はディゾルブによる変化にのみ集中させる。さらに、チャネルエラー（例えば、伝送エラー）を含むブロックも同様に無視する。
【００４３】
ディゾルブ領域，フェード領域又は中間のフェード推移を持つディゾルブのいずれかを検出するかの違いは、ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥＮＧＴＨ，ＴＯＴ＿ＥＲＲＯＲ及びＫ値の選択に依る。
ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥＮＧＴＨの値は、画像のサブシーケンス長を決定して、アンカーフレームの位置決めに関する限り、アルゴリズムの選択性に影響を与える。中間のフェード推移を含むディゾルブ領域の場合、ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥＮＧＴＨの値は、一定の色画像数より大きく選択して厳密な単調性のテストが頻繁に外れるのを防止するべきである。ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥＮＧＴＨの典型値は３０である。
【００４４】
ＴＯＴ＿ＥＲＲＯＲの値は、シーケンス中の単調性の程度を決定する。フェード検出において、ＴＯＴ＿ＥＲＲＯＲ値は減少して、動画像が一定である（フェードインの開始又はフェードアウトの終りの）領域において、単調性の測度Ｓ_aがゼロかゼロに近いという事実を考慮するようにする。ＴＯＴ＿ＥＲＲＯＲの典型値は、動画シーケンスの輝度成分当たり８ビットを処理する場合、６である。フェード推移を含むディゾルブ領域の場合、ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥＮＧＴＨ値が小さくアルゴリズムが一定色領域に入らなければ、ＴＯＴ＿ＥＲＲＯＲ値を減少する。ここで用いるＳ_aとＳ_bは、番号セットｎ_iが単調か否かを決定するために使用する数量である。Ｓ_aとＳ_bは、ここに記述した単調性のテストを定義するために用いる中間値である。
【００４５】
Ｋの値は、ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥＮＧＴＨとＴＯＴ＿ＥＲＲＯＲのために選択された値と調和するように選択する。フェードの場合、ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥＮＧＴＨが小さ過ぎたり或いはＴＯＴ＿ＥＲＲＯＲ値が大き過ぎる時は、Ｋ値を大きくすれば補償できる。純粋なディゾルブの場合、小さい値にして、アルゴリズムがディゾルブ領域をアンカーフレームをこえて拡張するのを阻止できる。
【００４６】
図２，図３，図４は、ディゾルブとフェードに関する３つの異なるシナリオを提示する。図２は、純粋ディゾルブ領域内ブロックの平均値変化の典型例、ライン５０を提示しており、ライン“Ｄ”はディゾルブ領域外の平均変化で、画像コンテンツが各シーン中で動いている事実を反映している。
【００４７】
図３は、純粋フェード領域、ライン“Ｆ”内のブロックの平均値変化の典型例、ライン５２を提示している。図２に示した推移との違いは、この推移が画像コンテンツを予め定義した一定値、Ｌにすることにある。
【００４８】
図４は、フェード推移を含むディゾルブ領域ＤＦ内のブロックの平均値変化の典型例、ライン５４を提示している。図２に示した推移との違いは、この推移においては、ディゾルブ中に一定値、Ｌになる中間フェードが存在することにある。Ｓｈａｒｐ（登録商標）ＶＬ−ＤＣ１型ＶｉｅｗＣａｍ（登録商標）のようなディジタルカムコーダは、このモードで作動する。
【００４９】
上記の方法は、入力ディジタル動画シーケンスをＪＰＥＧ又はＭＰＥＧ圧縮ビットストリームのようなブロックＤＣＴに基づく圧縮動画ストリームに置き換える場合にも適用できる。本出願に参照引用している同時係属出願において記述しているように、８×８ブロックのＤＣ値は最小限復号したＭＰＥＧビットストリームから得ることができ、横列平均をコンパイルする際に容易に使用できる。ＭＰＥＧの場合、次元ＭとＮは、８の整数倍であり、符号化基準により課せられた値であり、図１の入力パラメータではない。
【００５０】
図５は、入力がＭＰＥＧ圧縮動画ストリームである、図１の修正図である。
ステップ１：入力ＭＰＥＧ圧縮動画ビットストリーム（ブロック１１２）を最小限復号してＤＣ係数を抽出してＭ×ＮのＰ個のブロックの平均を計算する（ブロック１１４）。Ｐの数値を後続処理のために保管する。前述のように、本発明の方法によるステップは、カムコーダ，コンピュータ又は他の編集装置において実施され、動画の要約又は編集のプロセスにおいて実施される。
【００５１】
ステップ２：Ｐ個の平均値の計算結果を先行ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥＮＧＴＨ−１の画像における対応値と共に蓄積し（ブロック１１８）、時系列の平均値の単調性を評価するために使用する。ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥＮＧＴＨ、ここでは、“Ｄ”とも表記する値（ブロック１２０）は、単調性を測定するために用いるサブシーケンスの長さを決定する（ブロック１２２）。非圧縮入力方法の場合に述べたように、これは推定値であり、ディゾルブイベントの期待される最小長に基づいて、ユーザが入力パラメータとして供給する。
【００５２】
ステップ３：Ｐ個の画像ブロックの各々について２つの数量Ｓ_aとＳ_bを計算して平均値の単調性を評価する（ブロック１２４）。サブシーケンスにおける平均値が単調な傾向を示していれば、これらの値は等しい。
【００５３】
ステップ４：Ｐ個の画像ブロックの各々についてＳ_aとＳ_bの絶対差を予め定義した閾値ＴＨＲＥＳＨと比較する（ブロック１２６）。閾値ＴＨＲＥＳＨより小さい絶対差を示すブロック数Ｑを所与の画像カウントＲＡＴＩＯ×Ｐ（ＲＡＴＩＯは入力パラメータ）と比較する。ＲＡＴＩＯ値は、０.０と１.０の間の値であり、ＲＡＴＩＯに対する典型的な値は、０.６から０.９の範囲である。ＱがＲＡＴＩＯ×Ｐより大きければ単調条件が満たされる。これは、少なくとも単調傾向を示すＲＡＴＩＯ×Ｐの平均値が存在することを意味する。
【００５４】
ステップ５：ステップ４の条件が満される場合、ステップ４の条件を満足するＱ平均値に対して見つけ出されたＳ_a数量の合計として定義されるＳを計算する（ブロック１２８）。ステップ４の条件が満されなかった場合、サブシーケンスはディゾルブ又はフェードの一部でないとしてタグ付けされる（ブロック１３０）。ステップ７に進む。
【００５５】
ステップ６：Ｓ値をＴＯＴ＿ＥＲＲＯＲ×Ｑの値と比較する（ブロック１３２）。ＳがＴＯＴ＿ＥＲＲＯＲ×Ｑの値より大きければ、そのサブシーケンスはディゾルブ又はフェード領域の一部に属するとしてタグ付けされる（ブロック１３４）。このテストにより平均値の変化における厳格な単調性が保証される。ＳがＴＯＴ＿ＥＲＲＯＲ×Ｑより小さいか又は等しい場合は、そのサブシーケンスはディゾルブ又はフェード領域の一部では無いとしてタグ付けされる（ブロック１３４）。ステップ７に進む。
【００５６】
ステップ７：ディジタル動画シーケンス中の全てのサブシーケンスについて１から７までを繰り返す。サブシーケンススライディング制御機構は、シーケンス中の連続サブシーケンスの位置を決定する。１つの可能性は、一度に１フレームだけサブシーケンスをスライディングさせることである（ブロック１２２）。この場合、最も古い平均値は破棄され、入力動画画像から得られたＰ平均値で置き換える。もう１つの可能性は、連続サブシーケンスの位置を一度に１より多いフレームだけ増大することである。
【００５７】
ステップ８：全てのサブシーケンスのタグを検査する。偽の（孤立した）ディゾルブ／フェードサブシーケンスを除去し、予め定義した画像数であるＫより離れていないディゾルブ／フェードのサブシーケンスを連結する（ブロック１３６）。このステップは、負のディゾルブ／フェードのタグを、Ｋ枚の画像範囲内で検出したディゾルブ／フェードサブシーケンス間で生じたものであれば、正のディゾルブ／フェードサブシーケンスの識別子に変えるステップを含んでいる。シーケンス中の他の領域は全て、ディゾルブ／フェード領域でないとしてタグ付けする。
【００５８】
ステップ９：検出したディゾルブ／フェード領域の２枚のアンカーフレーム間にシーン転換があることを確認する（ブロック１３８）。このステップは、静止画像のシーケンスがディゾルブ／フェード領域として検出できないことを保証する。このステップは、２枚のアンカーフレームのブロック平均値の絶対差が予め定義した閾値を超えるかどうかをテストするために実行できる。
【００５９】
ステップ１０：ステップ９におけるテストが真であれば、動画シーケンス中の期間をディゾルブ／フェード転換としてタグ付けする（ブロック１４０）。真でなければ、ディゾルブ／フェード領域でないとしてタグ付けする（ブロック１４２）。
図６は、フェードアウトし次にフェードインする（導入部で紹介した第２カテゴリーのディゾルブ）画素の典型的なプロファイル、ライン５６を示す。このプロファイルは、Ｓｈａｒｐ（登録商標）ＶＬ−ＤＣ１型ＶｉｅｗＣａｍ（登録商標）により撮影された実際のディゾルブより得た。先行技術においてなされた仮定に反して、このディゾルブ（即ち、フェードイン＋フェードアウト）は６秒間以上続く（毎秒３０フレームの速度で）ことに注意すべきである。フェードアウトイベントは、５６ａの時点で始まり５６ｂの時点で完了する。画像は、５６ｃの時点まで一定で、そこからフェードインイベントが始まり５６ｄの時点で完了する。
【００６０】
図７を参照し、図１又は図５のいずれかに示す方法と共に用いることができる前処理ステップ６０について説明する。入力動画シーケンス１２が供給される。入力動画がディゾルブを含んでいれば、推移領域内の或る特定のフレームを、同時係属出願の動画要約方法を用いて、動画要約のキーフレームとして検出する。しかしながら、推移領域内のこれらの検出フレームは、キーフレームとしての価値はほとんどない。かような偽のキーフレームは、動画シーケンスを本発明の方法によって前処理するので避けることができる。即ち、ディゾルブとフェードを検出し（ブロック６２）、アンカーフレームでない検出されたフェード／ディゾルブ推移を除去したのち（ブロック６６）、アンカーフレーム（ブロック６４）のみを要約プロセス（ブロック６８）に使用して、より有意な要約キーフレームを得る（ブロック７０）。
【００６１】
産業上の応用
動画の閲覧（ブラウジング）において、ディゾルブイベントは、望ましい条件でないディゾルブ領域に割り当てられた多数のキーフレームを生じる。これらのキーフレームは、ユーザにとって“興味のない”ディゾルブイベントからの多数のフレームを含んでいる。動画シーケンスからのディゾルブフレームをキーフレーム検出機構に供給される前に除去することにより、興味のないフレームの認定を避けることができ、それにより、ディゾルブを突然のシーン推移に変換することができる。
【００６２】
動き補償法を採用する圧縮アルゴリズムは、ディゾルブイベントを極めて拙く処理する。ディゾルブを認定した後、アンカーフレームのみを圧縮して、正規化した単調プロファイル（ｆ（ｔ，Ｂ））を伝送して、残りのフレームを表現する。単調プロファイルに直線を当てはめ近似させれば、開始点と終点が既知であるのでパラメータを送る必要は一切ない。ＭＰＥＧ復号器は全ディゾルブシーケンスをこの情報で再構築できる。
【００６３】
本発明の方法は、ＪＰＥＧ又はＭＰＥＧ符号化器の前処理モジュールとして使用することができる。ディゾルブ又はフェードが動画シーケンス中で確実に認定された時に、符号化器はパラメータの符号化をスマートに選択でき、ディゾルブ／フェード領域内の符号化効率を維持できる。
【００６４】
ディジタル動画シーケンスにおける推移イベントを検出する方法を開示してきた。本方法は、動画を要約すること又は編集することに先行する定型の一部として有用である。この方法は圧縮又は非圧縮動画シーケンスに使用でき、圧縮動画シーケンスを処理する場合は、動画ビットストリームを部分的に復号するだけで済む。本発明の２つの実施形態について開示してきたが、特許請求範囲に定義した本発明の範囲から逸脱することなく、さらなる変更と修正を加えることができることは理解されよう。
【図面の簡単な説明】
【図１】図１は、本発明による方法の第１の実施形態を示すフローチャートである。
【図２】図２は、純粋なディゾルブ領域におけるブロック平均値の変化を示すグラフである。
【図３】図３は、純粋なフェード領域におけるブロック平均値の変化を示すグラフである。
【図４】図４は、フェード推移を含むディゾルブ領域におけるブロック平均値の変化を示すグラフである。
【図５】図５は、本発明による方法の第２の実施形態を示すフローチャートである。
【図６】図６は、画素プロファイルのグラフである。
【図７】図７は、本発明による方法の前処理ステップを示すブロック図である。

Claims

ディジタル動画シーケンスを動画プロセッサに入力し、
動画シーケンスの複数の画像について、画像内のブロックの平均値またはＤＣ係数を抽出し、
動画シーケンスの所定長の画像区間内において、時間的に隣接する画像間で前記抽出した値の差分値を前記ブロック毎に求め、
前記ブロックの各々について、
（１）前記差分値の前記画像区間内の和の絶対値を第１の値とし、
（２）前記差分値の前記画像区間内の絶対値和を第２の値とし、
前記第１の値と前記第２の値との差の絶対値がしきい値より小さいブロックのブロック数を求め、
前記ブロック数が所定の数より小さい場合に、前記画像区間内に推移イベントが無いと判定することを特徴とする動画シーケンス中の推移を検出する方法。
前記推移イベントは、ディゾルブ，フェード，フェードを含むディゾルブより成るグループから取り出すことを特徴とする請求項１に記載の動画シーケンス中の推移を検出する方法。
前記入力することは、非圧縮ディジタル動画シーケンスを入力することを含むことを特徴とする請求項１に記載の動画シーケンス中の推移を検出する方法。
前記入力することは、圧縮ディジタル動画シーケンスを入力することを含み、該圧縮ディジタル動画シーケンスは、ＭＰＥＧ及びＪＰＥＧ規格の圧縮ディジタル動画シーケンスを含む圧縮ディジタル動画シーケンスのグループから取り出すことを特徴とする請求項１に記載の動画シーケンス中の推移を検出する方法。
推移イベントを認定し、前記ディジタル動画シーケンスを前処理してキーフレームを認定する前の推移イベントのアンカーフレームを除く推移イベントを除去することを含んでなることを特徴とする請求項１に記載の動画シーケンス中の推移を検出する方法。