JP3714871B2 - サンプリングされたディジタル動画シーケンス中の推移を検出する方法 - Google Patents
サンプリングされたディジタル動画シーケンス中の推移を検出する方法 Download PDFInfo
- Publication number
- JP3714871B2 JP3714871B2 JP2000528081A JP2000528081A JP3714871B2 JP 3714871 B2 JP3714871 B2 JP 3714871B2 JP 2000528081 A JP2000528081 A JP 2000528081A JP 2000528081 A JP2000528081 A JP 2000528081A JP 3714871 B2 JP3714871 B2 JP 3714871B2
- Authority
- JP
- Japan
- Prior art keywords
- dissolve
- value
- fade
- sequence
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/147—Scene change detection
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Studio Circuits (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Television Signal Processing For Recording (AREA)
- Picture Signal Circuits (AREA)
Description
関連出願
1997年12月19日提出のRatakondaの“ディジタル動画の階層的要約及び閲覧方法(Method for Hierachical Summarization and Browsing of Digital Video)”と題された同時係属出願第08/994,558号。
【0002】
発明の分野
本発明は、ディジタル動画シーケンス中の、ディゾルブ,フェード,フェードを含むディゾルブを含む推移の検出に関する。
【0003】
発明の背景
推移は、動画シーケンス中のシーンの急転を柔らげる特殊な視覚効果である。ディゾルブ推移は、動画シーケンスの内容が、通常予め規定した時間パターンにしたがって、1つのシーンから他のシーンに徐々に変化する期間である。これは、プロによる映画や高性能カメラの先端ユーザによって撮影された消費者動画に共通して発生する。ディゾルブ領域内において、次のシーンは最初のシーンがフェードアウトする間に現れ(フェードインし)、ディゾルブ領域が終わるまでに次のシーンが最初のシーンに取って代わる。ディゾルブは次のシーンへのフェードインに引き続く空のスクリーンへのフェードアウトとの組み合わせによって発生する。ディゾルブ領域は、変化する期間の長さであり、プロフェッショナルな動画での1秒からシャープ(登録商標)VL−DC1型ビューカム(登録商標)のような最新の市販ディジタルカムコーダでの約6秒までの範囲である。
【0004】
ディゾルブ及びフェードによる推移を検出する目的は、動画要約の準備に先立つ非圧縮又は圧縮動画シーケンスを前処理することにあり、これにより、ユーザは多数の動画シーケンスを迅速に一覧したり、或いは、編集時において編集/インデクシング(索引)システムによりディゾルブ又はフェード中の偽キーフレームが検出されるような望ましくない効果を避けることができる。かような偽キーフレームは動画の要約にはほとんど価値を有さない。
【0005】
一般にフェードはシーンと所与の色(通常黒又は白)の間の推移である。フェード領域は、固定色から動画シーンへの推移であればフェードインと呼び、動画シーンから固定色への推移であればフェードアウトと呼ぶ。
ここで云う色は黒と白を含む。ディゾルブ推移は、中間的な白へのフェード、黒へのフェード又はグレー相へのフェードを含む。ディゾルブ又はフェード推移における最初と最後の画像を“アンカーフレーム”と呼ぶ。ディゾルブ又はフェード推移の動画シーンは、静的又は動的なコンテンツのいずれを特徴としても良い。
【0006】
公知の先行技術は、統計的な設定におけるディゾルブ及びフェード領域の検出に関係している。さらに、以下に引用する先行技術は、圧縮された動画領域において直接作動するようなケーパビリティに関しては何も参照していない。この分野における先行論文は、ディゾルブに対するモデル、即ち画像強度の変動に対するモデルを仮定している。かような論文は、ディゾルブが、ディゾルブイベントにおける最初と最後のフレームであるアンカーフレーム間の輝度の直線的変化をもたらすとしている。アンカーフレーム間の中間フレームは、フレーム内強度の標準偏差で表現した放物線プロファイルを有する。即ち、中間フレームについてのフレーム番号対フレーム内標準偏差のプロットは放物線のプロファイルを有する。このプロファイルは、動画シーケンス中のディゾルブに対して構文解析するための記号として使用する。しかしながら、このプロファイルはディゾルブを伴わないシーケンスの他の部分にも生じ得る。かような偽のディゾルブの検出を除くために、公知の技法は、ディゾルブの最長時間を1秒間以下に制限する。この人工的制限は、実際には満たし得ない。さらに、この線形モデルも必ずしも満たされ得るものではない。シャープ(登録商標)VL−DC1型ビューカム(登録商標)のようなカムコーダから得られるディゾルブは、通常、区分的線形である。容量性回路を用いるアナログ式カムコーダは、容量が指数変化するので全く異なるプロファイルのディゾルブを生じる。
【0007】
Aigrain他は、“フィルムの編集及び推移効果の自動的リアルタイム分析とその応用(The Automatic Real-Time Analysis of Film Editing and Tragition Effects and its Applications)”(コンピュータとグラフィックス,第18卷,No.1,93−103頁,1994年)において、クロスディゾルブ,フェードイン及びフェードアウトを検出するための統計学的モデルを提案している。これらのモデルは、推移が直線的であるとの仮説で作成される。グレーへのフェード推移がディゾルブ推移の一部を成す場合は考慮されていない。
【0008】
Hanpachernの米国特許第4,319,286号は、動画信号と音声信号の時間的な損失を検出する回路を記述している。この特許は、連続するサンプリングされていないディジタル動画信号におけるコマーシャルの前で生じる急速な黒色へのフェード推移を捕捉する“コマーシャルキラー”を記述している。
【0009】
Alattarの米国特許第5,245,436号及び第5,283,645号は、サンプリングされたディジタル動画入力について記述している。米国特許第5,283,645号は、ディゾルブ検出用の統計学的フレームワークを記述している。提案された方法は、ディゾルブ推移は時間に関し線形であると仮定している。特許第5,245,436号は、黒色のような固定色から動き動画シーンへのフェードイン推移又は動き動画シーンから黒色のような固定色へのフェードアウト推移を、連続動画フレーム間の平均差と相対的平均変化の測定に基づいて検出するメカニズムを記述している。フェードが発生するか否かの決定は、フレーム毎になされ、また画像全体の平均値の変化を1セットの予定値と比較することに基づいている。
【0010】
発明の要約
動画シーケンス中の推移を検出する方法は、ディジタル動画シーケンスを動画プロセッサに入力することと、ディジタル動画シーケンスの単調に変化する画像強度(輝度)のプロファイルを検出することと、推移イベントのような輝度プロファイルを持つディジタル動画シーケンスにタグを付けることを含んでいる。
【0011】
本発明は、公知の先行技術における多くの困難な問題を克服する、ディゾルブを検出する方法である。
この方法は、ディゾルブの生成に適したモデルに関係するものではなく、偽ディゾルブに対抗するものである。この方法は、ディゾルブシーケンス内の制限された動きにも対抗できる。
【0012】
本発明の目的は、動画シーケンス中のディゾルブイベントを検出する新しい方法を提供することにある。
本発明の他の目的は、非圧縮ディジタル動画並びにJPEG及びMPEGのようなDCT(離散余弦変換)に基づく圧縮動画のいずれでも機能する動画シーケンス中のディゾルブイベントを検出する新しい方法を提供することにある。
【0013】
本発明の他の目的は、MPEG−2圧縮動画で機能する動画シーケンス中のディゾルブイベントを検出し、ディゾルブイベントの検出は、MPEG−2圧縮ビットストリームを最小限復号して行なわれる新しい方法を提供することにある。 本発明の他の目的は、ノイズが存在していても正確にディゾルブ/フェードを検出する、動画シーケンス中のディゾルブイベントを検出する新しい方法を提供することにある。
【0014】
本発明の目的は、シーンの動きに無反応な動画シーケンス中のディゾルブイベントを検出する新しい方法を提供することにある。
本発明のさらなる目的は、サンプリングされたディジタル動画シーケンス中のフェードインとフェードアウトを含むディゾルブイベントを検出する、統一され高速で且つロバストな方法を提供することにある。
【0015】
本発明のさらに他の目的は、ディゾルブイベントを生成するために使用するメカニズム又はモデルとは無関係に、かようなイベントの検出能力を提供することにある。
【0016】
好適な実施形態の詳細な説明
本発明による方法は、動画入力ストリームが圧縮されているか非圧縮であるかにかかわりなく、又、シーンの動き又は信号ノイズにかかわりなくディゾルブイベントを検出できる堅固な検出方法で、公知の先行技術における困難な問題を殆ど解決する方法を提供する。この方法は、ディゾルブの生成に適したモデルに関係するものではなく、偽ディゾルブに対抗するものである。この方法は、ディゾルブシーケンス内の制限された動きにも対抗できる。ここに開示する発明は、入力動画シーケンスが、サンプリングされた動画(非圧縮又は伸長)又はJPEG又はMPEGによる圧縮動画シーケンスのいずれであっても適用できる。
【0017】
ここではディゾルブイベントとも記述するディゾルブの検出は、動画インデクシング,動画編集,動画圧縮のような多くのディジタル動画アプリケーションにおいて主要な前処理ステップの一つである。引用している私の同時係属出願に記載したように、動画要約において、動画要約から偽のキーフレームを検出して除外しないかぎり、ディゾルブは、アンカーフレーム間で偽のキーフレームを検出するかもしれない。ここでは、ディゾルブシーケンス中の最初と最後の画像を“アンカーフレーム”と命名する。動画圧縮において、動き補償による予測は、貧しい予測による圧縮効率の低下を避けるために、ディゾルブ領域内の圧縮モードを適切に選択することにより避けられる。
【0018】
MPEG規格により圧縮された動画のような圧縮動画の場合、動画符号化器の符号化効率の損失は、ディゾルブ領域における動き補償予測の使用によることが多い。一般に、符号化効率の損失は、動画フレーム当たりのビット予算が制限されているので、動画シーケンス中のブロッキングアーチファクトを生じる結果を招く。ディゾルブがディジタル動画シーケンス中で検出されると、圧縮期間中に上記の影響を阻止するステップが取られる。
【0019】
本発明は、サンプリングされた動画シーケンス又は圧縮動画ビットストリームのいずれかを記録する動画カメラで実行可能で、又は、PC又は他のコンピュータのような動画編集装置において実行可能である。ここで使用する用語“動画プロセッサ”は、動画カメラ,編集装置,コンピュータ又は本発明の方法によるディジタル動画の操作に使用する他の装置である。カメラ又はカムコーダの場合は、ディゾルブ又はフェード領域の位置をメモリに蓄積する。本発明の方法は、動画要約の計算の前に前処理ステージとして実行される。ディゾルブ/フェードの検出結果は、動画要約モジュールにより使用されて、ディゾルブ又はフェード領域において検出されたかもしれない偽のキーフレームを避ける。
【0020】
ディジタル動画中のディゾルブイベントを検出するために、ディゾルブシーケンスの主要な区別特徴を識別しなければならない。全中間フレーム中の特定位置における画素のグレイ値のプロファイルを考える。ディゾルブの定義から、プロファイルは、独立変数である時間が中間フレームを横断変化するに伴い、ただ増加するのみか又は一定値に留まる単調な曲線か、或は、減少するのみか一定値に留まる単調な曲線であることが判る。これは、ディゾルブの生成のために仮定したいかなるモデルとも無関係であり、空間的に変化するモデル、即ち、フレームを横断し変化するモデルをも含んでいる。もし2枚のフレーム間の全画素が単調なプロファイルに従うならば、通常の一定フレームの場合を除き、また厳格な単調性を仮定する2枚のフレームの間にはディゾルブがある筈である。この二重の暗示(即ち、プロファイル<=>ディゾルブ)によれば、かようなプロファイルが動画フレームのシーケンス中に存在すれば、そのプロファイルは、ディゾルブイベントの可能な最適指標であることは明らかである。これは、ディジタル動画シーケンスに対して単調に変化する画像輝度のプロファイルを検出し、シーケンスが単調に変化する画像輝度のプロファイルを有していればその動画シーケンスに転換イベントとしてタグ付けして、本発明によるディゾルブイベント検出方法の基礎を形成している。ここで記述する推移イベントは、ディゾルブ,フェード,フェードを含むディゾルブを内容としている。
【0021】
本発明の方法は図1に示すフローチャートで表され、全体を10とする。この方法は、M×N(M≧1,N≧1)個の画像ブロックの時間における平均値の観測に基づいている。ディゾルブ又はフェードがあれば、平均値の変化が図2,図3,図4に示すように単調になる。画像ブロック平均値の変化における単調性は、従って、本発明においてディゾルブ又はフェードを検出するために用いる基本的な判定基準である。厳密な単調性は、平均変化(差)の絶対値が厳密にゼロより大きい時に生じる。
【0022】
ディゾルブのプロファイルに対する空間変化モデルが画素から画素に変化し、例えばf(t,i,j)、ここでtは時間次元を現わしi,jは画像へのインデックスであると仮定する。(i,j)において共存するが時間的には異なるフレームにある2つの画素値L(i,j)とM(i,j)が与えられると、“プロファイルの関数”f(t,i,j)は、フェードイン又はフェードアウト(即ち、LがMにフェードイン又はフェードアウト)することによりL(i,j)の値が時間と共にM(i,j)の値に推移する。例えば、図3に示すように、時間6(即ちM)のi,jにおける値はLの値にフェードインし、(単調な)推移はf(t,i,j)により表現される。
【0023】
このディゾルブに対する空間変化モデルがブロック内でほぼ一定であり、(即ちf(t,i,j)をブロックBに対するf(t,B)で置き換えることができる)と仮定すれば、中間フレームを横断追跡したときブロックの平均値は単調なプロファイルを持つ。フレームLとM間のディゾルブのプロファイルはブロック(B)の場合、次式で表現されると仮定する。
【0024】
【数1】
【0025】
式中、f(t.,.)は、フレームL及びM(アンカーフレーム)間のディゾルブに対する正規化した単調なプロファイルである。もしf(.,.)がブロックの単なる関数であり(ブロック内画素と共に変化しない)ならば、ブロック(B)の平均プロファイルを次式で表現できることは容易に理解できよう。
【0026】
【数2】
【0027】
式中、VはブロックB内の画素数である。式(1)と(2)において、L及びMは、2つの時点に位置する2つのフレームの画素強度の分布を意味する。インデックスi,jは特定ブロックB内で移動する。fはブロック内画素に対して同一であるので、f(t,B)の表記を使用する。今、式(1)に“平均演算”を適用する。即ち、ブロックBにつき各数値を合計し、その合計値をNで割る。f(t,B)は定数であると仮定するので、生き残って外に現れる。その結果が式(2)であり、同じプロファイル(即ちf(t,B))を有するので、“ブロック平均”の関係が規定される。従って、ブロック内の画素がこの同じプロファイルを有するならば、ブロックの平均も同じプロファイルを有する。
【0028】
よって、ブロックの平均値は、フェードとディゾルブの検出に使用する動画フレームの代表的な特徴である。平均値を用いると後述の3つの利点が得られるが、それ以外のもう1つの利点として、このプロセスがカメラの動き又はシーン中の個別被写体の動き並びにノイズに対し不感になると云う事実がある。これは、ロバストな方法を得る上で特に重要である。
【0029】
かように、式(1)と(2)による、ブロックの平均プロファイルも従って単調である。もし、f(.,.)がブロック内で同じでなければ、平均プロファイルは単調である必要はないことに留意すべきである。また、f(.,.)が所与のブロック内の画素に対して同じでなければならないことにも注意すべきである。2つの異なるブロックは異なる正規化単調プロファイルを持ち得る。個別画素のプロファイルの代わりにブロックの平均プロファイルを用いることにより下記の利点が得られる。
【0030】
1. 個別画素はノイズの影響を受けやすく、単調なプロファイルを生み出さないことがある。ブロック中の全画素についての固有積分により平均プロファイルにおけるノイズの影響が低減する。
2. (MPEG−2ビットストリ−ム上で直接ディゾルブの検出を実施したい場合に)ブロックの平均プロファイルは制限された復号でMPEG−2ビットストリームから容易に得られ、計算時間が短縮できる。
3. 平均プロファイルを追跡することにより、(追跡すべき点数が減少するので)プロファイルの追跡時の計算量を低減できる。
前述のように、単調シーケンスはディゾルブイベントを示す。番号ni,i=1…Dの所与のシーケンスが単調であることを確かめるために、SaとSbの値を分析する。次式で得られる2つの値SaとSbを検討する。
【0031】
【数3】
【0032】
シーケンスが単調である場合にのみ、SaとSbが等しいことは明らかである。厳密な単調性を確保するためには、Sa(又はSb)は、後述するような小さい値よりも大きくなければならない。
【0033】
本発明の好適な実施形態において、画像ブロックは、水平“ストライプ”であり、高さは8横列に等しく(M=8)、幅は画像幅Nに等しい。“平均(means)”は、従って、“横列”の平均に低減する。横列を用いるのは次の2重の理由による。(1)横列平均化はMPEG動画ビットストリームを直接処理する際に最小限の復号で実現でき、即ち、後述するように動画を最初に復号する必要がない。(2)代表的な動画シーケンスにおいて水平方向の動きが一般に大きいので、フェード/ディゾルブ中の動きも縦の動き成分よりも大きい水平の動き成分を持ちやすい。もし垂直ブロックを用いると、方法手順は適用できるが、大きな水平方向の動きの場合に“不一致”が生じることが多い。さらに、画素でなく画像ブロックを使用することにより、ノイズがあってもディゾルブ/フェードを正確に検出でき、本方法をロバストなものにする。
【0034】
図1を参照し、本発明の方法による第1の実施形態をステップ毎に記述する。
ステップ1: カムコーダ又は編集装置に出現する画像のような動画フレーム又は動画フィールドのようなサンプリングされた入力ディジタル動画(ブロック12)を複数の重なりのないM×Nブロックに分割する(ブロック14)。これらのブロックの数Pを後続処理のために保管する。“P”はさらなる画像処理において使用されるブロック数である。前述のように、本発明の方法のステップは、カムコーダ,コンピュータ,他の編集装置において実施され、動画の要約又は編集のプロセスにおいて実行される。
【0035】
ステップ2: P個のブロックの各々の平均値を計算する(ブロック16)。P平均値を先行MIN_DISSOLVE_LENGTH−1画像における対応値と共に保管し(ブロック18)、時系列の平均値の単調性を評価する。MIN_DISSOLVE_LENGTH値(ここでは、“D"とも表記する)(ブロック20)は、単調性を測定するために用いる画像のサブシーケンスの長さを決定する(ブロック22)。
これは、推定値であり、ディゾルブイベントの期待される最小長に基づいてユーザにより入力パラメータとして供給される。
ステップ3: P個の画像ブロックの各々について2つの量SaとSbを計算して平均値の単調性を評価する(ブロック24)。サブシーケンス中の平均値が単調な傾向を示していれば、これらの値は等しい。
【0036】
ステップ4: P個の画像ブロックの各々について、SaとSbの絶対差を予め定義した閾値(しきい値)THRESHと比較する(ブロック26)。閾値THRESHより小さい絶対差を示すブロック数Qを所与の画像カウントRATIO×P(RATIOは入力パラメータ)と比較する。RATIO値は、0.0と1.0の間の値であり、RATIOに対する典型的な値は、0.6から0.9の範囲である。QがRATIO×Pより大きければ単調条件が満たされる。これは、単調傾向を示すRATIO×Pの平均値が少なくとも存在することを意味する。
【0037】
ステップ5: ステップ4で単調条件が満される場合、ステップ4の条件を満足するQ個の平均値に対して発見された数量Saの合計として定義されるSを計算する(ブロック28)。ステップ4の条件が満されなかった場合、サブシーケンスはディゾルブ又はフェードの一部でないとしてタグ付けする(ブロック30)。ステップ7に進む。
【0038】
ステップ6: S値を、TOT_ERROR×Qの値と比較する(ブロック32)。SがTOT_ERROR×Qの値より大きければ、そのサブシーケンスをディゾルブ又はフェード領域の一部に属するものとしてタグ付けする(ブロック34)。このテストは、平均値の変動における厳格な単調性を保証する。SがTOT_ERROR×Qの値より小さいか又は等しい場合は、そのサブシーケンスをディゾルブ又はフェード推移の一部で無いとしてタグ付けする(ブロック34)。ステップ7に進む。
【0039】
ステップ7: ディジタル動画シーケンス中の全てのサブシーケンスについて1から7までを繰り返す。サブシーケンススライディング制御機構は、シーケンス中の連続サブシーケンスの位置を決定する。1つの可能性は、一度に1フレームだけサブシーケンスをスライディングさせることである(ブロック22)。この場合、最も古い平均値は破棄され、最新の入力動画画像から得られたP個の平均値で置換する。もう1つの可能性は、連続サブシーケンスの位置を1度に1つより多いフレームだけ増大することである。
【0040】
ステップ8: 全てのサブシーケンスのタグを検査する。偽の(孤立した)ディゾルブ/フェードサブシーケンスを除去し、予め規定した画像数であるKより離れていないディゾルブ/フェードのサブシーケンスを連結する(ブロック36)。このステップは、負のディゾルブ/フェードのタグを、K枚の画像範囲で検出されたディゾルブ/フェードサブシーケンス間で生じたものであれば、正のディゾルブ/フェードサブシーケンスの識別子に変えるステップを含んでいる。シーケンス中の他の領域は全て、ディゾルブ/フェード領域でないとしてタグ付けする。
【0041】
ステップ9: 検出したディゾルブ/フェード領域の2枚のアンカーフレーム間にシーン転換があることを確認する(ブロック38)。このステップは静止画像のシーケンスがディゾルブ又はフェード領域として検出できないことを保証する。2枚のアンカーフレームのブロック平均値の絶対差が予め規定した閾値を超えるかどうかをテストするために実行できる。
【0042】
ステップ10: ステップ9におけるテストが真であれば、動画シーケンス中の期間をディゾルブ/フェード推移としてタグ付けする(ブロック40)。真でなければ、ディゾルブ/フェード領域でないとしてタグ付けする(ブロック42)。Pの値、即ち処理に用いるブロック数は次のようにして選択する。フレームをフレーム全体にわたる隣接ブロックにタイル分割する。但し、ディゾルブ検出には全部のフレームを使用する訳ではない。全ブロックを使用する場合は、Pは画像中のブロックの総数と等しく、そうでなければ、ブロック総数より少ない。第1のオプションは、通常のオペレーションモードであり、第2のオプションは、(1)フレームが大きく、即ち1920×1080画素で、特に計算機資源が制限されている場合に計算コストを低減し、(2)シーンに関し、ユーザ個人が持ち得る又は動画データから抽出できる先見的な知識を内有させるために装備する。(2)の場合、例えば、独立して動くオブジェクトによるブロックの或る特定のサブセットに及ぶ領域中の動きを検出した場合、かようなブロックは無視し、連続するプロセスを被写体の動きではないフェード又はディゾルブによる変化にのみ集中させる。さらに、チャネルエラー(例えば、伝送エラー)を含むブロックも同様に無視する。
【0043】
ディゾルブ領域,フェード領域又は中間のフェード推移を持つディゾルブのいずれかを検出するかの違いは、MIN_DISSOLVE_LENGTH, TOT_ERROR及びK値の選択に依る。
MIN_DISSOLVE_LENGTHの値は、画像のサブシーケンス長を決定して、アンカーフレームの位置決めに関する限り、アルゴリズムの選択性に影響を与える。中間のフェード推移を含むディゾルブ領域の場合、MIN_DISSOLVE_LENGTHの値は、一定の色画像数より大きく選択して厳密な単調性のテストが頻繁に外れるのを防止するべきである。MIN_DISSOLVE_LENGTHの典型値は30である。
【0044】
TOT_ERRORの値は、シーケンス中の単調性の程度を決定する。フェード検出において、TOT_ERROR値は減少して、動画像が一定である(フェードインの開始又はフェードアウトの終りの)領域において、単調性の測度Saがゼロかゼロに近いという事実を考慮するようにする。TOT_ERRORの典型値は、動画シーケンスの輝度成分当たり8ビットを処理する場合、6である。フェード推移を含むディゾルブ領域の場合、MIN_DISSOLVE_LENGTH値が小さくアルゴリズムが一定色領域に入らなければ、TOT_ERROR値を減少する。ここで用いるSaとSbは、番号セットniが単調か否かを決定するために使用する数量である。SaとSbは、ここに記述した単調性のテストを定義するために用いる中間値である。
【0045】
Kの値は、MIN_DISSOLVE_LENGTHとTOT_ERRORのために選択された値と調和するように選択する。フェードの場合、MIN_DISSOLVE_LENGTHが小さ過ぎたり或いはTOT_ERROR値が大き過ぎる時は、K値を大きくすれば補償できる。純粋なディゾルブの場合、小さい値にして、アルゴリズムがディゾルブ領域をアンカーフレームをこえて拡張するのを阻止できる。
【0046】
図2,図3,図4は、ディゾルブとフェードに関する3つの異なるシナリオを提示する。図2は、純粋ディゾルブ領域内ブロックの平均値変化の典型例、ライン50を提示しており、ライン“D”はディゾルブ領域外の平均変化で、画像コンテンツが各シーン中で動いている事実を反映している。
【0047】
図3は、純粋フェード領域、ライン“F”内のブロックの平均値変化の典型例、ライン52を提示している。図2に示した推移との違いは、この推移が画像コンテンツを予め定義した一定値、Lにすることにある。
【0048】
図4は、フェード推移を含むディゾルブ領域DF内のブロックの平均値変化の典型例、ライン54を提示している。図2に示した推移との違いは、この推移においては、ディゾルブ中に一定値、Lになる中間フェードが存在することにある。Sharp(登録商標)VL−DC1型ViewCam(登録商標)のようなディジタルカムコーダは、このモードで作動する。
【0049】
上記の方法は、入力ディジタル動画シーケンスをJPEG又はMPEG圧縮ビットストリームのようなブロックDCTに基づく圧縮動画ストリームに置き換える場合にも適用できる。本出願に参照引用している同時係属出願において記述しているように、8×8ブロックのDC値は最小限復号したMPEGビットストリームから得ることができ、横列平均をコンパイルする際に容易に使用できる。MPEGの場合、次元MとNは、8の整数倍であり、符号化基準により課せられた値であり、図1の入力パラメータではない。
【0050】
図5は、入力がMPEG圧縮動画ストリームである、図1の修正図である。
ステップ1: 入力MPEG圧縮動画ビットストリーム(ブロック112)を最小限復号してDC係数を抽出してM×NのP個のブロックの平均を計算する(ブロック114)。Pの数値を後続処理のために保管する。前述のように、本発明の方法によるステップは、カムコーダ,コンピュータ又は他の編集装置において実施され、動画の要約又は編集のプロセスにおいて実施される。
【0051】
ステップ2: P個の平均値の計算結果を先行MIN_DISSOLVE_LENGTH−1の画像における対応値と共に蓄積し(ブロック118)、時系列の平均値の単調性を評価するために使用する。MIN_DISSOLVE_LENGTH、ここでは、“D”とも表記する値(ブロック120)は、単調性を測定するために用いるサブシーケンスの長さを決定する(ブロック122)。非圧縮入力方法の場合に述べたように、これは推定値であり、ディゾルブイベントの期待される最小長に基づいて、ユーザが入力パラメータとして供給する。
【0052】
ステップ3: P個の画像ブロックの各々について2つの数量SaとSbを計算して平均値の単調性を評価する(ブロック124)。サブシーケンスにおける平均値が単調な傾向を示していれば、これらの値は等しい。
【0053】
ステップ4: P個の画像ブロックの各々についてSaとSbの絶対差を予め定義した閾値THRESHと比較する(ブロック126)。閾値THRESHより小さい絶対差を示すブロック数Qを所与の画像カウントRATIO×P(RATIOは入力パラメータ)と比較する。RATIO値は、0.0と1.0の間の値であり、RATIOに対する典型的な値は、0.6から0.9の範囲である。QがRATIO×Pより大きければ単調条件が満たされる。これは、少なくとも単調傾向を示すRATIO×Pの平均値が存在することを意味する。
【0054】
ステップ5: ステップ4の条件が満される場合、ステップ4の条件を満足するQ平均値に対して見つけ出されたSa数量の合計として定義されるSを計算する(ブロック128)。ステップ4の条件が満されなかった場合、サブシーケンスはディゾルブ又はフェードの一部でないとしてタグ付けされる(ブロック130)。ステップ7に進む。
【0055】
ステップ6: S値をTOT_ERROR×Qの値と比較する(ブロック132)。SがTOT_ERROR×Qの値より大きければ、そのサブシーケンスはディゾルブ又はフェード領域の一部に属するとしてタグ付けされる(ブロック134)。このテストにより平均値の変化における厳格な単調性が保証される。SがTOT_ERROR×Qより小さいか又は等しい場合は、そのサブシーケンスはディゾルブ又はフェード領域の一部では無いとしてタグ付けされる(ブロック134)。ステップ7に進む。
【0056】
ステップ7: ディジタル動画シーケンス中の全てのサブシーケンスについて1から7までを繰り返す。サブシーケンススライディング制御機構は、シーケンス中の連続サブシーケンスの位置を決定する。1つの可能性は、一度に1フレームだけサブシーケンスをスライディングさせることである(ブロック122)。この場合、最も古い平均値は破棄され、入力動画画像から得られたP平均値で置き換える。もう1つの可能性は、連続サブシーケンスの位置を一度に1より多いフレームだけ増大することである。
【0057】
ステップ8: 全てのサブシーケンスのタグを検査する。偽の(孤立した)ディゾルブ/フェードサブシーケンスを除去し、予め定義した画像数であるKより離れていないディゾルブ/フェードのサブシーケンスを連結する(ブロック136)。このステップは、負のディゾルブ/フェードのタグを、K枚の画像範囲内で検出したディゾルブ/フェードサブシーケンス間で生じたものであれば、正のディゾルブ/フェードサブシーケンスの識別子に変えるステップを含んでいる。シーケンス中の他の領域は全て、ディゾルブ/フェード領域でないとしてタグ付けする。
【0058】
ステップ9: 検出したディゾルブ/フェード領域の2枚のアンカーフレーム間にシーン転換があることを確認する(ブロック138)。このステップは、静止画像のシーケンスがディゾルブ/フェード領域として検出できないことを保証する。このステップは、2枚のアンカーフレームのブロック平均値の絶対差が予め定義した閾値を超えるかどうかをテストするために実行できる。
【0059】
ステップ10: ステップ9におけるテストが真であれば、動画シーケンス中の期間をディゾルブ/フェード転換としてタグ付けする(ブロック140)。真でなければ、ディゾルブ/フェード領域でないとしてタグ付けする(ブロック142)。
図6は、フェードアウトし次にフェードインする(導入部で紹介した第2カテゴリーのディゾルブ)画素の典型的なプロファイル、ライン56を示す。このプロファイルは、Sharp(登録商標)VL−DC1型ViewCam(登録商標)により撮影された実際のディゾルブより得た。先行技術においてなされた仮定に反して、このディゾルブ(即ち、フェードイン+フェードアウト)は6秒間以上続く(毎秒30フレームの速度で)ことに注意すべきである。フェードアウトイベントは、56aの時点で始まり56bの時点で完了する。画像は、56cの時点まで一定で、そこからフェードインイベントが始まり56dの時点で完了する。
【0060】
図7を参照し、図1又は図5のいずれかに示す方法と共に用いることができる前処理ステップ60について説明する。入力動画シーケンス12が供給される。入力動画がディゾルブを含んでいれば、推移領域内の或る特定のフレームを、同時係属出願の動画要約方法を用いて、動画要約のキーフレームとして検出する。しかしながら、推移領域内のこれらの検出フレームは、キーフレームとしての価値はほとんどない。かような偽のキーフレームは、動画シーケンスを本発明の方法によって前処理するので避けることができる。即ち、ディゾルブとフェードを検出し(ブロック62)、アンカーフレームでない検出されたフェード/ディゾルブ推移を除去したのち(ブロック66)、アンカーフレーム(ブロック64)のみを要約プロセス(ブロック68)に使用して、より有意な要約キーフレームを得る(ブロック70)。
【0061】
産業上の応用
動画の閲覧(ブラウジング)において、ディゾルブイベントは、望ましい条件でないディゾルブ領域に割り当てられた多数のキーフレームを生じる。これらのキーフレームは、ユーザにとって“興味のない”ディゾルブイベントからの多数のフレームを含んでいる。動画シーケンスからのディゾルブフレームをキーフレーム検出機構に供給される前に除去することにより、興味のないフレームの認定を避けることができ、それにより、ディゾルブを突然のシーン推移に変換することができる。
【0062】
動き補償法を採用する圧縮アルゴリズムは、ディゾルブイベントを極めて拙く処理する。ディゾルブを認定した後、アンカーフレームのみを圧縮して、正規化した単調プロファイル(f(t,B))を伝送して、残りのフレームを表現する。単調プロファイルに直線を当てはめ近似させれば、開始点と終点が既知であるのでパラメータを送る必要は一切ない。MPEG復号器は全ディゾルブシーケンスをこの情報で再構築できる。
【0063】
本発明の方法は、JPEG又はMPEG符号化器の前処理モジュールとして使用することができる。ディゾルブ又はフェードが動画シーケンス中で確実に認定された時に、符号化器はパラメータの符号化をスマートに選択でき、ディゾルブ/フェード領域内の符号化効率を維持できる。
【0064】
ディジタル動画シーケンスにおける推移イベントを検出する方法を開示してきた。本方法は、動画を要約すること又は編集することに先行する定型の一部として有用である。この方法は圧縮又は非圧縮動画シーケンスに使用でき、圧縮動画シーケンスを処理する場合は、動画ビットストリームを部分的に復号するだけで済む。本発明の2つの実施形態について開示してきたが、特許請求範囲に定義した本発明の範囲から逸脱することなく、さらなる変更と修正を加えることができることは理解されよう。
【図面の簡単な説明】
【図1】 図1は、本発明による方法の第1の実施形態を示すフローチャートである。
【図2】 図2は、純粋なディゾルブ領域におけるブロック平均値の変化を示すグラフである。
【図3】 図3は、純粋なフェード領域におけるブロック平均値の変化を示すグラフである。
【図4】 図4は、フェード推移を含むディゾルブ領域におけるブロック平均値の変化を示すグラフである。
【図5】 図5は、本発明による方法の第2の実施形態を示すフローチャートである。
【図6】 図6は、画素プロファイルのグラフである。
【図7】 図7は、本発明による方法の前処理ステップを示すブロック図である。
Claims (5)
- ディジタル動画シーケンスを動画プロセッサに入力し、
動画シーケンスの複数の画像について、画像内のブロックの平均値またはDC係数を抽出し、
動画シーケンスの所定長の画像区間内において、時間的に隣接する画像間で前記抽出した値の差分値を前記ブロック毎に求め、
前記ブロックの各々について、
(1)前記差分値の前記画像区間内の和の絶対値を第1の値とし、
(2)前記差分値の前記画像区間内の絶対値和を第2の値とし、
前記第1の値と前記第2の値との差の絶対値がしきい値より小さいブロックのブロック数を求め、
前記ブロック数が所定の数より小さい場合に、前記画像区間内に推移イベントが無いと判定することを特徴とする動画シーケンス中の推移を検出する方法。 - 前記推移イベントは、ディゾルブ,フェード,フェードを含むディゾルブより成るグループから取り出すことを特徴とする請求項1に記載の動画シーケンス中の推移を検出する方法。
- 前記入力することは、非圧縮ディジタル動画シーケンスを入力することを含むことを特徴とする請求項1に記載の動画シーケンス中の推移を検出する方法。
- 前記入力することは、圧縮ディジタル動画シーケンスを入力することを含み、該圧縮ディジタル動画シーケンスは、MPEG及びJPEG規格の圧縮ディジタル動画シーケンスを含む圧縮ディジタル動画シーケンスのグループから取り出すことを特徴とする請求項1に記載の動画シーケンス中の推移を検出する方法。
- 推移イベントを認定し、前記ディジタル動画シーケンスを前処理してキーフレームを認定する前の推移イベントのアンカーフレームを除く推移イベントを除去することを含んでなることを特徴とする請求項1に記載の動画シーケンス中の推移を検出する方法。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US09/004,058 | 1998-01-07 | ||
| US09/004,058 US6459459B1 (en) | 1998-01-07 | 1998-01-07 | Method for detecting transitions in sampled digital video sequences |
| PCT/JP1999/000011 WO1999035825A1 (en) | 1998-01-07 | 1999-01-06 | Method for detecting transitions in sampled digital video sequences |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2002501341A JP2002501341A (ja) | 2002-01-15 |
| JP3714871B2 true JP3714871B2 (ja) | 2005-11-09 |
Family
ID=21708930
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000528081A Expired - Fee Related JP3714871B2 (ja) | 1998-01-07 | 1999-01-06 | サンプリングされたディジタル動画シーケンス中の推移を検出する方法 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US6459459B1 (ja) |
| EP (1) | EP1053635B1 (ja) |
| JP (1) | JP3714871B2 (ja) |
| DE (1) | DE69918533T2 (ja) |
| WO (1) | WO1999035825A1 (ja) |
Families Citing this family (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6587156B1 (en) * | 1999-04-16 | 2003-07-01 | Eastman Kodak Company | Method for detecting mosaic fades in digitized video |
| KR20010087552A (ko) * | 2000-03-07 | 2001-09-21 | 구자홍 | 엠펙(mpeg)압축 비디오 환경에서 매크로 블록의시공간상의 분포를 이용한 디졸브/페이드 검출 방법 |
| US6433839B1 (en) * | 2000-03-29 | 2002-08-13 | Hourplace, Llc | Methods for generating image set or series with imperceptibly different images, systems therefor and applications thereof |
| AUPR133700A0 (en) * | 2000-11-09 | 2000-11-30 | Mediaware Solutions Pty Ltd | Transition templates for compressed digital video and method of generating same |
| US20020126224A1 (en) * | 2000-12-28 | 2002-09-12 | Rainer Lienhart | System for detection of transition and special effects in video |
| US7982796B2 (en) * | 2001-03-21 | 2011-07-19 | Apple Inc. | Track for improved video compression |
| EP1735999A4 (en) | 2004-03-29 | 2012-06-20 | Nielsen Media Res Inc | METHODS AND APPARATUS FOR DETECTING EMPTY FRAME IN DIGITAL VIDEO BROADCASTING SIGNAL |
| FR2887731A1 (fr) * | 2005-06-23 | 2006-12-29 | Nextream France Sa | Methode et dispositif de detection de fondus dans une sequence d'images |
| GB2436654A (en) | 2006-02-03 | 2007-10-03 | Snell & Wilcox Ltd | Detection of a cross-fade in a video sequence |
| EP1914994A1 (en) * | 2006-10-17 | 2008-04-23 | Mitsubishi Electric Information Technology Centre Europe B.V. | Detection of gradual transitions in video sequences |
| US9565479B2 (en) * | 2009-08-10 | 2017-02-07 | Sling Media Pvt Ltd. | Methods and apparatus for seeking within a media stream using scene detection |
| US8925024B2 (en) | 2009-12-31 | 2014-12-30 | The Nielsen Company (Us), Llc | Methods and apparatus to detect commercial advertisements associated with media presentations |
| US8989499B2 (en) * | 2010-10-20 | 2015-03-24 | Comcast Cable Communications, Llc | Detection of transitions between text and non-text frames in a video stream |
| EP2485487A1 (en) * | 2011-02-04 | 2012-08-08 | EgAg Comp.Ltd. | Compression of images in a sequence |
| CN104125477B (zh) * | 2013-04-27 | 2017-08-18 | 华为技术有限公司 | 一种视频帧淡入/淡出检测方法及装置 |
| US9848222B2 (en) | 2015-07-15 | 2017-12-19 | The Nielsen Company (Us), Llc | Methods and apparatus to detect spillover |
Family Cites Families (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS53144621A (en) | 1977-05-24 | 1978-12-16 | Sony Corp | Video signal processing system |
| US4319286A (en) | 1980-01-07 | 1982-03-09 | Muntz Electronics, Inc. | System for detecting fades in television signals to delete commercials from recorded television broadcasts |
| US4325088A (en) | 1980-03-24 | 1982-04-13 | Eastman Technology, Inc. | Lap and dissolve in video cameras with VTR |
| US5189463A (en) | 1992-02-12 | 1993-02-23 | David G. Capper | Camera aiming mechanism and method |
| US5283645A (en) | 1992-02-14 | 1994-02-01 | Intel Corporation | Method and apparatus for detecting dissolve regions in digital video sequences |
| US5245436A (en) | 1992-02-14 | 1993-09-14 | Intel Corporation | Method and apparatus for detecting fades in digital video sequences |
| US5544239A (en) | 1992-12-14 | 1996-08-06 | Intel Corporation | Method and apparatus for improving motion analysis of fades |
| US5416529A (en) | 1994-01-14 | 1995-05-16 | Immix | Method and system for digital video processing with combined downstream keyer and fade to black mixer |
| US5559562A (en) * | 1994-11-01 | 1996-09-24 | Ferster; William | MPEG editor method and apparatus |
| JP3134735B2 (ja) * | 1995-10-06 | 2001-02-13 | トヨタ自動車株式会社 | 移動体用通信制御方法 |
| US5835163A (en) * | 1995-12-21 | 1998-11-10 | Siemens Corporate Research, Inc. | Apparatus for detecting a cut in a video |
| MY118360A (en) * | 1996-04-30 | 2004-10-30 | Nippon Telegraph & Telephone | Scheme for detecting shot boundaries in compressed video data using inter-frame/inter field prediction coding and intra-frame/intra-field coding |
| US5959697A (en) * | 1996-06-07 | 1999-09-28 | Electronic Data Systems Corporation | Method and system for detecting dissolve transitions in a video signal |
| US6195458B1 (en) * | 1997-07-29 | 2001-02-27 | Eastman Kodak Company | Method for content-based temporal segmentation of video |
| US6100940A (en) * | 1998-01-21 | 2000-08-08 | Sarnoff Corporation | Apparatus and method for using side information to improve a coding system |
| US6040875A (en) * | 1998-03-23 | 2000-03-21 | International Business Machines Corporation | Method to compensate for a fade in a digital video input sequence |
-
1998
- 1998-01-07 US US09/004,058 patent/US6459459B1/en not_active Expired - Fee Related
-
1999
- 1999-01-06 EP EP99900129A patent/EP1053635B1/en not_active Expired - Lifetime
- 1999-01-06 DE DE69918533T patent/DE69918533T2/de not_active Expired - Lifetime
- 1999-01-06 WO PCT/JP1999/000011 patent/WO1999035825A1/en not_active Ceased
- 1999-01-06 JP JP2000528081A patent/JP3714871B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| DE69918533D1 (de) | 2004-08-12 |
| JP2002501341A (ja) | 2002-01-15 |
| US6459459B1 (en) | 2002-10-01 |
| DE69918533T2 (de) | 2005-08-25 |
| EP1053635B1 (en) | 2004-07-07 |
| WO1999035825A1 (en) | 1999-07-15 |
| EP1053635A1 (en) | 2000-11-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Meng et al. | Scene change detection in an MPEG-compressed video sequence | |
| JP3714871B2 (ja) | サンプリングされたディジタル動画シーケンス中の推移を検出する方法 | |
| KR100468967B1 (ko) | 썸네일 영상 생성장치 및 방법 | |
| JP4666784B2 (ja) | ビデオシーケンスのキーフレーム抽出方法及びビデオシーケンスのキーフレーム抽出装置 | |
| JP4373606B2 (ja) | 符号化システムを改善するために付随情報を使用する装置及び方法 | |
| US6473459B1 (en) | Scene change detector | |
| CN100493186C (zh) | 操纵数据压缩参量的视频内容分析方法和系统 | |
| US6940910B2 (en) | Method of detecting dissolve/fade in MPEG-compressed video environment | |
| JP3719933B2 (ja) | 階層的ディジタル動画要約及び閲覧方法、並びにその装置 | |
| KR100464075B1 (ko) | 비디오 하이라이트 자동 생성 방법 및 장치 | |
| US20100303150A1 (en) | System and method for cartoon compression | |
| US20010021268A1 (en) | Hierarchical hybrid shot change detection method for MPEG-compressed video | |
| US20150169963A1 (en) | Video importance rating based on compressed domain video features | |
| US20100302453A1 (en) | Detection of gradual transitions in video sequences | |
| JP2000217117A (ja) | 圧縮形式でのデジタル画像表現ビデオデ―タの処理方法 | |
| JP2009512397A (ja) | ビデオストリーミングにおける適応gop構造 | |
| US20090225169A1 (en) | Method and system of key frame extraction | |
| KR20040037104A (ko) | 비디오 비트스트림에서의 씬 컷 검출 | |
| CN101449587A (zh) | 用于视频的场景切换检测 | |
| JP2869398B2 (ja) | カット点検出方法及び装置 | |
| JP3339544B2 (ja) | ディゾルブ検出方法および装置 | |
| KR20020040503A (ko) | 동영상 비디오 스트림의 장면전환 검출방법 | |
| JP2011129979A (ja) | 画像処理装置 | |
| JP3571200B2 (ja) | 動画像データのカット検出装置及び方法及び記録媒体 | |
| JPH09322172A (ja) | カット点検出方法および装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050315 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050516 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050607 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050728 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050823 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050823 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |