[go: up one dir, main page]

AT509032A2 - Verfahren und system zur videoqualitätsschätzung - Google Patents

Verfahren und system zur videoqualitätsschätzung Download PDF

Info

Publication number
AT509032A2
AT509032A2 AT0956106A AT95612006A AT509032A2 AT 509032 A2 AT509032 A2 AT 509032A2 AT 0956106 A AT0956106 A AT 0956106A AT 95612006 A AT95612006 A AT 95612006A AT 509032 A2 AT509032 A2 AT 509032A2
Authority
AT
Austria
Prior art keywords
content
video
quality
motion
motion vector
Prior art date
Application number
AT0956106A
Other languages
English (en)
Other versions
AT509032B1 (de
AT509032A5 (de
Original Assignee
A1 Telekom Austria Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A1 Telekom Austria Ag filed Critical A1 Telekom Austria Ag
Publication of AT509032A2 publication Critical patent/AT509032A2/de
Application granted granted Critical
Publication of AT509032B1 publication Critical patent/AT509032B1/de
Publication of AT509032A5 publication Critical patent/AT509032A5/de

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

• · · · · · · ·
Verfahren und System zur Videoqualitätsschätzung
Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf ein Verfahren und ein System zur Videoqualitätsschätzung, insbesondere für Videosequenzen mit niedriger Auflösung. Solche Videosequenzen mit niedriger Auflösung sind typisch bei Video-Streaming-Anwendungen, z.B. mobilen Video-Streaming-Anwendungen.
Hintergrund der Erfindung
In der WO03/042922 A und der WO03/101121 A ist eine Schätzung der objektiven Qualität von komprimierten Videodaten beschrieben, wobei kein Zugriff auf die Quelldaten möglich ist. Nach Dekomprimieren der Videodaten unter Verwendung von z.B. einem MPEG-Decoder erfolgt eine Bildtypbestimmung, um festzustellen, ob die Decoder-Videodaten intracodiert sind; danach wird eine diskrete Kosinustransformation (DCT) durchgeführt, um DCT-Koeffizienten zu erhalten, und ein durchschnittlicher Quantisierungsfehler wird auf Basis der Varianz der DCT-Koef f izienten ermittelt, und dieser Quantisierungsfehler wird zur Berechnung eines Spitzen-Signal-Rausch-Verhältnisses (PSNR -peak signal to noise ratio) verwendet.
Gemäß der W02006/043500 A werden zeitliche/räumliche Charakteristika einerseits von einer verschlechterten Videosequenz und andererseits von einem Referenz-Videosignal hergeleitet, und für die Qualitätsschätzung wird die Menge an zeitlichen/räumlichen Charakteristika entsprechend der Beziehung zwischen dem verschlechterten Video und dem subjektiven Bewertungswert des Nutzers gewichtet.
Beim mobilen Video-Streaming werden niedrige Auflösungen und niedrige Bitraten verwendet. Übliche Auflösungen sind Quarter Common Intermediate Format (QCIF, 176x144 Pixel) für Mobiltelefone, Common Intermediate Format (CIF, 352x288 Pixel) und Standard Interchange Format (SIF, 320x240 Pixel) für Datenkarten und Palmtops (PDA). Der verpflichtende Codec für UMTS-(Universal Mobile Telecommunications System)-Streaming-Anwendungen ist H.263, die 3GPP Ausgabe Nr. 6 unterstützt aber bereits eine Grundlinienprofil des H.264/AVC-Codec. Die entsprechenden Encoder-Einstellungen für UMTS-Streaming-Dienste unterscheiden sich für unterschiedliche Streaming-Inhaltstypen bzw. Streaming-Anwendungen (Auflösung, Codec). Im UMTS werden Bearer mit 64-384 kbit/s für Multimedia-Streaming (Audio und Video) verwendet. Mobile Terminals haben eine beschränkte Komplexität und Kapazität, so dass das Decodieren von höherqualitativen Videos eine ziemliche Herausforderung darstellt. Es kann davon ausgegangen werden, dass die am meisten unterstützten Video-Bitraten für die QCIF-Auflösung 105 kbit/s und für die CIF- und SIF-Auflösung 200 kbit/s betragen.
In den letzten Jahren wurden mehrere objektive Metriken für die perzeptuelle Videoqualitätsschätzung vorgeschlagen. Die vorgeschlagenen Metriken können in zwei Hauptgruppen unterteilt werden: das menschliche Visionsmodell, das auf Video-Metriken basiert, siehe beispielsweise Winkler S. et al., „Video Quality Evaluation for Mobile Applications", Proc. of SPIE Conference on Visual Communications and Image Processing, Band 5150 (2003), S. 593-603, und Metriken, die nur auf den objektiven Videoparametern beruhen, siehe z.B. Kusuma T.M. et al., „On the Development of a Reduced-Reference Perceptual Image Quality Metrie", Proc. of the 2005 Systems Communications (ICW05), (2005), S. 178-184. Die Komplexität dieser Verfahren ist ziemlich hoch, und ihre Berechnung erfordert eine enorme Rechenleistung. Diese Metriken sind für Breitband-Videorundfunkdienste konzipiert und berücksichtigen keine mobilen Video-Streaming-Szenarios. Außerdem sind Techniken wünschenswert, die nicht die (nicht komprimierte) Originalsequenz für die Schätzung der Qualität benötigen, so dass die Komplexität reduziert und gleichzeitig die Möglichkeiten der Qualitätsvorhersagebereitstellung erweitert werden können. Es wäre somit ein objektives Maß für die Videoqualität wünschenswert, das einfach genug für die Berechnung in Echtzeit auf der Senderseite ist. Die vorliegende Erfindung beruht auf der Erkenntnis, dass die Komplexität der Videoqualitätsschätzung dann niedrig gehalten werden kann, wenn der Charakter des Videoinhalts aufgrund seiner inhaltlichen Abhängigkeit von subjektiver Videoqualität geschätzt wird.
Zusammenfassung der Erfindung
Dementsprechend ist es ein Ziel der vorliegenden Erfindung, ein Verfahren und ein System zur Videoqualitätsschätzung zur Verfügung zu stellen, wobei eine schnelle Echtzeit-Schätzung mit geringer Komplexität möglich ist.
Zur Lösung dieses Problems sieht die vorliegende Erfindung ein Verfahren und ein System mit den Merkmalen der unabhängigen Patentansprüche vor. Bevorzugte und vorteilhafte Ausführungsformen sind in den ünteransprüchen definiert.
Mit der vorliegenden Technik ist eine einfache, effiziente und schnelle Schätzung der Videoqualität für Videosequenzen mit niedriger Auflösung möglich, die für (mobile) Video-Streaming-Anwendungen typisch sind. Da die von Nutzern wahrgenommene Videoqualität erheblich von den räumlichen (Ränder, Farben, ...) und zeitlichen (Bewegungsgeschwindigkeit, Richtung, ...) Merkmalen der Videosequenz abhängt, beruht die vorliegende Erfindung gemäß einem ersten Aspekt auf einem zweistufigen Ansatz zur Qualitätsschätzung. Zuerst werden Aufnahmen zwischen zwei Szenewechseln analysiert und ihre Inhaltsklasse herausgefunden. Als zweites erfolgt die Qualitätsschätzung auf Basis der Inhaltsklasse, der Framerate (Frame-(Teil-)Bild) und der Bitrate. Zur Bestimmung der jeweiligen Inhaltsklassen sind ein Inhaltsklassifizierer sowie eine entsprechende Wahl der Inhaltsklassen und ihrer Charakteristika vorgesehen. Darüber hinaus beruht das Konzept von Qualitätsmetrik auf dem durch eine Umfrage erhaltenen mittleren Meinungswert. Die Ergebnisse eines Vergleichs der vorliegenden Technik mit mehreren üblichen Verfahren zeigte, dass der vorgeschlagene Ansatz ein leistungsfähiges Mittel zur Schätzung der Videoqualität bietet, die von Nutzern von Diensten für Video-Streaming mit niedriger Auflösung wahrgenommen werden.
Gemäß einem anderen Aspekt bietet die Erfindung eine Qualitätsschätzung einfach auf Basis des Bewegungscharakters, der durch das Ausmaß und die Richtung der Bewegung zwischen zwei Szeneänderungen festgelegt wird. Das Konzept der Qualitätsmetrik beruht dabei auf inhaltsadaptiven Parametern, die eine inhaltsabhängige Videoqualitätsschätzung, nämlich entsprechend diesem speziellen Aspekt, auch ohne separate Bestimmung einer entsprechenden Inhaltsklasse gestatten.
Bei der Klassifizierung des Inhalts der Videosequenz ist es zur Erhöhung der Genauigkeit von Vorteil, bei der Bestimmung der jeweiligen Inhaltsklasse auch Farbmerkmale zu bewerten. Weiters ist es aus Effizienzgründen nützlich, wenn die entsprechende Inhaltsklasse am Sender ermittelt wird und Inhaltsklassendaten an einen Empfänger signalisiert werden, wo die Qualitätsschätzung für die jeweilige Inhaltsklasse durchgeführt wird. In diesem Zusammenhang ist es zur Durchführung der Qualitätsschätzung ferner von Nutzen, wenn nur am Decoder auf der Empfängerseite verfügbare Parameter verwendet werden.
Wie bereits oben ausgeführt, besteht ein spezielles Merkmal der Erfindung hinsichtlich der Erzielung einer schnellen und stabilen Qualitätsschätzung in der Verwendung von Bewegungscharakteristika der Videosequenz, und diese Bewegungscharakteristika können auch bei der Bestimmung der jeweiligen Inhaltsklasse genutzt werden. Dabei können den Bewegungscharakteristika Bewegungsvektorstatistiken zugrunde gelegt werden, wo im Prinzip verwendbare Algorithmen an sich bekannt sind.
Was die Parameter anlangt, die zur Durchführung der Qualitätsschätzung herangezogen werden, ist es von besonderem Vorteil, wenn die Bitrate und/oder die Framerate der Videodaten zur Durchführung der Qualitätsschätzung verwendet wird.
Was die zur inhaltsabhängigen Qualitätsschätzung verwendeten Bewegungscharakteristika betrifft, so können die Bewegungsgleichmäßigkeit, die Bewegungshorizontalität, das Nullbewegungsvektorverhältnis, die mittlere Bewegungsvektorgröße und/oder das Verhältnis der Bewegungsvektorabweichung herangezogen werden, wobei die Definitionen zu den oben genannten spezifischen Bewegungscharakteristika nachstehend angeführt sind.
Insbesondere wurde für die direkte Qualitätsschätzung auf Basis der inhaltsabhängigen Bewegungscharakteristika gefunden, dass ein nichtlineares Modell von besonderem Nutzen für die Durchführung der Qualitätsschätzung ist. Dabei wird bevorzugt, dass die Qualitätsschätzung auf der Gleichung MOS = f(BR,Z,S,N,U) basiert, worin
MOS
BR
Z
S
N
U der mittlere Meinungswert (mean opinion scare), die Bitrate, das Nullbewegungsvektorverhältnis innerhalb einer Aufnahme, das Verhältnis der Bewegungsvektorabweichung innerhalb einer Aufnahme, die mittlere Bewegungsvektorgröße innerhalb einer Aufnahme und die Bewegungsgleichmäßigkeit innerhalb einer Aufnahme • · • · • ··· • · -*5 **
Eine besonders vorteilhafte universelle Metrik für alle Inhalte basierend auf den definierten Bewegungsparametern und auf der Bitrate ist möglich, wenn die Qualitätsschätzung auf der Gleichung ^OS=a+b*BR+c-Z+d,Se+f-N2+g,ln(U)+lrS,N basiert, worin
MOS BR Z S N U a, b, der mittlere Meinungswert, die Bitrate, das Nullbewegungsvektorverhältnis innerhalb einer Aufnahme, das Verhältnis der Bewegungsvektorabweichung innerhalb einer Aufnahme, die mittlere Bewegungsvektorgröße innerhalb einer Aufnahme, die Bewegungsgleichmäßigkeit innerhalb einer Aufnahme, und c, d, e, f, g und h empirisch ermittelte metrische Koeffizienten sind.
Im Fall einer Inhaltsklassenbestimmung ist es vorteilhaft, wenn die Qualitätsschätzung auf der Gleichung MOS = f (BR, FR, Content _ Class) basiert, worin MOS der mittlere Meinungswert BR die Bitrate und FR die Framerate sind. Vorzugsweise basiert die Qualitätsschätzung auf der Gleichung MÖS=A+B BR+-^+ D FR+-^ , worin A, B, C, D und E empirisch ermittelte metrische Koeffizienten sind.
Was das vorliegende System zur Schätzung der Qualität einer Videosequenz, insbesondere Video-Streaming-Anwendungen, betrifft, so wird bevorzugt, dass ein solches System einen Inhaltsklassifizierer aufweist, der zur Bewertung des Inhalts der jeweiligen Videosequenz und zur Bestimmung einer zugehörigen Inhaltsklasse aus einer Gruppe von vorherbestimmten Inhaltsklassen eingerichtet ist; weiters ist ein metrisches Modul vorgesehen, das zur Durchführung einer Qualitätsschätzung auf Basis von an sich bekannten Statistiken für die zugehörige Inhaltsklasse eingerichtet ist. Das metrische Modul ist vorzugsweise zur Durchführung der Qualitätsschätzung für die zugehörige Inhaltsklasse auf Basis der Bitrate und der Framerate ein- gerichtet. Um die jeweilige Inhaltsklasse auf effiziente Weise bestimmen zu können, weist der Inhaltsklassifizierer vorzugsweise einen Szenenwechseldetektor auf, so dass die Inhaltsklasse für jede Videoaufnahme oder jedes Videobild ermittelt werden kann.
Vorzugsweise weist der Inhaltsklassifizierer eine Einheit zur Berechnung des Bewegungsvektors und eine damit verbundene Einheit zur Extraktion von Bewegungsvektormerkmalen auf, um der Bestimmung der Inhaltsklasse die Bewegungsvektorcharakteristika zugrunde zu legen. Weiters kann der Inhaltsklassifizierer zur Verbesserung der Genauigkeit eine Einheit zur Extraktion von Farbmerkmalen aufweisen.
Der Inhaltsklassifizierer ist vorzugsweise auf der Senderseite angeordnet, wogegen das metrische Modul auf der Empfängerseite angeordnet ist.
Ein besonderer Vorteil der vorliegenden Technik besteht darin, dass kein Referenzbild benötigt wird. Weiters können die zur Qualitätsschätzung verwendeten Parameter der jeweiligen Modelle einfach empirisch durch Tests mit Personen erhalten werden.
Weitere Ziele, Merkmale und Vorteile der Erfindung gehen aus der folgenden Beschreibung in Verbindung mit den angeschlossenen Zeichnungen hervor, die sich auf bevorzugte Ausführungsbeispiele der Erfindung beziehen, auf welche die Erfindung jedoch nicht einzuschränken ist.
Kurze Beschreibung der Zeichnungen
In den Zeichnungen zeigen:
Fig. 1 schematisch eine Konzeption für einen bevorzugten Inhaltsklassifizierer als Teil des erfindungsgemäßen Systems;
Fig. 2 in seinen Teilen Fig. 2A und Fig. 2B Modell-ECDFs (ECDF - empirical cumulative distribution function = empirische kumulative Verteilungsfunktion) über der Bewegungsgleichmäßigkeit (Fig. 2A) bzw. dem Nullbewegungsvektorverhältnis (Fig. 2B) für vier Inhaltsklassen #1 bis #4;
Fig. 3 schematisch ein System zur Videoqualitätsschätzung gemäß einer bevorzugte Ausführungsform der Erfindung;
Fig. 4 Ergebnisse der Hauptkomponentenanalysen (PCA -principle component analyses) für alle (fünf) Inhaltsklassen in Bezug auf zwei Komponenten 1 und 2;
Fig. 5 ein Diagramm, das die Beziehung zwischen geschätzten
• · • · · · • ··· · • · · · • · · · ·· ···· MOS-Ergebnissen und subjektiven MOS-Ergebnissen darstellt (MOS -Mean Opinion Score = mittlerer Meinungswert);
Fig. 6 ein Diagramm der PCA-Ergebnisse ähnlich Fig. 4, aber nunmehr für die Ausführungsform, bei der die Ergebnisse für alle Inhaltsklassen gelten, was bedeutet, dass nunmehr vor der Schätzung bestimmte Inhaltsklassen bestimmt werden; und
Fig. 7 ein Diagramm ähnlich Fig. 5 bezüglich der geschätzten und subjektiven MOS-Ergebnisse für den Fall der Fig. 6. Für Streaming-Dienste ist es wesentlich, ein erforderliches Niveau an Kundenzufriedenheit aufgrund der wahrgenommenen Video-Streamqualität zu schaffen. Es ist daher wichtig, die Kompressionsparameter und Netzeinstellungen so zu wählen, dass sie die Qualität des Endnutzers maximieren. Dank einer signifikanten Videokompressionsverstärkung kann der neueste Videocodierstandard H.264/AVC Video-Streaming für niedrige Bit- und Frameraten unter Beibehaltung der Wahrnehmungsqualität vorsehen. Das eignet sich besonders für Videoanwendungen in 3G-Drahtlos-netzen. Die Grundlage für solche Parameter und Einstellungen liegt in einer entsprechenden Schätzung der Videoqualität, und die vorliegende Technik bezweckt eine Schätzung der Videoqualität, insbesondere von mobilem Video-Streaming, auf Nutzerniveau (Wahrnehmungsqualität der Versorgung) für jegliche Codec-Einstellungen im 3G-Netz od. dgl. und für jegliche Videoinhaltstypen. Insbesondere wird auf eine Erkennung der signifikantesten Inhaltstypen abgezielt, um die Videoqualität von mobilem Video-Streaming auf Nutzerniveau (Wahrnehmungsqualität der Versorgung) zu schätzen und die geeignetsten Codec-Einstellungen für diese häufigen Inhaltstypen zu eruieren.
Die visuelle Wahrnehmung von Videoinhalten durch den Menschen wird durch den Charakter der beobachteten Sequenz bestimmt. Daher wird bei der vorliegenden Technik bevorzugt zwischen verschiedenen inhaltlichen Charakteren/Klassen unterschieden, weil diese die subjektive Qualität stark beeinflussen. Der Charakter einer Sequenz kann durch das Ausmaß der Ränder (räumliche Information) in den einzelnen Teilbildern (Frames) und durch die Art und Richtung der Bewegung (zeitliche Information) beschrieben werden. Die Datenrate der zu prüfenden Videosequenz wird von der Anzahl an Frames pro Sekunde geteilt. Höhere Frameraten resultieren in einer geringeren Menge an räumlichen Informationen in einzelnen Bildern und eventuell in so manchen Kompressionsartefakten. Somit kann bei der Heranziehung der Datenrate als objektiver Parameter entweder die räumliche oder die zeitliche Information betrachtet werden. Im Stand der Technik, siehe z.B. Kusama T.M. et al., „On the Development of a Reduced-Reference Perceptual Image Quality Metrie", Proc. of the 2005 Systems Communications (ICW05), (2005), S. 178-184, liegt der Schwerpunkt in erster Linie bei der räumlichen Information. Ein solcher Ansatz kommt in erster Linie von der Qualitätsschätzung von Standbildern. Besonders bei kleinen Auflösungen und nach der Anwendung von Kompression spielt jedoch nicht nur die Bewegungsgeschwindigkeit (die die Kompressionsrate am meisten beeinflusst), sondern auch die Art der Bewegung eine bedeutende Rolle bei der Nutzerwahrnehmung. Daher wird der Fokus bevorzugt auf Bewegungsmerkmale der Videosequenzen gelegt, die die wahrgenommene Qualität bestimmen.
In Fig. 1 ist die Ausbildung eines Inhaltsklassifizierers 1 gezeigt, wobei eine Original-Videosequenz bei 2 einem Szenenwechseldetektor 3 zugeführt wird, an den einerseits eine Einheit 4 zur Berechnung des Bewegungsvektors (MV - motion vector) und andererseits eine Einheit 5 zur Extraktion von Farbmerkmalen angeschlossen sind. Eine Einheit 6 zur Extraktion von Bewegungs-vektormerkmalen ist der Einheit 4 zur Berechnung des Bewegungsvektors nachgeschaltet, und ihr Ausgang ist an eine Einheit 7 zur Schätzung der Inhaltsklasse angeschlossen, die auch mit der Einheit 5 zur Extraktion von Farbmerkmalen verbunden ist und an ihrem Ausgang bei 8 die entsprechenden Inhaltsklassen liefert.
Diesbezüglich wird nachstehend eine genauere Erörterung des Aufbaus und der Funktion des Inhaltsklassifizierers 1 angeführt: 1) Szenenwechseldetektor 3: Ein Videostream 2 kann aus einer Mehrzahl von verschiedenen Szenen mit unterschiedlichen Inhalten, räumlichen und zeitlichen Informationen bestehen (d.h. eine typische Videosequenz für Nachrichten besteht aus einigen Aufnahmen des Moderators und verschiedenen Aufnahmen für die Reportage der beschriebenen Ereignisse). Da jede Aufnahme einer Sequenz einen anderen inhaltlichen Charakter haben kann, ist das Splitten eines Videos in seine grundlegenden zeitlichen Einheiten - Aufnahmen - ein erster Schritt im Prozess der Videoinhaltsklassifizierung aufgrund der Veränderung der Inhalte von Aufnahmen innerhalb einer Sequenz. Eine Aufnahme ist eine Serie von mit einer Kamera aufgenommene Videobildern (z.B. Heranzoomen oder Wegzoomen eines Gegenstands, Entlangschwenken an einer Landschaft etc.)· Zwei aufeinander folgende Aufnahmen sind voneinander durch eine Aufnahmegrenze getrennt, die abrupt oder allmählich sein kann. Während eine abrupte Aufnahmegrenze (Schnitt) durch einfaches Anhängen einer Aufnahme an eine andere ohne Modifikation derselben erzeugt wird, ist eine allmählich Aufnahmegrenze das Ergebnis einer vorgenommenen Bearbeitung zur Verbindung zweier Aufnahmen.
Das für den vorliegenden Zweck geeignetste Verfahren mit geringer Komplexität ist eine Szenenwechseldetektion basierend auf einer dynamischen Schwelle, wie aus Dimou A. et al., „Scene Change Detection for H.264 Using Dynamic Threshold Techniques", Proc. of the 5th EURASIP Conference on Speech and Image Processing, Multimedia Communications and Service, (2005), an sich bekannt ist. Das Verfahren kann auf den vorliegenden Zweck abgestimmt werden: die Koeffizienten der Schwellenfunktion werden modifiziert und zehn aufkommende Frames werden zusätzlich berücksichtigt. Der Szenenwechseldetektor 3 arbeitet mit einer Präzision und Trefferrate von über 97%. Eine derartige Genauigkeit ist mehr als zufriedenstellend für den vorliegenden Zweck der Inhaltsklassifizierung. 2) Bewegungsvektoreinheit 4: Der Block aus dem aktuellen Bild, für den ein übereinstimmender Block gesucht wird, ist als Zielblock bekannt. Die entsprechende Differenz der Stellen zwischen dem übereinstimmenden Block und dem Zielblock ist als Bewegungsvektor (MV) bekannt. Wird der übereinstimmende Block an derselben Stelle wie der Zielblock gefunden, dann beträgt die Differenz Null und der Bewegungsvektor ist als Nullvektor bekannt.
Die Differenz zwischen Zielblock und übereinstimmendem Block steigt (etwa linear) mit der Größe der Blöcke/ kleinere Blöcke beschreiben die tatsächliche Bewegung im Bild besser. Andererseits impliziert eine Steigerung der objektiven Genauigkeit nicht immer eine bessere Leistung. Es wurde beobachtet, dass bei der Wahl von zu kleinen Blöcken die resultierenden Bewegungsvektoren die Bewegung nicht mehr so wiedergeben, wie sie vom Zuschauer wahrgenommen wird. Aufgrund der unvermeidbaren Anwesenheit von Rauschen in Videosequenzen und der Besonderheiten des menschlichen Sehsystems geschieht es, dass zwar eine • · · • · · · · • · · · ··· • · ·
• · · · · ···· ·· ··
Bewegung festgestellt, von einem menschlichen Zuschauer aber nicht gesehen wird. Ein derartiges Verhalten ist für die vorliegende Technik nicht wünschenswert. Nach mehreren Versuchen mit Videos unterschiedlichen Charakters wurde gefunden, dass eine Blockgröße von 8x8 Pixel ein guter Kompromiss für QVGA-Auflösungssequenzen wäre. Die 320x240 Pixel werden in 30x40-Blöcke unterteilt, was eine Gesamtzahl von 1200 MVs pro Frame ergibt.
Der zweite Teil des Prozesses, nämlich jener mit eher hohem Zeit- und Mittelaufwand, ist die Blockübereinstimmung. Jeder Block im aktuellen Frame wird mit einem bestimmten Suchbereich im vergangenen Frame verglichen, um einen übereinstimmenden Block zu finden. Dieser Vorgang kann nur an der Leuchtdichtekomponente des Frames durchgeführt werden. Dabei muss ein übereinstimmendes Kriterium verwendet werden, um die Ähnlichkeit zwischen dem Zielblock und den Kandidatenblöcken zu quantifizieren. Aufgrund der Einfachheit und guten Leistungsfähigkeit wird bevorzugt, die Summe aus den absoluten Differenzen (SAD - sum of absolute differences) zu verwenden, die als pixelmäßige Summe der absoluten Differenzen zwischen den zwei verglichenen Blöcken berechnet wird:
SAD
(1) worin Bn und Bm die beiden Blöcke mit der Größe NxM sind und i und j Pixelkoordinaten bezeichnen. Wird mehr als ein SAD-Minimum nachgewiesen, kommt die Priorität jenem übereinstimmenden Block zu, dessen Position jener des Zielblocks am ähnlichsten ist, oder, in gleichwertiger Weise, dem Bewegungsvektor mit der geringsten Größe. 3) Extraktion von Sequenzbewegungs- und Farbparametern (Einheiten 6;5):
Nach Erhalt der Bewegungsvektoren muss die Information über die Bewegung (Bewegungsmerkmale) in der Sequenz extrahiert werden, und das erfolgt in der Einheit 6. Der statische oder dynamische Charakter einer Sequenz ist einer der Hauptgründe für die Unterschiede in der wahrgenommenen Qualität. Dabei ist beabsichtigt, nicht nur eine Klassifizierung hinsichtlich „statischer Sequenzen" und „dynamischer Sequenzen" vorzunehmen, sondern diesen Aspekt auch gründlicher zu untersuchen und ····· · * · « • · · · ··· · · ··· • ·· · · · ··» · ·· ·· ·· · · · · - 11 - .......... typische Niveaus der Bewegungsmenge für jede Hauptinhaltsklasse zu bestimmen. Die Gesamtbewegungsmenge oder auch das Fehlen von Bewegung in einem Bild ist auf Basis des Anteils von Blöcken mit Nullvektoren, d.h. Blöcken, die sich von einem Frame zum anderen nicht bewegen, leicht abzuschätzen. Daher ist der durchschnittliche Anteil an statischen Blöcken in einer Sequenz von Frames sehr nützlich, wenn zwischen Inhalten mit typischen unterschiedlichen Gesamtbewegungs-„Niveaus" unterschieden werden soll.
Die Länge eines jeweiligen Bewegungsvektors zeigt an, wie weit sich der Block von einem Frame zum nächsten bewegt hat, und sein Winkel liefert die Information, in welcher Richtung diese Bewegung erfolgt ist. Daher ist die mittlere Bewegungsvektorgröße in einem Frame oder einer Framesequenz ein Indikator dafür, wie schnell die Gesamtbewegung vor sich geht.
Andererseits erscheint die genaue Kenntnis der Richtung, in welche die Bewegung erfolgt, für die vorliegende Schätzung ziemlich unnötig bzw. überflüssig. Andererseits ist die Feststellung einer Hauptbewegungsrichtung, die einem großen Anteil von in dieselbe Richtung weisenden Bewegungsvektoren entspricht, eine wertvolle Information. Es kann somit davon ausgegangen werden, dass die Analyse der Verteilung von Größe und Winkel der Bewegungsvektoren wesentliche Informationen über den Charakter der Bewegung in der Sequenz liefern kann. So kam ein Satz von statistischen Berechnungen zu den Bewegungsvektoren zur Anwendung, um deren Signifikanz zu untersuchen und herauszufinden, welche Merkmale zur Identifizierung von perzeptuellen Inhaltstypen herangezogen werden können.
Schließlich können der Inhaltsklassifizierung (siehe Einheit 7) die folgenden statistischen und auflösungsabhängigen Merkmale von Bewegungsvektoren innerhalb einer Aufnahme (über alle Frames der analysierten Sequenz) zugrunde gelegt werden: . Null-MV-Verhältnis z:
Dieses Verhältnis z ist der Prozentanteil von Nullbewegungsvektoren in einem Bild. Es ist der Anteil des Frames, der sich zwischen zwei aufeinanderfolgenden Frames überhaupt nicht (oder nur kaum) ändert. Es entspricht üblicherweise dem Hintergrund, wenn die Kamera innerhalb einer Aufnahme statisch ist. . Mittlere MV-Größe n:
Mit n wird der Anteil der mittleren Größe der Nichtnull-Bewegungsvektoren innerhalb eines Frames, normalisiert auf die 1 ····· ·· ·· • · · · ··· · · ... • · · · · . . • · *..* *..* * · · · · - 12 - ......
Bildschirmbreite und ausgedrückt in Prozent, bezeichnet. Dieser Parameter n bestimmt die Menge der globalen Bewegung. . Bewegungsgleichmäßigkeit u
Der Parameter u ist der Prozentanteil an Bewegungsvektoren, die im Frame in die vorherrschende Richtung (die häufigste Richtung von Bewegungsvektoren) weisen. Für diesen Zweck kann die Granularität der Richtung auf 10° eingestellt werden. . Bewegungshorizontalität h:
Die Horizontalität ist als Prozentanteil von Bewegungsvektoren definiert, die in die horizontale Richtung weisen. Horizontale Bewegungsvektoren haben die Intervalle (-10;10)° oder (170;190)°.
Zur Steigerung der Genauigkeit des Inhaltsklassifizierers 1 können Farbmerkmale in Betracht gezogen werden, siehe Einheit 5. Farbhistogramme liefern zusätzliche Informationen über den räumlichen Sequenzcharakter, weil sich bei unterschiedlichen Inhaltstypen auch die Tiefe und die Helligkeit der Farben voneinander unterscheiden. Fußballsequenzen enthalten beispielsweise eine Menge variierender Grünfarben, während Trickfilmsequenzen eigene satte Farben aufweisen. Diese Eigenschaft hat bedeutende Auswirkungen auf die Kompressions- und Übertragungsartefakte. Daher können die folgenden Parameter verwendet werden:
. Grünanteil G
Der Grünanteil G ist als Prozentanteil von grünen Pixels in einem Frame definiert. Zu diesem Zweck kann der RGB-Farbraum in zwei Bits pro Farbkomponente hinuntergesampelt werden, was in 64 Farben resultiert. Fünf Farben von den 64 Farben decken alle Grünvarianten ab.
Vorzugsweise werden fünf Inhaltsklassen #1 bis #5 identifiziert, die auf den oben definierten Inhaltsmerkmalen basieren. Weiters werden nunmehr Beispiele für Entscheidungsalgorithmen zur automatischen Inhaltsklassifizierung offenbart und bewertet. Für die Inhaltsklassifikation von mobilem Video-Streaming können die fünf häufigsten Inhaltsklassen mit verschiedenen Auswirkungen auf die Nutzerwahrnehmung wie folgt definiert werden: i i % 1) Inhaltsklasse #1 (z.B. Nachrichten): Die Inhaltsklasse #1 enthält Sequenzen mit einem kleinen sich bewegenden interessierenden Bereich (Gesicht) auf einem statischen Hintergrund.
Die Bewegung im interessierenden Bereich (ROI - region of interest) wird hauptsächlich nur durch Bewegungen der Augen, des Mundes und des Gesichts bestimmt. Der ROI deckt etwa 15% der Bildschirmfläche ab. 2) Inhaltsklasse #2 (z.B. Fußball): Die Inhaltsklasse #2 enthält Weitwinkelsequenzen mit gleichmäßiger Kamerabewegung (Schwenken). Die Kamera verfolgt z.B. einen kleinen, sich rasch bewegenden Gegenstand (Ball) am gleichmäßig (z.B. typischerweise grün) gefärbten Hintergrund. 3) Inhaltsklasse #3 (z.B. Trickfilm): In der Inhaltsklasse #3 dominiert die Bewegung von Objekten und der Hintergrund ist üblicherweise statisch. Es gibt fast keine globale Bewegung aufgrund des künstlichen Ursprungs der Filme (keine Kamera). Der Gegenstand der Bewegung hat keinen natürlichen Charakter. 4) Inhaltsklasse #4 (z.B. Panorama): Die Inhaltsklasse #4 enthält globale Bewegungssequenzen, die mit einer Weitwinkel-Schwenkkamera aufgenommen werden. Die Kamerabewegung erfolgt gleichmäßig und in einer einzigen Richtung. 5) Inhaltsklasse #5 (Rest): Die Inhaltsklasse #5 enthält viel globale und lokale Bewegung bzw. rasche Szenewechsel. Szenen, die kürzer als drei Sekunden dauern, fallen auch in die Inhaltsklasse #5. Die Inhaltsklasse #5 umfasst Szenen, die in keine der vorherigen vier Klassen passen.
Es wäre möglich, den Inhalt auf Basis von Schwellen zu klassifizieren, das ist jedoch ein beschränktes und nicht so genaues Verfahren zum Bewerten von größeren Datenmengen, und es wird vorzugsweise ein komplexeres und verlässlicheres Verfahren auf Basis von Hypothesetests verwendet. Jede der beschriebenen Inhaltsklassen wird durch eindeutige statistische Bewegungsmerkmale und Farbparameter festgelegt (siehe Fig. 2). Aufgrund der eindeutigen statistischen Merkmale gut definierter Inhaltsklassen ist es nicht notwendig, M-wertige Hypothesetests durchzuführen, und es reicht, eine Nullhypothese (HO) für jede Inhaltsklasse auf Basis dieser statistischen Merkmale separat zu formulieren. Da die Verteilungen von untersuchten Parametern nicht gut in eine der bekannten Verteilungsfunktionen passen, wird die Sequenz als Inhaltsklasse Nr. 5 klassifiziert. Für die vorliegende hypothetische Bewertung wird ein Verfahren bevorzugt, das mit empirischen Verteilungen (Stichproben) arbeiten kann. Das hierzu am besten geeignete Verfahren ist nicht • · · · · · · ·· • · · · ·«· · · ···
• # · · ' · * i I I -ΥΓ”’’··’·5·· ···· parametrisch und verteilungsfrei: der Kolmogorov-Smirnov-(KS)-Test, vgl. Bosch K., "Statistik-Taschenbuch", Oldenbourg Wissensch. Vlg., (1998). Der KS-Test wird zur Bestimmung verwendet, ob sich zwei zugrunde liegende Wahrscheinlichkeitsverteilungen voneinander unterscheiden, oder ob sich eine zugrunde liegende Wahrscheinlichkeitsverteilung von einer hypothetisierten Verteilung unterscheidet, in beiden Fällen anhand von endlichen Beispielen. Der KS-Test mit zwei Stichproben ist eines der nützlichsten und allgemeinsten nicht parametrischen Verfahren zum Vergleichen zweier Stichproben, da es empfindlich auf Unterschiede sowohl hinsichtlich Lage als auch Gestalt der empirischen kumulativen Verteilungsfunktionen der beiden Stichproben reagiert. Die empirischen kumulativen Verteilungsfunktionen (ECDF - empirical cumulative distribution functions) werden aus der typischen Sequenzgruppe für jede Inhaltsklasse erhalten. In einem praktischen Test wurden Modell-ECDFs aus einer Gruppe von 142 typischen Sequenzen abgeleitet. Jede Inhaltsklasse wird mit fünf Modell-ECDFs (Null-MV-Ver-hältnis, mittlere MV-Größe, Bewegungsgleichmäßigkeit, Bewegungs-horizontalität, Grünanteil) beschrieben, die der jeweiligen H0-Hypothese entsprechen. Weiters ist es notwendig, die maximale Abweichung (Dcc max) innerhalb einer Inhaltsklasse für alle Parameter (für jede Modell-ECDF) zu eruieren. Wenn Fn(x) die Modell-ECDF und F(x) die ECDF der untersuchten Sequenz sind, dann kann die maximale Differenz Dn zwischen Fn(x) und F(x) wie folgt geschrieben werden:
Dn=maxxl|F„(x)-F(x)|| (2)
Die Schätzung der Inhaltsklasse basiert auf einem binären Hypothesetest innerhalb der ersten vier Inhaltsklassen. Beim KS-Test werden die ECDFs der untersuchten Sequenz und alle Modell-ECDFs der ersten vier Inhaltsklassen verglichen. Der KS-Test vergleicht fünf ECDFs (mit definiertem MV oder definierten Farbparametern) von durch die HO-Hypothese spezifizierten, definierten Inhaltsklassen mit allen fünf ECDFs des untersuchten Inhalts. Ist die erhaltene Dn für alle Parameter und der (ersten vier) Inhaltsklassen kleiner als Dcc max für jeden Parameter, dann stimmt die untersuchte Sequenz mit dieser Inhaltsklasse überein. • · • · • · • · • ··· • · • ··· t * - 15 -
Passen die ECDFs der untersuchten Sequenz zu keiner der ersten vier Inhaltsklassen, entscheidet sich der Inhalts-klassifizierer 1 (s. Fig. 1) für die restliche Inhaltsklasse #5. Der Klassifizierer 1 schätzt den Inhalt auf der Senderseite aufgrund der ursprünglichen Sequenz.
In Fig. 2 sind Beispiele für Modell-ECDFs wie oben beschrieben für die Bewegungsgleichmäßigkeit u (Fig. 2A) bzw. das Null-MV-Verhältnis z (Fig. 2B) in Bezug auf die Inhaltsklassen #1, #2, #3 und #4 gezeigt.
Die Leistungsfähigkeit des Inhaltsklassifizierers 1 wurde mit Hilfe zweier Parameter bewertet. (1) Eine falsche Detektion spiegelt das Verhältnis einer unrichtigen Detektion einer Inhaltsklasse für den Fall wider, dass untersuchte Sequenzen zu einer anderen Inhaltsklasse gehören. (2) Eine gute Übereinstimmung spiegelt das Verhältnis einer erfolgreichen Klassifizierung von untersuchten Sequenzen wider, wenn die untersuchten Sequenzen zu einer der ersten vier Klassen gehören. Es sei bemerkt, dass es bei den Testsequenzen fast immer nur Schnitte und keine allmählichen Veränderungen gibt. Der Szenenwechseldetektor 3 war empfindlich bei allmählichen Aufnahmegrenzen (Auflösen, Verblassen, Löschen). Wie aus der folgenden Tabelle I ersichtlich, liegt die erzielte Genauigkeit des Inhaltsklassifizierers 1 bei 98%, was ein zufriedenstellendes Ergebnis für weitere Qualitätsschätzungen ist.
Tabelle 1:
Inhaltsklasse Falsche Detektion [%] Gute Übereinstimmung [%] 1 0 97 2 0 100 3 5, 6 92 4 0 100 Sequenzanzahl 786 98 Für die Tests wurden zwei Gruppen zu je fünf Videosequenzen mit einer Dauer von jeweils 10 Sekunden und SIF-Auflösung gewählt. Alle Sequenzen waren mit einem H-264-Grundlinienprofil lb codiert. Für die subjektive Qualitätsprüfung wurden die in Ϊ • # · · · · · • ··· • · • · · · ··· · • Ο · * fe · • · t « · · · - 1*6 -
Tabelle II gezeigten Kombinationen aus Framerate (FR) und Bitrate (BR) verwendet. Insgesamt gab es 36 Kombinationen.
Tabelle II FR [fps]/BR [kbit/s] 24 50 56 60 70 80 105 5 Ne, Ca Vi Ne, Ca Ne 7,5 Ne, Ca Ne, Ca Vi Vi Ne, So, Vi 10 Ne, Ca Ne, Ca Vi Vi Ne, So, Vi 15 Ne Ne Vi Ne, So, Vi (Ne-Nachrichten; Ca-Trickfilm; So-Fußball; Pa-Panorama; Vi-
Videoclip)
Zur Erzielung eines MOS (mittleren Meinungswerts) wurde der Test mit 36 Testpersonen für zwei verschiedene Gruppen von Testsequenzen durchgeführt. Die erste Gruppe wurde für die metrische Ausführung und die zweite für die Bewertung der metrischen Leistung verwendet. Die Trainingstestgruppe wurde mit 26 Testpersonen und die Bewertungstestgruppe mit 10 Testpersonen durchgeführt. Der Trainings- und der Bewertungstest wurden aus verschiedenen Gruppen von fünf Videosequenzen zusammengestellt. Die gewählte Gruppe variierte hinsichtlich Alter (zwischen 20 und 30), Geschlecht, Ausbildung und Erfahrung mit Bildverarbeitung.
Die Tests erfolgten in Übereinstimmung mit der ITU-T-Empfehlung, vgl. ITU-T-Empfehlung P.910, "Subjective video quality assessment methods for multimedia applications" (Verfahren zur subjektiven Bewertung von Video in Multimedia-.Anwendungen) (1999) unter Verwendung des Kategorieverfahrens mit absoluter Qualitätsbeurteilung (ACR - Absolute Category Rating), da es das Streaming-Szenario in der echten Welt besser imitiert. Die Testpersonen hatten also nicht die ursprüngliche Sequenz als Referenz, was zu einer höheren Varianz führte. Die Testpersonen bewerteten die Videoqualität unter Verwendung einer fünfgradigen MOS-Skala (1 - sehr schlecht, 2 - schlecht, 3 - angemessen, 4 -gut, 5 - sehr gut). Entsprechend den Erfahrungen mit früheren psychovisuellen Versuchen sind die subjektiven Ergebnisse etwas unterschiedlich, wenn sie auf UMTS-Handapparaten oder mit PC- - 17 • · · · • · · · • · · · • · · t · • · · · · « ···· ·· r· • · · · • · · · ·· ··
Monitoren angezeigt werden. Aufgrund dieser Erfahrung schien es zweckmäßig, nur in diesem einen Fall der ITU-T-Empfehlung in diesem Punkt nicht zu folgen, und zur Nachahmung echter Bedingungen des UMTS-Dienstes wurden alle Sequenzen auf einem persönlichen digitalen Assistent (PDA - Personal Digital Assistant) PDA VPA IV UMTS/WLAN angezeigt.
Der Augenabstand vom PDA wurde nicht festgelegt, sondern von den Testpersonen gewählt. Dabei war jedoch festzustellen, dass es für alle Personen angenehm war, den PDA in einem Abstand von 20-30 cm zu verwenden. Am Beginn der Testreihe wurden den Testpersonen drei Trainingssequenzen angeboten. Die Testsequenzen wurden in willkürlicher Reihenfolge präsentiert, mit der zusätzlichen Auflage, dass dieselbe Sequenz (auch wenn unterschiedlich degradiert) nicht in Folge erschien. Es wurden zwei Durchläufe jedes Tests durchgeführt. Zur Vermeidung eines Lerneffekts, erfolgte eine halbstündige Pause zwischen dem ersten und dem zweiten Durchlauf. Bei der weiteren Verarbeitung der Ergebnisse wurden jene Sequenzen verworfen, die mit einer individuellen Standardabweichung von über 1 bewertet wurden. Unter Befolgung dieser Regel wurden 12,4% der Testergebnisse ausgeschlossen. Für die eigentliche Videoqualitätsschätzung kann ein Echtzeit-Videoqualitätsschätzer 10 wie schematisch in Fig. 3 gezeigt verwendet werden. Der Schätzung auf der Empfängerseite 11 muss nur die komprimierte Sequenz ohne (nicht komprimierte) Originalsequenz zugrunde gelegt werden, und die Information über die Inhaltsklasse wird parallel zum Video-Streaming angezeigt, siehe Pfad 12, wobei letzteres bei 13 signalisiert wird, um die Komplexität der Verarbeitung so weit wie möglich zu reduzieren. Eine derartige Messanordnung gestattet die kontinuierliche Videoqualitätsmessung in Echtzeit auf beiden Seiten, nämlich beim Nutzer (Empfängerseite 11) und beim Provider (Senderseite 14) .
Mehr im Einzelnen zeigt Fig. 3 ein Videoqualitätsschätzsystem 10 auf Inhaltsbasis mit einem Inhaltsklassifizierer 1 wie in Fig. 1 gezeigt. Ein Encoder 15 führt die Datenkompression durch, um ein komprimiertes Video zu erhalten, welches an den Empfänger 11 gesendet wird, wo es von einem Decoder 16 dekomprimiert wird, und ein metrisches Modul 17 ist für den Empfang von BR- und FR-Daten sowie Inhaltsklassendaten und zur Ausgabe von Informationen über den mittleren Meinungswert (MOS) - 18 : :: ·· · · ··. • · · · · ·· · ·· t f · ·· ·· ···· ·· ·· (Schätzung) vorgesehen.
Aufgrund der begrenzten Verarbeitungskapazität der Endgeräte ist es vorteilhaft, niedrigkomplexe objektive Parameter zu identifizieren. Um die Komplexität so gering wie möglich zu halten, sind die am meisten geeigneten Parameter bereits vorgesehen: Framerate (FR) und Bitrate (BR). Diese Parameter FR, BR sind die Codec-Kompressionseinstellungen und werden während der Initiierung der Streaming-Session angezeigt, wobei für die Schätzung kleine rechnerische Komplexität erforderlich ist, da sie sowohl beim Sender/Empfänger 14 als auch beim Empfänger 11 bekannt sind. Weiters kann der Einfluss dieser beiden Parameter auf einen untersuchten Datensatz für jede Inhaltsklasse separat beschrieben werden. Dazu kann eine bekannte multivariate statistische Methode verwendet werden, nämlich die Prinzipielle Komponentenanalyse (Principal Component Analysis - PCA), vgl. Krzanowski W.J., "Principles of Multivariate Analysis",
Clarendon Press (1988) . Die PCA wurde durchgeführt, um die weitere Anwendbarkeit der objektiven Parameter BR und FR für die metrische Ausführung zu überprüfen. Die PCA wurde für alle Inhaltsklassen separat durchgeführt. Im Testfall erwiesen sich die ersten beiden Komponenten als ausreichend für eine entsprechende Modellerstellung der Datenvarianz, siehe Tabelle III, die die gesamte Variabilität der ersten zwei Komponenten für alle Inhaltsklassen aufzeigt:
Tabelle III
Sequenz Variab. von PCI [%] Variab. von PC2 [%] Inhaltsklasse 1 61,7 23,1 Inhaltsklasse 2 51,8 32, 9 Inhaltsklasse 3 54,8 30, 4 Inhaltsklasse 4 53,1 42,7 Inhaltsklasse 5 63,5 28,2
Die PCA-Ergebnisse in Bezug auf die ersten beiden Komponenten („Komponente 1" und „Komponente 2") sind in Fig. 4 veranschaulicht, und sie zeigen einen ausreichenden Einfluss von BR und FR auf den Datensatz für alle Inhaltsklassen. - 19 >· ·· • ♦ * ···
• ♦ « • · «
Der vorgeschlagenen niedrigkomplexen Metrik können zwei objektive Parameter BR und FR für jede Inhaltsklasse wie folgt zugrunde gelegt werden: (3) MOS=f (BR, FR, Content _ Class)
Hier wird ein gemeinsames Modell für alle Inhaltsklassen vorgeschlagen. Daher hat das Modell lineare und hyperbolische Elemente, siehe die nachstehende Gleichung (4), und die Koeffizienten A, B, C, D, E variieren erheblich für die Inhaltsklassen CC (sie können auch Nullwerte haben). Andererseits wurde eine recht gute Korrelation mit einem Versatz- und zwei Nichtnull-Koeffizienten erzielt, siehe folgende Tabelle IV:
Tabelle IV
Koeff. CC 1 CC 2 CC 3 CC 4 CC 5 A 4,0317 1,3033 4,3118 1,8094 1,0292 B 0 0,0157 0 0,0337 0,0290 C -44,9873 0 -31,7755 0 0 D 0 0,0828 0,0604 0,0044 0 E -0,5752 0 0 0 -1,6115 (CC = Content class - Inhaltsklasse) MOS=A+B-BR+
C BR +DFR+
FR (4)
Die metrischen Koeffizienten wurden durch eine lineare Regression des vorgeschlagenen Modells mit der Trainingsgruppe (MOS-Werte gemittelt über zwei Durchläufe aus allen 26 subjektiven Bewertungen für die jeweilige Testsequenz) erhalten. Zur Bewertung der Qualität der Passung unserer vorgeschlagenen Metrik können ein (linearer) Pearson-Korrelationsfaktor: V(xTx)(yTy) (5) (6) und der Spearman-Rangkorrelationsfaktor: ,_1 6(x-y)T(x-y) N(N2-1) verwendet werden; siehe auch VQEG: "Final report from the Video Quality Experts Group on the Validation of objective models of video quality assessment", http://www.vaeq.ora/. (2000) .
Hierbei entspricht der Vektor x den MOS-Durchschnittswerten der Bewertungsgruppe (gemittelt über zwei Durchläufe aus allen 10 subjektiven Bewertungen für die jeweilige Testsequenz) für alle getesteten codierten Sequenzen. Der Vektor y entspricht der Vorhersage durch die vorgeschlagene Metrik. Die Dimension von x und y bezieht sich auf N. Das Abschneiden der subjektiven Video-qualitätsschätzung im Vergleich zu den subjektiven Qualitätsdaten ist in der nachstehenden Tabelle V zusammengefasst und in Fig. 5 gezeigt. Erhaltene Korrelationen bei der Bewegungsgruppe zeigen ein sehr gutes Abschneiden der vorgeschlagenen Metrik für alle Inhaltsklassen mit Ausnahme der Inhaltsklasse Nr. 3 auf, die zwei- und dreidimensionale Trickfilme enthält. Dieses Merkmal erhöht die Variabilität der MOS-Ergebnisse innerhalb dieser Inhaltsklasse und verringert die metrische Passleistung.
Tabelle V
Inhaltstyp CC 1 CC 2 CC 3 CC 4 CC 5 r 0,9277 0,9018 0,7559 0,9030 0,9307 r' 0,9964 0,8863 0,8409 0,9812 0,9695
Die oben beschriebene perzeptuelle Qualitätsmetrik auf Inhaltsbasis passt gut für die häufigsten Inhaltstypen für mobile Video-Streaming-Dienste. Das vorgeschlagene Verfahren gestattet eine kontinuierliche Qualitätsmessung sowohl auf der Sender/Empfänger- als auch auf der Empfängerseite, da es eine niedrigverarbeitende Komplexität hat. Die automatische Inhaltsklassifizierung ermöglicht eine Videoqualitätsschätzung innerhalb einer Inhaltsklasse. Die vorgeschlagene automatische Inhaltsklassifizierung erkennt die häufigsten Inhaltstypen mit hoher Genauigkeit. Außerdem ist die Klassifizierung auf Basis von Hypothesetests eine universelle statistische Methode zur Inhaltsklassifizierung, die fast unbegrenzte Möglichkeiten zur
Definition neuer Inhaltsklassen bietet. Es genügt daher, eine inhaltsabhängige niedrigkomplexe Metrik für jeden definierten Inhaltstyp zu konzipieren. Die vorgeschlagenen Metriken auf Basis von grundlegenden Codec-Kompressionseinstellungsparametern weisen einerseits eine minimale Komplexität und andererseits eine hervorragende Vorhersageleistung auf. Der vorliegende Ansatz zur Videogualitätsschätzung ermöglicht ein verlässliches Verfahren, das einfach erweitert werden kann.
Die obige Beschreibung bezieht sich auf die Bestimmung der Inhaltsklasse vor Durchführung der klassenabhängigen Qualitätsschätzung. Es wurde jedoch gefunden, dass es auch möglich ist, die Videoqualität ohne spezielle Inhaltsklassifizierung zu schätzen, nämlich durch Verwendung einer universellen Metrik, die wiederum referenzfrei ist und auf inhaltsadaptiven Parametern beruht, um eine inhaltsabhängige Videoqualitätsschätzung auf Basis von Bewegungsmerkmalen zu erhalten, wie bereits oben in Zusammenhang mit der Inhaltsklassifizierung ausgeführt; solche Bewegungsmerkmale, die durch die Bewegungsmenge und -richtung zwischen zwei Szenewechseln festgelegt werden, können jedoch auch zur direkten Videoqualitätsschätzung verwendet werden.
Wie bereits ausgeführt, hängt die von Nutzern empfundene Videoqualität von den räumlichen und zeitlichen Merkmalen der Videosequenzen ab, und die meisten Techniken des Standes der Technik beruhen auf räumlichen Merkmalen. Hier basiert die vorliegende Qualitätsschätzung in erster Linie auf dem Bewegungscharakter, und die vorgeschlagene referenzfreie universelle Metrik eignet sich für verschiedene Videoinhaltstypen und Datenkompressionseinstellungen und ist ein potentes Mittel zur Schätzung der von einem Nutzer empfundenen Videoqualität für Dienste mit Video-Streaming mit niedriger Auflösung.
Wie bereits ausgeführt, wird die visuelle Wahrnehmung von Videoinhalten durch den Menschen vom Charakter der betrachteten Sequenz bestimmt, der im Stand der Technik durch räumliche Informationen beschrieben wird. Solche Ansätze kommen hauptsächlich von der Qualitätsschätzung von Standbildern. Bei der vorliegenden Technik werden bevorzugt Bewegungsmerkmale zur Charakterisierung der Sequenz verwendet. Bei kleiner Auflösung und nach Anwendung von Kompression spielen nicht nur die Bewegungsgeschwindigkeit (die am meisten die Kompressionsrate - 22 • · ·· • · · · • ··· · • · · · · t ι • · ·· · · f · • · ·· · · ·· »« • ··· beeinflusst), sondern auch die Art und die Richtung der Bewegung (zeitliche Information) eine wichtige Rolle für die Nutzerwahrnehmung. Daher beruht die vorliegende Erfindung auf Bewegungsmerkmalen der Videosequenzen zur Bestimmung der wahrgenommenen Qualität.
Der Vorteil der zeitlichen Segmentierung von Videosequenzen und BewegungsVektoren besteht in der Videoqualitätsschätzung innerhalb zweier Schnitte. Da die Videosequenzen verschiedene Szenen enthalten können - Aufnahmen mit unterschiedlichen Charakteristika wird jede Sequenz zuerst durch die auf einer dynamischen Schwelle basierenden Szeneänderungsdetektion segmentiert.
Hinsichtlich der Extraktion von Sequenzbewegungsparametern ist der statische oder dynamische Charakter einer Sequenz einer der Hauptgründe für die Unterschiede in der wahrgenommenen Qualität. Nach Untersuchung verschiedener Sequenzen können die folgenden Parameter zur Darstellung der Bewegungscharakteristika gewählt werden: . Null-MV-Verhältnis innerhalb einer Aufnahme Z: Z ist definiert als Prozentanteil von Nullbewegungsvektoren innerhalb einer Aufnahme. Es ist der Anteil des Frames, der sich überhaupt nicht (oder nur sehr geringfügig) zwischen zwei aufeinander folgenden Frames ändert, gemittelt über alle Frames einer Aufnahme. Er entspricht üblicherweise dem Hintergrund, wenn die Kamera innerhalb einer Aufnahme statisch ist. . Mittlere MV-Größe innerhalb einer Aufnahme N:
Das ist der Anteil an mittlerer Größe der Nichtnull-Bewegungsvektoren innerhalb einer Aufnahme, normalisiert auf die Bildschirmbreite, ausgedrückt in Prozent. Dieser Parameter legt die Menge der globalen Bewegung fest. . Verhältnis der MV-Abweichung innerhalb einer Aufnahme S: S ist als Verhältnis der Standardabweichung des Bewegungsvektors innerhalb einer Aufnahme zur mittleren MV-Größe N innerhalb einer Aufnahme definiert, ausgedrückt in Prozent. . Bewegungsgleichmäßigkeit innerhalb einer Aufnahme U:
Das ist der Prozentanteil an Bewegungsvektoren, die innerhalb einer Aufnahme in die vorherrschende Richtung (die häufigste Richtung von MVs) weisen. Für diesen Zweck beträgt die Granularität der Richtung 10°.
Weiters ist es von Vorteil, den Einfluss dieser Bewegungs- 23 • · • · • · ♦ ·
• · • · ···
Parameter sowie der Bitrate (BR) auf den untersuchten Inhalt zu untersuchen. Dazu kann eine bekannte multivariate (mehrdimensionale) statistische Methode, nämlich die Prinzipielle Komponentenanalyse (PCA) verwendet werden. Die PCA wird durchgeführt, um eine weitere Anwendbarkeit der Bewegungscharakteristika und der BR für die metrische Ausführung zu prüfen. In einem Testfall erwiesen sich die ersten beiden Komponenten als ausreichend für eine entsprechende Modellerstellung der Datenvarianz. Die Variabilität der ersten Komponente beträgt 42,1% und der zweiten Komponente 20,6%. Die PCA-Ergebnisse wie in Fig. 6 veranschaulicht zeigen genügend Einfluss der untersuchten Parameter auf den Datensatz für alle Inhaltsklassen.
Im oben genannten Test wurden die Frameraten 5fps; 7,5fps; lOfps; 15fps sowie die Bitraten 24kbit/s, 50kbit/s, 56kbit/s, 60kbit/s,70kbit/s, 80kbit/s, 105kbit/s in Kombination verwendet. Insgesamt gab es 36 Kombinationen, aber manche Kombination wurden ausgeschlossen, wo nämlich die resultierende Videoqualität eindeutig unzulänglich war. Zur Erzielung eines MOS (mittleren Meinungswerts) wurde mit 36 Testpersonen (Trainingsgruppe mit 26 und Bewertungsgruppe mit 10 Personen) für zwei verschiedene Gruppen von Testsequenzen gearbeitet. Der Trainings- und der Bewertungstest wurden aus verschiedenen Gruppen von fünf Videosequenzen zusammengestellt. Die Tests erfolgten in Übereinstimmung mit der ITU-T-Empfehlung unter Verwendung des Kategorieverfahrens mit absoluter Qualitätsbeurteilung (ACR - absolute category rating), da es das Streaming-Szenario der der realen Welt besser imitiert.
Es wird nun eine universelle Metrik für alle Inhalte auf Basis von definierten Bewegungsparametern und BR vorgeschlagen. (7)
KiOS = a+b-BR+c-Z+d-Se+f-N2+g-ln(U)+h-S-N
Die metrischen Koeffizienten a, b, c, d, e, f, g und h können mit der linearen Regression des vorgeschlagenen Modells bei einer Traininggruppe erhalten werden (MOS-Werte gemittelt über zwei Durchläufe aus allen 26 subjektiven Bewertungen für eine bestimmte Testsequenz). Zur Bewertung der Qualität der Passung der vorgeschlagenen Metrik für die gegebenen Daten wurden ein Pearson- und der Spearman-Rangkorrelationsfaktor, - 24 -
VQEG: "Final report from the Video Quality Experts Group on the validation of objective models of Video quality assessment", http://www.vqeq.org/. (2000) verwendet. Das metrische Modell wurde mit MOS-Werten der Bewertungsgruppe (gemittelt über zwei Durchläufe aus allen 10 subjektiven Bewertungen für die jeweilige Testsequenz) ausgewertet. Die metrische Vorhersageleistung über die Bewertungsgruppe mit der Pearson-Korrelation beträgt 0,8025 und mit der Spearman-Korrelation 0,9982.
Die erhaltenen Korrelationen bei der Bewertungsgruppe - vgl. Fig. 7 - zeigen ein sehr gutes Abschneiden der vorgeschlagenen Metrik für alle Inhalte.
Somit gestattet die vorgeschlagene, auf Bewegung basierende Videoqualitätsmetrik für mobile Video-Streaming-Dienste die kontinuierliche und referenzfreie Qualitätsmessung sowohl auf der Sender/Empfänger- als auch auf der Empfängerseite.
Außerdem bietet die vorgeschlagene Metrik aufgrund der inhaltlichen Abhängigkeit der metrischen Parameter ein gutes Leistungsverhalten bei Inhalten mit signifikant unterschiedlichen Inhaltsmerkmalen.

Claims (24)

  1. 25 25 ·· ·· ·· ·· ··· • · · · φ · • · · φφφ φ φ • · . · · ·
    ·· ·· ···· ·· • · • ··· • · 9 φ 9Φ φφ • · · Patentansprüche: 1. Verfahren zum Schätzen der Qualität einer Videosequenz, z.B. bei Video-Streaming-Anwendungen, dadurch gekennzeichnet, dass der Inhalt der Videosequenz evaluiert und eine von einer Gruppe vorherbestimmter Inhaltsklassen der Videosequenz zugeordnet wird, wonach die Qualitätsschätzung für diese Inhaltsklasse vorgenommen wird.
  2. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass zur Bestimmung der jeweiligen Inhaltsklasse Farbmerkmale bewertet werden.
  3. 3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die jeweilige Inhaltsklasse bei einem Sender ermittelt und die Inhaltsklassendaten einem Empfänger signalisiert werden, und dass die Qualitätsschätzung für diese Inhaltsklasse beim Empfänger durchgeführt wird.
  4. 4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass zur Durchführung der Qualitätsschätzung nur Parameter verwendet werden, die an einem Decoder beim Empfänger verfügbar sind.
  5. 5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die jeweilige Inhaltsklasse unter Verwendung von Bewegungscharakteristika der Videosequenz bestimmt wird.
  6. 6. Verfahren zum Schätzen der Qualität einer Videosequenz, z.B. bei Video-Streaming-Anwendungen, dadurch gekennzeichnet, dass Bewegungscharakteristika aus der Videosequenz extrahiert und zur Qualitätsschätzung verwendet werden.
  7. 7. Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass den zur Bestimmung der Inhaltsklasse verwendeten Bewegungscharakteristika Bewegungsvektorstatistiken zugrunde gelegt werden.
  8. 8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Bitrate und/oder die Framerate der Videodaten zur Durchführung der Qualitätsschätzung verwendet werden.
  9. 9. Verfahren nach einem der Ansprüche 5, 7 oder 8, dadurch gekennzeichnet, dass die Bewegungs-Horizontalität als Bewegungscharakteristikum zur Bestimmung der Inhaltsklasse verwendet wird.
  10. 10. Verfahren nach einem der Ansprüche 5 bis 9, dadurch gekennzeichnet, dass die Bewegungs-Gleichmäßigkeit als 26 ·· ·· ·· ···· ·· ···· ·· ··
    Bewegungscharakteristikum zur Bestimmung der Inhaltsklasse bzw. zur direkten Videoqualitätsschätzung verwendet wird.
  11. 11. Verfahren nach einem der Ansprüche 7 bis 10, dadurch gekennzeichnet, dass ein als Prozentanteil von Nullbewegungsvektoren innerhalb eines Frames bzw. einer Aufnahme definiertes Nullbewegungsvektorverhältnis als Bewegungscharakteristikum zur Bestimmung der Inhaltsklasse bzw. zur direkten Videoqualitätsschätzung verwendet wird.
  12. 12. Verfahren nach einem der Ansprüche 7 bis 11, dadurch gekennzeichnet, dass eine mittlere Bewegungsvektorgröße, die als Anteil von mittlerer Größe an Nichtnull-Bewegungsvektoren innerhalb eines Frames bzw. einer Aufnahme, normalisiert auf die Bildschirmbreite und ausgedrückt in Prozent, definiert ist, als Bewegungscharakteristikum zur Bestimmung der Inhaltsklasse bzw. zur direkten Videoqualitätsschätzung verwendet wird.
  13. 13. Verfahren nach einem der Ansprüche 7 bis 12, dadurch gekennzeichnet, dass das Bewegungsvektorabweichungsverhältnis innerhalb einer Aufnahme, welches als Verhältnis der Standardabweichungen des Bewegungsvektors innerhalb einer Aufnahme zur mittleren Bewegungsvektorgröße innerhalb einer Aufnahme definiert und in Prozent ausgedrückt ist, als Bewegungscharakteristikum zur Videoqualitätsschätzung verwendet wird.
  14. 14. Verfahren nach den Ansprüchen 8 und 10 bis 13, dadurch gekennzeichnet, dass ein nichtlineares Modell zur Videoqualitätsschätzung verwendet wird.
  15. 15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass die Qualitätsschätzung auf der Gleichung MOS=f(BR,Z,S,N,U) basiert, worin MOS der mittlere Meinungswert, BR die Bitrate, Z das Nullbewegungsvektorverhältnis innerhalb einer s N U Aufnahme, das Verhältnis der Bewegungsvektorabweichung innerhalb einer Aufnahme, die mittlere Bewegungsvektorgröße innerhalb einer Aufnahme und die Bewegungsgleichmäßigkeit innerhalb einer Aufnahme sind.
  16. 16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, dass die - 27 ·· ·· • · · • · · • · · • · · ·· ·· ·· • · • ··· • · · • · · ·· ·· ·♦·· ·· • t · « • · ··· • ♦ · · • · · ♦ # ···· ·♦ ·# Qualitätsschätzung auf der Gleichung basiert, worin a, b, c, d, e, f, g und h empirisch ermittelte metrische Koeffizienten sind.
  17. 17. Verfahren nach den Ansprüchen 8 und 10 bis 13, dadurch gekennzeichnet, dass die Qualitätsschätzung auf der Gleichung MOS=f (BR, FR, Content _ Class) basiert, worin MOS der mittlere Meinungswert, BR die Bitrate und FR die Framerate sind.
  18. 18. Verfahren nach Anspruch 17, dadurch gekennzeichnet, dass die Qualitätsschätzung auf der Gleichung ΊWOS=A+B-BR+-§t+D-FR+-k basiert, worin A, B, C, D und E empirisch ermittelte metrische Koeffizienten sind.
  19. 19. System (10) zur Schätzung der Qualität einer Videosequenz, z.B. bei Video-Streaming-Anwendungen, gekennzeichnet durch einen Inhaltsklassifizierer (1), der zur Bewertung des Inhalts der Videosequenz und zur Bestimmung einer zugehörigen Inhaltsklasse und einer Gruppe von vorherbestimmten Inhaltsklassen eingerichtet ist, und durch ein metrisches Modul (17), das zur Durchführung einer Qualitätsschätzung für die zugehörige Inhaltsklasse eingerichtet ist.
  20. 20. System nach Anspruch 19, dadurch gekennzeichnet, dass das metrische Modul (17) zur Durchführung der Qualitätsschätzung für die zugehörige Inhaltsklasse auf Basis der Bitrate und der Framerate eingerichtet.
  21. 21. System nach Anspruch 19 oder 20, dadurch gekennzeichnet, dass der Inhaltsklassifizierer (1) einen Szenenwechseldetektor (3) aufweist.
  22. 22. System nach einem der Ansprüche 19 bis 21, dadurch gekennzeichnet, dass der Inhaltsklassifizierer (1) eine Einheit (4) zur Berechnung des Bewegungsvektors und eine damit verbundene Einheit (6) zur Extraktion von Bewegungsvektormerkmalen aufweist.
  23. 23. System nach einem der Ansprüche 19 bis 22, dadurch gekennzeichnet, dass der Inhaltsklassifizierer (1) eine Einheit 28 ·· ·♦ • t · · • · · · * · · · • · · · ·· ·· • · • ···
    • · · · ·♦ ···· ·· • · • · (5) zur Extraktion von Farbmerkmalen aufweist.
  24. 24. System nach einem der Ansprüche 19 bis 23, dadurch gekennzeichnet, dass der Inhaltsklassifizierer (1) auf der Senderseite (14) angeordnet ist, wogegen das metrische Modul (17) auf der Empfängerseite (11) angeordnet ist.
ATA9561/2006A 2006-12-22 2006-12-22 Verfahren und system zur videoqualitätsschätzung AT509032B1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/AT2006/000539 WO2008077160A1 (en) 2006-12-22 2006-12-22 Method and system for video quality estimation

Publications (3)

Publication Number Publication Date
AT509032A2 true AT509032A2 (de) 2011-05-15
AT509032B1 AT509032B1 (de) 2014-02-15
AT509032A5 AT509032A5 (de) 2014-02-15

Family

ID=37884113

Family Applications (1)

Application Number Title Priority Date Filing Date
ATA9561/2006A AT509032B1 (de) 2006-12-22 2006-12-22 Verfahren und system zur videoqualitätsschätzung

Country Status (2)

Country Link
AT (1) AT509032B1 (de)
WO (1) WO2008077160A1 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010007286A2 (fr) * 2008-06-24 2010-01-21 France Telecom Procede de mesure sans reference de la qualite percue d'un signal et dispositif correspondant
FR2943879A1 (fr) * 2009-03-30 2010-10-01 Univ Nantes Procede et dispositif d'evaluation de la qualite visuelle d'une image ou d'une sequence d'images, mettant en oeuvre des indicateurs objectifs, et programme d'ordinateur correspondant.
WO2014032451A1 (en) * 2012-08-27 2014-03-06 Thomson Licensing Method and apparatus for estimating motion homogeneity for video quality assessment
CN105357526B (zh) * 2015-11-13 2016-10-26 西安交通大学 基于压缩域的考虑场景分类的手机足球视频质量评估装置和方法
US10834406B2 (en) 2016-12-12 2020-11-10 Netflix, Inc. Device-consistent techniques for predicting absolute perceptual video quality
CN114630111B (zh) * 2022-05-13 2022-10-14 电子科技大学 一种基于编码信息的无参考压缩视频质量评估方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6011868A (en) * 1997-04-04 2000-01-04 Hewlett-Packard Company Bitstream quality analyzer
GB0012992D0 (en) * 2000-05-26 2000-07-19 British Telecomm Test method
EP1189451A1 (de) * 2000-09-13 2002-03-20 Kabushiki Kaisha Toshiba Digitaler Videokoder
GB2396069B (en) * 2002-12-03 2005-10-05 British Broadcasting Corp Analysis of digital signals
EP1593269A1 (de) * 2003-02-06 2005-11-09 Koninklijke Philips Electronics N.V. Optimierung einer skalierbarenvideoalgorithmus-betriebsmittelverteilung durch verwendung von qualitätsanzeigern
US20050105802A1 (en) * 2003-11-14 2005-05-19 Hekstra Andries P. Method and an arrangement for objective assessment of video quality

Also Published As

Publication number Publication date
WO2008077160A1 (en) 2008-07-03
AT509032B1 (de) 2014-02-15
AT509032A5 (de) 2014-02-15

Similar Documents

Publication Publication Date Title
Yang et al. Perceptual quality assessment of screen content images
Chen et al. From QoS to QoE: A tutorial on video quality assessment
Liu et al. Visual quality assessment: recent developments, coding applications and future trends
DE60119012T2 (de) Verfahren um Überblendung in einer MPEG-Umgebung zu detektieren
Ries et al. Content based video quality estimation for H. 264/AVC video streaming
Khan et al. Content-Based Video Quality Prediction for MPEG4 Video Streaming over Wireless Networks.
WO2004077360A1 (de) Verfahren und anordnung zur videocodierung, wobei die videocodierung texturanalyse und textursynthese umfasst, sowie ein entsprechendes computerprogramm und ein entsprechendes computerlesbares speichermedium
DE112018002109T5 (de) Systeme und verfahren zum codierergeführten adaptiven qualitätsrendern
Zanforlin et al. SSIM-based video admission control and resource allocation algorithms
Ries et al. Motion based reference-free quality estimation for H. 264/AVC video streaming
Torres Vega et al. An experimental survey of no-reference video quality assessment methods
Liotta et al. Instantaneous video quality assessment for lightweight devices
Göring et al. Modular framework and instances of pixel-based video quality models for UHD-1/4K
DE69918533T2 (de) Verfahren zur detektion von übergängen in abgetastenen digitalen videosequenzen
Li et al. Perceptual quality assessment of face video compression: A benchmark and an effective method
Van Damme et al. A full-and no-reference metrics accuracy analysis for volumetric media streaming
Engelke et al. Linking distortion perception and visual saliency in H. 264/AVC coded video containing packet loss
AT509032B1 (de) Verfahren und system zur videoqualitätsschätzung
AT508595B1 (de) Vorbearbeitung von spiel-videosequenzen zur übertragung über mobilnetze
Yue et al. Subjective quality assessment of animation images
Ries Video quality estimation for mobile video streaming
Alers et al. Quantifying the importance of preserving video quality in visually important regions at the expense of background content
Vega et al. A regression method for real-time video quality evaluation
Singam Computational complexity of human visualization characteristics based on well known metric
Okamoto et al. HDTV objective video quality assessment method applying fuzzy measure