DE69901273T2

DE69901273T2 - Verfahren zur Codierung und Quantisierung von Audiosignalen

Info

Publication number: DE69901273T2
Application number: DE69901273T
Authority: DE
Inventors: Tadashi Araki
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1998-06-26
Filing date: 1999-06-23
Publication date: 2002-08-14
Anticipated expiration: 2019-06-24
Also published as: US6725192B1; DE69901273D1; EP0967593B1; EP0967593A1; JP3784993B2; JP2000082964A

Description

(1) Gebiet der Erfindung

Die vorliegende Erfindung betrifft ein Verfahren zur Kodierung und Quantisierung von Audiosignalen, das für verschiedene Anwendungen geeignet ist, einschließlich der Bereiche Audiosignalspeicherung, -übertragung und von Übertragungsanwendungen.

(2) Beschreibung von verwandtem Stand der Technik

Digitale Darstellungen von analogen Signalformen führen eine gewisse Art von Verzerrung ein. Ein grundlegendes Problem beim Entwurf von Senderkodierern besteht darin, einen vorgegeben akzeptablen Verzerrungspegel mit der kleinstmöglichen Kodierungsbitrate zu erzielen. Um dieses Ziel zu erreichen, muss der Kodierungsalgorithmus sowohl für sich ändernde Statistiken des Quellensignals als auch für die Hörwahrnehmung geeignet sein. Die Hörwahrnehmung basiert auf Analysen von kritischen Bändern im menschlichen Gehör. Die Leistungsspektren werden nicht auf einer linearen Frequenzskala dargestellt, sondern auf den Frequenzbändern, die kritische Bänder (critical bands) genannt werden, mit Bandbreiten von der Größenordnung von 100 Hz unterhalb von 500 Hz und mit zunehmenden Bandbreiten (bis zu 500 Hz) bei hohen Signalfrequenzen. Innerhalb von kritischen Bändern werden die Intensitäten von einzelnen Tönen bzw. Geräuschen vom Ohr aufsummiert. Für eine Bandbreite bis zu 20000 Hz müssen 26 kritische Bänder berücksichtigt werden. Audiokodierer, die die Hörwahrnehmung ausnützen, müssen auf einer nach kritischen Bändern strukturierten Signalverarbeitung beruhen.
Der Begriff Hörmaskierung beschreibt den Effekt, dass ein Audiosignal mit niedrigem Pegel (das Maskierte genannt) unhörbar werden kann, wenn ein lauteres Signal (der Maskierer genannt) gleichzeitig auftritt. Der Effekt einer gleichzeitigen Maskierung und einer vorübergehenden Maskierung kann bei der Audiokodierung dadurch ausgenutzt werden, dass nur diejenigen Details des Signals übermittelt werden, die vom Ohr wahrnehmbar sind. Solche Kodierer sorgen für eine hohe Kodierungsqualität, ohne hohe Signal-zu-Rausch-Verhältnisse bereitzustellen.
Nachfolgend wird der untere Grenzwert eines Schalldruckpegels, von dem an jegliches Signal auf Grund des Maskierers nicht hörbar sein wird, als Maskierungsschwelle genannt. Diese ist im Zusammenhang mit der Signalkodierung auch als ein Schwellenwert einer gerade noch wahrnehmbaren Verzerrung bekannt.
Allgemein sind Audiosignale in der Nähe von 4 kHz vom menschlichen Gehör, unabhängig davon, ob der Maskierer präsent ist, sehr wahrnehmbar. Nachfolgend wird der untere Grenzwert eines Schalldruckpegels, der für das menschliche Gehör wahrnehmbar ist, als absolute Hörschwelle bezeichnet. Diese ist auch als Schwellenwert in der Stille bekannt.
Die Fig. 6 zeigt eine Beziehung zwischen der absoluten Hörschwelle und der Maskierungsschwelle in einer spektralen Verteilung eines Audiosignals.
Ohne einen Maskierer ist ein Audiosignal (A) (in der Fig. 6 durch die durchgezogene Linie angedeutet) nicht hörbar, falls dessen Schalldruckpegel unterhalb der absoluten Hörschwelle (C) (in der Fig. 6 durch die zweifach strichpunktierte Linie angedeutet) liegt, welche von der Frequenz abhängt. Derjenige Schalldruckpegel, der gleich 0 dB ist, bezieht- sich auf einen Schalldruck von 0,02 mN/m². In Gegenwart eines Maskierers kann die Maskierungsschwelle (B) (in der Fig. 6 durch die gestrichelte Linie angedeutet) gemessen werden, unterhalb von der jegliches Signal nicht mehr hörbar sein wird. Die Maskierungsschwelle hängt von dem Schalldruckpegel, der Frequenz des Maskierers und von der Kennlinie des Maskierers und des Maskierten ab.
Zusätzlich zur gleichzeitigen Maskierung eines Geräusches durch ein anderes, das gleichzeitig auftritt, tritt eine vorübergehende Maskierung auf, wenn zwei Geräusche innerhalb eines kurzen Zeitintervalls auftreten; das stärkere Signal maskiert das schwächere Signal, und zwar unabhängig davon, ob das letztgenannte vor oder nach diesem auftritt. Eine vorübergehende Maskierung kann dazu verwendet werden, um Vor-Echos zu maskieren, die durch die Aufteilung eines plötzlichen großen Quantisierungsfehlers über den aktuellen Kodierungsblock hervorgerufen werden.
Der Effekt einer gleichzeitigen Maskierung und einer vorübergehenden Maskierung kann bei der Kodierung; von Audiosignalen ausgenutzt werden, indem nur diejenigen Details des Signals übermittelt werden, die für das Gehör wahrnehmbar sind. Dies ist äquivalent zu einer Bitzuordnung, mit deren Hilfe die für die Kodierung des Bitstroms notwendigen Bits nur denjenigen Abschnitten des Audiosignals (A) zugeordnet werden, die oberhalb der Maskierungsschwelle (B) und der absoluten Hörschwelle (C) liegen. Bei der Kodierung von Audiosignalen wird das Audiosignal in eine Anzahl von Spektralunterbandkomponenten (D) unterteilt (in der Fig. 6 durch die strichpunktierten Linien angedeutet) und jede Komponente wird quantisiert, wodurch die Anzahl von Quantisierungswerten für jede Komponente aus der Bitzuordnung erhalten wird.
Die Breite jeder Unterbandkomponente (D) ist äquivalent zu der Bandbreite des Audiosignals. In jedem Unterband wird diejenige Signalkomponente, deren Intensität unterhalb eines bestimmten unteren Grenzwertes liegt, nicht hörbar sein. Solange die Differenz in der Intensität zwischen dem Ursprungssignal und dem dekodierten Signal unterhalb des unteren Grenzwertes liegt, wird das dekodierte Signal von dem Ursprungssignal ununterscheidbar sein. Nachfolgend wird der untere Grenzwert für einen Schalldruckpegel für jedes Unterband als ein zulässiger Verzerrungspegel bezeichnet. Im Zusammenhang mit der Kodierung von Audiosignalen, falls der Wert eines Quantisierungsfehlers, der durch die Quantisierung eines Audiosignals hervorgerufen wird, unterhalb des zulässigen Verzerrungspegels liegt, kann die Kodierung der Audiosignale für eine hohe Kodierungsqualität sorgen, ohne dass hohe Signal-zu-Rausch-Verhältnisse bereitgestellt werden. Die Bitzuordnung für jede Unterbandkomponente (D), wie diese in Fig. 6 gezeigt ist, ist äquivalent zu einer Steuerung der Quantisierung des Audiosignals dergestalt, dass der Quantisierungsfehlerwert für jedes Unterband exakt gleich dem zulässigen Verzerrungspegel ist.
Wie in der japanischen Patentoffenlegungsschrift Nr. 7-154266 offenbart ist, ist ein Algorithmus zur Kodierung und Quantisierung von Audiosignalen für digitale Audiosignale bekannt. Bei dem Verfahren zur Kodierung von Audiosignalen gemäß der vorgenannten Publikation wird ein digitales Audiosignal in Blöcke von Spektraldaten gewandelt und jeder Block wird in Einheiten von normalisierten Koeffizienten unterteilt. Ein oberer Grenzwert der Anzahl von Bits, die pro Block zugeordnet werden, ist fest. Die Bitzuordnung wird dadurch gesteuert, dass der feste obere Grenzwert verwendet wird. Für die Blöcke mit der Anzahl von benötigten Bits, die den oberen Grenzwert der Anzahl von zugeordneten Bits übersteigen, werden die normalisiertem Koeffizienten der verwandten Einheit zwangsweise korrigiert, so dass die Anzahl von benötigten Bits für sämtliche der Blöcke unterhalb des oberen Grenzwertes liegen.
Die internationale Norm ISO/IEC 13818-7 sorgt für einen einheitlichen Algorithmus zur Kodierung und Quantisierung von Audiosignalen für digitale Audiosignale. Bei dem Verfahren zur Kodierung und Quantisierung von Audiosignalen gemäß dieser Norm ist es schwierig, einen iterativen Prozess rasch auszuführen, der konvergiert, wenn die Gesamtzahl von Bits innerhalb eines gewissen Intervalls liegt, das die Anzahl von zugeordneten Bits umgibt, während zugleich die Verschlechterung der Kodierungsqualität auf Grund einer Nichtkonvergenz verhindert wird. Falls sowohl eine Bitratenbedingung als auch eine Maskierungsbedingung schließlich nicht erfüllt wird, ist es wahrscheinlich, dass die Verschlechterung der Kodierungsqualität hervorgerufen wird. Außerdem ist es bei dem vorstehend beschriebenen Verfahren gemäß der internationalen Norm ISO/IEC 13818-7 so, dass dann, wenn die Überprüfung der Maskierungsbedingung vorgenommen wird, die Quantisierungsfehlerwerte von sämtlichen der Unterbänder nicht stets kleiner als die zulässigen Verzerrungspegel sind. Selbst falls sowohl die Bitratenbedingung als auch die Maskierungsbedingung schließlich erfüllt wird, erfordert diese eine vergleichsweise lange Rechenzeit bis die Konvergenz erreicht wird. Solange die Maskierungsbedingung nicht erfüllt ist, muss die Steuerung der Bitzuordnung viele Male wiederholt werden. Die wiederholte Steuerung der Bitzuordnung umfasst gewisse redundante Prozesse.
Das Dokument Bosi M. et al.: "ISO/IEC MPEG-2 ADVANCED AUDIOCOD- ING", Journal of the Audio Engineering Society, Band 45, Oktober 1997, Seiten 789-812, offenbart ein MPEG-2 Audiokodierungsschema, das auf der Norm ISO/IEC 13818-7 beruht. Das offenbarte Audiokodierungsschema beinhaltet eine innere Iterationsschleife und eine äußere Iterationsschleife zur Kodierung von vorgegebenen Spektraldaten, wobei die innere Schleife jedes Mal abgearbeitet wird, wenn eine äußere Iterationsschleife abgearbeitet wird.
Bei dem herkömmlichen Verfahren gemäß der vorgenannten Publikation (japanische Patentoffenlegungsschrift-Anmeldenummer 7-154266) bleibt dasselbe Problem ungelöst. Es ist schwierig, den iterativen Prozess rasch auszuführen, der konvergiert, wenn die Gesamtzahl von Bits innerhalb eines gewissen Intervalls liegt, das die Anzahl von zugeordneten Bits umgibt, und zugleich eine Verschlechterung der Kodierungsqualität auf Grund einer Nichtkonvergenz zu verhindern.
Eine Aufgabe der vorliegenden. Erfindung besteht darin, ein verbessertes Verfahren zur Kodierung und Quantisierung von Audiosignalen bereitzustellen, bei dem die vorstehend beschriebenen Probleme beseitigt sind.
Eine andere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren zur Kodierung und Quantisierung von Audiosignalen bereitzustellen, das wirkungsvoll ist, um einen iterativen Prozess rasch auszuführen, der konvergiert, wenn die Gesamtzahl von Bits innerhalb eines gewissen Intervalls liegt, das die Anzahl von zugeordneten Bits umgibt, und bei dem zugleich die Verschlechterung der Kodierungsqualität auf Grund einer Nichtkonvergenz verhindert wird.
Eine noch weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren zur Kodierung und Quantisierung von Audiosignalen bereitzustellen, das wirkungsvoll ist, um für eine hohe Kodierungsqualität zu sorgen, ohne dass hohe Signal-zu-Rausch-Verhältnisse bereitgestellt werden.
Die vorgenannten Ziele der vorliegenden Erfindung werden mit Hilfe eines Verfahrens zur Kodierung und Quantisierung von Audiosignalen erreicht, wie dieses in den Patentansprüchen 1-14 beansprucht wird.
Gemäß dem erfindungsgemäßen Verfahren zur Kodierung und Quantisierung von Audiosignalen, wenn die Bitzuordnung für jedes Unterband bzw. Teilband gesteuert wird, wird die erste Steuerschleife und die zweite Steuerschleife alternierend für jeden Block ausgeführt, so dass sowohl die Bitratenbedingung als auch die Maskierungsbedingung erfüllt wird. Nachdem die beiden Bedingungen erfüllt sind, wird schließlich ein Ausgangsvektor von quantisierten Frequenzdomänenwerten erzeugt. Die Gesamtzahl von Ausführungen der Schleifenprozesse, die erforderlich ist, um die Bitzuordnung zu optimieren, ist deutlich niedriger und es ist möglich, die Konvergenz rasch zu erreichen. Deshalb ist das erfindungsgemäße Verfahren zur Kodierung und Quantisierung von Audiosignalen wirkungsvoll, um für eine hohe Kodierungsqualität zu sorgen, ohne dass dies zu hohen Signal-zu-Rausch- Verhältnissen führt. Es ist möglich, den iterativen Prozess rasch auszuführen, der konvergiert, wenn die Gesamtzahl von Bits innerhalb eines gewissen Intervalls liegt, das die Anzahl von zugeordneten Bits umgibt, wobei zugleich eine Verschlechterung der Kodierungsqualität auf Grund einer Nichtkonvergenz verhindert wird.
Andere Ziele, Merkmale und Vorteile der vorliegenden Erfindung werden aus der nachfolgenden ausführlichen Beschreibung ersichtlicher werden, wenn diese gemeinsam mit den beigefügten Zeichnungen gelesen wird, worin:
Fig. 1 ein Flussdiagramm ist, um ein Verfahren zur Kodierung und Quantisierung von Audiosignalen zu erklären, das die vorliegende Erfindung verkörpert;
Fig. 2 ein Diagramm ist, um eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler zu erläutern, wenn die Quantisierung für verletzende Unterbänder ausgeführt wird;
Fig. 3 ein Diagramm ist, um eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler zu erläutern, wenn eine weitere Quantisierung mit einem weiter erhöhten Startwert des gemeinsamen Skalierungsfaktors und mit größeren Skalierungsfaktoren ausgeführt wird;
Fig. 4 ein Diagramm ist, um die Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler zu erläutern, wenn eine weitere Quantisierung für die verletzenden Unterbänder vorgenommen wird;
Fig. 5 ein Flussdiagramm ist, um eine andere Ausführungsform des Verfahrens zur Kodierung und Quantisierung von Audiosignalen gemäß der vorliegenden Erfindung zu erläutern;
Fig. 6 ein Diagramm ist, um eine Beziehung zwischen der absoluten Hörschwelle und Maskierungsschwelle in einer spektralen Verteilung eines Audiosignals zu erläutern;
Fig. 7 ein Blockdiagramm eines grundlegenden Aufbaus eines AAC- Kodierers ist;
Fig. 8 ein Flussdiagramm ist, um ein vorstellbares Verfahren zur Kodierung und Quantisierung von Audiosignalen zu erläutern;
Fig. 9 ein Diagramm ist, um eine spektrale Verteilung der zulässigen Verzerrung über Unterbänder bzw. Teilbänder eines Audiosignals zu erläutern;
Fig. 10 ein Diagramm ist, um eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler zu erläutern, wenn die Quantisierung mit einem Startwert für einen gemeinsamen Skalierungsfaktor ausgeführt wird;
Fig. 11 ein Diagramm ist, um eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler zu erläutern, wenn die Quantisierung mit einem höheren Startwert für den gemeinsamen Skalierungsfaktor ausgeführt wird;
Fig. 12 ein Diagramm ist, um eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler zu erläutern, wenn die Quantisierung für die verletzenden Unterbänder bzw. Teilbänder ausgeführt wird;
Fig. 13 ein Diagramm ist, um eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler zu erläutern, wenn eine weitere Quantisierung für einen noch höheren Startwert für den gemeinsamen Skalierungsfaktor ausgeführt wird; und
Fig. 14 ein Diagramm ist, um eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler zu erläutern, wenn eine weitere Quantisierung für die verletzten Unterbänder ausgeführt wird.
Vor einer Erklärung der bevorzugten Ausführungsformen der vorliegenden Erfindung wird nun eine Beschreibung eines vorstellbaren Verfahrens zur Kodierung und Quantisierung von Audiosignalen gemäß der internationalen Norm ISO/IEC 13818-7 unter Bezugnahme auf die beigefügten Zeichnungen erfolgen, um ein Verständnis der Prinzipien der vorliegenden Erfindung zu erleichtern.
Die Bewegtbild-Expertengruppe innerhalb der internationalen Organisation zur Standardisierung hat einen fortschrittlichen Algorithmus zur Kodierung von Audiosignalen (MPEG-2 AAC) für eine Vielkanalkodierung bereitgestellt. Die MPEG-2- Norm wird stereofone Bilder verbessern und wird sowohl nur für Höranwendungen als auch für Multimediaanwendungen von Bedeutung sein. Außerdem ist das AC-3- System von Dolby ein zweites Beispiel für eine Vielkanalkodierung, die Verwendung macht von Wahrnehmungsphänomenen, die auftreten, wenn das menschliche Gehör mehrere Signale detektiert, indem eine Anzahl von individuellen Transformationskoeffizienten zu einem gemeinsamen Koeffizient verknüpft werden.
Die Fig. 7 ist ein Schemadiagramm eines grundlegenden Aufbaus eines AAC- Kodierers.
Wie in der Fig. 7 gezeigt ist, umfasst der AAC-Kodierer ein psychoakustisches Modell 71, eine Verstärkungssteuerung 72, eine Filterbank 73, eine zeitliche Rauschformung (TNS) 74, eine Intensitäts-/Kupplungseinheit 75, eine Vorhersageeinheit 76, ein mittelseitige (M/S)-Stereomodul 77, ein Skalierungsfaktormodul 78, einen Quantisierer 79 und ein rauscharmes bzw. rauschfreies Kodierungsmodul 80. Ein Audiosignal, das in den AAC-Kodierer eingegeben wird, ist eine Sequenz von Blöcken von Abtastwerten, die entlang der Zeitachse erzeugt werden. Jeder Block des Audiosignals wird in eine Anzahl von Spektralunterbandkomponenten mit Hilfe der Filterbank 73 gewandelt. Das psychoakustische Modell 71 berechnet einen zulässigen Verzerrungswert für jede Unterbandkomponente des Audiosignals. In dem AAC-Kodierer wird für die grundlegende Abbildung des Audioeingangssignals auf eine Anzahl von Unterbändern, für eine feste Segmentierung, um die Daten in Blöcke (oder Bilder) zu formatieren, und für eine Quantisierung mit Blockverbindung (block compounding) gesorgt.
Durch Verwendung der Elemente 72 bis 77 des AAC-Kodierers wird jeder Block des Audiosignals der Frequenzabbildung unterzogen, indem die modifizierte diskrete Kosinustransformation (MDCT) verwendet wird. Außerdem werden Prozesse mit stereofonischer Korrelationskodierung und Vorhersagekodierung von diesen Elementen ausgeführt. Der Quantisierer 79 führt die Quantisierung der MDCT- Koeffizienten auf der Grundlage des verarbeiteten Signals aus. Bevor die Quantisierung erfolgt, werden Skalierungsfaktoren, die in der Quantisierung verwendet werden, berechnet und das Skalierungsfaktormodul 78 speichert die Skalierungsfaktoren.
Die Skalierungsfaktoren umfassen einzelne Skalierungsfaktoren der Spektralunterbänder, die voneinander abweichen, sowie einen gemeinsamen Skalierungsfaktor, der identisch für sämtliche der Spektralunterbänder ist. Es sei angenommen, dass "c" das Audiosignal vor der Quantisierung und "q" das Audiosignal nach der Quantisierung bezeichnet. Das Audiosignal "q" wird durch die folgende Formel dargestellt.
q = [c/{20,25(Csf-sf[sfb])}]0,75 + 0,4054 (1),
wobei "sfb" eines der Unterbänder, "Csf" einen gemeinsamen Skalierungsfaktor für sämtliche der Unterbänder und "sf[sfb]" einen Skalierungsfaktor für eines der Unterbänder bezeichnet.
Wie aus der vorstehenden Formel (1) offensichtlich ist, gilt, dass je größer der gemeinsame Skalierungsfaktor Csf ist, desto kleiner das Maß an Genauigkeit der Quantisierung wird. Außerdem kann man ohne weiteres verstehen, dass die Genauigkeit der Quantisierung umso geringer ist, je kleiner der Skalierungsfaktor sf[sfb] für jedes Unterband sfb ist.
In dem AAC-Kodierer gemäß Fig. 7 wird das Eingangssignal für das rauschfreie Kodierungsmodul 80 auf 1024 quantisierte Spektralkoeffizienten gesetzt. Die rauschfreie Kodierung erfolgt innerhalb einer Quantisierungsratensteuerschleife und ist Teil eines iterativen Prozesses, der konvergiert, wenn der gesamte Bitwert innerhalb eines gewissen Intervalls liegt, das den zugeordneten Bitwert umgibt. In dem rauschfreien Kodierungsmodul 80 wird die rauschfreie Kodierung mit Hilfe eines Spektrum-Abschneideschrittes, eines Vorab-Huffman-Kodierungsschrittes und eines Abschnittsvereinigungsschrittes ausgeführt. Die Vorab-Huffman- Kodierung verwendet die maximale Anzahl von Abschnitten. Der Abschnittsvereinigungsschritt erzielt die kleinste Anzahl von Bits.
Um die Bestimmung der Skalierungsfaktoren und die rauschfreie Kodierung mit einer gewünschten Auflösung zu erzielen, ist es erforderlich, eine Konvergenz des iterativen Prozesses effizient zu erzielen, so dass die Gesamtzahl von Bits innerhalb eines gewissen Intervalls-liegt, das die Anzahl von zugeordneten Bits umgibt. Um die Konvergenz zu erzielen, muss bestimmt werden, dass sowohl die Bitratenbedingung für die Anzahl von Bits, die für eine Kodierung eines Bitstroms zur Verfügung stehen, was auf der Grundlage einer vorgegebenen Kodierungsbitrate erzielt wird, als auch die Maskierungsbedingung für den zulässigen Verzerrungspegel von jedem Skalierungsfaktorband erfüllt ist, das von dem psychoakustischen Modell 71 zur Verfügung gestellt wird. Die Bitratenbedingung ist erfüllt, wenn die Anzahl von Bits, die zur Kodierung des Bitstroms benötigt wird, nicht größer ist als die Anzahl von zur Verfügung stehenden Bits. Die Maskierungsbedingung ist erfüllt, wenn der Quantisierungsfehler Wert der Frequenzdomänenwerte (der MDCT-Koeffizienten) mit den auf die Werte angewendeten Skalierungsfaktoren innerhalb der Skalierungsfaktorbänder kleiner ist als der zulässige Verzerrungspegel.
Wenn die Genauigkeit der Quantisierung niedrig wird, wird grundsätzlich der Quantisierungsfehlerwert angehoben, aber die Gesamtzahl von Bits von jedem Bild abgesenkt. Bei der Festlegung der Bitzuordnung widersprechen sich die Bitratenbedingung und die Maskierungsbedingung gegenseitig. Um die gewünschte Auflösung zu erreichen, wird die Festlegung der Skalierungsfaktoren und der rauschfreien Kodierung wiederholt, während zugleich der gemeinsame Skalierungsfaktor Csf und die einzelnen Skalierungsfaktoren sf[sfb] solange verändert werden, bis die zwei Bedingungen gleichzeitig erfüllt sind.
Nachdem die Konvergenz erzielt wurde, so dass die beiden Bedingungen erfüllt sind, wird schließlich die Quantisierung und die Huffman-Kodierung ausgeführt. In dem Multiplexer 81 wird der kodierte Bitstrom zusätzlich zu anderer Kopfteilinformation ausgegeben.
Die Fig. 8 ist ein Flussdiagramm, um ein vorstellbares Verfahren zur Kodierung und Quantisierung von Audiosignalen zu erläutern, das auf der internationalen Norm ISO/IEC 13818-7 basiert.
Wie in der Fig. 8 gezeigt ist, stellt zu Beginn des vorstellbaren Verfahrens zur Kodierung und Quantisierung von Audiosignalen der Schritt S41 den gemeinsamen Skalierungsfaktor Csf auf einen Startwert (Csf = Startwert). Ein geeigneter Startwert wird zuvor berechnet, so dass sämtliche quantisierten MDCT-Koeffizient in dem Bitstrom kodiert werden können. Der Schritt S42 setzt die individuellen Skalierungsfaktoren sf[sfb] für sämtliche der Skalierungs-Faktorbänder sfb auf 0 (sf[sfb] = 0). Der Schritt S43 berechnet die Quantisierung der MDCT- Koeffizienten für das Audiosignal und berechnet die Anzahl von Bits, die benötigt werden, um den Bitstrom zu kodieren. Die Anzahl von verfügbaren Bits zur Kodierung des Bitstroms ist basierend auf einer vorgegebenen Kodierungsbitrate zu Beginn dieses Prozesses vorbestimmt. Der Schritt S44 bestimmt, ob die Anzahl von benötigten Bits größer ist als die Anzahl von zur Verfügung stehenden Bits.
Wenn das Ergebnis bei Schritt S44 bestätigend ist, ist die Anzahl von benötigten Bits größer als die Anzahl von zur Verfügung stehenden Bits und wird bestimmt, dass es erforderlich ist, die Bitzuordnung weiter zu steuern. Der Schritt S45 erhöht den Startwert des gemeinsamen Skalierungsfaktors Csf um einen vorgegebenen Änderungswert. Nachdem der Schritt S45 ausgeführt ist, werden die vorgenannten Schritt S43 und 544 solange wiederholt, bis die Anzahl von benötigten Bits, die von der Quantisierung der MDCT-Koeffizienten mit dem angewendeten neuen gemeinsamen Skalierungsfaktor Csf erzeugt wird, kleiner ist als die Anzahl von zur Verfügung stehenden Bits. Der Schleifenprozess, der die Schritt S43 bis 545 beinhaltet, bezieht sich auf die Überprüfung der Bitratenbedingung und wird als eine innere Steuerschleife bezeichnet.
Wenn das Ergebnis bei dem Schritt S44 negativ ist, ist die Anzahl von benötigten Bits kleiner als die Anzahl von zur Verfügung stehenden Bits. Der Schritt S46 setzt Informationsbits amp[sfb] für sämtliche der Skalierungsfaktorbänder sfb auf 0 (amp[sfb] = 0). Jedes der Informationsbits amp[sfb] wird bereitgestellt, um anzuzeigen, ob der Skalierungsfaktor sf[sfb] des zugeordneten Skalierungsfaktorbands augenblicklich geändert wird. Das heißt, wenn amp[sfb] = 0 gilt, bezeichnet dies, dass der Skalierungsfaktor sf[sfb] des zugeordneten Skalierungsfaktorbands nach einer nachfolgenden Berechnung der Quantisierung unverändert bleibt, und wenn amp[sfb] = 1 gilt, bezeichnet dies, dass der Skalierungsfaktor sf[sfb] des zugeordneten Skalierungsfaktorbands nach einer anschließenden Berechnung der Quantisierung geändert wird.
Der Schritt S47 berechnet die Quantisierung der MDCT-Koeffizienten mit dem gemeinsamen Skalierungsfaktor Csf und den individuellen Skalierungsfaktoren sf[sfb], und zwar zu diesem Zeitpunkt, die auf die Frequenzdomänenwerte angewendet werden, und berechnet den Quantisierungsfehlerwert für jedes der Skalierungsfaktorbänder sfb auf der Grundlage der quantisierten Frequenzdomänenwerte. Nachdem der Schritt S47 ausgeführt ist, überprüft der Schritt S48, ob der Quantisierungsfehlerwert größer ist als der zulässige Verzerrungspegel für jedes der Skalierungsfaktorbänder. Der Schritt S48 inkrementiert die Skalierungsfaktoren sf[sfb] (sf[sfb] = sf[sfb] + 1) für die Skalierungsfaktorbänder sfb, die eine Verzerrung aufweisen, die die zulässigen Verzerrungspegel der zugeordneten Bänder übersteigt, und setzt die Informationsbits amp[sfb] auf Eins (amp[sfb] = 1) für solche Skalierungsfaktorbänder sfb, für die die Skalierungsfaktoren geändert werden.
Nachdem der Schritt S48 ausgeführt ist, stellt der Schritt S49 fest, ob zumindest ein Skalierungsfaktorband das Informationsbit amp[sfb] aufweist, das größer ist als Null (irgendein amp[sfb] > 0). Falls es zumindest ein Skalierungsfaktorband gibt, für das das Informationsbit amp[sfb] gleich 1 ist, könnte die Bitratenbedingung dahingehend, dass die Anzahl von benötigten Bits kleiner ist als die Anzahl von zur Verfügung stehenden Bits, als Folge der Berechnung der Quantisierung bei dem Schritt S47 verletzt sein.
Wenn das Ergebnis bei dem Schritt S49 bestätigend ist, wird bestimmt, dass die Bitratenbedingung nicht erfüllt ist, und die vorgenannten Schritte 543 bis 549 werden solange wiederholt, bis sämtliche der Informationsbits amp[sfb] gleich 0 sind. Die innere Steuerschleife, einschließlich der anfänglichen Berechnung der Quantisierung, wird erneut ausgeführt, um so die Bitratenbedingung zu überprüfen, und die anschließende Berechnung der Quantisierung wird erneut ausgeführt, um die Maskierungsbedingung zu überprüfen. Der Schleifenprozess, der die Schritt S43 bis S49 umfasst, bezieht sich auf die Überprüfung sowohl der Bitratenbedingung als auch der Maskierungsbedingung und wird als eine äußere Steuerschleife bezeichnet.
Wenn das Ergebnis bei dem Schritt S49 negativ ist, wird bestimmt, dass sowohl die Bitratenbedingung als auch die Maskierungsbedingung erfüllt ist. Die Steuerung der Bitzuordnung wird normalerweise abgebrochen, falls es kein Skalierungsfaktorband mit einem höheren Pegel als dem zulässigen Verzerrungspegel gibt. Dies zu erreichen, ist jedoch nicht immer möglich.
In einem solchen Fall umfasst der vorgenannte Schritt S49 zusätzlich zur Überprüfung der Maskierungsbedingung Abbruchbedingungen zum Abbrechen der äußeren Steuerschleife. In dem vorgenannten Schritt S49, falls die Skalierungsfaktoren für sämtliche der Skalierungsfaktorbänder bereits geändert wurden, wird die äußere Steuerschleife abgebrochen. Falls außerdem die Differenz zwischen zwei aufeinander folgenden Skalierungsfaktoren größer als ein vorgegebener oberer Grenzwert ist, wird die äußere Steuerschleife abgebrochen. Es könnte eine zusätzliche Bedingung geben, die die äußere Steuerschleife abbricht, falls es an Rechenzeit fehlt.
Bei dem zuvor beschriebenen Verfahren gemäß der internationalen Norm ISO/IEC 13818-7 beziehen sich die Schritte 543 bis 545 auf die Überprüfung der Bitratenbedingung, die dahingehend lautet, ob die Anzahl von benötigten Bits kleiner ist als die Anzahl von zur Verfügung stehenden Bits. Die Schritte 547 bis 549 beziehen sich auf die Maskierungsbedingung, die dahingehend lautet, ob der Quantisierungsfehlerwert kleiner ist als der zulässige Verzerrungspegel. Nachdem die Steuerung der Bitzuordnung erfolgt ist, wird der schließlich festgelegte gemeinsame Skalierungsfaktor Csf und werden die schließlich festgelegten Skalierungsfaktoren sf[sfb] abgespeichert und wird schließlich ein Ausgangsvektor von quantisierten Frequenzdomänenwerten auf der Grundlage der gespeicherten Skalierungsfaktoren erzeugt.
Bei dem zuvor beschriebenen Verfahren gemäß der internationalen Norm ISO/IEC 13818-7 gibt es ein gewisses Problem bei der Steuerung der Bitzuordnung und der Quantisierung. Es wird nun eine Beschreibung des Problems des Verfahrens gemäß der internationalen Norm ISO/IEC 13818-7 unter Bezugnahme auf die Fig. 9 bis Fig. 14 gegeben.
Die Fig. 9 zeigt eine spektrale Verteilung der zulässigen Verzerrung über Unter- bzw. Teilbänder eines Audiosignals. In Fig. 9 bezeichnen "a" bis "j" die spektralen Unterbänder des Audiosignals, die den Skalierungsfaktorbändern des Audiosignals entsprechen. Es sei angenommen, dass die zulässigen Verzerrungspegel über die Unterbänder "a" bis "j " in einer treppenartigen Formation verteilt sind, wie in Fig. 9 gezeigt.
Die Fig. 10 zeigt eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler, wenn die Quantisierung mit dem gemeinsamen Skalierungsfaktor als dem Startwert ausgeführt wird. In dem ersten Durchlauf des Schrittes S43 gemäß Fig. 8 wird die Quantisierung der MDCT-Koeffizienten mit dem gemeinsamen Skalierungsfaktor, der den ursprünglichen Startwert aufweist, und den individuellen Skalierungsfaktoren, die die ursprünglichen Werte aufweisen, berechnet. Zu diesem Moment befinden sich die Quantisierungsfehler von sämtlichen der Skalierungsfaktorbänder "a" bis "j" auf einem konstanten Pegel, wie in Fig. 10 gezeigt ist.
Die Fig. 11 zeigt eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler, wenn die Quantisierung mit dem höheren Startwert für den gemeinsamen Skalierungsfaktor ausgeführt wird. In einem nachfolgenden Durchlauf des Schrittes S43 wird die Quantisierung der MDCT-Koeffizienten mit dem gemeinsamen Skalierungsfaktor, der den größeren Startwert aufweist, berechnet. Wie in der Fig. 11 gezeigt ist, sind die Quantisierungsfehler von sämtlichen der Skalierungsbänder "a" bis "j" gleichmäßig von dem ursprünglichen Pegel gemäß Fig. 10 angehoben. Es sei angenommen, dass zu diesem Zeitpunkt die Bitratenbedingung dahingehend, dass die Anzahl von benötigten Bits kleiner ist als die Anzahl von zur Verfügung stehenden Bits, erfüllt ist, und die Schritte S46, S47 und S48 werden ausgeführt. In dem Schritt S48 wird die Maskierungsbedingung dahingehend, dass der Quantisierungsfehlerpegel kleiner ist als der zulässige Verzerrungspegel, für jedes der Skalierungsfaktorbänder "a" bis "f" überprüft. Wie in der Fig. 11 gezeigt ist, sind bei dem vorliegenden Beispiel die Skalierungsfaktorbänder "d" bis "g" die verletzenden Unterbänder. Für die verletzenden Unterbänder werden die Skalierungsfaktoren (sf[sfb] = sf[sfb] + 1) inkrementiert und werden die Informationsbits auf 1 (amp[sfb] = 1) in dem Schritt S48 gesetzt.
Die Fig. 12 zeigt eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler, wenn die Quantisierung für die verletzenden Unterbänder vorgenommen wird.
Wie in der Fig. 12 gezeigt ist, sind die Quantisierungsfehlerpegel als Folge der Berechnung der Quantisierung mit den geänderten Skalierungsfaktoren für die verletzenden Unterbänder "d" bis "g" erniedrigt: Da die Skalierungsfaktoren der verletzenden Unterbänder geändert sind, werden die Schritt S43 bis S49 wiederholt.
Die Fig. 13 zeigt eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler, wenn eine weitere Quantisierung mit einem weiter erhöhten Startwert für den gemeinsamen Skalierungsfaktor ausgeführt wird.
Vergleichbar zu dem Fall gemäß der Fig. 11 sind die Quantisierungsfehler von sämtlichen der Skalierungsfaktorbänder "a" bis "j" gleichmäßig von dem Pegel gemäß Fig. 12 angehoben. Es sei angenommen, dass zu diesem Zeitpunkt die Bitratenbedingung erfüllt ist und die Schritt S46, S47 und S48 werden erneut ausgeführt. In dem Schritt S48 wird die Maskierungsbedingung für jedes der Skalierungsfaktorbänder "a" bis "f" überprüft. Wie in der Fig. 13 gezeigt ist, sind bei dem vorliegenden Beispiel die Skalierungsfaktorbänder "c" bis "h" die verletzenden Bänder, die der Maskierungsbedingung zugeordnet sind. Für die verletzenden Unterbänder "c" bis "h" werden die Skalierungsfaktoren inkrementiert (sf[sfb] = sf[sfb] + 1) und werden die Informationsbits auf 1 gesetzt (amp[sfb] = 1), und zwar in dem Schritt S48.
Die Fig. 14 zeigt eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler, wenn eine weitere Quantisierung für die verletzenden Unterbänder ausgeführt wird.
Vergleichbar zu dem Fall gemäß der Fig. 12 werden die Quantisierungsfehlerpegel als Folge der Berechnung der Quantisierung mit den geänderten Skalierungsfaktoren für die verletzenden Unterbänder "c" bis "h" abgesenkt, wie in der Fig. 14 gezeigt ist. Jedoch erfüllen die Skalierungsfaktorbänder "e" und "f" zu dem vorliegenden Zeitpunkt dennoch nicht die Maskierungsbedingung. Eine weitere Berechnung der Quantisierung mit den geänderten Skalierungsfaktoren kann erforderlich sein, um sowohl die Bitratenbedingung als auch die Maskierungsbedingung zu erfüllen. Das heißt die Skalierungsfaktoren der verletzenden Unterbänder "e" und "f" werden geändert und die Schritte S43 bis S49 werden erneut wiederholt. Alternativ kann ein Fall eintreten, dass die Maskierungsbedingung schließlich nicht erfüllt ist. In einem solchen Fall kann die Verschlechterung der Kodierungsqualität auf Grund der Nichtkonvergenz auftreten.
In dem Beispiel gemäß der Fig. 14 sind die zulässigen Verzerrungspegel der Unterbänder "e" und "f" diejenigen mit der kleinsten Intensität und falls es eine große Verzerrung für solche Unterbänder gibt, wird das resultierende Rauschen des dekodierten Signals für das menschliche Gehör sehr wahrnehmbar sein. Es wird bevorzugt, die erforderlichen Bits zur Kodierung des Bitstroms solchen Unterbändern bevorzugt vor anderen Unterbändern zuzuordnen.
Bei dem zuvor beschriebenen Verfahren gemäß der internationalen Norm ISO/IEC 13818-7 ist es schwierig, den iterativen Prozess rasch auszuführen, der konvergiert, wenn die Gesamtbitzahl innerhalb eines gewissen Intervalls liegt, das die zugeordnete Bitzahl umgibt, während zugleich die Verschlechterung der Kodierungsqualität auf Grund einer Nichtkonvergenz vermieden wird. Falls sowohl die Bitratenbedingung als auch die Maskierungsbedingung schließlich erfüllt wird, ist es wahrscheinlich, dass eine Verschlechterung der Kodierungsqualität hervorgerufen wird.
Außerdem sind bei dem vorgenannten Verfahren gemäß der internationalen Norm ISO/IEC 13818-7, wenn die Überprüfung der Maskierungsbedingung in dem Schritt S48 ausgeführt wird, die Quantisierungsfehlerpegel von sämtlichen der Skalierungsfaktorbänder nicht stets kleiner als die zulässigen Verzerrungspegel. Selbst wenn sowohl die Bitratenbedingung als auch die Maskierungsbedingung schließlich erfüllt ist, erfordert dies eine vergleichsweise lange Rechenzeit, bis die Konvergenz erreicht wird. Solange die Maskierungsbedingung nicht erfüllt ist (oder das Ergebnis bei dem Schritt S49 bestätigend ist), muss die äußere Steuerschleife mit den Schritten S43 bis S49 zu viele Male wiederholt werden. Die wiederholte Bitzuordnungssteuerung umfasst gewisse redundante Prozesse.
Als Nächstes wird eine Beschreibung der bevorzugten Ausführungsformen gemäß der vorliegenden Erfindung unter Bezugnahme auf die beigefügten Figuren gegeben werden.
Um das zuvor beschriebene Problem des Verfahrens gemäß der internationalen Norm ISO/IEC 13818-7 zu eliminieren, ist ein Verfahren zur Kodierung und Quantisierung von Audiosignalen gemäß der vorliegenden Erfindung dadurch gekennzeichnet, dass die Berechnung einer Quantisierung von Frequenzdomänenwerten eines zugeordneten Blocks eines Audiosignals und die Berechnung eines Quantisierungsrauschens für jedes Unterband bzw. Teilband alternierend ausgeführt wird, wenn die Bitzuordnung für den zugeordneten Block gesteuert wird, so dass sowohl die Bitratenbedingung als auch die Maskierungsbedingung erfüllt wird, und dass, nachdem die Bedingungen erfüllt sind, ein Ausgangsvektor von quantisierten Frequenzdomänenwerten schließlich erzeugt wird.
Die Fig. 1 zeigt ein Verfahren zur Kodierung und Quantisierung von Audiosignalen, das die vorliegende Erfindung verkörpert.
Wie in der Fig. 1 gezeigt ist, setzt zu Beginn des Verfahrens zur Kodierung und Quantisierung von Audiosignal der Schritt S1 den gemeinsamen Skalierungsfaktor Csf auf einen Startwert (Csf Startwert). Ein geeigneter Startwert wird zuvor so berechnet, dass sämtliche quantisierten MDCT-Koeffizienten in dem Bitstrom kodiert werden körnen. Der Schritt S2 setzt die individuellen Skalierungsfaktoren sf[sfb] für sämtliche der Skalierungsfaktorbänder sfb auf Null (sf[sfb] = 0). Der Schritt S3 berechnet die Quantisierung der MDCT-Koeffizienten für das Audiosignal und berechnet die Anzahl von Bits, die erforderlich sind, um den Bitstrom zu kodieren. Die Anzahl von zur Verfügung stehenden Bits zur Kodierung des Bitstroms wird auf der Grundlage einer vorgegebenen Kodierungsbitrate zu Beginn dieses Prozesses vorbestimmt. Der Schritt S4 bestimmt, ob die Anzahl von benötigten Bits größer ist als die Anzahl von zur Verfügung stehenden Bits.
Wenn das Ergebnis bei dem Schritt S4 bestätigend ist, ist die Anzahl von benötigten Bits größer als die Anzahl von zur Verfügung stehenden Bits und wird bestimmt, dass es notwendig ist, die Bitzuordnung weiter zu steuern. Der Schritt S5 erhöht den Startwert des gemeinsamen Skalierungsfaktors Csf von einen vorgegebenen Änderungswert. Nach, Ausführung des Schrittes S5 werden die vorgenannten Schritte S3 und S4 solange wiederholt, bis die Anzahl von benötigten Bits, die durch die Quantisierung der MDCT-Koeffizienten bei Anwendung des neuen gemeinsamen Skalierungsfaktors Csf erzeugt werden, kleiner ist als die Anzahl von zur Verfügung stehenden Bits. Der Schleifenprozess, der die Schritte S3 bis S5 umfasst, bezieht sich auf die Uberprüfung der Bitratenbedingung und nachfolgend wird diese als eine erste Steuerschleife bezeichnet.
Wenn das Ergebnis bei dem Schritt S4 negativ ist, ist die Anzahl von benötigten Bits kleiner als die Anzahl von zur Verfügung stehenden Bits. Der Schritt S6 setzt Informationsbits amp[sfb] für sämtliche der Skalierungsfaktorbänder sfb auf Null (amp[sfb] = 0). Jedes der Informationsbits amp[sfb] wird bereitgestellt, um anzugeben, ob der Skalierungsfaktor sf[sfb] des zugeordneten Skalierungsfaktorbands augenblicklich geändert wird. Das heißt, wenn amp[sfb] = 0 gilt, gibt dies an, dass der Skalierungsfaktor sf[sfb] des zugeordneten Skalierungsfaktorbandes nach einer anschließenden Berechnung der Quantisierung unverändert bleibt, und wenn amp[sfb] = 1 gilt, gibt dies an, dass der Skalierungsfaktor sf[sfb] des zugeordneten Skalierungsbandes nach einer anschließenden Berechnung der Quantisierung geändert wird.
Der Schritt S7 berechnet die Quantisierung der MDCT-Koeffizienten mit dem gemeinsamen Skalierungsfaktor Csf und den individuellen Skalierungsfaktoren sf[sfb], und zwar zu diesem Zeitpunkt, welche auf die Frequenzdomänenwerte angewendet werden, und berechnet den Quantisierungsfehlerpegel für jedes der Skalierungsfaktorbänder sfb auf der Grundlage der quantisierten Frequenzdomänenwerte.
Nach Ausführung des Schritte 57 bestimmt der Schritt S8, ob es verletzende Skalierungsfaktorbänder sfb gibt, die eine Verzerrung aufweisen, die die zulässigen Verzerrungspegel der zugeordneten Bänder überschreitet. In den verletzenden Skalierungsfaktorbändern ist der Quantisierungsfehlerpegel größer als der zulässige Verzerrungspegel.
Wenn das Ergebnis bei dem Schritt S8 bestätigend ist, inkrementiert der Schritt S9 die Skalierungsfaktoren sf[sfb] (sf[sfb] = sf[sfb] + 1) für die verletzenden Skalierungsfaktorbänder, die eine Verzerrung aufweisen, die die zulässigen Verzerrungspegel der zugeordneten Bänder überschreitet, und setzt die Informationsbits amp[sfb] auf Eins (amp[sfb] = 1) für solche Skalierungsfaktorbänder, für die die Skalierungsfaktoren geändert werden. Nach Ausführung des Schrittes S9 werden die vorgenannten Schritt S7 und S8 solange wiederholt, bis die Überprüfung der Maskierungsbedingung abgeschlossen ist. Der Schleifenprozess, der die Schritte S7 bis S9 umfasst, bezieht sich auf die Überprüfung der Maskierungsbedingung und nachfolgend wird dieser als zweite Steuerschleife bezeichnet. Folglich wird bei dem Verfahren gemäß der vorliegenden Ausführungsform, nachdem die Skalierungsfaktoren für die verletzenden Unterbänder geändert werden, nur die Überprüfung der Maskierungsbedingung (die zweite Steuerschleife) wiederholt, ohne dass die Überprüfung der Bitratenbedingung ausgeführt wird, und es ist möglich, die Überprüfung der Maskierungsbedingung für sämtliche der Skalierungsfaktorbänder rasch auszuführen.
Wenn das Ergebnis bei dem Schritt S8 negativ ist, gibt es kein Skalierungsfaktorband mit einer Verzerrung, die die zulässigen Verzerrungspegel der zugeordneten Bänder überschreitet. Der Schritt S10 bestimmt, ob zumindest ein Skalierungsfaktorband das Informationsbit amp[sfb] aufweist, das größer ist als Null (irgendein amp[sfb] > 0). Falls es zumindest ein Skalierungsfaktorband gibt, für das das Informationsbit amp[sfb] gleich 1 ist, könnte die Bitratenbedingung dahingehend, dass die Anzahl von benötigten Bits kleiner ist als die Anzahl von zur Verfügung stehenden Bits, als Folge der Berechnung der Quantisierung bei dem Schritt S7 verletzt werden.
Wenn das Ergebnis bei dem Schritt S10 bestätigend ist, wird bestimmt, dass die Bitratenbedingung nicht erfüllt ist, und werden die vorgenannten Schritte S3 bis S10 solange wiederholt, bis sämtliche der Informationsbits amp[sfb] gleich 0 sind. Folglich werden bei dem Verfahren gemäß der vorliegenden Ausführungsform die erste Steuerschleife, welche die Berechnung einer Quantisierung der Frequenzdomänenwerte und die Überprüfung der Bitratenbedingung umfasst, und die zweite Steuerschleife, welche die Berechnung eines Quantisierungsrauschens für jedes Unterband und die Überprüfung der Maskierungsbedingung umfasst, alternierend ausgeführt, wenn die Bitzuordnung für den zugeordneten Block gesteuert wird, so dass sowohl die Bitratenbedingung als auch die Maskierungsbedingung erfüllt werden.
Wenn das Ergebnis bei dem Schritt S10 negativ ist, wird bestimmt, dass sowohl die Bitratenbedingung als auch die Maskierungsbedingung erfüllt ist. Die Steuerung der Bitzuordnung wird normalerweise abgebrochen, falls es kein Skalierungsfaktorband mit einem höheren Pegel als dem zulässigen Verzerrungspegel gibt. Es ist jedoch nicht immer möglich, dies zu erreichen. In einem solchen Fall umfasst der vorgenannte Schritt S10 zusätzlich zu der Überprüfung der Bitraten- und Maskierungsbedingung Abbruchbedingungen zum Abbrechen des Verfahrens zur Kodierung und Quantisierung von Audiosignalen. Bei dem vorgenannten Schritt S10 wird das Verfahren zur Kodierung und Quantisierung von Audiosignalen abgebrochen, falls die Skalierungsfaktoren für sämtliche der Skalierungsfäktorbänder bereits geändert wurden. Falls die Differenz zwischen zwei aufeinander folgenden Skalierungsfaktoren größer ist als ein vorgegebener oberer Grenzwert, wird außerdem das Verfahren zur Kodierung und Quantisierung von Audiosignalen abgebrochen. Es kann eine zusätzliche Bedingung geben, die das Verfahren zur Kodierung und Quantisierung von Audiosignalen für den Fall abbricht, dass es an Rechenzeit mangelt.
Bei dem vorstehend beschriebenen Verfahren gemäß der vorliegenden Ausführungsform beziehen sich die Schritte S3 bis S5 auf die Überprüfung der Bitratenbedingung dahingehend, dass die Anzahl von benötigten Bits kleiner ist als die Anzahl von zur Verfügung stehenden Bits. Die Schritte S7 bis S9 beziehen sich auf die Überprüfung der Maskierungsbedingung dahingehend, dass der Quantisierungsfehlerpegel kleiner ist als der zulässige Verzerrungspegel. Nach der Steuerung der Bitzuordnung werden die schließlich bestimmten gemeinsamen Skalierungsfaktoren Csf und die schließlich bestimmten Skalierungsfaktoren sf[sfb] abgespeichert und wird schließlich auf der Grundlage der gespeicherten Skalierungsfaktoren ein Ausgangsvektor von quantisierten Frequenzdomänenwerten erzeugt.
Als Nächstes wird eine Beschreibung des Betriebs des Verfahrens zur Kodierung und Quantisierung von Audiosignalen gemäß der vorliegenden Ausführungsform unter Bezugnahme auf die Fig. 2 bis 4 erfolgen, und zwar anhand eines Vergleichs zu dem Verfahren gemäß der internationalen Norm ISO/IEC 13818-7.
In dem ersten Durchlauf des Schrittes S3 gemäß dem Verfahren nach der Fig. 1 wird die Quantisierung der MDCT-Koeffizienten mit dem gemeinsamen Skalierungsfaktor, der den ursprünglichen Startwert aufweist, und mit den individuellen Skalierungsfaktoren, die die ursprünglichen Werte aufweisen, berechnet. Eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler zu diesem Zeitpunkt ist ähnlich zu der gemäß der Fig. 10. Das heißt, wenn die Quantisierung für den Startwert des gemeinsamen Skalierungsfaktors ausgeführt wird, befinden sich die Quantisierungsfehler von sämtlichen der Skalierungsfaktorbänder "a" bis "j" auf einem konstanten Wert, wie in der Fig. 10 gezeigt ist.
In einem anschließenden Durchlauf des Schrittes S3 wird die Quantisierung der MDCT-Koeffizienten mit dem gemeinsamen Skalierungsfaktor berechnet, der den höheren Startwert aufweist. Eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler, wenn die Quantisierung mit dem höheren Startwert des gemeinsamen Skalierungsfaktors ausgeführt wird, ist vergleichbar zu derjenigen gemäß der Fig. 11. Wie in der Fig. 11 gezeigt ist, sind die Quantisierungsfehler von sämtlichen der Skalierungsfaktorbänder "a" bis "j" gleichmäßig von dem ursprünglichen Pegel gemäß der Fig. 10 angehoben. Es sei angenommen, dass zu diesem Zeitpunkt die Bitratenbedingung dahingehend, dass die Anzahl von benötigten Bits kleiner ist als die Anzahl von zur Verfügung stehenden Bits, erfüllt wird und die Schritt S6, S7 und S8 ausgeführt werden. In dem Schritt S8 wird die Maskierungsbedingung überprüft, die dahingehend lautet, dass der Quantisierungsfehlerpegel kleiner ist als der zulässige Verzerrungspegel für jedes der Skalierungsfaktorbänder "a" bis "f". Wie in der Fig. 11 gezeigt ist, sind bei dem vorliegenden Beispiel die Skalierungsfaktorbänder "d" bis "g" die verletzenden Unter- bzw. Teilbänder. Für die verletzenden Unterbänder werden die Skalierungsfaktoren inkrementiert (sf[sfb] = sf[sfb] + 1) und werden die Informationsbits auf 1 in dem Schritt S9 gesetzt (amp[sfb] = 1).
Bei dem Verfahren gemäß der internationalen Norm ISO/IEC 13818-7 sind als Folge der Berechnung der Quantisierung mit den geänderten Skalierungsfaktoren die Quantisierungsfehlerpegel für die verletzenden Unterbänder "d" bis "g" gleichmäßig nur um eins erhöht, wie in der Fig. 12 gezeigt.
Bei dem Verfahren gemäß der Fig. 1, unmittelbar nach Ausführung des Schrittes S9, wird die Quantisierung der MDCT-Koeffizienten mit dem gemeinsamen Skalierungsfaktor, der den erhöhten Startwert aufweist, und mit den erhöhten Skalierungsfaktoren der verletzenden Skalierungsfaktorbänder in dem Schritt S7 berechnet. In dem Beispiel gemäß der Fig. 12 sind die Skalierungsfaktorbänder "e" und "f" noch immer die verletzenden Unterbänder. In einem nachfolgenden Durchlauf des Schrittes S8 wird bestimmt, dass die verletzenden Unterbänder noch existieren, die eine Verzerrung aufweisen, die den zulässigen Verzerrungspegel überschreitet. Folglich wird erneut die Inkrementierung der Skalierungsfaktoren für die verletzenden Unterbänder in dem Schritt S9 ausgeführt (insgesamt zweimal). Deshalb ist eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler, wenn die Quantisierung für die verletzenden Unterbänder ausgeführt wird, ähnlich zu der gemäß der Fig. 2.
Die Fig. 2 zeigt eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler, wenn die Quantisierung für die verletzenden Unterbänder in der vorliegenden Ausführungsform ausgeführt wird. Wie in der Fig. 2 gezeigt ist, gibt es kein Unterband mit einer Verzerrung, die den zulässigen Verzerrungspegel überschreitet. In diesem Fall ist das Ergebnis bei dem Schritt S8 negativ und wird dann der Schritt S10 ausgeführt. Weil die Skalierungsfaktoren für die verletzenden Unterbänder in dem Schritt S9 geändert werden, ist das Ergebnis bei dem Schritt S10 zu diesem Zeitpunkt bestätigend. Die Schritt S3 bis S10 werden wiederholt.
In einem nachfolgenden Durchlauf der ersten Steuerschleife (die Schritte S3 bis S5), falls der gemeinsame Skalierungsfaktor erhöht wird, wird eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler ähnlich zu der gemäß der Fig. 3 erhalten. Wie in der Fig. 3 gezeigt ist, werden die Quantisierungsfehler für sämtliche der Skalierungsfaktorbänder "a" bis "j" gleichmäßig von dem Pegel gemäß der Fig. 2 angehoben. Die Skalierungsfaktoren für die verletzenden Unterbänder "e" und "f" werden in dem Beispiel gemäß der Fig. 2 zweimal inkrementiert und deshalb ist die Anzahl von benötigten Bits in dem Fall gemäß der Fig. 3 größer als diejenige in dem Fall der Fig. 12.
In dem Beispiel gemäß der Fig. 3 sind die Skalierungsfaktorbänder "b" bis "i" die verletzenden Unterbänder. In einem nachfolgenden Durchlauf der zweiten Steuerschleife (die Schritte S7 bis S9) werden die Skalierungsfaktoren für die verletzenden Unterbänder inkrementiert und werden die Informationsbits auf 1 in dem Schritt S9 gesetzt. Gemäß dem Verfahren der vorliegenden Ausführungsform wird die zweite Steuerschleife in wiederholter Weise ausgeführt. In dem Beispiel gemäß der Fig. 3 wird die Ausführung des Schrittes S9 dreimal wiederholt. Dann wird eine Beziehung zwischen der zulässigen Verzerrung und dem Quantisierungsfehler ähnlich zu der gemäß der Fig. 4 erhalten. Wie in der Fig. 4 gezeigt ist, sind die Quantisierungsfehlerpegel von sämtlichen der Skalierungsfaktorbänder "a" bis "j" kleiner als die zulässigen Verzerrungspegel. Nachdem sowohl die Bitratenbedingang als auch die Maskierungsbedingung erfüllt ist, wird schließlich ein Ausgangsvektor von quantisierten Frequenzdomänenwerten erzeugt.
Folglich ist bei dem Verfahren gemäß der vorliegenden Ausführungsform die Gesamtzahl von Ausführungen der Bitzuordnungssteuerung deutlich niedriger und es ist möglich, die Konvergenz rasch zu erzielen. Das Verfahren zur Kodierung und Quantisierung von Audiosignalen gemäß der vorliegenden Ausführungsform ist wirkungsvoll, um für eine hohe Kodierungsqualität zu sorgen, ohne dass hohe Signal-zu-Rausch-Verhältnisse bereitgestellt werden. Es ist möglich, den iterativen Prozess, der konvergiert, wenn die gesamte Anzahl von Bits innerhalb eines gewissen Intervalls liegt, das die zugeordnete Bitanzahl umgibt, rasch auszuführen und gleichzeitig eine Verschlechterung der Kodierungsqualität auf Grund einer Nichtkonvergenz zu vermeiden.
Außerdem sind bei dem Verfahren gemäß der vorliegenden Ausführungsform, wenn die Überprüfung der Maskierungsbedingung in dem Schritt S8 vorgenommen wird, die Quantisierungsfehlerpegel von sämtlichen der Skalierungsfaktorbänder stets kleiner als die zulässigen Verzerrungspegel. Wenn die Bitratenbedingung und die Maskierungsbedingung schließlich erfüllt ist, erfordert dies nur eine geringe Rechenzeit, bis die Konvergenz erreicht wird. Die gesamte Anzahl von Ausführungen der Bitzuordnungssteuerung ist deutlich reduziert und es ist möglich, die Konvergenz rasch zu erreichen. Folglich kann das Verfahren zur Kodierung und Quantisierung von Audiosignalen gemäß der vorliegenden Ausführungsform den iterativen Prozess rasch ausführen, der konvergiert, wenn die gesamte Anzahl von Bits innerhalb eines gewissen Intervalls liegt, das die zugeordnete Anzahl von Bits umgibt, wobei zugleich eine Verschlechterung der Kodierungsqualität auf Grund einer Nichtkonvergenz vermieden wird.
Bei dem zuvor beschriebenen Ausführungsbeispiel, wenn die Steuerung der Bitzuordnung für den zugeordneten Block des Audiosignals gesteuert wird, wird zuerst die Berechnung einer Quantisierung von Frequenzdomänenwerten des zugeordneten Blocks ausgeführt und wird anschließend die Berechnung eines Quantisierungsrauschens für jedes Unterband ausgeführt. Jedoch ist die vorliegende Erfindung nicht auf diese Ausführungsform beschränkt. Es ist angemessen, dass die Berechnung einer Quantisierung von Frequenzdomänenwerten des zugeordneten Blocks und die Berechnung eines Quantisierungsrauschens für jedes Unterband alternierend ausgeführt wird, und zwar unabhängig von der Sequenz der Berechnungen.
Die Fig. 5 zeigt eine andere Ausführungsform des Verfahrens zur Kodierung und Quantisierung von Audiosignalen gemäß der vorliegenden Erfindung.
Wie in der Fig. 5 gezeigt ist, setzt zu Beginn der vorliegenden Ausführungsform für das Verfahren zur Kodierung und Quantisierung von Audiosignalen der Schritt S21 den gemeinsamen Skalierungsfaktor Csf auf einen Startwert (Csf = Startwert). Ein geeigneter Startwert wird zunächst so berechnet, dass sämtliche quantisierten MDCT-Koeffizienten in dem Bitstrom kodiert werden können. Der Schritt S22 setzt die individuellen Skalierungsfaktoren sf[sfb] für sämtliche der Skalierungsfaktorbänder sfb auf Null (sf[sfb] = 0). Der Schritt S23 setzt eine Referenzkonstante R auf einen angemessen großen Wert. Die Referenzkonstante R ist vorgesehen, um einen Parameter Rt des Audiosignals zu überprüfen (der nachfolgend beschrieben werden wird), und zwar durch Vergleich mit der Referenzkonstante R. Bei der vorliegenden Ausführungsform wird die Referenzkonstante R auf einen angemessen großen Wert indem Schritt S23 gesetzt und diese ist anfänglich größer als ein oberer Grenzwert des Parameters Rt.
Der Schritt S24 berechnet die Quantisierung der MDCT-Koeffizienten für das Audiosignal und berechnet die Anzahl von Bits, die erforderlich ist, um den Bitstrom zu kodieren. Die Anzahl von zur Verfügung stehenden Bits zur Kodierung des Bitstroms wird auf der Grundlage einer vorgegebenen Kodierungsbitrate zu Beginn dieses Prozesses vorbestimmt. Der Schritt S25 bestimmt, ob die Anzahl von benötigten Bits größer ist als die Anzahl von zur Verfügung stehenden Bits.
Wenn das Ergebnis bei dem Schritt S25 bestätigend ist, ist die Anzahl von benötigten Bits größer als die Anzahl von zur Verfügung stehenden Bits und wird bestimmt, dass es erforderlich ist, die Bitzuordnung weiter zu steuern. Der Schritt S26 erhöht den Startwert des gemeinsamen Skalierungsfaktors Csf um einen vorgegebenen Änderungswert. Nach Ausführung des Schrittes 526 werden die vorgenannten Schritte S24 und S25 solange wiederholt, bis die Anzahl von benötigten Bits, die durch die Quantisierung der MDCT-Koeffizienten bei Anwendung des neuen gemeinsamen Skalierungsfaktors Csf erzeugt werden, kleiner ist als die Anzahl von zur Verfügung stehenden Bits. Der Schleifenprozess, der die Schritte S24 bis S26 umfasst, bezieht sich auf die Überprüfung der Bitratenbedingung und dieser wird die erste Steuerschleife genannt.
Wenn das Ergebnis bei dem Schritt S25 negativ ist, ist die Anzahl von benötigten Bits kleiner als die Anzahl von zur Verfügung stehenden Bits. Der Schritt S27 berechnet einen Parameter Rt des Audiosignals. Bei der vorliegenden Ausführungsform wird der Parameter Rt durch eine Summe der individuellen Quantisierungsfehlerpegel dividiert durch den zulässigen Verzerrungspegel für jedes Skalierungsfaktorband dargestellt, und zwar für sämtliche der Skalierungsfaktorbänder sfb. Der Schritt S28 vergleicht den Parameter Rt mit der Referenzkonstante R. In dem Schritt S28, falls Rt < R gilt, werden der gemeinsame Skalierungsfaktor Csf und die individuellen Skalierungsfaktoren sf[sfb] so bestimmt, dass diese die optimalen Skalierungsfaktoren sind, die die Bitratenbedingung erfüllen. Falls Rt < R gilt, speichert der Schritt S28 den gemeinsamen Skalierungsfaktor Csf und die individuellen Skalierungsfaktoren sf[sfb] zu diesem Zeitpunkt in den Speicherbereichen für einen optimalen Skalierungsfaktor eines Speichers des AAC-Kodierers und setzt dieser die Referenzkonstante R auf den Wert des berechneten Parameters Rt. In dem ersten Durchlauf des Schrittes 528 ist der Parameter Rt stets kleiner als die Referenzkonstante R, weil die Referenzkonstante R anfänglich auf den angemessen großen Wert gesetzt wurde.
Nachdem der Schritt S28 ausgeführt wurde, setzt der Schritt S29 Informationsbits amp[sfb] für sämtliche der Skalierungsfaktorbänder sfb auf Null (amp[sfb] = 0). Jedes der Informationsbits amp[sfb] wird zur Verfügung gestellt, um anzuzeigen, ob der Skalierungsfaktor sf[sfb] des zugehörigen Skalierungsfaktorbandes aktuell geändert wurde. Wenn nämlich amp[sfb] = 0 gilt, zeigt dies an, dass der Skalierungsfaktor sf[sfb] des zugeordneten Skalierungsbandes nach einer anschließenden Berechnung der Quantisierung unverändert bleibt, und wenn amp[sfb] = 1 gilt, zeigt dies an, dass der Skalierungsfaktor sf[sfb] des zugehörigen Skalierungsbandes nach einer anschließenden Berechnung der Quantisierung geändert wird.
Der Schritt S30 berechnet die Quantisierung der MDCT-Koeffizienten mit dem gemeinsamen Skalierungsfaktor Csf und den individuellen Skalierungsfaktoren sf[sfb], und zwar zu diesem Zeitpunkt unter Anwendung der Frequenzdomänenwerte, und berechnet die Quantisierungsfehlerpegel von jedem der Skalierungsfaktorbänder sfb auf der Grundlage der quantisierten Frequenzdomänenwerte.
Nachdem der Schritt S30 ausgeführt ist, bestimmt der Schritt S31, ob es verletzende Skalierungsfaktorbänder sfb gibt, die eine Verzerrung aufweisen, die die zulässigen Verzerrungspegel der zugeordneten Bänder überschreitet. In den verletzenden Skalierungsfaktorbändern ist der Quantisierungsfehlerpegel größer als der zulässige Verzerrungspegel.
Wenn das Ergebnis bei dem Schritt S31 bestätigend ist, inkrementiert der Schritt S32 die Skalierungsfaktoren sf[sfb] (sf[sfb] = sf[sfb] + 1) für die verletzenden Skalierungsfaktorbänder, die eine Verzerrung aufweisen, die die zulässigen Verzerrungspegel der zugeordneten Bänder überschreitet, und setzt die Informationsbits amp[sfb] auf Eins (amp[stb] = 1), und zwar für solche Skalierungsfaktorbänder, für die Skalierungsfaktoren geändert werden. Nachdem der Schritt S32 ausgeführt ist, werden die vorgenannten Schritte S30 und S32 solange wiederholt, bis die Überprüfung der Maskierungsbedingung beendet ist. Der Schleifenprozess, der die Schritt S30 bis S32 umfasst, bezieht sich auf die Überprüfung der Maskierungsbedingung und dieser wird als die zweite Steuerschleife bezeichnet.
Folglich wird bei dem Verfahren gemäß der vorliegenden Ausführungsform, nachdem die Skalierungsfaktoren für die verletzenden Unterbänder geändert wurden, nur die Überprüfung der Maskierungsbedingung (die zweite Steuerschleife) wiederholt, ohne dass die Überprüfung der Bitratenbedingung ausgeführt wird, und es ist möglich, die Überprüfung der Maskierungsbedingung für sämtliche der Skalierungsfaktorbänder rasch auszuführen.
Wenn das Ergebnis bei dem Schritt S31 negativ ist, gibt es kein Skalierungsfaktorband mit einer Verzerrung, die die zulässigen Verzerrungspegel der zugeordneten Bänder überschreitet. Der Schritt S33 bestimmt, ob zumindest ein Skalierungsfaktorband das Informationsbit amp[sfb] aufweist, das größer ist als Null (irgendein amp[sfb] > 0). Falls es zumindest ein Skalierungsfaktorband gibt, wo das Informationsbit amp[sfb] gleich 1 ist, könnte die Bitratenbedingung, die dahingehend lautet, dass die Anzahl von benötigten Bits kleiner ist als die Anzahl von zur Verfügung stehenden Bits, als Folge der Berechnung der Quantisierung bei dem Schritt S30 verletzt werden.
Wenn das Ergebnis bei dem Schritt S33 bestätigend ist, wird bestimmt, dass die Bitratenbedingung nicht erfüllt wird und werden die vorgenannten Schritte 524 bis S33 solange wiederholt, bis sämtliche Informationsbits amp[sfb] gleich 0 sind. Folglich wird bei dem Verfahren gemäß der vorliegenden Ausführungsform die erste Steuerschleife, welche die Berechnung der Quantisierung der Frequenzdomänenwerte und die Überprüfung der Bitratenbedingung umfasst, und die zweite Steuerschleife, welche die Berechnung eines Quantisierungsrauschens für jedes Unterband und die Überprüfung der Maskierungsbedingung umfasst, alternierend ausgeführt, wenn die Bitzuordnung für den zugeordneten Block gesteuert wird, so dass sowohl die Bitratenbedingung als auch die Maskierungsbedingung erfüllt wird.
Wenn das Ergebnis bei dem Schritt S33 negativ ist, wird bestimmt, dass sowohl die Bitratenbedingung als auch die Maskierungsbedingung erfüllt wird. Die Steuerung der Bitzuordnung wird normalerweise abgebrochen, falls es kein Skalierungsfaktorband gibt mit einem höheren als dem zulässigen Verzerrungspegel. Es ist jedoch nicht immer möglich, dies zu erreichen. In einem solchen Fall umfasst der oben genannte Schritt S33 zusätzlich zu der Überprüfung der Bitratenbedingung und der Maskierungsbedingung Abbruchbedingungen zum Abbruch des Verfahrens zur Kodierung und Quantisierung von Audiosignalen. Bei dem vorgenannten Schritt S30, falls die Skalierungsfaktoren für sämtliche der Skalierungsfaktorbänder bereits geändert wurden, wird das Verfahren zur Kodierung und Quantisierung von Audiosignalen abgebrochen. Außerdem, falls die Differenz zwischen zwei aufeinander folgenden Skalierungsfaktoren größer ist als ein vorgegebener oberer Grenzwert, wird das Verfahren zur Kodierung und Quantisierung von Audiosignalen abgebrochen. Es könnte eine zusätzliche Bedingung geben, die das Verfahren zur Kodierung und Quantisierung von Audiosignalen für den Fall abbricht, dass es an Rechenzeit mangelt.
Bei der vorstehend beschriebenen Ausführungsform beziehen sich die Schritt S24 bis S26 auf die Überprüfung der Bitratenbedingung, die dahingehend lautet, dass die Anzahl von benötigten Bits kleiner ist als die Anzahl von zur Verfügung stehenden Bits. Die Schritte S30 bis S32 beziehen sich auf die Überprüfung der Maskierungsbedingung, die dahingehend lautet, dass der Quantisierungsfehlerpegel kleiner ist als der zulässige Verzerrungspegel. Wenn sowohl die Bitratenbedingung als auch die Maskierungsbedingung erfüllt werden kann, werden zu diesem Zeitpunkt der gemeinsame Skalierungsfaktor Csf und die individuellen Skalierungsfaktoren sf[sfb] gespeichert und wird schließlich ein Ausgangsvektor von quantisierten Frequenzdomänenwerten auf der Grundlage der gespeicherten Skalierungsfaktoren erstellt.
Bei der vorstehend beschriebenen Ausführungsform, wenn die Maskierungsbedingung nicht erfüllt werden kann und der vorgenannte Schritt S33 zwangsweise und auf der Grundlage der Abbruchbedingungen abgebrochen wird, wird die Quantisierung der MDCT-Koeffizienten für das Audiosignal auf der Grundlage des gemeinsamen Skalierungsfaktors Csf und der individuellen Skalierungsfaktoren sf[sfb] berechnet, die aus den Speicherbereichen für den optimalen Skalierungsfaktor (vgl. den Schritt S28) ausgelesen werden. Der Schritt S33 in dem Verfahren zur Kodierung und Quantisierung von Audiosignalen gemäß Fig. 5 wird normalerweise nicht immer abgebrochen, wenn die Bitzuordnung optimiert wird. Es kann der Fall eintreten, dass die Kodierungsqualität mit den zugeordneten Bits verschlechtert wird. Um zuverlässig die Verschlechterung der Kodierungsqualität zu verhindern und um die Bitzuordnung rasch zu optimieren, sind die Schritt S23, S27 und S28 in der vorliegenden Ausführungsform nützlich, um den Ausgangsvektor von quantisierten Frequenzdomänenwerten auf der Grundlage der optimalen Bitzuordnungsdaten selbst dann zu erstellen, wenn die Maskierungsbedingung nicht erfüllt werden kann.
Bei der vorstehend beschriebenen Ausführungsform, wenn zumindest ein Skalierungsfaktorband das Informationsbit amp[sfb] aufweist, das auf Eins gesetzt ist, wird bestimmt, dass die Bitratenbedingung verletzt werden könnte. Wenn sämtliche der Skalierungsfaktorbänder Informationsbits amp[sfb] aufweisen, die auf Null gesetzt sind, wird bestimmt, dass sowohl die Bitratenbedingung als auch die Maskierungsbedingung schließlich erfüllt ist.
Bei der vorstehend beschriebenen Ausführungsform wird der Parameter Rt des Audiosignals jedes Mal berechnet, wenn die Berechnung der Quantisierung (die erste Steuerschleife) beendet wird, und wird der Parameter Rt durch eine Summe der individuellen Quantisierungsfehlerpegel dividiert durch den zulässigen Verzerrungspegel von jedem Skalierungsband repräsentiert, und zwar für sämtliche der Skalierungsfaktorbänder. Die vorliegende Erfindung ist jedoch nicht auf diese Ausführungsform beschränkt. Beispielsweise könnte der Parameter Rt durch eine Summe der individuellen Quantisierungsfehlerpegel dividiert durch den zulässigen Verzerrungspegel für jedes Skalierungsband repräsentiert werden, und zwar nur für die Skalierungsbänder, wo der Quantisierungsfehlerpegel größer ist als der zulässige Verzerrungspegel des zugeordneten Skalierungsfaktorbands. Alternativ kann der Parameter Rt durch eine Summe der individuellen Quantisierungsfehlerpegel für sämtliche der Skalierungsfaktorbänder repräsentiert werden.
Alternativ kann der Parameter Rt durch eine Summe der individuellen Quantisierungsfehlerpegel für nur diejenigen Skalierungsfaktorbänder repräsentiert werden, für die der Quantisierungsfehlerpegel größer ist als der zulässige Verzerrungspegel des zugeordneten Skalierungsfaktorbands. Alternativ wird der Parameter Rt durch die Anzahl der Skalierungsfaktorbänder repräsentiert, für die der Quantisierungsfehlerpegel größer ist als der zulässige Verzerrungspegel des zugeordneten Skalierungsfaktorbands. Alternativ kann der Parameter Rt durch die Anzahl von Bits repräsentiert werden, die erforderlich sind, um den Bitstrom zu kodieren.
Außerdem wird bei der vorstehend beschriebenen Ausführungsform der Parameter Rt durch eine Summe der individuellen Quantisierungsfehlerpegel dividiert durch den zulässigen Verzerrungspegel für jedes Skalierungsfaktorband repräsentiert, und zwar für sämtliche der Skalierungsfaktorbänder, und wird die Referenzkonstante R auf einen angemessen großen Wert in dem Schritt S23 gesetzt. Die Referenzkonstante R wird zur Verfügung gestellt, um den Parameter Rt mit Hilfe eines Vergleichs mit der Referenzkonstante R zu überprüfen. Wie vorstehend beschrieben wurde, können verschiedene Darstellungen des Parameters Rt möglich sein. Je nach der Art der Darstellung des Parameters Rt kann die Referenzkonstante R auf einen angemessen kleinen Wert in dem Schritt S23 gesetzt werden. In einem solchen Fall kann der Vergleich des Schrittes 528 auf eine Überprüfung geändert werden, falls der Parameter Rt größer ist als die Referenzkonstante R (Rt > R).
Wie vorstehend beschrieben wurde, werden bei dem Verfahren zur Kodierung und Quantisierung von Audiosignalen gemäß der vorliegenden Erfindung, wenn die Bitzuordnung für jedes Unterband gesteuert wird, die erste Steuerschleife und die zweite Steuerschleife alternierend für jeden Block ausgeführt, so dass sowohl die Bitratenbedingung als auch die Maskierungsbedingung erfüllt ist. Nachdem beide Bedingungen erfüllt sind, wird schließlich ein Ausgangsvektor von quantisierten Frequenzdomänenwerten erzeugt. Eine Gesamtanzahl von Ausführungen der Schleifenprozesse, die erforderlich ist, um die Bitzuordnung zu optimieren, ist deutlich niedriger und es ist möglich, die Konvergenz rasch zu erreichen. Deshalb ist das Verfahren zur Kodierung und Quantisierung von Audiosignalen gemäß der vorliegenden Erfindung wirkungsvoll, um für eine hohe Kodierungsqualität zu sorgen, ohne dass es zu hohen Signal-zu-Rausch-Verhältnissen kommt. Es ist möglich, den iterativen Prozess rasch auszuführen, der konvergiert, wenn die Gesamtzahl von Bits innerhalb eines gewissen Intervalls liegt, das die Anzahl von zugeordneten Bits umgibt, wobei zugleich eine Verschlechterung der Kodierungsqualität auf Grund einer Nichtkonvergenz verhindert wird.
Außerdem sind bei dem Verfahren zur Kodierung und Quantisierung von Audiosignalen gemäß der vorliegenden Erfindung, wenn die Überprüfung der Maskierungsbedingung ausgeführt ist, die Quantisierungsfehlerpegel von sämtlichen der Skalierungsfaktorbänder stets kleiner als die zulässigen Verzerrungspegel. Wenn die Bitratenbedingung und die Maskierungsbedingung schließlich erfüllt sind, erfordert dies nur eine geringe Rechenzeit, bis die Konvergenz erreicht wird. Die gesamte Anzahl von Ausführungen der Bitzuordnungssteuerung ist deutlich geringer und es ist möglich, die Konvergenz rasch zu erreichen. Folglich kann das Verfahren zur Kodierung und Quantisierung von Audiosignalen gemäß der vorliegenden Erfindung rasch den iterativen Prozess ausführen, der konvergiert, wenn die Gesamtzahl von Bits innerhalb eines gewissen Intervalls liegt, das die Anzahl von zugeordneten Bits umgibt, wobei zugleich die Verschlechterung der Kodierungsqualität auf Grund einer Nichtkonvergenz verhindert wird.
Außerdem ist die vorliegende Erfindung nicht auf die vorstehend beschriebenen Ausführungsformen beschränkt und Variationen und Modifikationen können vorgenommen werden, ohne den Schutzbereich der vorliegenden Erfindung, wie er durch die beigefügten Patentansprüche festgelegt wird, zu verlassen.

Claims

1. Verfahren zur Kodierung und Quantisierung von Audiosignalen, mit den folgenden Schritten:

entlang der Zeitachse wird eine Sequenz von Blöcken von Abtastwerten eines Eingangsaudiosignals erzeugt;

jeder Block des Eingangsaudiosignals wird in eine Mehrzahl von Spektralunterband-Komponenten (D) gewandelt;

die Spektralunterband-Komponenten eines jeweiligen Blocks werden in einen Eingabevektor von Frequenzdomänenwerten gewandelt;

jede Unterbandkomponente (D) wird quantisiert, wodurch die Anzahl von Quantisierungswerten bzw. -pegeln für ein Spektralunterband aus einer Bitzuordnung erhalten wird;

die Bitzuordnung wird für jedes Unterband dadurch gesteuert, dass ein psychoakustisches Model (71) verwendet wird, das jeweils einen zulässigen Verzerrungswert bzw. -pegel für jeden Skalierungswert erzeugt, der einem Unterband entspricht;

während des Steuerungsschritts wird eine Quantisierung der Frequenzdomänenwerte eines jeweiligen Blocks durch eine erste Steuerschleife (S3-S5; S24- S26) berechnet, wobei die erste Steuerschleife solange wiederholt wird, bis eine Bitratenbedingung (S4; S25) dahingehend erfüllt ist, dass die Anzahl von Bits, die zur Kodierung eines Bitstroms erforderlich ist, kleiner ist als die Anzahl von Bits, die zur Verfügung stehen, um den Bitstrom zu kodieren; und

mittels einer zweiten Steuerschleife (S7-S9; S30-S32) wird ein Quantisierungsrauschen für jedes Unterband berechnet, das durch die Quantisierung der Frequenzdomänenwerte innerhalb der ersten Steuerschleife (S3-S5; S24-S26) erzeugt wird, wobei die erste und zweite Steuerschleife so ausgeführt werden, dass sowohl die Bitratenbedingung als auch eine Maskierungsbedingung (S10, S33) dahingehend erfüllt ist, dass ein Quantisierungsfehlerwert bzw. -pegel der Frequenzdomänenwerte mit Skalierungsfaktoren, die auf die Werte angewendet werden, kleiner ist als der zulässige Verzerrungswert ist, und wobei ein Ausgangssignal von quantisierten Frequenzdomänenwerten erzeugt wird, falls beide Bedingungen erfüllt sind,

dadurch gekennzeichnet, dass die zweite Steuerschleife (S7-S9; S30-S32) nach der ersten Steuerschleife (S3-S5; S24-S26) ausgeführt wird und dass die zweite Steuerschleife ohne Ausführung der ersten Steuerschleife solange wiederholt wird, bis die Maskierungsbedingung für den Block erfüllt ist.

2. Verfahren nach Anspruch 1, bei dem die Anzahl von verfügbaren Bits auf der Grundlage einer gegebene Kodierungsbitrate vorbestimmt wird.

3. Verfahren nach Anspruch 1 oder Anspruch 2, mit den weiteren Schritten:

jedes Mal, wenn die Berechnung der Quantisierung der Frequenzdomänenwerte von jedem Block mittels der ersten Steuerschleife (S24-S26) beendet ist, wird ein Parameter (Rt) des Audiosignals basierend auf den Skalierungsfaktoren berechnet (S27), die auf die Frequenzdomänenwerte innerhalb der Skalierungsfaktorbänder angewendet werden; und

der Parameter (Rt) wird nach Beendigung seiner Berechnung gespeichert.

4. Verfahren nach Anspruch 3, mit den weiteren Schritten:

es wird eine Referenzkonstante (R) auf einen ausreichend großen Wert oder einen ausreichend kleinen Wert gesetzt, bevor der Quantisierungsschritt (530) begonnen wird; und

der gespeicherte Parameter (Rt) wird mit der Referenzkonstante (R) nach Beendigung des Speicherschritts verglichen, wobei dann, wenn die Referenzkonstante auf den großen Wert gesetzt wird und der gespeicherte Parameter kleiner ist als die Referenzkonstante, die Referenzkonstante für einen nachfolgenden Zyklus des Vergleichsschrittes auf den gespeicherten Parameter gesetzt wird und wobei dann, wenn die Referenzkonstante auf den kleinen Wert gesetzt ist und der gespeicherte Parameter größer ist als die Referenzkonstante, die Referenzkonstante für einen nachfolgenden Zyklus des Vergleichsschrittes auf den gespeicherten Parameter gesetzt wird.

5. Verfahren nach Anspruch 4, bei dem dann, wenn die Referenzkonstante auf den großen Wert gesetzt ist und der gespeicherte Parameter kleiner ist als die Referenzkonstante, die zu einem solchen Zeitpunkt berechneten Skalierungsfaktoren in Speicherbereichen für optimale Skalierungsfaktor gespeichert werden und wobei dann, wenn die Referenzkonstante auf den kleinen Wert gesetzt ist und der gespeicherte Parameter größer ist als die Referenzkonstante, die zu einem solchen Zeitpunkt berechneten Skalierungsfaktoren in den Speicherbereichen für optimale Skalierungsfaktoren gespeichert werden.

6. Verfahren nach einem der Ansprüche 1 bis 5, bei dem Abbruchbedingungen zusätzlich zu der Bitratenbedingung und der Maskierungsbedingung für einen Abbruch der zweiten Steuerschleife (S7-S9; S30-S32) überprüft werden, wenn die Maskierungsbedingung nicht erfüllt werden kann.

7. Verfahren nach einem der Ansprüche 1 bis 6, bei dem dann, wenn sowohl die Bitratenbedingung als auch die Maskierungsbedingung erfüllt werden kann, Bitzuordnungsdaten, die auf den schlussendlich auf die Frequenzdomänenwerte innerhalb der Skalierungsfaktorbänder angewendeten Skalierungsfaktoren basieren, gespeichert werden, um den Ausgabevektor von quantisierten Frequenzdomänenwerten zu erzeugen.

8. Verfahren nach Anspruch 5, bei dem dann, wenn die Maskierungsbedingung nicht erfüllt werden kann und die zweite Steuerschleife basierend auf Abbruchbedingungen zwangsweise abgebrochen wird, die Quantisierung der Frequenzdomänenwerte basierend auf den Skalierungsfaktoren berechnet wird, die aus den Speicherbereichen optimale Skalierungsfaktoren gelesen werden, um den Ausgabevektor von quantisierten Frequenzdomänenwerten zu erzeugen.

9. Verfahren nach einem der Ansprüche 3 bis 8, bei dem der Parameter (Rt) jedes Mal berechnet wird, wenn die Berechnung der Quantisierung beendet wird, und bei dem der Parameter durch eine Summe der einzelnen Quantisierungsfehlerwerte dividiert durch den zulässigen Verzerrungswert von jedem Skalierungsfaktorband repräsentiert wird, und zwar für sämtliche der Skalierungsfaktorbänder.

10. Verfahren nach einem der Ansprüche 3 bis 8, bei dem der Parameter (Rt) jedes Mal berechnet wird, wenn die Berechnung der Quantisierung beendet wird, und bei dem der Parameter durch eine Summe der einzelnen Quantisierungsfehlerwerte dividiert durch den zulässigen Verzerrungswert bzw. -pegel von jedem Skalierungsfaktorband repräsentiert wird, und zwar nur für die Skalierungsfaktorbänder, wo der Quantisierungsfehlerwert bzw. -pegel größer ist als der zulässige Verzerrungswert des zugehörigen Skalierungsfaktorbands.

11. Verfahren nach einem der Ansprüche 3 bis 8, bei dem der Parameter (Rt) jedes Mal berechnet wird, wenn die Berechnung der Quantisierung beendet wird, und bei dem der Parameter durch eine Summe der einzelnen Quantisierungsfehlerwerte für sämtliche der Skalierungsfaktorbänder repräsentiert wird.

12. Verfahren nach einem der Ansprüche 3 bis 8, bei dem der Parameter (Rt) jedes Mal berechnet wird, wenn die Berechnung der Quantisierung beendet wird, und bei dem der Parameter durch eine Summe der einzelnen Quantisierungsfehlerwerte für nur diejenigen Skalierungsfaktorbänder repräsentiert wird, wo der Quantisierungsfehlerwert größer ist als der zulässige Verzerrungswert des zugehörigen Skalierungsfaktorbands.

13. Verfahren nach einem der Ansprüche 3 bis 8, bei dem der Parameter (Rt) jedes Mal berechnet wird, wenn die Berechnung der Quantisierung beendet wird, und bei dem der Parameter durch die Anzahl von Skalierungsfaktorbänder repräsentiert wird, wo der Quantisierungsfehlerwert größer ist als der zulässige Verzerrungswert des zugehörigen Skalierungsfaktorbands.

14. Verfahren nach einem der Ansprüche 3 bis 8, bei dem der Parameter (Rt) jedes Mal berechnet wird, wenn die Berechnung der Quantisierung beendet wird, und bei dem der Parameter durch die Anzahl von Bits repräsentiert wird, die für eine Kodierung des Bitstroms erforderlich sind.