-
Die
vorliegende Erfindung betrifft ein Sprachgütebewertungssystem.
-
Über Telekommunikationsstrecken
geführte Signale
können
beträchtlichen
Umwandlungen unterzogen werden, wie beispielsweise Digitalisierung, Verschlüsselung
und Modulation. Auch können
sie aufgrund der Auswirkungen verlustbehafteter Summierungs- und Übertragungsfehler
verzerrt sein. Weiterhin können
sie durch die benutzte akustische Schnittstelle verzerrt werden.
-
Objektive
Verfahren zur Messung der Güte eines
Signals befinden sich schon einige Jahre in der Entwicklung. Solche
objektiven Verfahren betreffen die Anwendung in Geräteentwicklung,
Geräteprüfung und
Auswertung von Systemleistung. Herkömmlicherweise sind Gütebewertungssysteme
entweder als intrusiv oder nichtintrusiv eingestuft worden.
-
Intrusive
Gütebewertungssysteme
erfordern die Abspielung eines bekannten (Bezugs-)Signals durch
ein Verzerren des Systems (das geprüfte Kommunikationsnetz oder
sonstiges System) zur Ableitung eines verschlechterten Signals,
das mit einer unverzerrten Fassung des Bezugssignals verglichen wird.
Solche Systeme sind auch als "intrusiv" bekannt, da während der
Ausführung
der Prüfung
der geprüfte
Kanal allgemein keinen aktiven Verkehr führen kann.
-
Umgekehrt
sind nichtintrusive Gütebewertungssysteme
solche, die benutzt werden können, während aktiver
Verkehrfunkkanal geführt
wird, ohne die Notwendigkeit der Prüfverbindungen.
-
Nichtintrusive
Prüfung
ist häufig
erforderlich, da es für
einige Prüfungen
nicht möglich
ist, Prüfverbindungen
herzustellen. Der Grund dafür
könnte sein,
daß die
Verbindungsendpunkte geographisch verteilt oder unbekannt sind.
Auch könnte
es sein, daß die
Kapazitätskosten
auf dem geprüften
Weg besonders hoch sind. Eine nichtintrusive Überwachungsanwendung kann die
gesamte Zeit auf aktiven Verbindungen laufen, um eine bedeutsame
Leistungsmessung zu ergeben.
-
Um
die Leistung von Gütebewertungssystemen
zu prüfen,
wird eine Datenbank verzerrter Proben benutzt, von denen jede von
Gruppen menschlicher Zuhörer
bewertet worden ist, um eine MOS (Mean Opinion Score – mittlere
Bewertungsgüte)
bereitzustellen.
-
MOS
werden durch subjektive Prüfungen
erzeugt, deren Ziel es ist, die Wahrnehmung des Durchschnittsbenutzers
der Sprachgüte
eines Systems dadurch herauszufinden, indem man eine gezielte Frage
an eine Gruppe von Zuhörern
richtet und eine begrenzte Antwortmöglichkeit bereitstellt. Um beispielsweise
die Hörgüte zu bestimmen,
werden Benutzer aufgefordert, die "Sprachgüte" nach einem Fünfpunkte-Maßstab von Schlecht bis Ausgezeichnet
zu bewerten. Die MOS wird für
einen bestimmten Zustand durch Mitteln der Bewertungen aller Zuhörer berechnet.
In "PESQ – the new
ITU standard for end-to-end speech quality assessment" (PESQ – der neue
ITU-Standard für
durchgehende Sprachgütebewertung),
Rix A et al., AES 109th Convention, ist ein Verfahren zur objektiven
Bewertung von Sprachcodexen offenbart.
-
Ein
Problem bei bekannten Gütebewertungssystemen
besteht darin, daß sie
nicht die akustische Schnittstelle in Betracht ziehen (beispielsweise
wird ein mobiler Handapparat und insbesondere die Wirkungen von
Rauschen in dem nicht für
ein Telefongespräch
benutzten Ohr nicht berücksichtigt. Weiterhin
wird, wenn beide Ohren für
das Telefongespräch
genutzt werden, die wahrnehmungsmäßige Verbesserung aufgrund
des wahrgenommenen Pegelgewinns nicht berücksichtigt.
-
Gemäß der Erfindung
wird eine Vorrichtung zum Bewerten der Wahrnehmungsgüte von über ein Telekommunikationsnetz übertragenen
und akustisch von einer akustischen Endvorrichtung aufgezeichneten
Sprachsignalen bereitgestellt, mit folgendem: einem Vorverarbeitungsprozessor
zur Anpassung eines Mono-Bezugssignals
mit einem einzigen Kanal zu einem verschlechterten Stereosignal
mit einem ersten Kanal und einem zweiten Kanal, wobei dieser Vorverarbeitungsprozessor
einen Pegeleinsteller zum Einstellen der Leistungspegel dieser Signale
und einen Zeitabgleicher zum Bestimmen der geschätzten Verzögerungen für jeden dieser Kanäle des verschlechterten
Signals umfaßt;
einem auditiven Umsetzer zum Erzeugen einer Menge von wahrnehmungsmäßig relevanten
Parametern für
jedes dieser Signale; und einem Vergleicher zum Vergleichen dieser
wahrnehmungsmäßig relevanten
Parameter zum Erzeugen von Störungsprofilen;
und einem Modellierer zum Erzeugen einer Sprachgütevorhersage in Abhängigkeit
von diesen Störungsprofilen;
wobei dieser Vorverarbeitungsprozessor weiterhin folgendes umfaßt: einen
Rauschmaskierungsbestimmer zum Vergleichen von Signalparametern
für jeden
dieser Kanäle
des verschlechterten Signals und Erzeugen eines Rauschmaskierungsanzeigers in
Abhängigkeit
von diesem Vergleich; und wobei die Störungsprofile von dem Rauschmaskierungsanzeiger
abhängig
sind.
-
Bei
einer Ausführungsform
der Erfindung wird vom Pegeleinsteller der Pegel dieser Signale
in Abhängigkeit
davon eingestellt, ob Rauschmaskierung angezeigt ist. Dies ergibt
unterschiedliche Empfindungsflächen
und daher unterschiedliche Störungsprofile
in Abhängigkeit
davon, ob Rauschmaskierung angezeigt ist oder nicht.
-
Bei
einer weiteren Ausführungsform
der Erfindung ist der Vergleicher zum Empfangen des Rauschmaskierungsanzeigers
eingerichtet, wobei der Vergleicher zum Abändern eines Störungsprofils in
Abhängigkeit
von einem Vergleich zwischen einem Störungsprofil für einen
Kanal und einer Menge wahrnehmungsmäßig relevanter Parameter für einen
anderen Kanal eingerichtet ist, wenn Rauschmaskierung angezeigt
ist.
-
Es
ist ein Vorteil, wenn der Vergleicher zum Empfangen eines Sprachaktivitätssignals
eingerichtet ist und das Störungsprofil
in Abhängigkeit
von diesen Sprachaktivitätssignalen
abgeändert
wird.
-
Die
Signalparameter, die zur Bestimmung, ob Rauschmaskierung durchzuführen ist,
benutzt werden, können
die geschätzten
Verzögerungen sein.
Wenn dies der Fall ist, dann ist es ein Vorteil, wenn der Rauschmaskierungsbestimmer
weiterhin Mittel zum Empfangen einer Schätzung des Vertrauensgrades,
daß jede
der geschätzten
Verzögerungen richtig
ist, umfaßt,
und ob dieser Rauschmaskierungsanzeiger auch von den geschätzten Vertrauensgraden
abhängig
ist.
-
Bei
einer Ausführungsform,
wo der Pegeleinsteller den Pegel der Signale in Abhängigkeit
davon einstellt, ob Rauschmaskierung angezeigt ist, ist der Pegeleinsteller
dafür eingerichtet,
- a) den Pegel jedes der Kanäle des verschlechterten Signals
in Abhängigkeit
von nur einem Kanal des Signals einzustellen, wenn Rauschmaskierung
angezeigt ist; und
- b) den Pegel jedes der Kanäle
(2a, 2b) des verschlechterten Signals unabhängig einzustellen, wenn
Rauschmaskierung nicht angezeigt ist.
-
Der
Pegeleinsteller ist vorzugsweise dafür eingerichtet, den Pegel beider
Kanäle
einzustellen, um einen ersten vorbestimmten Effektivleistungspegel
für den
einen Kanal im Schritt a) zu erreichen, und wobei das Pegeleinstellungsmittel
dafür eingerichtet ist,
den Pegel jedes der Kanäle
zum Erreichen eines zweiten vorbestimmten Effektivleistungspegels
für beide
Kanäle
in Schritt b) einzustellen.
-
Es
ist ein Vorteil, wenn der zweite vorbestimmte Pegel größer als
der erste vorbestimmte Pegel ist, um den wahrgenommenen Vorteil
zu berücksichtigen,
wenn Sprache in beiden Kanälen
vorhanden ist.
-
Nach
einem weiteren Aspekt der Erfindung ist auch ein Verfahren zum Bewerten
der Wahrnehmungsgüte
von über
ein Telekommunikationsnetz übertragenen
und akustisch von einer akustischen Endvorrichtung aufgezeichneten
Stereo-Sprachsignalen bereitgestellt, mit folgenden Schritten: Anpassen
eines Mono-Bezugssignals mit einem einzigen Kanal zu einem verschlechterten
Stereosignal mit einem ersten Kanal und einem zweiten Kanal; Einstellen
der Leistungspegel dieser Signale; Schätzen einer Verzögerung zwischen
jedem Kanal des verschlechterten Signals und dem Bezugssignal; Erzeugen
eines Rauschmaskierungsanzeigers in Abhängigkeit von einem Vergleich
entsprechender Signalparameter von jedem dieser Kanäle des verschlechterten
Signals; Erzeugen einer Menge von wahrnehmungsmäßig relevanten Parametern für jedes
der Bezugs- und verschlechterten Signale; Vergleichen der wahrnehmungsmäßig relevanten
Parameter des Bezugssignals mit den wahrnehmungsmäßig relevanten
Parametern des verschlechterten Signals zum Erzeugen von Störungsprofilen;
und Erzeugen einer Sprachgütevorhersage
in Abhängigkeit
von diesen Störungsprofilen;
wobei die erzeugten Störungsprofile
von dem Rauschmaskierungsanzeiger abhängig sind.
-
Bei
einer Ausführungsform
der Erfindung umfaßt
das Verfahren das Einstellen des Pegels der verschlechterten Signale
in Abhängigkeit
von dem Rauschmas kierungsanzeiger. Das ergibt unterschiedliche Empfindungsflächen und
damit unterschiedliche Störungsprofile
in Abhängigkeit
davon, ob Rauschmaskierung angezeigt ist oder nicht.
-
Bei
einer weiteren Ausführungsform
der Erfindung umfaßt
der Schritt des Vergleichens folgenden Teilschritt: Modifizieren
eines Störungspofils
in Abhängigkeit
von einem Vergleich zwischen einem Störungsprofil für einen
Kanal und einer Menge wahrnehmungsmäßig relevanter Parameter für den anderen
Kanal, wenn vom Rauschmaskierungsanzeiger Rauschmaskierung angezeigt
ist.
-
Es
ist ein Vorteil, wenn der Schritt des Abänderns in Abhängigkeit
von einem Sprachaktivitätssignal
durchgeführt
wird.
-
Die
Signalparameter, die zur Bestimmung benutzt werden, ob Rauschmaskierung
durchzuführen
ist, können
die geschätzten
Verzögerungen
sein. Wenn dies der Fall ist, dann ist es ein Vorteil, wenn der
Rauschmaskierungsanzeiger auch von Schätzungen des Vertrauensgrades
abhängig
ist, daß jede der
geschätzten
Verzögerungen
richtig ist.
-
Bei
einer Ausführungsform,
wo der Pegel der Signale in Abhängigkeit
davon eingestellt wird, ob Rauschmaskierung angezeigt ist, umfaßt das Verfahren
weiterhin folgende Schritte:
- c) Einstellen
des Pegels jedes der Kanäle
des verschlechterten Signals in Abhängigkeit von nur einem Kanal
des Signals, wenn Rauschmaskierung angezeigt ist; und
- d) Einstellen des Pegels jedes der Kanäle des verschlechterten Signals,
wenn Rauschmaskierung nicht angezeigt ist.
-
Der
Schritt c) umfaßt
vorzugsweise das Einstellen des Pegels beider Kanäle, um einen
ersten vorbestimmten Effektivleistungspegel für einen Kanal zu erreichen,
und wobei der Schritt d) das Einstellen des Pegels beider Kanäle unabhängig umfaßt, um einen
zweiten vorbestimmten Effektivleistungspegel für beide Kanäle zu erreichen.
-
Es
ist ein Vorteil, wenn der erste vorbestimmte Pegel größer als
der zweite vorbestimmte Pegel ist.
-
Auch
stellt die Erfindung ein computerlesbares Medium mit einem Computerprogramm
und ein Computerprogramm zur Ausführung der oben beschriebenen
Verfahren bereit.
-
Es
werden nunmehr nur beispielhafterweise Ausführungsformen der Erfindung
anhand der nachfolgenden Figuren beschrieben. In den Figuren zeigen:
-
1 ein
bekanntes Sprachgütebewertungssystem;
-
2 einen
bekannten Vorverarbeitungsprozessor;
-
3 einen
bekannten Hörempfindungsumsetzer;
-
4 ein
Sprachgütebewertungssystem
gemäß der vorliegenden
Erfindung;
-
5 einen
Vorverarbeitungsprozessor gemäß der vorliegenden
Erfindung;
-
6 einen
Vergleicher zum Erzeugen eines Störungsprofils gemäß der vorliegenden
Erfindung; und
-
7 ein
Flußdiagramm
für Schritte
eines Verfahrens gemäß der vorliegenden
Erfindung.
-
Es
wird nunmehr ein Umriß eines
Bewertungsverfahrens anhand der 1 beschrieben,
die schematisch ein Gütebewertungswerkzeug
darstellt, bei dem ein Bezugssignal 1 mit einem verschlechterten
Signal 2 verglichen wird.
-
Von
einem Vorverarbeitungsprozessor 3 werden die zwei Signale
unter Einstellung beider Signalpegel und zeitlicher Anpassung angepaßt, um vorverarbeitete
Signale 1' bzw. 2' zu erzeugen.
Vom Hörempfindungsumsetzer 4 wird
an jedes der vorverarbeiteten Signale eine Hörempfindungstransformation
angelegt, um "Empfindungsflächen" 1'', 2'' zu
erzeugen, die eine wahrnehmungsmäßig bedeutsame Darstellung 1, 2 (d.h.
was für
einen Durchschnittszuhörer
hörbar/von
Bedeutung ist) in jedem der Signale 1 bzw. 2 sind.
Die Empfindungsflächen 1'' 2'' werden dann
in einem Vergleicher 6 miteinander verglichen und das sich
ergebende Störungsprofil 5 wird
an einen kognitiven Modulierer 7 weitergeleitet, der eine Sprachgütevorhersage 8 erzeugt.
-
In 2 ist
der Vorverarbeitungsprozessor 3 ausführlicher dargestellt.
-
Jedes
Signal 1, 2 wird durch jeweilige Filter 22, 22' gefiltert,
die die Eigenschaften des hörenden Handapparats
berücksichtigen.
Im Fall akustischer Aufzeichnungen, denen über Breitband-Kopfhörer zugehört wird,
wird dieses Filter breitbandig sein. Für Telefonsprachgütebewertung
wird das Filter schmalbandig sein.
-
Von
einem Zeitanpasser 23 wird zeitliche Anpassung in zwei
Stufen ausgeführt.
Zuerst wird eine grobe Anpassung durch grobe Berechnung der Verzögerung zwischen
den zwei Signalen unter Verwendung von durch einen Sprachaktivitätsdetektor
(VAD – voice
activity detector) im Anpasser 23 bereitgestellten Informationen
durchgeführt.
Zweitens wird eine Feinanpassung durch Verwendung einer Kreuzkorrelation überlappender
Fenster in jedes Sprachsignal durchgeführt, um eine genauere Schätzung der Verzögerung zwischen
den zwei Signalen zu erzeugen. Zusätzlich wird vom Feinanpasser
eine Schätzung
auf Grundlage statistischer Ähnlichkeitsmaße des Vertrauensgrades
der Genauigkeit der Verzögerungsschätzung erzeugt.
Es ist möglich,
daß während einer Sprachäußerung Verzögerungsschwankungen
auftreten und dies wird von dem durch den Anpasser 23 benutzten
Anpassungsalgorithmus berücksichtigt,
indem er Zeitabstände
in jeder Äußerung rekursiv
aufspaltet und neuanpaßt,
bis eine optimale Anpassung bestimmt wird. Die Ausgabe vom Anpasser 23 umfaßt eine
Verzögerungsschätzung 25 und
einen Vertrauenswert 26 für jede Äußerung im Signal.
-
Auch
wird jedes Signal von einem Pegeleinsteller 21 verarbeitet,
so daß der
Durchschnittssignalpegel auf einen vorbestimmten Pegel eingestellt ist.
Bei der vorliegenden Ausführungsform
der Erfindung wird der vorbestimmte Signalpegel auf 79 dB SPL (Sound
Pressure Level – Schalldruckpegel)
eingestellt.
-
Es
wird nunmehr der Hörempfindungsumsetzer 4 anhand
der 3 beschrieben. Der Hörempfindungsumsetzer stellt
die Parameter bereit, die zum Vergleichen der Charakterisierungen
der Sprachsignale benutzt werden. Es ist damit von wesentlicher Bedeutung,
daß Parameter
benutzt werden, die für die
Wahrnehmungsgüte
des verschlechterten Signals bedeutsam sind.
-
Die
Empfangssignale 1', 2' werden von
Filtern 31 bzw. 31' unter
Verwendung eines Hanning-Fensters gefüllt. Bei der vorliegenden Ausführungsform
der Erfindung wird ein 32-ms-Hanning-Fenster benutzt. Dann wird
an das gefensterte Signal von jeweiligen Umsetzern 32, 32' eine schnelle
Fourier-Transformation (FFT – fast
Fourier Transform) angelegt. Die sich ergebenden Frequenzwerte werden
dann von Wandlern 33 bzw. 33' verformt, um zu berücksichtigen,
daß das
menschliche Gehörsystem
bei niedrigen Frequenzen eine feinere Frequenzauflösung als
bei höheren
Frequenzen aufweist. Bei der vorliegenden Ausführungsform werden die Frequenzwerte
von einer linearen Hertz-Skala in eine verformte Bark-Skala umgewandelt.
Das wird durch Erzeugen eines Bark-Wertes aus einer Anzahl von Hertz- Werten mit höheren Frequenzen
unter Verwendung einer Mittelungsfunktion erreicht.
-
Der
Kompensator 34 wird zum Kompensieren der im geprüften System
innewohnenden Übertragungsfunktion
benutzt. Vom Kompensator 36 wird sowohl das Bezugssignal
als auch das verschlechterte Signal zum Berechnen eines teilweisen
Kompensationsfaktors auf Grundlage der Durchschnittsleistungsdichten
der jeweiligen Signale benutzt.
-
Auch
wird örtliche
Stärkungskompensation auf
Grundlage des Verhältnisses
zwischen den zwei Empfangssignalen angewandt, wenn eine vorbestimmte
Hörschwelle überschritten
wird.
-
Abschließend wird
jedes Signal unter Verwendung von Zwickers-Gesetz durch den Verformung-Lautheit-Wandler 35 in
die Sone-Lautheitskala umgewandelt.
-
Wieder
auf 1 bezugnehmend werden die sich ergebenden Empfindungsflächen 1'' und 2'' vom
Vergleicher 6 miteinander verglichen. Wenn das Störungsprofil 5,
das effektiv ein Maß dafür ist, wie wahrnehmungsmäßig unterschiedlich
das Bezugssignal 1 und das verschlechterte Signal 2 voneinander sind,
größer als
ein vorbestimmter Schwellenwert ist, dann wird angenommen, daß dies möglicherweise auf
einer schlechten Anpassung beruht und solche "schlechten Intervalle" können wie
schon beschrieben vor Neuverarbeitung neu angepaßt werden.
-
Soweit
ist das beschriebene Sprachbewertungssystem herkömmlich (siehe beispielsweise ITU-T
P.862). Es wird nunmehr die Erweiterung eines solchen bekannten
Sprachbewertungssystems zum Einschließen von Rauschmaskierung unter
Bezugnahme auf 4 bis 7 beschrieben.
-
Nunmehr
auf 4 bezugnehmend, die ein binaurales Gütebewertungssystem
darstellt, wird ein Bezugssignal 1 mit einem verschlechterten
Signal 2 mit einem linken verschlechterten Signal 2a und
einem rechten verschlechterten Signal 2b verglichen. In
der nachfolgenden Beschreibung wird angenommen, daß der rechte
Kanal typischerweise Sprache enthält und daß der linke Kanal entweder
Rauschen oder Sprache enthält,
obwohl die Erfindung gleichermaßen
anwendbar ist, wenn die Kanäle
ausgewechselt werden oder mit anderen Formaten wie beispielsweise
Summe/Differenz versehen sind oder mehr als zwei getrennte Kanäle nach
irgendeinem vorbestimmten Verfahren zu vermischen sind.
-
Nunmehr
auf 5 bezugnehmend, die einen Teil des Vorverarbeitungsprozessors 3' zeigt, wird
vom Zeitabgleicher 23a das Bezugssignal 1 und das
linke verschlechterte Signal 2a angepaßt und vom Zeitabgleicher 23b das
Bezugssignal 1 und das rechte verschlechterte Signal 2b angepaßt.
-
Zum
Rauschmaskierungsbestimmer 51 werden sich ergebende Verzögerungsschätzungen 25a und 25b und
Vertrauenswerte 26a und 26b gesendet. Beim Rauschmaskierungsbestimmer 51 wird
in Abhängigkeit
von diesen Empfangssignalen angezeigt, ob Rauschmaskierung anzuwenden
ist oder nicht.
-
Wenn
der Unterschied zwischen der gesamten geschätzten Verzögerung für alle Äußerungen in jedem verschlechterten
Signal größer als
ein vorbestimmter Wert ist und wenn der geschätzte Vertrauensgrad, daß die Verzögerung im
linken verschlechterten Kanal richtig ist, weniger als ein vorbestimmter Wert
ist, dann wird erachtet, daß die
linken und rechten Signale unterschiedlich genug sind, um unterschiedlich
behandelt zu werden, und durch das binäre Signal 53 wird
Rauschmaskierung angezeigt. Andere mögliche Weisen zur Bestimmung,
ob Rauschmaskierung verwendet werden sollte, umfassen, sind aber
nicht beschränkt
auf, Inbetrachtziehung von absoluten und relativen Signalleistungen,
Signalkorrelation, adaptive Filterungs- und Signaltrennungsverfahren.
-
Wenn
Rauschmaskierung anzuwenden ist, dann wird erachtet, daß eines
der Signale (das Signal zum Fernsprechohr) Sprache umfaßt und das
andere der Signale (das Signal zum Nichtfernsprechohr) Rauschen
umfaßt.
-
Wenn
Rauschmaskierung angezeigt ist, dann wird von einem Pegeleinsteller 52 der
Effektivleistungspegel des Sprachsignals (des rechten Kanals) auf
einen ersten vorbestimmten Effektivleistungspegel eingestellt und
der Pegel des Nichtsprachsignals (des linken Kanals) wird um den
gleichen Betrag eingestellt.
-
Wenn
Rauschmaskierung nicht angezeigt ist, dann wird erachtet, daß beide
Signale Sprache umfassen. In diesem Fall wird vom Pegeleinsteller 52 der
Durchschnittspegel für
beide Sprachsignale auf einen zweiten vorbestimmten Pegel eingestellt,
der größer als
der erste vorbestimmte Pegel ist (im vorliegenden Fall um 3 dB lauter),
um zu berücksichtigen,
daß über beide
Ohren gehörte
Signale als lauter empfunden werden.
-
Das
Bezugssignal wird ebenfalls durch die Pegeleinstellung 52' auf den gleichen
Effektivleistungswert wie der für
das verschlechterten Signal benutzte angepaßt.
-
In
der binauralen Sprachbewertungsvorrichtung bleibt der Hörempfindungsumsetzer 4 unverändert, nur
wird die Transformation auf beide Kanäle des vorverarbeiteten Stereosignals
angewandt, so daß die
Hörempfindungsumsetzer 4a und 4b nicht weiter
beschrieben werden. Die Hörempfindungsumsetzer 4a und 4b erzeugen
Empfindungsflächen 1a'' und 2a'', 1b'' und 2b''.
Es werden zwei Empfindungsflächen 1a'' und 1b'' bezüglich des
Bezugs signals erzeugt, da das Bezugssignal im Hörempfindungsumsetzer während der
Kompensation bezüglich
des verschlechterten Signals abgeändert werden könnte, so daß die Empfindungsflächen 1a'' und 1b'' sich
voneinander unterscheiden können.
-
6 zeigt
einen Vergleicher 6',
der Empfindungsflächen 1a'' und 1b'' und
Empfindungsflächen 2a'', 2b'' von
den Hörempfindungsumsetzern 4a, 4b empfängt.
-
Vom
Profilgenerator 73 wird ein Ausgangs-Störungsprofil erzeugt, der die
Differenz zwischen den Bezugssignalempfindungsflächen 1a'' und 1b'' und den Empfindungsflächen des
verschlechterten Signals 2a'' und 2b'' für jeden Kanal findet und damit
ein linkes Ausgangs-Störungsprofil 70a und
ein rechtes Ausgangs-Störungsprofil 70b erzeugt.
Wenn Rauschmaskierung angezeigt ist, dann wird vom Lautheitvergleicher 71 die
Empfindungsfläche
des Kanals, der als rauschenthaltend angesehen wird, mit dem Störungsprofil
für den
Kanal verglichen, der als Sprache enthaltend angesehen wird.
-
Wenn
beispielsweise der linke Kanal als Rauschen enthaltend angesehen
wird und der rechte Kanal als Sprache enthaltend angesehen wird
(wie bei der hier beschriebenen Ausführungsform der Erfindung),
dann wird die Empfindungsfläche
des linken verschlechterten Signals 2a'' mit
dem rechten Störungsprofil 70b verglichen,
wie durch die durchgezogenen Linien angezeigt, die den Profilgenerator 73 und
den Lautheitvergleicher 71 in der 6 verbinden.
Wenn das Rauschen größer als
die Störung ist,
dann wird an das Ausgangs-Störungsprofil
für den
Sprache enthaltenden Kanal (70b) vom Maskierer 72 Maskierung
angelegt, um Störungsprofile 5a, 5b zu
erzeugen.
-
Bei
einer Ausführungsform
der Erfindung wird das Störungsprofil
für den
Sprache enthaltenden Kanal mit einem vorbestimmten Faktor von 0,5
multipliziert. In einer weiteren Ausführungsform der Erfindung wird
das Störungsprofil
mit einem vorbestimmten Faktor von 0,25 multipliziert. Die Störungsprofile werden
dann vom Modellierer 7 zum Erzeugen einer objektiven Sprachgütenote (Objective
Speech Quality Score) benutzt.
-
Wie
schon erwähnt
wird von den Sprachabgleichern (23a, 23b) ein
Sprachaktivitätsdetektor zum
Unterstützen
des Anpassungsvorgangs benutzt. Vom Maskierer 72 kann eine
Ausgabe 54 des Sprachaktivitätsdetektors benutzt werden,
so daß die an
einen Teil des Störungsprofils
angelegte Maskierung davon abhängig
ist, ob der Teil des diesen Teil des Störungsprofils erzeugenden Bezugssignals vom
Sprachaktivitätsdetektor
als Sprache oder als Rauschen angesehen wird.
-
Beispielsweise
kann ein vorbestimmter Faktor an Teile mit Sprache angelegt werden
und ein anderer vorbestimmter Faktor kann an Teile mit Rauschen
angelegt werden. Einer der vorbestimmten Faktoren kann auf 1 eingestellt
werden, so daß Rauschmaskierung
nur an Teile mit Sprache oder nur an Teile mit Rauschen angelegt
werden kann.
-
Wenn
Rauschmaskierung nicht angezeigt ist, dann werden die Ausgangs-Störungsprofile
vom Maskierer 72 nicht abgeändert.
-
Es
wird nun ein erfindungsgemäßes Verfahren
unter Bezugnahme auf 7 zusammen mit 5 und 6 beschrieben.
-
Im
Schritt 100 wird das Bezugssignal 1 von Zeitabgleichern 23a und 23b an
Bezugssignale 2a bzw. 2b angepaßt. Im Schritt 102 vergleicht
der Rauschmaskierungsbestimmer 51 Parameter der beiden
Signale, um zu entscheiden, ob sie einander ähnlich sind oder nicht. Bei
dieser Ausführungsform der
Erfindung beruht die Ähnlichkeitsentscheidung auf
den jeweiligen Verzögerungen 25a, 25b und
Vertrauenswerten 26a, 26b, die von den Zeitabgleichern 23a, 23b erzeugt
werden, obwohl wie schon angegeben andere Verfahren gleichermaßen benutzt
werden könnten.
-
Wenn
sich die Signale nicht ähnlich
sind, dann ist Rauschmaskierung erforderlich und vom Pegeleinsteller 52 wird
der Pegel jedes Kanals des Signals im Schritt 106 so eingestellt,
daß der
Sprache enthaltende Kanal einen ersten vorbestimmten Effektivleistungspegel
erhält
und der Rauschen enthaltende Kanal um den gleichen Betrag eingestellt
wird.
-
Wenn
sie einander ähnlich
sind, dann ist Rauschmaskierung nicht erforderlich und im Schritt 104 wird
vom Pegeleinsteller 52 der Pegel jedes Signals 2a, 2b eingestellt,
um einen Signaleffektivwert eines zweiten vorbestimmten Pegels zu
erhalten, der 3 dB höher
als der erste vorbestimmte Pegel ist. Obwohl keine Rauschmaskierung
durchzuführen
ist, werden durch die Pegelsteigung die sich ergebenden Empfindungsflächen 2a'' und 2b'',
und damit die sich ergebenden Störungsprofile 5a, 5b beeinflußt.
-
Im
Schritt 107 werden die Empfindungsflächen 1a'', 1b'', 2a'' und 2b'' wie schon beschrieben erzeugt.
-
Im
Schritt 108 erzeugt der Vergleicher 6' die Störungsprofile 5a, 5b in
Abhängigkeit
von dem Rauschmaskierungsanzeiger 53 wie schon unter Bezugnahme
auf 6 beschrieben.
-
Abschließend wird
im Schritt 109 die Sprachgütevorhersage vom Modulierer 7 erzeugt.
-
Obwohl
die Erfindung unter Bezugnahme auf eine bestimmte Ausführungsform
eines intrusiven Gütebewertungssystems
beschrieben worden ist, ist sie gleichermaßen auf nichtintrusive Gütebewertungssysteme anwendbar.
-
Der
Fachmann wird verstehen, daß die
oben beschriebenen Verfahren auf einem herkömmlichen programmierbaren Rechner
implementiert werden können,
und daß ein
Computerprogramm, auf dem Anweisungen zum Steuern des programmierbaren Rechners
zur Durchführung
der obigen Verfahren codiert sind, auf einem computerlesbaren Medium
bereitgestellt werden kann.