[go: up one dir, main page]

DE60306884T2 - Werkzeug zur nicht invasiven Bestimmung der Qualität eines Sprachsignals - Google Patents

Werkzeug zur nicht invasiven Bestimmung der Qualität eines Sprachsignals Download PDF

Info

Publication number
DE60306884T2
DE60306884T2 DE60306884T DE60306884T DE60306884T2 DE 60306884 T2 DE60306884 T2 DE 60306884T2 DE 60306884 T DE60306884 T DE 60306884T DE 60306884 T DE60306884 T DE 60306884T DE 60306884 T2 DE60306884 T2 DE 60306884T2
Authority
DE
Germany
Prior art keywords
distortion
specific
sample
quality
quality measure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60306884T
Other languages
English (en)
Other versions
DE60306884D1 (de
Inventor
Philip Pinewood Gray
Ludovic Malfait
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Psytechnics Ltd
Original Assignee
Psytechnics Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Psytechnics Ltd filed Critical Psytechnics Ltd
Application granted granted Critical
Publication of DE60306884D1 publication Critical patent/DE60306884D1/de
Publication of DE60306884T2 publication Critical patent/DE60306884T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Monitoring And Testing Of Exchanges (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Investigating Or Analyzing Materials By The Use Of Ultrasonic Waves (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Analysis (AREA)

Description

  • Die vorliegende Erfindung betrifft ein nicht-intrusives Sprachqualitätsbestimmungssystem.
  • Über Telekommunikationsverbindungen geführte Signale können beträchtlichen Transformationen unterzogen werden, wie z.B. Digitalisierung, Verschlüsselung und Modulation. Außerdem können sie aufgrund der Effekte von verlustbehafteter Kompression und Übertragungsfehlern verzerrt werden.
  • Objektive Prozesse zum Zwecke des Messens der Qualität eines Signals werden gerade entwickelt und finden in der Geräteentwicklung, Geräteprüfung und Bewertung der Systemleistungsfähigkeit Anwendung.
  • Bestimmte automatisierte Systeme erfordern das Abspielen eines bekannten (Referenz-)Signals durch ein verzerrendes System (das Kommunikationsnetz oder anderes zu prüfendes System), um ein verschlechtertes Signal abzuleiten, das mit einer unverzerrten Version des Referenzsignals verglichen wird. Solche Systeme sind als "intrusive" Qualitätsbestimmungssysteme bekannt, da, obwohl die Prüfung ausgeführt wird, der geprüfte Kanal im allgemeinen keinen Live-Verkehr führen kann.
  • Dagegen sind nicht-intrusive Qualitätsbestimmungssysteme Systeme, die benutzt werden können, während Live-Verkehr durch den Kanal geführt wird, ohne daß Prüfanrufe notwendig sind.
  • Die nicht-intrusive Prüfung ist erforderlich, weil es für bestimmte Prüfungen nicht möglich ist, Prüfanrufe durchzuführen. Dies könnte der Fall sein, weil die Anrufabschlußpunkte geographisch divers oder unbekannt sind. Außerdem könnte es sein, daß die Kosten von Kapazität auf der zu prüfenden Route besonders hoch sind. Eine nicht-intrusive Überwachungsanwendung kann dagegen die ganze Zeit auf den Live-Anrufen ablaufen, um eine sinnvolle Messung der Leistungsfähigkeit zu ergeben.
  • Ein bekanntes nicht-intrusives Qualitätsbestimmungssystem verwendet eine Datenbank verzerrter Proben, die von Teams von Zuhörerpersonen bewertet wurden, um eine mittlere Meinungsbewertung (MOS) bereitzustellen.
  • MOS werden durch subjektive Prüfungen erzeugt, die darauf abzielen, die Wahrnehmung der Sprachqualität eines Systems eines durchschnittlichen Benutzers herauszufinden, indem einem Team von Zuhörern eine direkte Frage gestellt und eine begrenzte Antwortauswahl bereitgestellt wird. Um zum Beispiel die Zuhörqualität zu bestimmen, werden Benutzer gebeten, die "Qualität der Sprache" auf einer Skala von fünf Punkten von Schlecht bis Ausgezeichnet einzustufen. Die MOS wird für eine bestimmte Bedingung durch Mittelung der Einstufungen aller Zuhörer berechnet.
  • Um das Qualitätsbestimmungssystem zu trainieren, wird jede Probe parameterisiert und es wird eine Kombination der Parameter bestimmt, die die beste Prädiktion der von Zuhörerpersonen beurteilten MOS ergibt. Die internationale Patentanmeldung Nr. WO 01/35393 beschreibt ein Verfahren zum Parameterisieren von Sprachproben zur Verwendung in einem nicht-intrusiven Qualitätsbestimmungssystem.
  • Das Patent Nr. US 6,446,038 beschreibt ein Verfahren und ein System zur Bewertung der Qualität von Sprache in einem Voice-Kommunikationssystem, bei dem ein verfälsches Sprachsignal empfangen und verarbeitet wird, um mehrere Verzerrungen zu bestimmen. Die mehreren Verzerrungen werden durch ein nicht lineares neuronales Netzwerkmodell verarbeitet, um eine subjektive Bewertung zu erzeugen, die Benutzerakzeptanz des verfälschten Sprachsignals repräsentiert.
  • Das Patent Nr. US 5,794,188 beschreibt eine Telekommunikationsprüfvorrichtung mit einem Analysator, der aus dem verzerrten Signal periodisch mehrere Spektralkomponenten ableitet, die die Verzerrungen in jedem von mehreren Spektralbändern repräsentieren. Der Analysator erzeugt ein Maß der subjektiven Auswirkung der Verzerrungen aufgrund der Telekommunikationsvorrichtung.
  • Ein Problem bei einem solchen bekannten System besteht jedoch darin, daß eine Kombination einer einzelnen Menge von Parametern für alle Proben nicht effektiv ist, wenn es viele verschiedene Arten von Verzerrungen gibt; die auftreten können.
  • Die Erfinder haben entdeckt, daß für die meisten Proben eine bestimmte Art von Verzerrungen vorherrscht – zum Beispiel ein niedriges Signal/Rausch-Verhältnis, Teile des Signals fehlen, Codierungsverzerrungen, abnormale Rauscheigenschaften, oder es sind akustische Verzerrungen präsent.
  • Gemäß der Erfindung wird ein Verfahren zum Trainieren eines Qualitätsbestimmungswerkzeugs bereitgestellt, mit den folgenden Schritten: Aufteilen einer Datenbank, die mehrere Proben umfaßt, jeweils mit einer assoziierten mittleren Meinungsbewertung, in mehrere Verzerrungsmengen von Proben gemäß einem Verzerrungskriterium; und Trainieren eines verzerrungsspezifischen Bestimmungs-Handlers für jede Verzerrungsmenge dergestalt, daß eine Anpassung zwischen einem aus einer verzerrungsspezifischen Vielzahl von Parametern für eine Probe erzeugten verzerrungsspezifischen Qualitätsmaß für eine Probe und der mit der Probe assoziierten mittleren Meinungsbewertung optimiert wird.
  • Das Qualitätsbestimmungswerkzeug kann weiter verbessert werden, wenn nichtverzerrungsspezifische Parameter mit dem verzerrungsspezifischen Qualitätsmaß als ein weiterer Parameter kombiniert und dann das Werkzeug trainiert wird, um eine Anpassung zwischen diesen Parametern und den mittleren Meinungsbewertungen zu optimieren.
  • Das Verfahren umfaßt deshalb vorteilhafter Weise ferner die folgenden Schritte: Trainieren des Qualitätsbestimmungswerkzeugs dergestalt, daß eine Anpassung zwischen einem aus einer nicht- verzerrungsspezifischen Vielzahl von Parametern zusammen mit einem verzerrungsspezifischen Qualitätsmaß für eine Probe erzeugten Qualitätsmaß und der mit der Probe assoziierten mittleren Meinungsbewertung optimiert wird.
  • Gemäß einem zweiten Aspekt der Erfindung wird außerdem ein Verfahren zur Bestimmung der Sprachqualität in einem Telekommunikationsnetz mit den folgenden Schritten bereitgestellt:
    Empfangen eines Signals, das eine Sprachprobe umfaßt;
    Auswählen eines dominanten Verzerrungstyps für die Probe aus einer Vielzahl möglicher Verzerrungstypen;
    Auswählen eines verzerrungsspezifischen Bestimmungs-Handlers in Abhängigkeit von dem dominanten Verzerrungstyp;
    Verwenden des verzerrungsspezifischen Bestimmungs-Handlers zur Bereitstellung eines verzerrungsspezifischen Qualitätsmaßes für die Probe; und
    Erzeugen eines Qualitätsmaßes in Abhängigkeit von dem verzerrungsspezifischen Qualitätsmaß.
  • Vorzugsweise umfaßt der Erzeugungsschritt den Teilschritt des Kombinierens einer nichtverzerrungsspezifischen Vielzahl von Parametern mit dem verzerrungsspezifischen Qualitätsmaß, um das Qualitätsmaß bereitzustellen.
  • Gemäß einem dritten Aspekt der Erfindung wird eine Vorrichtung zur Bestimmung der Sprachqualität in einem Telekommunikationsnetz bereitgestellt, umfassend:
    einen Empfänger zum Empfangen eines Signals, das eine Sprachprobe umfaßt;
    Mittel zum Auswählen eines dominanten Verzerrungstyps für die Probe aus einer Vielzahl möglicher Verzerrungstypen;
    Mittel zum Auswählen eines Dominante-Verzerrung-Handlers, abhängig von dem dominanten Verzerrungstyp, wobei der Dominante-Verzerrung-Handler im Betrieb zum Bereitstellen eines verzerrungsspezifischen Qualitätsmaßes für die Probe ausgelegt ist: und
    Mittel zum Erzeugen eines Qualitätsmaßes in Abhängigkeit von dem verzerrungsspezifischen Qualitätsmaß.
  • Bei einer bevorzugten Ausführungsform umfassen die Erzeugungsmittel Mittel zum Kombinieren einer nichtverzerrungsspezifischen Vielzahl von Parametern mit dem verzerrungsspezifischen Qualitätsmaß, um das Qualitätsmaß bereitzustellen.
  • Gemäß einem weiteren Aspekt der Erfindung wird eine Vorrichtung zum Trainieren eines Qualitätsbestimmungswerkzeugs bereitgestellt, umfassend: Mittel zum Auf teilen einer Datenbank, die eine Vielzahl von Proben, jeweils mit einer assoziierten mittleren Meinungsbewertung umfaßt, in eine Vielzahl von Verzerrungsmengen von Proben gemäß einem Verzerrungskriterium; und Mittel zum Trainieren eines verzerrungsspezifischen Bestimmungs-Handlers für jede Verzerrungsmenge dergestalt, daß eine Anpassung zwischen einem aus einer verzerrungsspezifischen Vielzahl von Parametern für eine Probe erzeugten verzerrungsspezifischen Qualitätsmaß und und der mit der Probe assoziierten mittleren Meinungsbewertung optimiert wird.
  • Vorzugsweise umfaßt die Vorrichtung ferner Mittel zum Trainieren des Qualitätsbestimmungswerkzeugs dergestalt, daß eine Anpassung zwischen einem aus einer nicht-verzerrungsspezifischen Vielzahl von Parametern zusammen mit einem verzerrungsspezifischen Qualitätsmaß für eine Probe erzeugten Qualitätsmaß und der mit der Probe assoziierten mittleren Meinungsbewertung optimiert wird.
  • Vorzugsweise repräsentieren die Proben über ein Telekommunikationsnetz übertragene Sprache, und bei dem das Qualitätsmaß die von einem durchschnittlichen Benutzer wahrgenommene Qualität der Sprache repräsentiert.
  • Es werden nun Ausführungsformen der Erfindung lediglich als Beispiel mit Bezug auf die beigefügten Zeichnungen beschrieben. Es zeigen:
  • 1 eine schmematische Darstellung eines nicht-intrusiven Qualitätsbestimmungssystems;
  • 2 eine schmematische Darstellung möglicher nicht-intrusiver Überwachungspunkte in einem Netz;
  • 3 ein Flußdiagramm des Trainierens eines Qualitätsbestimmungswerkzeugs gemäß der vorliegenden Erfindung;
  • 4 ein Flußdiagramm, das das Training eines Qualitätsbestimmungswerkzeugs gemäß der vorliegenden Erfindung weiter illustriert;
  • 5 ein Flußdiagramm, das die Funktionsweise eines Bestimmungswerkzeugs der vorliegenden Erfindung darstellt.
  • Mit Bezug auf 1 ist ein nicht-intrusives Qualitätsbestimmungssystem 1 über eine Schnittstelle 3 mit einem Kommunikationskanal 2 verbunden. Die Schnittstelle 3 stellt eine etwaige zwischen den überwachten Daten und dem Qualitätsbestimmungssystem 1 erforderliche Datenumsetzung bereit. Das Qualitätsbestimmungssystem analysiert, wie später beschrieben wird, ein Datensignal und die resultierende Qualitätsprädiktion wird in einer Datenbank 4 gespeichert. Details bezüglich der Datensignale, die analysiert wurden, werden auch zur späteren Bezugnahme gespeichert. Es werden weitere Datensignale analysiert und die Qualitätsprädiktion aktualisiert, so daß über einen Zeitraum hinweg die Qualitätsprädiktion eine Vielzahl analysierter Datensignale betrifft.
  • Die Datenbank 4 kann Qualitätsprädiktionsergebnisse aus einer Vielzahl verschiedener Abfangpunkte speichern. Die Datenbank 4 kann aus der Ferne durch einen Benutzer über ein Benutzerterminal 5, das Analyse und Visualisierung der in der Datenbank 4 gespeicherten Qualitätsprädiktionsergebnisse bereitstellt, abgefragt werden.
  • 2 ist ein Blockschaltbild eines beispielhaften Telekommunikationsnetzes mit möglichen Abfangpunkten, an denen die nicht-intrusive Qualitätsbestimmung verwendet werden kann.
  • Das in 2 gezeigte Telekommunikationsnetze umfaßt ein Betreibernetz 20, das mit einem Mobilnetz 22 des Globalen Systems für Mobilkommunikation (GSM), einem Mobilnetz 24 der dritten Generation (3G) und einem Netzwerk 26 mit Internet-Protokoll (IP) verbunden ist. Kunden greifen über Hauptverteilungsanlagen 28, 28', die möglicherweise über eine abgesetzte Konzentratoreinheit (RCU) 32 mit einer digitalen Ortsvermittlung (DLE) 30 verbunden sind, auf das Netz 20 des Betreibers zu. Anrufe werden durch digitale Multiplex-Vermittlungseinheiten (DMSU) 34, 34', 34'' geroutet und können über eine internationale Vermittlungsstelle (ISC) 38 zu dem IP-Netzwerk 26 über ein Voice-Over-IP-Gateway 40 zu dem GSM-Netzwerk 22 über eine Gateway-Mobil-Vermittlungsstelle (GMSC) 42 oder zu dem 3G-Netzwerk 24 über ein Gateway 44 zu einem entsprechenden Netzwerk 36 geroutet werden. Das IP-Netzwerk 26 umfaßt eine Vielzahl von IP-Routern, von denen ein IP-Router 46 gezeigt ist. Das GSM-Netz 22 umfaßt eine Vielzahl von Mobilvermittlungsstellen (MSCs), von denen eine MSC 48 gezeigt ist, die mit einer Vielzahl von Basis-Sender-/-Empfängerstationen (BTS) verbunden sind, von denen eine BTS 50 gezeigt ist. Das 3G-Netz 24 umfaßt eine Vielzahl von Knoten, von denen ein Knoten 52 gezeigt ist.
  • Die nicht-intrusive Qualitätsbestimmung kann zum Beispiel an den folgenden Punkten durchgeführt werden:
    • • An der DLE 30 können ankommende Anrufe an einen spezifischen Kunden, die von einer Vermittlung ausgegeben werden, gewertet werden.
    • • In den DMSU 34, 34', 34'' können Strecken zwischen DMUs und Verbindungen mit anderen Betreibern gewertet werden.
    • • In der ISC 38 kann die internationale Strecke gewertet werden.
    • • In dem Voice-Over-IP-Gateway 40 kann die Schnittstelle mit einem IP-Netzwerk gewertet werden.
    • • In der MSC 48 können Anrufe zu und von dem Mobilnetz gewertet werden.
    • • In dem IP-Router 46 können Anrufe zu und von dem IP-Netzwerk gewertet werden.
    • • In dem Media-Gateway 44 können Anrufe zu und von dem 3G-Netz gewertet werden.
  • Man kann vielfältige Testregimes und Konfigurationen verwenden, um einer bestimmten Anwendung gerecht zu werden, wodurch Qualitätsmaße für Auswahlen von Anrufen auf der Basis- der Anforderungen des Benutzers bereitgestellt werden. Dazu könnten verschiedene Prüfablaufpläne und Routenauswahlen gehören. Mit mehreren Bewertungspunkten in einem Netzwerk ist es möglich, Ergebnisse zwischen Bewertungspunkten zu vergleichen. Dadurch kann man die Leistungsfähigkeit spezifischer Strecken oder Netzwerk-Subsysteme überwachen. Verringerungen der von Kunden wahrgenommenen Qualität können dann spezifischen Umständen oder Fehlern zugeordnet werden.
  • Die in der Datenbank 4 gespeicherten Daten können für eine Anzahl von Anwendungen verwendet werden, wie zum Beispiel:
    • •Netzwerk-Integritätsprüfungen
    • • Netzwerk-Optimierung
    • • Geräte-Versuchsbetrieb/Kommissionierung
    • • Echtzeit-Routing
    • •Interoperabilitätsvereinbarungsüberwachung
    • • Netzwerk-Problembehebung
    • • Alarmerzeugung auf Routen
    • • Mobilfunk-Planung/Optimierung
  • Nunmehr mit Bezug auf 3 wird ein Verfahren zum Trainieren eines nicht-intrusiven Qualitätsbestimmungssystems gemäß der vorliegenden Erfindung beschrieben. Es versteht sich, daß dieses Verfahren durch Software ausgeführt werden kann, die einen Vielzweckcomputer steuert.
  • Eine Datenbank 60 enthält verzerrte Sprachproben, die eine diverse Vielfalt von Bedingungen und Technologien enthalten. Diese wurden von Teams von Zuhörerpersonen bewertet, um auf bekannte Weise eine MOS bereitzustellen. Jede Sprachprobe weist somit eine von subjektiven Tests abgeleitete assoziierte MOS auf:
  • Bei 61 wird jede Probe vorverarbeitet, um den Signalpegel zu normieren und etwaige Filterungseffekte des Netzwerks, über das die Sprachprobe gesammelt wurde, zu berücksichtigen. Die Sprachprobe wird gefiltert, bezüglich Pegel ausgerichtet und ein etwaiges Gleichstrom-Offset wird entfernt. Der Grad der angewendeten Verstärkung oder Dämpfung wird zur späteren Verwendung gespeichert.
  • Im Schritt 62 wird für jede Probe eine Tondetektion durchgeführt, um zu bestimmen, ob es sich bei der Probe um Sprache, Daten handelt oder ob sie DTMF- oder Musiktöne enthält. Wenn bestimmt wird, daß es sich bei der Probe nicht um Sprache handelt, wird die Probe verworfen, und nicht zum Trainieren des Qualitätsbestimmungswerkzeugs verwendet.
  • Im Schritt 63 wird jede Sprachprobe kommentiert, um Perioden der Sprachaktivität und Stille/Rauschen anzuzeigen. Man erreicht dies durch Verwendung eines Sprachaktivitätsdetektors (VAD) zusammen mit einem Diskriminator für stimmhafte/nicht stimmhafte Sprache.
  • Im Schritt 64 wird jede Sprachprobe kommentiert, um unter Verwendung eines zeitlichen/spektralen Tonhöhenextraktionsverfahrens Positionen der Tonhöhenzyklen anzuzeigen. Dadurch kann man Parameter auf tonhöhensynchrone Weise extrahieren, was dabei hilft, Parameter bereitzustellen, die von dem bestimmten Sprecher unabhängig sind. Als Teil der später beschriebenen Sprachparameterisierung werden Mund-/Rachenraumdeskriptoren extrahiert und müssen den stimmhaften Abschnitten der Sprachdatei entnommen werden. Eine letzte Tonhöhenzykluskennung wird zur Bereitstellung von Grenzen für diese Extraktion verwendet. Außerdem wird eine Charakterisierung der Eigenschaften der Tonhöhenstruktur über die Zeit hinweg an den Schritt 65 weitergeleitet, um Teil der Sprachparameter zu bilden.
  • Der Parameterisierungsschritt 65 ist dafür ausgelegt, die zu verarbeitende Datenmenge zu reduzieren, während für die in der Sprachprobe präsenten Verzerrungen relevante Informationen erhalten werden.
  • Bei dieser Ausführungsform der Erfindung werden über 300 Parameterkandidaten berechnet, darunter die folgenden:
    • • Rauschpegel
    • • Signal/Rauschen-Verhältnis
    • • mittlere Tonhöhe des Sprechers
    • • Tonhöhenschwankungsdeskriptoren – Längenschwankungen – Inhaltsschwankungen von Rahmen zu Rahmen
    • • momentane Pegelfluktuationen
  • Deskriptoren des Mund-Rachenraums:
    Zusätzlich zu dem obigen werden verschiedene Beschreibungen der Parameter des Mund-Rachenraums berechnet. Sie erfassen die Gesamtanpassung des Modells des Mund-Rachenraums, momentane unwahrscheinliche Schwankungen und illegale Sequenzen. Außerdem werden als Basisparameter mittlere Werte und Statistiken für individuelle Elemente des Modells des Mund-Rachenraums über die Zeit hinweg aufgenommen. Siehe zum Beispiel die Internationale Patentanmeldung Nr. WO 01/35393.
  • Im Schritt 66 werden die mit jeder Probe assoziierten Parameter verarbeitet, um die dominante Verzerrung zu identifizieren, die in dieser Probe präsent ist, und bei dieser konkreten Ausführungsform umfassen die verwendeten dominanten Verzerrungstypen die folgenden: niedriges Signal/Rausch-Verhältnis, fehlende Teile des Signals, Codierungsverzerrung, abnorme Rauscheigenschaften, akustische Verzerrungen. Dadurch können die Proben der Datenbank 60 abhängig von den in jeder Probe präsenten dominanten Verzerrungen in eine Vielzahl von Verzerrungsmengen 67, 67' ... 67n aufgeteilt werden.
  • Der dominante Verzerrungstyp jeder Sprachprobe bestimmt, welche verzerrungsspezifische Bestimmungs-Handler-Abbildung mit dieser Sprachprobe trainiert werden wird. In einem der Schritte 68, 68' ... 68n wird unter Verwendung der Proben in einer einzigen Verzerrungsmenge 67, 67' ... 67n eine Abbildung 76, 76' ... 76n für jeden Verzerrungs-Handler trainiert. Nachdem die optimale Abbildung zwischen den Parametern für jede Sprachprobe der Verzerrungsmenge und der mit jeder Sprachprobe assoziierten MOS (durch die Datenbank 60 bereitgestellt) für die Proben dieser Verzerrungsmenge bestimmt wurde, wird in einem der Schritte 69, 69' ... 69n eine Charakterisierung der Abbildung abgespeichert, die eine Identifikation der bestimmten Parameter enthält, die zu der optimalen Abbildung geführt haben.
  • Bei dieser Ausführungsform ist die Abbildung eine lineare Abbildung zwischen den gewählten Parametern und den MOS und die optimale Abbildung wird durch Verwendung einer linearen Regressionsanalyse dergestalt bestimmt, daß, nachdem jeder verzerrungsspezifische Bestimmungs-Handler in einem der Schritte 68, 68' ... 68n trainiert wurde, die verzerrungsspezifische Abbildung 76, 76' ... 76n durch eine Menge von bei der bestimmten Abbildung verwendeten Parametern zusammen mit einem Gewicht für jeden Parameter charakterisiert wird.
  • Nachdem die Abbildungen 76, 76' ... 76n für jeden der verzerrungsspezifischen Bestimmungs-Handler in den Schritten 68, 68' ... 68n trainiert wurden, wird die Gesamtabbildung für das Qualitätsbestimmungswerkzeug trainiert, wie nun mit Bezug auf 4 beschrieben werden wird.
  • Proben aus der Sprachdatenbank 60 werden in Schritt 70 verarbeitet, der die Schritte 6164 von 3 wie zuvor mit Bezug auf 3 beschrieben repräsentiert.
  • Im Schritt 65 werden die Sprachproben wie zuvor beschrieben parameterisiert. Im Schritt 66 wird wie zuvor beschrieben der dominante Verzerrungstyp identifiziert. Nachdem der dominante Verzerrungstyp für eine bestimmte Probe identifiziert wurde, wird dann der mit diesem Verzerrungstyp assoziierte verzerrungsspezifische Bestimmungs-Handler ausgewählt, um diese Probe weiterzuverarbeiten. Wenn zum Beispiel der Verzerrungs-Handler 72n ausgewählt wird, verwendet der Verzerrungs-Handler 72n die assoziierte zuvor trainierte 76n , deren Eigenschaften im Schritt 69n abgespeichert wurden (3).
  • Die von dem Verzerrungs-Handler 72n erzeugte MOS wird zusammen mit den in Schritt 65 erzeugten Sprachparametern für diese bestimmte Probe verwendet, um die Gesamtabbildung des Qualitätsbestimmungswerkzeugs im Schritt 73 auf ähnliche Weise wie bei dem zuvor beschriebenen Training der verzerrungsspezifischen Bestimmungs-Handler zu trainieren. In Schritt 79 werden die Eigenschaften der Gesamtabbildung 77 zur Verwendung in dem Qualitätsbestimmungswerkzeug abgespeichert.
  • Die Funktionsweise des nicht-intrusiven Qualitätsbestimmungswerkzeugs nach abgeschlossenem Training wird nun mit Bezug auf 5 beschrieben.
  • Die Schritte für die Funktionsweise des Qualitätsbestimmungswerkzeugs sind den in 4 gezeigten Schritten ähnlich, die während des Trainings der Gesamtabbildung für das Qualitätsbestimmungswerkzeug ausgeführt werden.
  • In diesem Fall wird jedoch nur eine Probe auf einmal und nur ein verzerrungsspezifischer Bestimmungs-Handler verwendet. Schritt 73 (Abbildung Trainieren) und Schritt 74 (Abbildungscharakterisierung Abspeichern) werden durch Schritt 75 ersetzt. Im Schritt 75 werden die zuvor abgespeicherten Abbildungseigenschaften 77 zur Bestimmung der MOS für diese Probe verwendet.
  • Offensichtlich ist es nicht notwendig, tatsächlich Parameter für eine Probe zu berechnen, wenn sie nicht von dem ausgewählten verzerrungsspezifischer Bestimmungs-Handler oder zur Bestimmung der MOS im Schritt 75 zur Auswahl des dominanten Verzerrungstyps verwendet werden sollen. Deshalb kann es möglich sein, das in 5 gezeigte Verfahren zu optimieren, indem im Schritt 65 nur die Parameter berechnet werden, die zum Identifizieren des dominanten Verzerrungstyps in Schritt 66 oder für die Gesamtbestimmung der MOS in Schritt 75 notwendig sind. Danach werden andere Parameter nur dann berechnet, wenn sie von dem gewählten Dominante-Verzerrung-Bestimmungs-Handler benötigt werden.
  • Für Fachleute ist erkennbar, daß die oben beschriebenen Verfahren auf einem herkömmlichen progammierbaren Computer implementiert werden können und daß ein Computerprogramm, das Anweisungen zur Steuerung des programmierbaren Computers zur Ausführung der obigen Verfahren auf einem computerlesbaren Medium bereitgestellt werden können.
  • Es versteht sich, daß, obwohl der obige Prozeß mit spezifischer Bezugnahme auf Sprachsignale beschrieben wurde, die Prozesse gleichermaßen für andere Arten von Signalen, wie zum Beispiel Videosignale, gelten.

Claims (12)

  1. Verfahren zum Trainieren eines Qualitätsbestimmungswerkzeugs, mit den folgenden Schritten: Aufteilen einer Datenbank, die eine Vielzahl von Proben jeweils mit einer assoziierten mittleren Meinungsbewertung umfaßt, in eine Vielzahl von Verzerrungsmengen von Proben gemäß einem Verzerrungskriterium; und Trainieren eines verzerrungsspezifischen Bestimmungs-Handlers für jede Verzerrungsmenge dergestalt, daß eine Anpassung zwischen einem aus einer verzerrungsspezifischen Vielzahl von Parametern für eine Probe erzeugten verzerrungsspezifischen Qualitätsmaß und der mit der Probe assoziierten mittleren Meinungsbewertung optimiert wird.
  2. Verfahren nach Anspruch 1, ferner mit den folgenden Schritten: Trainieren des Qualitätsbestimmungswerkzeugs dergestalt, daß eine Anpassung zwischen einem aus einer nichtverzerrungsspezifischen Vielzahl von Parametern zusammen mit einem verzerrungsspezifischen Qualitätsmaß für eine Probe erzeugten Qualitätsmaß und der mit der Probe assoziierten mittleren Meinungsbewertung optimiert wird.
  3. Verfahren nach Anspruch 1 oder 2, bei dem die Proben über ein Telekommunikationsnetz übertragene Sprache repräsentieren und bei dem das Qualitätsmaß die von einem durchschnittlichen Benutzer wahrgenommene Qualität der Sprache repräsentiert.
  4. Verfahren zum Bestimmen der Sprachqualität für ein Telekommunikationsnetz, mit den folgenden Schritten: Empfangen eines Signals, das eine Sprachprobe umfaßt; Auswählen eines dominanten Verzerrungstyps für die Probe aus einer Vielzahl möglicher Verzerrungstypen; Auswählen eines verzerrungsspezifischen Bestimmungs-Handlers in Abhängigkeit von dem dominanten Verzerrungstyp; Verwenden des verzerrungsspezifischen Bestimmungs-Handlers zur Bereitstellung eines verzerrungsspezifischen Qualitätsmaßes für die Probe; und Erzeugen eines Qualitätsmaßes in Abhängigkeit von dem verzerrungsspezifischen Qualitätsmaß.
  5. Verfahren nach Anspruch 4, bei dem der Erzeugungsschritt den folgenden Teilschritt umfaßt: Kombinieren einer nichtverzerrungsspezifischen Vielzahl von Parametern mit dem verzerrungsspezifischen Qualitätsmaß, um das Qualitätsmaß bereitzustellen.
  6. Verfahren nach Anspruch 4 oder Anspruch 5, bei dem die Proben über ein Telekommunikationsnetz übertragene Sprache repräsentieren und bei dem das Qualitätsmaß die von einem durchschnittlichen Benutzer wahrgenommene Qualität der Sprache repräsentiert.
  7. Computerlesbares Medium, das ein Computerprogramm zum Implementieren des Verfahrens nach einem der Ansprüche 1 bis 6 führt.
  8. Computerprogramm zum Implementieren des Verfahrens nach einem der Ansprüche 1 bis 6.
  9. Vorrichtung zur Bestimmung der Sprachqualität für ein Telekommunikationsnetz, umfassend: einen Empfänger (60, 70) zum Empfangen eines Signals, das eine Sprachprobe umfaßt; Mittel (66) zum Auswählen eines dominanten Verzerrungstyps für die Probe aus einer Vielzahl möglicher Verzerrungstypen; Mittel (66) zum Auswählen eines Dominante-Verzerrung-Handlers (72, 72'... 72n ) in Abhängigkeit von dem dominanten Verzerrungstyp, wobei der Dominante-Verzerrung-Handler im Betrieb zum Bereitstellen eines verzerrungsspezifischen Qualitätsmaßes für die Probe ausgelegt ist; und Mittel (75) zum Erzeugen eines Qualitätsmaßes in Abhängigkeit von dem verzerrungsspezifischen Qualitätsmaß.
  10. Vorrichtung nach Anspruch 9, bei der die Erzeugungsmittel Mittel zum Kombinieren einer nichtverzerrungsspezifischen Vielzahl von Parametern mit dem verzerrungsspezifischen Qualitätsmaß zur Bereitstellung des Qualitätsmaßes umfassen.
  11. Vorrichtung zum Trainieren eines Qualitätsbestimmungswerkzeugs, umfassend: Mittel (6166) zum Aufteilen einer Datenbank (60), die eine Vielzahl von Proben jeweils mit einer assoziierten mittleren Meinungsbewertung umfaßt, in eine Vielzahl (67, 67', ... 67n ) von Verzerrungsmengen von Proben gemäß einem Verzerrungskriterium; und Mittel (68, 68', ... 68n ) zum Trainieren eines verzerrungsspezifischen Bestimmungs-Handlers (72, 72', ... 72n ) für jede Verzerrungsmenge dergestalt, daß eine Anpassung zwischen einem aus einer verzerrungsspezifischen Vielzahl von Parametern für eine Probe erzeugten verzerrungsspezifischen Qualitätsmaß und der mit der Probe assoziierten mittleren Meinungsbewertung optimiert wird.
  12. Vorrichtung nach Anspruch 11, ferner umfassend: Mittel zum Trainieren des Qualitätsbestimmungswerkzeugs dergestalt, daß eine Anpassung zwischen einem aus einer nichtverzerrungsspezifischen Vielzahl von Parametern zusammen mit einem verzerrungsspezifischen Qualitätsmaß für eine Probe erzeugten Qualitätsmaß und der mit der Probe assoziierten mittleren Meinungsbewertung optimiert wird.
DE60306884T 2003-01-18 2003-01-18 Werkzeug zur nicht invasiven Bestimmung der Qualität eines Sprachsignals Expired - Lifetime DE60306884T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP03250333A EP1443496B1 (de) 2003-01-18 2003-01-18 Werkzeug zur nicht invasiven Bestimmung der Qualität eines Sprachsignals

Publications (2)

Publication Number Publication Date
DE60306884D1 DE60306884D1 (de) 2006-08-31
DE60306884T2 true DE60306884T2 (de) 2007-09-06

Family

ID=32605391

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60306884T Expired - Lifetime DE60306884T2 (de) 2003-01-18 2003-01-18 Werkzeug zur nicht invasiven Bestimmung der Qualität eines Sprachsignals

Country Status (5)

Country Link
US (1) US7606704B2 (de)
EP (1) EP1443496B1 (de)
JP (1) JP4716657B2 (de)
AT (1) ATE333694T1 (de)
DE (1) DE60306884T2 (de)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1792304B1 (de) * 2004-09-20 2008-08-20 Nederlandse Organisatie voor Toegepast-Natuuurwetenschappelijk Onderzoek TNO Frequenzkompensation für die wahrnehmungsbezogene sprachanalyse
US20050209894A1 (en) * 2004-12-10 2005-09-22 Aflac Systems and devices for vision protection policy
US7856355B2 (en) * 2005-07-05 2010-12-21 Alcatel-Lucent Usa Inc. Speech quality assessment method and system
US8370132B1 (en) * 2005-11-21 2013-02-05 Verizon Services Corp. Distributed apparatus and method for a perceptual quality measurement service
BRPI0707343B1 (pt) * 2006-01-31 2020-09-08 Telefonaktiebolaget Lm Ericsson (Publ) Método e aparelho de avaliação de qualidade de sinal não intrusivo
US20070203694A1 (en) * 2006-02-28 2007-08-30 Nortel Networks Limited Single-sided speech quality measurement
JP5018773B2 (ja) * 2006-05-26 2012-09-05 日本電気株式会社 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
JP4327888B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
JP4327886B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
JP4621792B2 (ja) * 2009-06-30 2011-01-26 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
EP2450877B1 (de) * 2010-11-09 2013-04-24 Sony Computer Entertainment Europe Limited System und Verfahren zur Sprachbewertung
US9396738B2 (en) 2013-05-31 2016-07-19 Sonus Networks, Inc. Methods and apparatus for signal quality analysis
EP4169019A1 (de) * 2020-06-22 2023-04-26 Dolby International AB Verfahren zum lernen einer audioqualitätsmetrik durch kombination markierter und nichtmarkierter daten
CN114612366A (zh) * 2020-12-03 2022-06-10 武汉Tcl集团工业研究院有限公司 图像质量评价方法、装置、终端设备及计算机可读介质
CN113448955B (zh) * 2021-08-30 2021-12-07 上海观安信息技术股份有限公司 数据集质量评估方法、装置、计算机设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04345327A (ja) * 1991-05-23 1992-12-01 Nippon Telegr & Teleph Corp <Ntt> 通話品質客観測定方法
US5794188A (en) * 1993-11-25 1998-08-11 British Telecommunications Public Limited Company Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency
JP4005128B2 (ja) * 1995-07-27 2007-11-07 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 信号品質の評価
JP4008497B2 (ja) * 1996-02-29 2007-11-14 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー トレーニングプロセス
US6446038B1 (en) * 1996-04-01 2002-09-03 Qwest Communications International, Inc. Method and system for objectively evaluating speech
WO2001035393A1 (en) * 1999-11-08 2001-05-17 British Telecommunications Public Limited Company Non-intrusive speech-quality assessment
US6609092B1 (en) * 1999-12-16 2003-08-19 Lucent Technologies Inc. Method and apparatus for estimating subjective audio signal quality from objective distortion measures
DE10019552A1 (de) * 2000-04-20 2001-10-25 Deutsche Telekom Ag Verfahren und Vorrichtung zur Messung der Qualität eines zur Übertragung von digitalen oder analogen Signalen ausgelegten Leitungsnetzes
US7024362B2 (en) * 2002-02-11 2006-04-04 Microsoft Corporation Objective measure for estimating mean opinion score of synthesized speech

Also Published As

Publication number Publication date
JP2004343687A (ja) 2004-12-02
EP1443496A1 (de) 2004-08-04
JP4716657B2 (ja) 2011-07-06
US20040186715A1 (en) 2004-09-23
EP1443496B1 (de) 2006-07-19
ATE333694T1 (de) 2006-08-15
US7606704B2 (en) 2009-10-20
DE60306884D1 (de) 2006-08-31

Similar Documents

Publication Publication Date Title
DE60306884T2 (de) Werkzeug zur nicht invasiven Bestimmung der Qualität eines Sprachsignals
DE69325478T2 (de) Einrichtung zum Vergleich von subjektiver Gesprächsqualität für mobile Telefonsysteme
DE602004001564T2 (de) Werkzeug zur Qualitätserfassung
DE69626115T2 (de) Signalqualitätsbewertung
DE69520067T2 (de) Verfahren und Einrichtung zur Kennzeichnung eines Eingangssignales
DE19882404B3 (de) Sprachgütemessung in einem Mobilfunknetzwerk auf der Grundlage von Funkübertragungsparametern
DE102004008207B4 (de) Verfahren und Vorrichtung zur Qualitätsbeurteilung eines Audiosignals und Vorrichtung und Verfahren zum Erhalten eines Qualitätsbeurteilungsergebnisses
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE60205232T2 (de) Verfahren und vorrichtung zur bestimmung der qualität eines sprachsignals
DE19861108C2 (de) Ermittlung der Dienstgüte von Telekommunikationsdiensten
DE60118922T2 (de) Messung der wahrgenommenen sprachqualität während des betriebs durch messen von objektiver fehlerparamter
EP1557002A1 (de) Verfahren und einrichtung zur auswahl eines netzzugangs zu einem oder mehreren datennetzen über ein telekommunikationsendgerät
EP1634277B1 (de) Extrahierung von testsignalabschnitten zur qualitätsmessung eines audiosignals
DE60319666T2 (de) Verfahren zur Qualitätsbestimmung eines Audiosignals
EP1277330A1 (de) Verfahren und vorrichtung zur messung der qualität eines zur übertragung von digitalen oder analogen signalen ausgelegten leitungsnetzes
EP1237348A2 (de) Verfahren und Anordnung zur Prüfung der Übertragungsqualität einer Sprachübertragung über ein IP-Netz
DE602004004577T2 (de) Verfahren und Vorrichtung zur Feststellung der Sprachlatenzzeit durch ein Netzwerkelement eines Kommunikationsnetzwerkes
DE60219622T2 (de) Bestimmung der effekte neuer arten von beeinträchtigungen auf die wahrgenommene qualität eines sprachdienstes
DE19820845A1 (de) Ermittlung der Dienstgüte von Telekommunikationsdiensten
DE102019117249A1 (de) Verfahren zur Bestimmung der Qualität von über ein Telekommunikationsnetz übertragener Sprache
DE60314267T2 (de) Telekommunikationsanordnung für Endgeräten mit Nachrichtenaufnahmesystem
EP1781003B1 (de) Verfahren und Vorrichtung zur Überwachung einer echobehafteten Kommunikationsverbindung
Rix et al. Predicting speech quality of telecommunications systems in a quality differentiated market
EP1395023A1 (de) Verfahren und Anordnung zur Sprachübertragung über ein Telekommunikationsnetz
DE202004002636U1 (de) Vorrichtung zur Qualitätsbeurteilung eines Audiosignals und Vorrichtung zum Erhalten eines Qualitätsbeurteilungsergebnisses

Legal Events

Date Code Title Description
8364 No opposition during term of opposition