[go: up one dir, main page]

WO2002031811A1 - Akustische ausgabe vernetzter dokumente - Google Patents

Akustische ausgabe vernetzter dokumente Download PDF

Info

Publication number
WO2002031811A1
WO2002031811A1 PCT/DE2000/003550 DE0003550W WO0231811A1 WO 2002031811 A1 WO2002031811 A1 WO 2002031811A1 DE 0003550 W DE0003550 W DE 0003550W WO 0231811 A1 WO0231811 A1 WO 0231811A1
Authority
WO
WIPO (PCT)
Prior art keywords
documents
commands
output
synthesis module
conditioner
Prior art date
Application number
PCT/DE2000/003550
Other languages
English (en)
French (fr)
Inventor
Klaus-Peter Wegge
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Priority to PCT/DE2000/003550 priority Critical patent/WO2002031811A1/de
Publication of WO2002031811A1 publication Critical patent/WO2002031811A1/de

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion

Definitions

  • the invention relates to a device for the acoustic output of networked documents.
  • US Pat. No. 5,825,854 describes a telephone access system for access to a computer by means of a telephone set.
  • the device shown there includes the possibility of encoding, i.e. as a string, to output stored text by a speech output unit. It also shows that the structure of a text is analyzed and a controller is provided, by means of which output can take place along the determined structural elements. This system must be reprogrammed for every type of document; Examples include "electronic mail", the file system and other text documents in which the structure analysis mentioned starts.
  • a mail or appointment system addressed in the font can save an unlimited number of documents. However, they are always only documents that relate to the user; by belonging to his mail, appearing in his diary or being part of the file system accessible to him. Any new application that exposes a wider range of documents must be re-programmed to allow application-specific navigation through the document.
  • the invention uses the knowledge that a marking language with reference elements, such as the hypertext markup language HTML, in connection with an open data network such as the Internet, offers the possibility of an a priori indefinite and unlimited amount that is not assigned to the user access documents in a uniform manner.
  • a marking language with reference elements such as the hypertext markup language HTML
  • an open data network such as the Internet
  • This approach is combined with the fact that the editing of the marking language is separate from the output.
  • use is made of a speech synthesis which allows an ongoing speech output to be influenced without disturbing noises or pauses. Such is included, for example, in the application filed in parallel with the title "Control for voice output" by the same inventor.
  • This uses a chain of converters, with a controller monitoring the data transmitted within the chain and sending an asynchronous command to the converter concerned and generating indices in addition to the data and the monitoring preferably relating to the indices. It is therefore a device for acoustic access to networked documents via a voice network, a controller separating the commands of a user into navigation and output commands and feeding them to a processor for navigation and a synthesis module for output.
  • FIG. 1 shows a block diagram of a device for the acoustic output of networked documents according to the invention.
  • a voice network 10 usually the usual telephone network, is connected to a modem 12. It is a modem which, in particular, outputs the tone dialing signals, as can be transmitted by a conventional handset, on an output interface. These signals, which are usually coded in two-tone mode (DTMF), are output on the interface as characters, usually as the digits 0..9 and the special characters * and #. These are fed to a controller 14.
  • DTMF two-tone mode
  • the controller is in turn connected to a processor 16 for networked documents, which has access to a data network 20.
  • the networked documents are preferably saved in the language HTML and called up via the Internet as a data network. This is done using a conditioner, especially a slightly modified form of the LYNX program, which brings the HTML pages into a textual form.
  • the modification of the LYNX relate to the fact that the markings, in particular the references, are identified, in particular numbered, by textual means.
  • commands of the user can regulate the volume and the playback speed. These are fed directly to the speech synthesis 18 by the controller. This includes a command that cancels the current announcement. An immediate abrupt change or termination of the announcement is usually unpleasant, since this is perceived as an irregularity that requires attention.
  • indices are used, which are inserted into the speech synthesis upon input and to which the commands for the speech input relate. Either control via parameters can cause the conditioner to insert the indexes into the edited text. If this is not possible or sensible, the output of the conditioner is not passed directly to the speech synthesis, as shown in FIG. 1, but is first taken over by the controller, which inserts the indices before the transfer. Such an index can mark a reference, for example.
  • the controller determines its index, gives the synthesis module the command to abort the output after the current word and then to start outputting the indexed reference.
  • the above-mentioned synthesis module which uses a pipeline of components that can be influenced in a targeted manner, the following can be achieved: Since the command to cancel does not act immediately but after the end of the word, the components can be reloaded and the preparation started, see above that by the end of the word the synthesis process for the announcement of the reference has already progressed so far that it is naturally connected to the end of the current word. Similar considerations apply when speeding up output is desired.
  • the new speed can apply according to the current word or sentence.
  • the controller determines the appropriate index for this and relates the new speed to this index. Since the remaining parts of the reprocessing can remain in the pipeline, an abort with a subsequent restart is avoided.
  • control system refers to documents that are already structured and networked, there is nothing special about the existing processing by e.g. the program LYNX necessary. Only a few control commands are therefore necessary to be able to access a large number of documents.
  • controller If the controller is implemented in the PERL programming language, it can also use the "LWP: simple” module instead of the LNYX program, as can be obtained from "http://www.perl.com/CPAN/modules". This module represents an alternative form of a conditioner with a functional interface.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

Einrichtung zum akustischen Zugriff über ein Sprachnetzwerk auf vernetzte Dokumente, wobei eine Steuerung die Kommandos eines Benutzers in Navigations- und Ausgabekommandos trennt und jeweils einem Aufbereiter für die Navigation und einer Synthesemodul für die Ausgabe zuführt.

Description

Akustische Ausgabe vernetzter Dokumente
Technisches Gebiet
Die Erfindung betrifft eine Einrichtung zur akustischen Ausgabe vernetzter Dokumente.
Stand der Technik
In der Patentschrift US 5,825,854 wird ein Telefon- Zugriffssystem für den Zugriff auf einen Computer mittels eines Telefonapparats beschrieben.
Die dort dargestellte Einrichtung umfaßt die Möglichkeit, einen codiert, d.h. als Zeichenfolge, abgespeicherten Text durch eine Sprachausgabeeinheit auszugeben. Ferner ist darin dargestellt, daß die Struktur eines Textes analysiert wird und eine Steuerung vorgesehen ist, mittels derer eine Ausgabe entlang den ermittelten Strukturelementen erfolgen kann. Dieses System muß für jeden Typ von Dokument neu programmiert werden; als Beispiele sind "electronic Mail', das Dateisystem und sonstige Textdokumente, bei denen die er- wänte Strukturanalyse ansetzt, erwähnt.
Zwar kann ein in der Schrift angesprochenes Mail- oder Ter- min-System eine an sich unbegrenzte Zahl von Dokumenten speichern. Es sind aber immer nur Dokumente, die einen Bezug zu dem Benutzer aufweisen; indem sie zu seiner Post gehören, in seinem Terminkalender auftauchen oder Teil des ihm zugänglichen Dateisystems sind. Jede neue Anwendung, die einen weiteren Bereich von Dokumenten zugänglich macht, muß erneut programmiert werden, um eine anwendungsspezifische Navigation durch das Dokument zuzulassen.
Darstellung der Erfindung
Wünschenswert ist ein System, bei eine a priori unbestimmte und unbegrenzte, nicht dem Benutzer zugeordnete Menge von Dokumenten in einheitlicher Art zugreifbar ist, welches einfach herzustellen ist und dennoch einfach und genau durch einen über ein Sprachnetzwerk zugreifenden Benutzer steuerbar ist .
Die Erfindung benutzt die Erkenntnis, daß eine Markierungs- sprache mit Verweiselementen, wie beispielsweise die Hypertext-Markup-Language HTML, in Verbindung mit einem offenen Datennetzwerk wie dem Internet eine Möglichkeit bietet, auf eine a priori unbestimmte und unbegrenzte, nicht dem Benutzer zugeordnete Menge von Dokumenten in einheitlicher Art zuzugreifen. Dieser Ansatz wird kombiniert damit, daß die Aufbereitung der Markierungssprache von der Ausgabe getrennt ist . Ferner wird von einer Sprachsynthese Gebrauch gemacht, die es erlaubt, eine laufende Sprachausgabe ohne störende Geräusche oder Pausen zu beeinflussen. Eine solche ist beispielsweise in der parallel eingereichten Anmeldung mit dem Titel "Steuerung für eine Sprachausgabe" desselben Erfinders enthalten. Diese verwendet eine Kette von Umsetzern, wobei eine Steuerung die innerhalb der Kette übertra- genen Daten überwacht und bei Eintreffen eines asynchronen Kommandos dieses an den betroffenen Umsetzer sendet und bei zusätzlich zu den Daten Indices erzeugt werden und die Überwachung bevorzugt die Indices betrifft. Es handelt sich also um eine Einrichtung zum akustischen Zugriff über ein Sprachnetzwerk auf vernetze Dokumente, wobei eine Steuerung die Kommandos eines Benutzers in Naviga- tions- und Ausgabekommandos trennt und jeweils einem Aufbe- reiter für die Navigation und einem Synthesemodul für die Ausgabe zuführt .
Weitere Merkmale und Vorteile der Erfindung ergeben sich aus der folgenden Beschreibung, welche in Verbindung mit den beigefügten Zeichnungen die Erfindung an Hand eines Ausführungsbeispiels erläutert.
Kurzbeschreibung der Zeichnungen
Es zeigt
Fig. 1 ein Blockschaltbild einer Einrichtung zur akustische Ausgabe vernetzter Dokumente nach der Erfin- düng .
Beschreibung einer Ausführungsform der Erfindung
In Fig. 1 ist eine Ausführungsform der Erfindung als Blockschaltbild dargestellt. Die im folgenden dargestellten Komponenten sind teils als physische Einschübe, teils als lo- gische Moduln in einem Computer enthalten, der bevorzugt unter dem Betriebssystem Linux betrieben wird. Dieses erlaubt es insbesondere, eine Mehrzahl der beschriebenen Einrichtungen parallel zu betreiben. Die folgende Beschreibung beschränkt sich auf eine einzelne Einrichtung, da die ent- sprechende Vervielfachung für den Fachmann problemlos möglich ist. Ein Sprachnetzwerk 10, in der Regel das übliche Telefonnetzwerk, ist mit einem Modem 12 verbunden. Es handelt sich dabei um ein Modem, welches insbesondere die Tonwählsignale, wie sie ein üblicher Handapparat auszusenden vermag, auf einer Ausgabeschnittstelle auszugeben. Diese normalerweise im Zweitonverfahren (DTMF) codierten Signale werde auf der Schnittstelle als Zeichen ausgegeben, in der Regel als die Ziffern 0..9 und die Sonderzeichen * und # . Diese werden einer Steuerung 14 zugeführt.
Die Steuerung ist ihrerseits mit einem Aufbereiter 16 für vernetzte Dokumente verbunden, der Zugriff auf ein Datennetzwerk 20 hat. Die vernetzten Dokumente werden bevorzugt in der Sprache HTML gespeichert und über das Internet als Datennetzwerk abgerufen. Hierzu dient ein Aufbereiter, ins- besondere eine leicht modifizierte Form des Programms LYNX, welches die in HTML vorliegenden Seiten in eine textuelle Form bringt. Die Modifikation des LYNX beziehen sich darauf, daß die Markierungen, insbesondere die Verweise, durch textliche Mittel gekennzeichnet, insbesondere durchnume- riert, werden.
Ein Teil der Kommandos des Benutzers dient dabei der Na- viagation inerhalb der vernetzten Dokumentenstruktur. So bedeuten die Folge "*0", daß zu dem vorigen Dokument zurückgegangen werden soll, und "*5", daß das Dokument des fünften Verweises abgerufen und angesagt werden soll.
Andere Kommandos des Benutzers können die Lautstärke und die Abspielgeschwindigkeit regeln. Diese werden von der Steuerung unmittelbar der Sprachsynthese 18 zugeführt. Hierzu gehört auch ein Kommando, das die laufende Ansage abbricht . Dabei ist ein sofortiger abrupter Wechsel oder Abbruch der Ansage regelmäßig unangenehm, da dies als Aufmerksamkeit erheischende Unregelmäßigkeit empfunden wird.
Es ist also eine weitere Aufgabe der Erfindung, eine gat- tungsgem ße Einrichtung anzugeben, bei der die Kontrolle über die Ausgabe vom Benutzer als natürlich empfunden wird.
Hierzu werden Indices benutzt, die bei der Eingabe in die Sprachsynthese eingefügt werden und auf die sich die Befehle an die Spracheingabe beziehen. Dabei kann entweder die Steuerung über Parameter den Aufbereiter veranlassen, die Indizes bereits in den aufbereiteten Text einzufügen. Wenn dies nicht möglich oder sinnvoll ist, wird die Ausgabe des Aufbereiters nicht, wie in Fig. 1 gezeigt, direkt an die Sprachsynthese gegeben, sondern zunächst von der Steuerung übernommen, die vor der Weitergabe die Indices einfügt. Ein solcher Index kann beispielsweise einen Verweis markieren.
Gibt der Benutzer über das Sprachnetz das Kommando, den nächsten Verweis anzusagen, dann ermittelt die Steuerung den Index desselben, gibt an den Synthesemodul das Komman- do, die Ausgabe nach dem laufenden Wort abzubrechen und danach mit der Ausgabe des indizierten Verweises zu beginnen. Wird der oben angesprochene Synthesemodule verwendet, der eine gezielt beeinflußbare Pipeline von Komponenten verwendet, dann kann folgendes erreicht werden: Da das Kommando zum Abbruch nicht unmittelbar, sondern nach dem Ende des Wortes wirkt, können die Komponenten neu geladen werden und die Aufbereitung beginnen, so daß mit Ende des Wortes der Syntheseprozeß für die Ansage des Verweises bereits soweit fortgeschritten ist, daß diese in natürlicher Art an das Ende des laufenden Wortes angeschlossen ist. Ähnliches Überlegungen gelten, wenn eine Beschleunigung der Ausgabe gewünscht wird. Je nach Konfigurierung, die zudem benutzerspezifisch wählbar ist, kann die neue Geschwindigkeit nach dem aktuellen Wort oder aktuellen Satz gelten. Die Steuerung ermittelt hierfür den passenden Index und bezieht die neue Geschwindigkeit auf diesen Index. Da die restlichen Teile der Aufbereitung in der Pipeline verbleiben können, wird ein Abbruch mit nachfolgendem Neustart vermieden.
Da die Steuerung sich auf bereits strukturierte und vernetzte Dokumente bezieht, ist keine besondere, über die bereits vorliegende Aufbereitung durch z.B. das Programm LYNX notwendig. Es sind daher nur wenige Steuerbefehle notwendig, um auf eine große Anzahl von Dokumenten zugreifen zu können.
Sofern die Steuerung in der Programmiersprache PERL implementiert wird, kann sie sich anstelle des Programms LNYX auch des Moduls "LWP: simple" bedienen, wie er über "http://www.perl.com/CPAN/modules" beziehbar ist. Dieser Modul stellt eine alternative Form eines Aufbereiters mit einer funktionalen Schnittstelle dar.

Claims

Patentansprüche
1. Einrichtung zum akustischen Zugriff über ein Sprachnetzwerk auf vernetzte Dokumente, die in einer Markierungssprache vorliegen, welche Verweise auf über ein Datennetzwerk (20) aufzulösende weitere Objekte enthält, wobei die Einrichtung mindestens ein mit einem Sprachnetzwerk (20) verbundenes Modem (12), eine Steuerung (14) , einen Aufbereiter (16) und ein Synthesemodul (18) aufweist, welche folgende Merkmale aufweisen: - das Modem (12) überträgt vom Benutzer eintreffende Kommandos an die Steuerung (16) ,
- die Steuerung trennt die Kommandos in solche, die die Navigation im Dokument betreffen und daher an den Aufbereiter gegeben werden, und solche, die die Sprachausgabe betreffen und daher an die Synthesemodule gegeben werden,
- der Aufbereiter (16) führt die Naviagtion in den vernetzten Dokumenten durch und gibt eine textuelle Aufbereitung der Dokumente an die Synthesemodul (18) , - die Synthesemodul (18) wandelt die textliche Aufbereitung der Dokumente in Sprachausgabe um, welche über das Modem (12) an den Benutzer übertragen wird, wobei die Art der Sprachausgabe durch die Steuerung (14) bestimmt wird.
2. Einrichtung nach Anspruch 1, wobei die Kommandos von der Steuerung an die Synthesemodul auf in der textuel- len Aufbereitung von dem Aufbereiter (16) übermittelten Markierungen Bezug nimmt . Einrichtung nach Anspruch 2, wobei die Steuerung in die Ausgabe des Aufbereiters Indices einfügt und die Kommandos an den Synthesemodul auf einen oder mehrere Indices bezogen sind.
Einrichtung nach Anspruch 1, wobei der Aufbereiter die Markierungen der Dokumente mit textlichen Mitteln darstellt; insbesondere die Verweise durchnumeriert.
PCT/DE2000/003550 2000-10-10 2000-10-10 Akustische ausgabe vernetzter dokumente WO2002031811A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/DE2000/003550 WO2002031811A1 (de) 2000-10-10 2000-10-10 Akustische ausgabe vernetzter dokumente

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/DE2000/003550 WO2002031811A1 (de) 2000-10-10 2000-10-10 Akustische ausgabe vernetzter dokumente

Publications (1)

Publication Number Publication Date
WO2002031811A1 true WO2002031811A1 (de) 2002-04-18

Family

ID=5647971

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2000/003550 WO2002031811A1 (de) 2000-10-10 2000-10-10 Akustische ausgabe vernetzter dokumente

Country Status (1)

Country Link
WO (1) WO2002031811A1 (de)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0847179A2 (de) * 1996-12-04 1998-06-10 AT&T Corp. System und Verfahren mit Sprachschnittstelle zu hyperlink Informationen
EP0848373A2 (de) * 1996-12-13 1998-06-17 Siemens Corporate Research, Inc. System zur interaktiven Kommunikation
WO2000021057A1 (en) * 1998-10-01 2000-04-13 Mindmaker, Inc. Method and apparatus for displaying information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0847179A2 (de) * 1996-12-04 1998-06-10 AT&T Corp. System und Verfahren mit Sprachschnittstelle zu hyperlink Informationen
EP0848373A2 (de) * 1996-12-13 1998-06-17 Siemens Corporate Research, Inc. System zur interaktiven Kommunikation
WO2000021057A1 (en) * 1998-10-01 2000-04-13 Mindmaker, Inc. Method and apparatus for displaying information

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BROWN M: "PhoneBrowser : A Web-Content-Programmable Speech Processing Platform", W3.ORG WORKSHOP 1998, XP002175282, Retrieved from the Internet <URL:http://www.w3.org/Voice/1998/Workshop/Michael-Brown.html> [retrieved on 20010820] *

Similar Documents

Publication Publication Date Title
DE69429558T2 (de) Tondatenverarbeitung
DE4436175B4 (de) Vorrichtung zum Fernzugreifen auf einen Computer ausgehend von einem Telefonhandapparat
DE60020773T2 (de) Graphische Benutzeroberfläche und Verfahren zur Änderung von Aussprachen in Sprachsynthese und -Erkennungssystemen
DE69128765T2 (de) Übersetzung von MIDI-Dateien
DE69828141T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69317510T2 (de) Text-/Sprache-Umwandlungssteuerung
DE69424019T2 (de) System zur Sprachlichen Wiedergabe von Hypertextdokumenten, wie Hilfsdateien
EP0802522B1 (de) Anordnung und Verfahren zur Aktionsermittlung, sowie Verwendung der Anordnung und des Verfahrens
DE60032846T2 (de) Verfahren und System zur Anbietung von Alternativen für von stochastischen Eingabequellen abgeleitete Texte
DE69413052T2 (de) Sprachsynthese
DE3910467C2 (de) Verfahren und Vorrichtung zur Erzeugung von Berichten
DE60313706T2 (de) Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium
DE69202575T2 (de) Verfahren und vorrichtung zur reduktion der datenmenge fuer die softwareinstallierung.
DE2551632C2 (de) Verfahren zum Zusammensetzen von Sprachnachrichten
DE2818974A1 (de) Datenstation fuer datenverarbeitungsanlagen
DE60123153T2 (de) Sprachgesteuertes Browsersystem
DE2946856C2 (de) Wortspeichergerät
DE102006036338A1 (de) Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem
DE69233622T2 (de) Vorrichtung zur Erzeugung von Ansagen
DE4243181C2 (de) Sprachgesteuerte Vorrichtung und Verfahren zu deren Betrieb
EP1321851B1 (de) Verfahren und System zum Nutzen von vom Nutzer frei zu wählenden Markierungsnamen als Einsprungposition in die Menustruktur eines Sprach-Dialogsystems
DE69511267T2 (de) Sprachprocessor
DE69700472T2 (de) Automatische spracherkennung
WO2002031811A1 (de) Akustische ausgabe vernetzter dokumente
EP0467157A2 (de) Sprachgesteuertes Gerät der Unterhaltungselektronik, insbesondere Videorecorder

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase