[go: up one dir, main page]

DE4440598C1 - Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments - Google Patents

Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments

Info

Publication number
DE4440598C1
DE4440598C1 DE4440598A DE4440598A DE4440598C1 DE 4440598 C1 DE4440598 C1 DE 4440598C1 DE 4440598 A DE4440598 A DE 4440598A DE 4440598 A DE4440598 A DE 4440598A DE 4440598 C1 DE4440598 C1 DE 4440598C1
Authority
DE
Germany
Prior art keywords
hypertext
lexicon
document
spoken
hyperlinks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE4440598A
Other languages
English (en)
Inventor
Darin Edward Krasle
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Siemens Corp
Original Assignee
Siemens AG
Siemens Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG, Siemens Corp filed Critical Siemens AG
Priority to DE4440598A priority Critical patent/DE4440598C1/de
Priority to US08/557,525 priority patent/US6029135A/en
Application granted granted Critical
Publication of DE4440598C1 publication Critical patent/DE4440598C1/de
Priority to US09/764,792 priority patent/US6859777B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/748Hypervideo
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

Hypertext-Systemen kommt eine rasch wachsende Bedeutung in vielen Bereichen der Daten- und Kommunikationstechnik zu. Wichtige, bereits verwirklichte Beispiele sind
  • - typische Hypertext-Hilfesysteme und Hypertext-Dokumentatio­ nen für Software-Anwendungen (z. B. unter graphischen Be­ triebssystemen für Personal Computer), bei denen der Benutzer gewöhnlich innerhalb einzelner Hypertext-Dokumente, die als Dateien auf einem einzigen Rechner gespeichert sind, navigie­ ren kann, sowie
  • - das World Wide Web (WWW), ein weltumspannendes Hypertext- Netzwerk auf der Grundlage des Internet, welches dem Benutzer die Navigation durch eine Vielzahl miteinander verknüpfter, sich gegenseitig zitierender (d. h. aufeinander verweisender) Hypertext-Dokumente ermöglicht, die im allgemeinen auf einer großen Zahl weit voneinander entfernter Rechner im Netzwerk gespeichert sind. Hypertext-Dokumente enthalten dabei im all­ gemeinen Informationen in Form von Text, digitalen Bildern oder Audio- oder Video-Daten, oder Kombinationen davon.
Ein wesentliches, charakteristisches Merkmal aller Hypertext- Systeme ist die Möglichkeit der Navigation. Ein Hypertext-Do­ kument enthält neben dem eigentlichen Text besondere Zeichen­ folgen, die auch Bestandteil des eigentlichen Texts sein kön­ nen, welche gewöhnlich als Links oder Hyper-Links bezeichnet werden, und zur Hypertext-Navigation dienen. Normalerweise sind diese Zeichenfolgen besonders markiert, werden z. B. in einer anderen Farbe oder auf andere Weise hervorgehoben ange­ zeigt. Wählt ein Benutzer eines Hypertext-Systems einen sol­ chen Link - gewöhnlich durch einen kurzen Klick mit der Maus - aus, reagiert das Hypertext-System auf diese Anweisung, in­ dem es einen mit dieser Zeichenfolge (Link) assoziierten Teil desselben Hypertext-Dokuments oder eines anderen Hypertext- Dokuments zur Anzeige bringt. Andere mögliche Reaktionen sind das Eröffnen einer Verbindung zu einem anderen Rechner, z. B. zu einer Online-Datenbank, das Starten eines weiteren Anwen­ dungsprogramms, das Öffnen einer anderen Datei, das Anstoßen eines Datenverarbeitungsprozesses oder eine Kombination aus derartigen möglichen Reaktionen.
Daneben führen Hypertext-Systeme gewöhnlich noch andere Be­ fehle aus, die nicht mit Zeichenfolgen (Links) in Hypertext- Dokumenten assoziiert sind, wie z. B. das Blättern durch be­ reits gezeigte Dokumente oder Dokumentteile (z. B. Seiten), das Speichern von Hypertext-Seiten in sogenannten Hotlists, das Aufrufen oder Durchblättern von in Hotlists gespeicherten Seiten, das Nachladen von Bildern, etc. Diese Befehle werden normalerweise in der für graphische Benutzeroberflächen typi­ schen Weise - z. B. mit der Maus - eingegeben.
Hypertext-Dokumente können auf vielfältige Weise organisiert und strukturiert sein. Neben der eigentlichen Hypertext- Struktur kommen auch noch hierarchische Strukturen oder Li­ sten-Strukturen in Betracht. Andere Hypertext-Dokumente ste­ hen mit Datenbanken in Verbindung, dienen diesen z. B. als Ein- und/oder Ausgabe-Formulare. Diese Strukturen können sich auch innerhalb eines Hypertext-Dokuments überlagern. Dabei kann ein einziges Hypertext-Dokument nur wenige oder aber mehrere Tausend Links enthalten. Dokumente im World Wide Web sind repräsentative Beispiele für die Vielfalt möglicher Hy­ pertext-Dokumente.
Es gibt eine Reihe von Anwendungsmöglichkeiten hypertext-ba­ sierter Systeme, bei denen die herkömmliche Art der Eingabe von Befehlen oder Aktivierung von Links als störend empfunden wird, unerwünscht oder gar unmöglich ist. Dies ist z. B. dann der Fall, wenn der Benutzer behindert ist, seine Hände mit der Bewältigung anderer Aufgaben beschäftigt sind, oder wenn die Umgebungsbedingungen die Verwendung herkömmlicher Einga­ begeräte verbieten. Die Spracherkennung bietet sich hier als einfache, natürliche Art der Eingabe an, die weniger Übung seitens des Benutzers als andere Eingabemittel voraussetzt.
In der EP 0 607 615 A1 ist ein herkömmliches System zur Er­ kennung gesprochener Sprache detailliert beschrieben. Der In­ tegration herkömmlicher akustischer Spracherkennungssysteme, d. h. Systeme zur Erkennung gesprochener Sprache, mit Hy­ pertext-Systemen, die auch als "Viewer" oder "Browser" be­ kannt sind, stehen jedoch technische Schwierigkeiten im Wege. Das Spracherkennungssystem muß nämlich in der Lage sein, je­ des Wort, welches in einem Hypertext-Dokument als Link auf­ treten könnte, zu erkennen. Weil praktisch jedes Wort im Text auch ein Hyper-Link sein könnte, wären hierzu sehr große Le­ xika erforderlich, die die Verarbeitungsgeschwindigkeit und die Erkennungsleistung dieser Systeme auf ein unvertretbares Maß reduzieren würden. Selbst wenn die Verwendung sehr großer Lexika möglich wäre, könnten auch damit nicht die zahllosen Wortneuschöpfungen und Eigennamen erkannt werden, die für viele Hypertext-Anwendungen, namentlich aber für Hypertext- Netzwerke wie das World Wide Web so typisch sind. Beispiels­ weise aus dem US-Buch "Muller, M.J., Daniel, J.E.: Toward a Definition of Voice Documents, in Proc. of COIS, 1990, S. 174-183", ist ein durch gesprochenen Worte steuerbares Hy­ pertext-System bekannt, bei dem der Benutzer jedoch nicht Hy­ per-Links ausspricht und dadurch das System steuert (navigiert), sondern bei dem der Benutzer Systembefehle aus­ spricht, die von der Spracherkennungseinrichtung erkannt wer­ den, woraufhin entsprechende Aktionen des Systems ausgeführt werden.
Der Erfindung liegt daher die Aufgabe zugrunde, ein durch gesprochene Worte steuerbares Hypertext-Navigationssystem, das in der Lage ist, die in abgerufenen Hypertext-Dokumenten enthaltenen Hyper-Links als gesprochene Worte mit einer brauchbaren Erkennungsleistung bei vertretbarem technischen Aufwand zu erkennen, sowie ein Hypertext-Dokument für dieses Navigationssystem und ein Verfahren zur Erzeugung eines der­ artigen Dokuments anzugeben.
Diese Aufgaben werden erfin­ dungsgemäß durch ein durch gesprochene Worte steuerbares Hy­ pertext-Navigationssystem mit Merkmalen nach einem der An­ sprüche 1 oder 2, ein Hypertextdokument nach Anspruch 6 bzw. durch ein Verfahren zur Erzeugung eines derartigen Dokuments nach Anspruch 8 gelöst.
Gemäß der vorliegenden Erfindung sind eine Einrichtung zur Erkennung gesprochener Sprache und Mit­ tel zur Adaption dieser Spracherkennungseinrichtung an In­ halte von Hypertext-Dokumenten vorgesehen. Durch die Adaption der Spracherkennungseinrichtung an Inhalte von Hypertext-Do­ kumenten werden große Lexika entbehrlich und die Erkennbar­ keit beliebiger, auch unvorhergesehener Worte in Hypertext- Dokumenten grundsätzlich sichergestellt.
Auf dem erfindungsgemäßen Lösungsprinzip beruhen auch die Hypertext-Dokumente gemäß einem der Ansprüche 6 oder 7. Mit diesen sind nämlich Zusatzdaten verknüpft, welche eine Einrichtung zur Erkennung gesprochener Sprache bei der Erkennung der vom Anwender ausgesprochenen Hyper-Links des Dokuments unterstützen. Diese Zusatzdaten bestehen dabei bevorzugt aus einem Lexikon und einem Wahrscheinlichkeitsmodell, wobei das Lexikon zur Hypertext-Navigation dienende Zeichenfolgen (Links) dieses Hypertext-Dokuments und ihnen zugeordnete Pho­ nemfolgen als Einträge enthält, und wobei das Wahrscheinlich­ keitsmodell einem System zur Erkennung gesprochener Sprache ermöglicht, einem gesprochenen Wort oder einer Folge von ge­ sprochenen Worten einen Eintrag des Lexikons zuzuordnen.
Diese erfindungsgemäßen Hypertext-Dokumente können aus her­ kömmlichen Hypertext-Dokumenten mit Hilfe eines Verfahrens nach einem der Ansprüche 8 oder 9 erzeugt werden.
Vorteilhafte Weiterbildungen der Erfindung sollen mit Hilfe von Unteransprüchen unter Schutz gestellt werden.
Im folgenden wird die Erfindung anhand bevorzugter Ausfüh­ rungsbeispiele näher beschrieben.
Gemäß der vorliegenden Erfindung werden die Probleme durch Mittel zur Adaption einer Spracherkennungseinrichtung an In­ halte von Hypertext-Dokumenten gelöst. Diese Mittel bestehen vorzugsweise aus Zusatzdaten, die einem Hypertext-Dokument zugeordnet sind, und welche ein System zur Erkennung gespro­ chener Sprache bei der Erkennung von gesprochenen Worten un­ terstützen, die zur Hypertext-Navigation dienenden Zeichen­ folgen, also den Hyper-Links, dieses Hypertext-Dokuments ent­ sprechen.
Gemäß einer bevorzugten Ausführungsform der vorliegenden Er­ findung bestehen diese Zusatzdaten aus einem Lexikon und ei­ nem Wahrscheinlichkeitsmodell, wobei das Lexikon zur Hy­ pertext-Navigation dienende Zeichenfolgen, also die Links dieses Hypertext-Dokuments und ihnen zugeordnete Phonemfolgen als Einträge enthält, und wobei das Wahrscheinlichkeitsmodell einem System zur Erkennung gesprochener Sprache ermöglicht, einem gesprochenen Wort oder einer Folge von gesprochenen Worten einen Eintrag des Lexikons zuzuordnen.
Diese Zusatzdaten zu einem Hypertext-Dokument oder zu ei­ nem Teil eines solchen können gemäß einer bevorzugten Ausfüh­ rungsform der Erfindung erzeugt werden, wenn ein Anwender dieses Dokument oder diesen Teil öffnet oder anfordert. Diese Ausführungsform der Erfindung, bei der die Daten zur Adaption des Spracherkennungssystems also erst zur Laufzeit (at run­ time) und im System des Anwenders erzeugt werden, soll im folgenden als "Laufzeit-Variante" der Erfindung bezeichnet werden. Ein Teil eines Dokuments im Sinne dieser Darstellung kann dabei z. B. eine Seite eines Hypertext-Dokuments sein, oder eine Folge eng zusammengehöriger Seiten eines größeren Dokuments. Grundsätzlich gilt, daß Hypertext-Dokumente oder Seiten häufig nicht gleich vollständig zum Anwender übertra­ gen werden, sondern daß bestimmte Dokumentteile, z. B. Bilder, Audio- oder Video-Sequenzen wegen ihrer großen Datenfülle nur auf gesonderte Anforderung seitens des Anwenders an diesen übermittelt werden. Wichtig ist die Vorstellung, daß die Zusatzdaten im Sinne dieser Erfindung bei der Laufzeit-Vari­ ante erst im Anwender-System, und zwar erst dann und nur in dem Umfang erzeugt werden, wie sie vom Anwender tatsächlich oder voraussichtlich benötigt werden, damit eine Navigation durch lautes Aussprechen der Links, die in dem betreffenden Teil des Hypertext-Dokuments enthalten sind, ermöglicht wird.
Bei einer anderen Ausführungsform der Erfindung, der "Offline-Variante", werden die Zusatzdaten zu einem Hy­ pertext-Dokument bereits vom Ersteller oder Anbieter dieses Dokuments (offline, nicht zur Laufzeit) erzeugt, jedenfalls zusammen mit dem eigentlichen Hypertext-Dokument zum Laden oder zur Übertragung bereitgestellt.
Zur Erzeugung der Zusatzdaten, also des Lexikons bzw. der Lexika und des Wahrscheinlichkeitsmodells, werden gemäß der vorliegenden Erfindung bei beiden Varianten die Links in dem zugehörigen Hypertext-Dokument gesucht und aus dem Quelltext des Hypertext-Dokuments extrahiert. Jeder einem Link entspre­ chenden Zeichenfolge wird eine Phonemfolge oder auch mehrere, z. B. alternativen Aussprachemöglichkeiten entsprechende Pho­ nemfolgen zugeordnet. Zeichenfolgen und Phonemfolgen werden in eine Liste eingetragen, welche ein Lexikon im Sinne der Erfindung bildet. Bei der Laufzeit-Variante der Erfindung werden die Phonemfolgen im Anwendersystem vorzugsweise mit Hilfe allgemeingültiger, für eine bestimmte Sprache spezifi­ scher Ausspracheregeln erzeugt. Dies kann im Falle wenig be­ kannter Worte von Vorteil sein, da so die tatsächliche Aus­ sprache dieser Worte durch eine Mehrzahl der Benutzer besser angenähert werden wird, als bei Verwendung der (korrekten) Phonemfolgen eines Wörterbuchs.
In jedem Fall ist die "Laufzeit-Variante" dann von großem Vorteil, wenn die Zahl der Links sehr groß ist, weil anson­ sten erheblich mehr Daten zu übertragen sein werden als bei herkömmlichen Hypertext-Dokumenten. Fehler bei der Erkennung gesprochener Links werden zwar bei diesem Verfahren gelegent­ lich auftreten, sind aber nicht mit großen Nachteilen verbun­ den, da ein Navigationsfehler durch eine einfaches zusätzli­ ches Kommando, z. B. durch ein "UnDo"-Kommando stets rückgän­ gig gemacht werden kann. Ferner hat die Laufzeit-Variante den Vorteil, daß der Ersteller oder Anbieter eines Dokuments die Ausspracheregeln eines Benutzers nicht kennen muß. Sie ist daher auch dann anwendbar, wenn gleiche Zeichenfolgen durch unterschiedliche Anwender unterschiedlich ausgesprochen wer­ den könnten, solange die Anwender-Systeme die "richtigen" Ausspracheregeln verwenden. Ein weiterer Vorteil der Lauf­ zeit-Variante ist darin zu sehen, daß bei der Erzeugung des Lexikons die Befehle und zugehörigen Phonemfolgen des Anwen­ ders bzw. der Anwender nicht bekannt sein müssen. Hierdurch wird die Verwendung unterschiedlicher Software-Produkte mit abweichenden Befehlssätzen gleichermaßen möglich.
Die Offline-Variante bringt hauptsächlich dann Vorteile, wenn mit Hilfe allgemeingültiger Aussprachemodelle keine Phonem­ folgen hinreichend guter Qualität erzeugt werden können. Dies wird vor allem auf Anwendungsfeldern der Fall sein, bei denen der Verringerung von Erkennungsfehlern eine hohe Priorität zukommt. Der Fachmann erkennt anhand der vorliegenden Dar­ stellungen sofort, daß auch Mischformen der beiden beschrie­ benen Ausführungsformen vorteilhaft sein können, bei denen ein Teil der weiteren Daten eines Hypertext-Dokuments offline, also vom Ersteller oder Anbieter eines Dokuments, erzeugt werden, wogegen andere Teile "zur Laufzeit", also beim Anwender erzeugt werden. So könnten etwa Phonemfolgen zu besonders kritischen Links einem Dokument schon vom Author mitgegeben werden, wogegen beispielsweise die Phonemfolgen der Systembefehle eines "Web-Browsers" in einer Datei auf dem Anwender-System gehalten werden.
Die Extraktion der Links aus einem Hypertext-Dokument könnte z. B. von einer hierfür geschriebene Software - nennen wir sie "Manager" - geleistet werden, welche den Quelltext eines Do­ kuments vom "Viewer" erhält. Der Quelltext kann z. B. - wie im World Wide Web üblich - in der Hypertext Markup Language HTML geschrieben sein. Der Manager bearbeitet den Quelltext nach Art eines Parsers und extrahiert die Links. Textuelle HTML- Links bestehen gewöhnlich aus wenigstens zwei Teilen: aus ei­ ner Zeichenfolge, die dem Anwender normalerweise vom Viewer gezeigt wird, und aus einem Uniform Resource Locator (URL), der im WWW normalerweise die syntaktische Form
http://host.domain/path/file
annimmt. Dabei bezeichnet "host" einen Wirtsrechner in einer durch "domain" bezeichneten Netzwerk-Domäne. Auf diesem Rech­ ner gibt es (hoffentlich) unter dem Pfad "path" eine Datei "file", die in den meisten Fällen ein HTML-Dokument ist, näm­ lich dasjenige HTML-Dokument, auf welches der Link mit diesem URL verweist. Beispiele für URLs wären etwa
http://www.sni.de/pub/docs/mydoc.html,
mit dem auf ein HTML-File "mydoc.html" im Unterverzeichnis "/docs" des Verzeichnisses "/pub" auf dem deutschen WWW-Ser­ ver "www.sni.de" verwiesen würde, oder
http://sunsite.unc.edu/patents/intropat.html,
ein Verweis auf die Titelseite (Homepage) "intropat.html" ei­ ner nicht-kommerziellen Datenbank für US-Patente an der Uni­ versität von North Carolina (UNC). Der URL enthält also die eigentliche Information über den Aufbewahrungsort des Doku­ ments oder Dokumententeils, auf welches der Link mit der vom Viewer gezeigten Zeichenfolge verweist.
Der Manager erzeugt nun zu jeder Zeichenfolge eines jeden Links mindestens eine Phonemfolge, die die vermutete(n) Aus­ sprache(n) der Zeichenfolge charakterisieren, und trägt die Zeichenfolgen zusammen mit den Phonemfolgen in ein Lexikon ein. Das Lexikon ist also eine Zuordnung zwischen Zeichenfol­ gen und Phonemfolgen. Daraufhin wird eine statistische Ana­ lyse der Worte in dem Lexikon durchgeführt, und es wird ein Wahrscheinlichkeitsmodell erzeugt, welches die Wahrschein­ lichkeit von Wortkombinationen in dem Lexikon bestimmt. Das Lexikon und das Wahrscheinlichkeitsmodell werden zur Konfigu­ ration und damit zur Adaption eines Spracherkennungsystems verwendet, welches den vom Anwender gesprochenen Worten Zei­ chenfolgen des Lexikons und damit Links des Hypertext-Doku­ ments zuordnen soll. Das Spracherkennungssystem wird damit speziell auf die Erkennung der in dem Hypertext-Dokument ent­ haltenen Links adaptiert, wodurch seine diesbezügliche Erken­ nungsleistung dramatisch verbessert wird. Erkannte Zeichen­ folgen werden in Hypertext-Navigationsbefehle umgesetzt. Wurde ein Link erkannt, wird der diesem Link assoziierte URL aktiviert, oder es wird eine andere diesem Link zugeordnete Reaktion des Systems ausgelöst. Wurde ein Systemkommando er­ kannt, wird dieses an den Viewer weitergegeben und von diesem ausgeführt. Nach dem Laden eines einem URL entsprechenden HTML-Files beginnt der Extraktionsprozeß von neuem.
Es ist nach der Lektüre dieser Darstellung klar, daß es ge­ wöhnlich von Vorteil ist, die Lexika und Wahrscheinlichkeits­ modelle der letzten Seiten oder Dokumente oder besonders wichtiger Dokumente für den Fall auf dem Anwender-System vor­ rätig zu halten, daß diese Seiten erneut geladen werden (Cash-Speicher für weitere Daten). Viele Viewer halten die HTML-Quelltexte der letzten HTML-Seiten vorrätig oder erlau­ ben es dem Benutzer, diese oder ihre URLs z. B. in Hotlists abzuspeichern, um diese Seiten später schneller aufrufen zu können oder wiederzufinden. Ähnliche Verfahren bieten sich für die weiteren Daten im Sinne der vorliegenden Erfindung, also die Lexika und Wahrscheinlichkeitsmodelle, an, so daß diese nicht in jedem Fall neu erzeugt werden müssen.
Häufig ist es vorteilhaft, wenn die Navigation auch noch auf herkömmliche Weise möglich ist. Die herkömmliche Bedienung des Hypertext-Navigationssystems z. B. mit der Maus wird daher in vielen Fällen zusätzlich zur Sprachsteuerung möglich sein.
Neben der Navigation kann die Sprachsteuerung natürlich auch zur Steuerung anderer Elemente eines Hypertext-Systems ver­ wendet werden, wie etwa dem Nachladen von Bildern, dem Aufruf von Programmen, der Aktivierung von "Buttons", etc. Voraus­ setzung dafür ist lediglich, daß diesen Steuerungselementen aussprechbare Zeichfolgen, die dem Anwender zugänglich sind, und welche in Lexika aufgenommen werden können, zugeordnet sind.

Claims (9)

1. Ein durch gesprochene Worte steuerbares Hypertext-Naviga­ tionssystem mit einer Einrichtung zur Erkennung gesprochener Sprache und Mitteln zur Adaption dieser Spracherkennungsein­ richtung an Inhalte von abgerufenen Hypertext-Dokumenten, wo­ bei diese Mittel mit einem abgerufenen Hypertext-Dokument verknüpfte Zusatzdaten auswerten, welche die Erkennung der vom Anwender ausgesprochenen Hyper-Links des abgerufenen Hypertext-Dokuments unterstützen.
2. Ein durch gesprochene Worte steuerbares Hypertext-Navigations­ system mit einer Einrichtung zur Erkennung gesprochener Sprache und Mitteln zur Adaption dieser Spracherkennungseinrichtung an Inhalte von abgerufenen Hypertext-Dokumenten, wobei diese Mittel jeweils nach dem Empfang eines abgerufenen Hypertext-Dokuments mit Hilfe allgemeingültiger Ausspracheregeln die Spracherkennungseinrichtung für die Erkennung der vom Anwender ausgesprochenen Hyper-Links des abgerufenen Hypertext-Dokuments einrichten.
3. Ein durch gesprochene Worte steuerbares Hypertext-Naviga­ tionssystem nach Anspruch 1 oder 2 mit fol­ genden Merkmalen:
  • a) die Einrichtung zur Erkennung gesprochener Sprache kann einem gesprochenen Wort oder einer Folge von gesprochenen Worten Einträge eines Lexikons oder mehrerer Lexika zuordnen;
  • b) wenigstens ein erstes Lexikon enthält Hyper-Links ei­ nes Hypertext-Dokuments und ihnen zugeordnete Phonemfolgen als Einträge;
  • c) wenigstens ein zweites Lexikon, das auch mit dem ersten Lexikon vereinigt oder ein Teil von diesem sein kann, enthält Befehle des Hypertext-Navigationssystems als Einträge.
4. Ein durch gesprochene Worte steuerbares Hypertext-Naviga­ tionssystem nach einem der vorhergehenden Ansprüche, welches auch auf herkömmliche Weise gesteuert werden kann.
5. Ein durch gesprochene Worte steuerbares Hypertext-Naviga­ tionssystem nach einem der vorhergehenden Ansprüche, bei dem nach Maßgabe des Benutzers Lexika und Wahrscheinlichkeitsmo­ delle, die für bereits angezeigte oder teilweise angezeigte Hypertext-Dokumente oder Teile von solchen erstellt worden sind, gespeichert werden können, damit im Falle einer erneu­ ten Anzeige dieser Hypertext-Dokumente oder von Teilen von solchen auf diese zurückgegriffen werden kann.
6. Hypertext-Dokument, mit dem Zusatzdaten verknüpft sind, welche eine Einrichtung zur Erkennung gesprochener Sprache bei der Erkennung der vom Anwender ausgesprochenen Hyper-Links des Dokuments unterstützen.
7. Hypertext-Dokument nach Anspruch 6, bei dem die Zusatzda­ ten aus einem Lexikon und einem Wahrscheinlichkeitsmodell be­ stehen, wobei das Lexikon Hyper-Links und ihnen zugeord­ nete Phonemfolgen als Einträge enthält, und wobei das Wahr­ scheinlichkeitsmodell einer Einrichtung zur Erkennung gespro­ chener Sprache ermöglicht, einem gesprochenen Wort oder einer Folge von gesprochenen Worten einen Eintrag des Lexikons zu­ zuordnen.
8. Verfahren zur Erzeugung eines Hypertext-Dokuments mit Merkmalen nach einem der Ansprüche 6 oder 7 aus einem her­ kömmlichen Hypertext-Dokument mit folgenden Schritten:
  • a) der Quelltext des herkömmlichen Hypertext-Dokuments wird nach Zeichenfolgen, die als Hyper-Links dienen, unter­ sucht; diese Zeichenfolgen werden aus dem Quelltext extra­ hiert;
  • b) diesen Zeichenfolgen werden Phonemfolgen zugeordnet; Zei­ chenfolgen und zugehörige Phonemfolgen werden in ein Lexikon eingetragen;
  • c) zu den Einträgen des Lexikons wird ein Wahrscheinlich­ keitsmodell für eine Einrichtung zur Erkennung gesprochener Sprache erstellt.
9. Verfahren nach Anspruch 8, bei dem zusätzlich zu den Zei­ chenfolgen, die als Hyper-Links dienen, auch Befehle des Hypertext-Navigationssystems, zusammen mit ihnen entsprechen­ den Phonemfolgen, in ein Lexikon eingetragen werden.
DE4440598A 1994-11-14 1994-11-14 Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments Expired - Fee Related DE4440598C1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE4440598A DE4440598C1 (de) 1994-11-14 1994-11-14 Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
US08/557,525 US6029135A (en) 1994-11-14 1995-11-14 Hypertext navigation system controlled by spoken words
US09/764,792 US6859777B2 (en) 1994-11-14 2001-01-17 Hypertext navigation system controlled by spoken words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE4440598A DE4440598C1 (de) 1994-11-14 1994-11-14 Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments

Publications (1)

Publication Number Publication Date
DE4440598C1 true DE4440598C1 (de) 1996-05-23

Family

ID=6533256

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4440598A Expired - Fee Related DE4440598C1 (de) 1994-11-14 1994-11-14 Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments

Country Status (2)

Country Link
US (2) US6029135A (de)
DE (1) DE4440598C1 (de)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19707973A1 (de) * 1997-02-27 1998-05-20 Siemens Ag Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet
WO1998020436A3 (en) * 1996-11-07 1998-09-11 Natrificial Llc Method and apparatus for organizing and processing information using a digital computer
EP0959401A2 (de) 1998-05-20 1999-11-24 Nokia Mobile Phones Ltd. Verfahren zur Sprachsteuerung und sprachgesteuertes Gerät
EP0878948A3 (de) * 1997-04-10 1999-12-22 AT&T Corp. Verfahren und Gerät für Sprachinteraktion über ein Netzwerk unter Verwendung von parametrierbare Interactiondefinitionen
US6037944A (en) * 1996-11-07 2000-03-14 Natrificial Llc Method and apparatus for displaying a thought network from a thought's perspective
WO2000014728A1 (en) * 1998-09-09 2000-03-16 One Voice Technologies, Inc. Network interactive user interface using speech recognition and natural language processing
EP0822698A3 (de) * 1996-08-02 2000-04-19 Siemens Business Communication Systems, Inc. Automatisierter Anruf von verschiedenen Nummern mit Rufnummerauskunft
EP0847179A3 (de) * 1996-12-04 2000-05-31 AT&T Corp. System und Verfahren mit Sprachschnittstelle zu hyperlink Informationen
US6166739A (en) * 1996-11-07 2000-12-26 Natrificial, Llc Method and apparatus for organizing and processing information using a digital computer
EP0859500A3 (de) * 1997-02-18 2001-03-07 Lucent Technologies Inc. Verfahren und Gerät für Internet-Navigierung mit einer Telekommunikations-Vorrichtung
DE19942432A1 (de) * 1999-09-06 2001-03-08 Iconparc Gmbh Verfahren und Vorrichtung zur Durchführung einer Offline-Webanwendung
DE19940940A1 (de) * 1999-08-23 2001-03-08 Mannesmann Ag Talking Web
WO2001026093A1 (en) * 1999-10-05 2001-04-12 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
WO2001035390A1 (en) * 1999-11-09 2001-05-17 Koninklijke Philips Electronics N.V. Speech recognition method for activating a hyperlink of an internet page
WO2002045076A1 (de) 2000-11-28 2002-06-06 Siemens Aktiengesellschaft Verfahren und system zur multilingualen spracherkennung
EP1099146A4 (de) * 1998-07-24 2004-05-12 Motorola Inc Verfahren und systeme zum zugriff zu informationen von einer informationsquelle
US8082293B1 (en) 1994-10-17 2011-12-20 The Regents Of The University Of California Distributed hypermedia method and system for automatically invoking external application providing interaction and display of embedded objects within a hypermedia document

Families Citing this family (181)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5953392A (en) * 1996-03-01 1999-09-14 Netphonic Communications, Inc. Method and apparatus for telephonically accessing and navigating the internet
US6952799B2 (en) * 1996-06-17 2005-10-04 British Telecommunications User interface for network browser including pre-processor for links embedded in hypermedia documents
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US7269587B1 (en) 1997-01-10 2007-09-11 The Board Of Trustees Of The Leland Stanford Junior University Scoring documents in a linked database
US6996533B2 (en) 1997-03-21 2006-02-07 Fujitsu Limited Information processing system
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
US6377928B1 (en) * 1999-03-31 2002-04-23 Sony Corporation Voice recognition for animated agent-based navigation
DE19930407A1 (de) * 1999-06-09 2000-12-14 Philips Corp Intellectual Pty Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten
WO2001013255A2 (en) * 1999-08-13 2001-02-22 Pixo, Inc. Displaying and traversing links in character array
US6640098B1 (en) * 2000-02-14 2003-10-28 Action Engine Corporation System for obtaining service-related information for local interactive wireless devices
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
FI20000735A7 (fi) * 2000-03-30 2001-10-01 Nokia Corp Monimodaalinen menetelmä ja laite liikutettavissa laitteissa esitettävän graafisen informaation selaamiseksi
US7770102B1 (en) 2000-06-06 2010-08-03 Microsoft Corporation Method and system for semantically labeling strings and providing actions based on semantically labeled strings
US7716163B2 (en) * 2000-06-06 2010-05-11 Microsoft Corporation Method and system for defining semantic categories and actions
US7788602B2 (en) 2000-06-06 2010-08-31 Microsoft Corporation Method and system for providing restricted actions for recognized semantic categories
US7421645B2 (en) * 2000-06-06 2008-09-02 Microsoft Corporation Method and system for providing electronic commerce actions based on semantically labeled strings
US7712024B2 (en) * 2000-06-06 2010-05-04 Microsoft Corporation Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings
US7162696B2 (en) * 2000-06-08 2007-01-09 Franz Wakefield Method and system for creating, using and modifying multifunctional website hot spots
FR2810125B1 (fr) * 2000-06-08 2004-04-30 Interactive Speech Technologie Systeme de commande vocale d'une page stockee sur un serveur et telechargeable en vue de sa visualisation sur un dispositif client
US7076521B2 (en) * 2000-06-26 2006-07-11 Vertical Computer Systems, Inc. Web-based collaborative data collection system
US8397163B1 (en) * 2000-08-14 2013-03-12 Deep Sran Device, method, and system for providing an electronic reading environment
KR20020017373A (ko) * 2000-08-30 2002-03-07 정익주 엠에스에이치티엠엘 컴포넌트를 이용한 음성인식 브라우저구현 방법
DE10042942C2 (de) * 2000-08-31 2003-05-08 Siemens Ag Verfahren zur Sprachsynthese
DE10042944C2 (de) * 2000-08-31 2003-03-13 Siemens Ag Graphem-Phonem-Konvertierung
DE10042943C2 (de) * 2000-08-31 2003-03-06 Siemens Ag Zuordnen von Phonemen zu den sie erzeugenden Graphemen
DE10043946C2 (de) * 2000-09-06 2002-12-12 Siemens Ag Komprimieren von HMM-Prototypen
US6490432B1 (en) 2000-09-21 2002-12-03 Command Audio Corporation Distributed media on-demand information service
DE10047172C1 (de) * 2000-09-22 2001-11-29 Siemens Ag Verfahren zur Sprachverarbeitung
DE60133529T2 (de) * 2000-11-23 2009-06-10 International Business Machines Corp. Sprachnavigation in Webanwendungen
EP1209660B1 (de) * 2000-11-23 2008-04-09 International Business Machines Corporation Sprachnavigation in Webanwendungen
EP1213662A1 (de) * 2000-12-07 2002-06-12 Alcatel Web-Browser-Gerät, entsprechendes Verfahren und entsprechendes Software-Modul
US6788767B2 (en) 2000-12-28 2004-09-07 Gateway, Inc. Apparatus and method for providing call return service
DE10110977C1 (de) * 2001-03-07 2002-10-10 Siemens Ag Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem
US7778816B2 (en) * 2001-04-24 2010-08-17 Microsoft Corporation Method and system for applying input mode bias
US7437295B2 (en) * 2001-04-27 2008-10-14 Accenture Llp Natural language processing for a location-based services system
US6848542B2 (en) * 2001-04-27 2005-02-01 Accenture Llp Method for passive mining of usage information in a location-based services system
US6944447B2 (en) * 2001-04-27 2005-09-13 Accenture Llp Location-based services
US7698228B2 (en) * 2001-04-27 2010-04-13 Accenture Llp Tracking purchases in a location-based services system
US7970648B2 (en) * 2001-04-27 2011-06-28 Accenture Global Services Limited Advertising campaign and business listing management for a location-based services system
US7203188B1 (en) 2001-05-21 2007-04-10 Estara, Inc. Voice-controlled data/information display for internet telephony and integrated voice and data communications using telephones and computing devices
KR20010070853A (ko) * 2001-06-13 2001-07-27 왕상주 웹 상에서 운영되는 음성 서비스 시스템
US20050154588A1 (en) * 2001-12-12 2005-07-14 Janas John J.Iii Speech recognition and control in a process support system
US7712020B2 (en) * 2002-03-22 2010-05-04 Khan Emdadur R Transmitting secondary portions of a webpage as a voice response signal in response to a lack of response by a user
US7873900B2 (en) * 2002-03-22 2011-01-18 Inet Spch Property Hldg., Limited Liability Company Ordering internet voice content according to content density and semantic matching
JP4004839B2 (ja) * 2002-04-15 2007-11-07 株式会社東芝 通信装置及びネットワークシステム
US7707496B1 (en) 2002-05-09 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings
US7707024B2 (en) 2002-05-23 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting currency values based upon semantically labeled strings
US7742048B1 (en) 2002-05-23 2010-06-22 Microsoft Corporation Method, system, and apparatus for converting numbers based upon semantically labeled strings
US7827546B1 (en) 2002-06-05 2010-11-02 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US7356537B2 (en) * 2002-06-06 2008-04-08 Microsoft Corporation Providing contextually sensitive tools and help content in computer-generated documents
US7188318B2 (en) * 2002-06-11 2007-03-06 International Business Machines Corporation Web accessibility assistant
US7224981B2 (en) * 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
US7716676B2 (en) * 2002-06-25 2010-05-11 Microsoft Corporation System and method for issuing a message to a program
US7209915B1 (en) 2002-06-28 2007-04-24 Microsoft Corporation Method, system and apparatus for routing a query to one or more providers
US20040128136A1 (en) * 2002-09-20 2004-07-01 Irani Pourang Polad Internet voice browser
US7783614B2 (en) * 2003-02-13 2010-08-24 Microsoft Corporation Linking elements of a document to corresponding fields, queries and/or procedures in a database
US20040172584A1 (en) * 2003-02-28 2004-09-02 Microsoft Corporation Method and system for enhancing paste functionality of a computer software application
US7711550B1 (en) 2003-04-29 2010-05-04 Microsoft Corporation Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names
US7558841B2 (en) 2003-05-14 2009-07-07 Microsoft Corporation Method, system, and computer-readable medium for communicating results to a data query in a computer network
US7739588B2 (en) * 2003-06-27 2010-06-15 Microsoft Corporation Leveraging markup language data for semantically labeling text strings and data and for providing actions based on semantically labeled text strings and data
US20050182617A1 (en) * 2004-02-17 2005-08-18 Microsoft Corporation Methods and systems for providing automated actions on recognized text strings in a computer-generated document
US20050273487A1 (en) * 2004-06-04 2005-12-08 Comverse, Ltd. Automatic multimodal enabling of existing web content
US7650284B2 (en) * 2004-11-19 2010-01-19 Nuance Communications, Inc. Enabling voice click in a multimodal page
US7958131B2 (en) * 2005-08-19 2011-06-07 International Business Machines Corporation Method for data management and data rendering for disparate data types
US8977636B2 (en) * 2005-08-19 2015-03-10 International Business Machines Corporation Synthesizing aggregate data of disparate data types into data of a uniform data type
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8266220B2 (en) * 2005-09-14 2012-09-11 International Business Machines Corporation Email management and rendering
US20070061371A1 (en) * 2005-09-14 2007-03-15 Bodin William K Data customization for data of disparate data types
US7788590B2 (en) * 2005-09-26 2010-08-31 Microsoft Corporation Lightweight reference user interface
US7992085B2 (en) * 2005-09-26 2011-08-02 Microsoft Corporation Lightweight reference user interface
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US8694319B2 (en) 2005-11-03 2014-04-08 International Business Machines Corporation Dynamic prosody adjustment for voice-rendering synthesized data
US8271107B2 (en) * 2006-01-13 2012-09-18 International Business Machines Corporation Controlling audio operation for data management and data rendering
DE102006006305A1 (de) * 2006-02-10 2007-08-16 Siemens Ag Verfahren zur Aufbereitung von Informationen für ein Sprachdialogsystem
US20070192674A1 (en) * 2006-02-13 2007-08-16 Bodin William K Publishing content through RSS feeds
US20070192676A1 (en) * 2006-02-13 2007-08-16 Bodin William K Synthesizing aggregated data of disparate data types into data of a uniform data type with embedded audio hyperlinks
US20070192673A1 (en) * 2006-02-13 2007-08-16 Bodin William K Annotating an audio file with an audio hyperlink
US9135339B2 (en) * 2006-02-13 2015-09-15 International Business Machines Corporation Invoking an audio hyperlink
CN101605483A (zh) * 2006-09-05 2009-12-16 嘉宝产品公司 容器的带通气孔的封闭件
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US9196241B2 (en) 2006-09-29 2015-11-24 International Business Machines Corporation Asynchronous communications using messages recorded on handheld devices
US9318100B2 (en) 2007-01-03 2016-04-19 International Business Machines Corporation Supplementing audio recorded in a media file
US8219402B2 (en) 2007-01-03 2012-07-10 International Business Machines Corporation Asynchronous receipt of information from a user
US20080256613A1 (en) 2007-03-13 2008-10-16 Grover Noel J Voice print identification portal
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
EP2518722A3 (de) * 2011-04-28 2013-08-28 Samsung Electronics Co., Ltd. Verfahren zur Bereitstellung einer Verbindungsliste und Anzeigevorrichtung damit
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8977966B1 (en) * 2011-06-29 2015-03-10 Amazon Technologies, Inc. Keyboard navigation
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US9858039B2 (en) 2014-01-28 2018-01-02 Oracle International Corporation Voice recognition of commands extracted from user interface screen devices
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
JP7343311B2 (ja) * 2019-06-11 2023-09-12 ファナック株式会社 文書検索装置及び文書検索方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0607615A1 (de) * 1992-12-28 1994-07-27 Kabushiki Kaisha Toshiba Spracherkennüngs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
US5519809A (en) * 1992-10-27 1996-05-21 Technology International Incorporated System and method for displaying geographical information
KR100304813B1 (ko) * 1992-12-28 2001-11-22 사와무라 시코 부성저항회로와이를사용한슈미트트리거회로
US5557539A (en) * 1994-06-13 1996-09-17 Centigram Communications Corporation Apparatus and method for testing an interactive voice messaging system
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5689620A (en) * 1995-04-28 1997-11-18 Xerox Corporation Automatic training of character templates using a transcription and a two-dimensional image source model
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0607615A1 (de) * 1992-12-28 1994-07-27 Kabushiki Kaisha Toshiba Spracherkennüngs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
US-Buch: ARONS, Barry: Authoring and Transcrip- tion Tools for Speech-Based Hypermedia Systems. In: Proceedings of 1991 Conference American Voice I/O Society, September 1991, S. 15-20 *
US-Buch: MULLER, Michael J., DANIEL, Jane E.: Toward a Definition of Voice Documents. In: Proceedings of COIS, 1990, S. 174-183 *
US-Z.: CONKLIN, Jeff: Hypertext: An Introduction and Survey. In: IEEE Computer, September 1987, S. 17-41 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9195507B1 (en) 1994-10-17 2015-11-24 Eolas Technologies Incorporated Distributed hypermedia method and system for automatically invoking external application providing interaction and display of embedded objects within a hypermedia document
US8082293B1 (en) 1994-10-17 2011-12-20 The Regents Of The University Of California Distributed hypermedia method and system for automatically invoking external application providing interaction and display of embedded objects within a hypermedia document
US8086662B1 (en) 1994-10-17 2011-12-27 The Regents Of The University Of California Distributed hypermedia method and system for automatically invoking external application providing interaction and display of embedded objects within a hypermedia document
EP0822698A3 (de) * 1996-08-02 2000-04-19 Siemens Business Communication Systems, Inc. Automatisierter Anruf von verschiedenen Nummern mit Rufnummerauskunft
US6166739A (en) * 1996-11-07 2000-12-26 Natrificial, Llc Method and apparatus for organizing and processing information using a digital computer
US6037944A (en) * 1996-11-07 2000-03-14 Natrificial Llc Method and apparatus for displaying a thought network from a thought's perspective
WO1998020436A3 (en) * 1996-11-07 1998-09-11 Natrificial Llc Method and apparatus for organizing and processing information using a digital computer
US7203910B1 (en) 1996-11-07 2007-04-10 Thebrain Technologies Lp Method and apparatus for organizing and processing information using a digital computer
US6256032B1 (en) 1996-11-07 2001-07-03 Thebrain Technologies Corp. Method and apparatus for organizing and processing information using a digital computer
EP0847179A3 (de) * 1996-12-04 2000-05-31 AT&T Corp. System und Verfahren mit Sprachschnittstelle zu hyperlink Informationen
EP0859500A3 (de) * 1997-02-18 2001-03-07 Lucent Technologies Inc. Verfahren und Gerät für Internet-Navigierung mit einer Telekommunikations-Vorrichtung
DE19707973A1 (de) * 1997-02-27 1998-05-20 Siemens Ag Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet
EP0878948A3 (de) * 1997-04-10 1999-12-22 AT&T Corp. Verfahren und Gerät für Sprachinteraktion über ein Netzwerk unter Verwendung von parametrierbare Interactiondefinitionen
US6732078B1 (en) 1998-05-20 2004-05-04 Nokia Mobile Phones Ltd Audio control method and audio controlled device
EP0959401A2 (de) 1998-05-20 1999-11-24 Nokia Mobile Phones Ltd. Verfahren zur Sprachsteuerung und sprachgesteuertes Gerät
EP0959401A3 (de) * 1998-05-20 2007-09-26 Nokia Corporation Verfahren zur Sprachsteuerung und sprachgesteuertes Gerät
EP1099146A4 (de) * 1998-07-24 2004-05-12 Motorola Inc Verfahren und systeme zum zugriff zu informationen von einer informationsquelle
WO2000014728A1 (en) * 1998-09-09 2000-03-16 One Voice Technologies, Inc. Network interactive user interface using speech recognition and natural language processing
DE19940940A1 (de) * 1999-08-23 2001-03-08 Mannesmann Ag Talking Web
DE19942432A1 (de) * 1999-09-06 2001-03-08 Iconparc Gmbh Verfahren und Vorrichtung zur Durchführung einer Offline-Webanwendung
WO2001026093A1 (en) * 1999-10-05 2001-04-12 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
WO2001035390A1 (en) * 1999-11-09 2001-05-17 Koninklijke Philips Electronics N.V. Speech recognition method for activating a hyperlink of an internet page
EP2276020A1 (de) * 1999-11-09 2011-01-19 Nuance Communications Austria GmbH Spracherkennungsverfahren zur aktivierung von internet-hyperlinks
EP1217610A1 (de) * 2000-11-28 2002-06-26 Siemens Aktiengesellschaft Verfahren und System zur multilingualen Spracherkennung
WO2002045076A1 (de) 2000-11-28 2002-06-06 Siemens Aktiengesellschaft Verfahren und system zur multilingualen spracherkennung

Also Published As

Publication number Publication date
US6859777B2 (en) 2005-02-22
US20010002466A1 (en) 2001-05-31
US6029135A (en) 2000-02-22

Similar Documents

Publication Publication Date Title
DE4440598C1 (de) Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
DE69837199T2 (de) Verfahren, vorrichtung und datenträger zur intelligenten auswahl von suchwörtern in einer tastaturlosen umgebung
DE69812162T2 (de) Vorrichtung zur Verwendung bei der Identifizierung semantischer Mehrdeutigkeiten
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE69618082T2 (de) Verfahren und Einrichtung zur Sprachsteuerung von Bildschirmanzeigen
DE60133529T2 (de) Sprachnavigation in Webanwendungen
DE69828141T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60120822T2 (de) Meta-Dokument und Verfahren zum Verwalten von Meta-Dokumenten
DE69609866T2 (de) Flexibles system und verfahren zum verknüpfen von hyperlinks
DE10308550A1 (de) System und Verfahren zur automatischen Daten-Prüfung und -Korrektur
DE60101668T2 (de) Verfahren und gerät zum erzeugen eines auf einer formatvorlage basierten index für ein strukturiertes dokument
DE112020005268T5 (de) Automatisches erzeugen von schema-annotationsdateien zum umwandeln von abfragen in natürlicher sprache in eine strukturierte abfragesprache
DE60111481T2 (de) Handhabung benutzerspezifischer Wortschatzteile in Sprachendienstleistungssystemen
DE10124429B4 (de) System und Verfahren für eine verbesserte Rechtschreibprüfung
EP2599075A1 (de) System und verfahren für relevanzbasiertes kategorisieren und zeitnahes lernen von vokabeln
DE10343228A1 (de) Verfahren und Systeme zum Organisieren elektronischer Dokumente
DE60207217T2 (de) Verfahren zum ermöglichen der sprachinteraktion mit einer internet-seite
DE60123153T2 (de) Sprachgesteuertes Browsersystem
DE10162418A1 (de) System zur Verarbeitung strukturierter Dokumente, damit sie sich zur Ablieferung über Netzwerke eignen
WO2003054731A9 (de) Verfahren zur rechnergestützten transformation strukturierter dokumente
DE60217104T2 (de) Erweiterbares befehlssystem
DE3486349T2 (de) Menü-gestütztes, natürliche Sprache verstehendes System.
DE10033548C2 (de) Verfahren zur Vorschau von Internetseiten
EP0960378B1 (de) Verfahren zur generierung eines verbundes von in einer seitenauszeichnungssprache formatierten seitendateien
EP1094405A2 (de) Verfahren zum Erzeugen einer dynamischen Auswahlmaske für den Abruf von Daten aus einer Datenbank

Legal Events

Date Code Title Description
8100 Publication of patent without earlier publication of application
D1 Grant (no unexamined application published) patent law 81
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee