WO2015044097A1 - Method and system for creating or augmenting a user-specific speech model in a local data memory that can be connected to a terminal - Google Patents
Method and system for creating or augmenting a user-specific speech model in a local data memory that can be connected to a terminal Download PDFInfo
- Publication number
- WO2015044097A1 WO2015044097A1 PCT/EP2014/070164 EP2014070164W WO2015044097A1 WO 2015044097 A1 WO2015044097 A1 WO 2015044097A1 EP 2014070164 W EP2014070164 W EP 2014070164W WO 2015044097 A1 WO2015044097 A1 WO 2015044097A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- user
- processing unit
- data processing
- terminal
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R16/00—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
- B60R16/02—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
- B60R16/037—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
- B60R16/0373—Voice control
Definitions
- the invention relates to a method for creating or supplementing a user-specific language model in a local data memory which can be connected to a terminal, wherein the speech model is set up to associate natural language utterances of a user with control commands for controlling the terminal.
- the invention further relates to a system with which the method is feasible.
- terminals in ⁇ play as infotainment systems and navigation systems for car or truck to control by entering natural language utterances.
- Speech recognizers are usually supplemented with statistical language models (SLM) and semantic models (SEM).
- SLM statistical language models
- SEM semantic models
- a natural language utterance is usually a text spoken by the user or sounds uttered by the user.
- the models mentioned are geared to one of the user z. B. to recognize entered into a corresponding acoustic input unit natural language utterance and the utterance one
- Assign control command for controlling the terminal usually, a defined action or function of the terminal is then triggered by this control command.
- these models which are commonly supplemented by known speech recognizers, have the drawback that they are very large and require a lot of memory space to be able to cover the vocabulary of a large number of users. The result is long latency in use.
- the use of these models requires the use of powerful and correspondingly expensive processors in the terminal.
- the present invention is therefore based on the object to develop a method for creating a powerful as possible and at the same time as inexpensively implementable language model, the model should be set to associate natural language utterances of a user control commands for controlling a terminal.
- a system is to be specified, with which this method is feasible.
- a method is therefore proposed for creating or supplementing a user-specific language model in a local data memory which can be connected to at least one terminal, wherein the language model is set up to assign natural language utterances of a user to control commands for the terminal, comprising the steps:
- the language model is supplemented transmitted to ⁇ closing completely or at least partially by the ex ⁇ -internal data processing unit to the local data store and stored in the local data store and / or a useful for the control of the terminal language model is provided, which tailored to the respective user.
- the language model provided in the local data memory in this way can cover the vocabulary used by this user for controlling the terminal.
- the local data memory can thus be designed to be smaller than is the case with similarly high-performance speech recognizers which are known from the prior art. At the same time, good results and short latencies can be achieved even with comparatively low-performance and therefore low-cost processors.
- the process of transcribing may include, in particular, the creation of an orthographic representation of the natural language utterance, e.g. In the form of a sequence of words and / or characters. Any fonts and alphabets can be used.
- the representation after transcribing is in digital form, e.g. B. in the form of a text file.
- the system includes:
- An acoustic input unit via the natural language utterances for controlling the terminal can be entered; - an external data processing unit to which the natuer ⁇ lichsymmetriclichen statements can be transmitted, wherein the external data processing unit is configured to create a user-specific language model based on the natural language expressions or supplement and the language model completely or at least partly for storage in the local data memory to the local To transfer data memory and
- the terminal, the local data memory, the acoustic input unit and the local transmitting and receiving ⁇ unit in a motor vehicle can be arranged, arranged or installed, for. B. in a car or truck.
- the local data memory for storing the language model can be integrated in the terminal.
- the terminal and the local data store may also be implemented as separate units.
- the acoustic input unit and the local transmitting and receiving unit can also be integrated into the terminal or designed as separate units.
- the terminal and the local data memory may be connectable or connected via a wired and / or wireless data link.
- the acoustic input unit typically comprises at least one microphone.
- the system also includes at least one local processor wirelessly with the terminal device, the local data memory, the acoustic input unit and the local transmission and Emp ⁇ capturing unit or wired connectable or connected.
- the local processor is preferably located in the car or truck.
- the local processor may be configured by executing a corresponding one
- Speech recognition software to transcribe the entered natural language utterance. Based on the im stored local data store user-specific language model, the local processor of the utterance then assign at least one control command from a set of control commands for controlling the terminal and send this control command to the terminal. The terminal may then perform an action or function initiated by the control command.
- the terminal can z. At least
- an audio device for playing audio files and / or - a video device for playing back image and / or video files and / or
- a telecommunication device for receiving and / or sending text, voice, video or video messages and / or
- the terminal may also be an on-board computer or a portable infotainment device, such as a smartphone.
- the external data processing unit can, for. B. be a central server of a provider of speech recognizers.
- the external data processing unit can be set up to create, supplement, store and send user-specific language models for a multiplicity of different users to various local data memories for storage on these local data memories.
- various user-specific language models of different users can also be stored on the same local data store. This can be useful if several people use the same terminal alternately, eg. B. when they use the same vehicle alternately in which the terminal arranged or installed is.
- the external data processing unit at least normally comprises an external transmitting and receiving unit, at least one external processor to create and / or supplement the user-specific language model and at least one ex ⁇ -internal data memory in which the user voice is model permanently or at least temporarily stored.
- the local transmitting and receiving unit and the external transmitting and receiving unit via a wireless Da ⁇ tenharm, z. B. via a wireless Internet connection or via any other wireless telecommunications connection with each other for exchanging data connectable.
- the proposed method to create or supplement the be ⁇ user-specific language model to the external data processing unit comprises a creation or a complete one be ⁇ user-specific statistical language model (US-SLM), the US-SLM natural language from the transcribed utterance of the user is formed or is added to this and wherein the transcribed natural language utterance transcribed words and / or transcribed sounds and / or trans ⁇ kribêt word sequences and / or transcribed includes sound sequences.
- US-SLM ⁇ user-specific statistical language model
- the creation or supplementation of the user-specific language model on the external data processing unit may comprise creating or supplementing a semantic language model (US-SEM), wherein keywords and / or word stems of keywords and / or word sequences are identified in the transcribed natural language utterance of the user and the US SEM from the
- US-SEM semantic language model
- Keywords of the semantic model can be trained by the user performing an action and assigning a keyword to it.
- the created user-specific language model is therefore based primarily on the vocabulary, the language and the language habits of each user.
- the user-specific language model therefore does not require vocabulary and expressions that the user does not even use to enter the control commands. This advantageously contributes to reducing the memory requirements of the user-specific language model, so that the local data memory and the local processor can be made smaller and more cost-effective.
- a further specific embodiment of the method is characterized in that the creation or supplementation of the US SEM comprises assigning statistical weights and / or attributes to the keywords and / or the word roots and / or the word sequences, wherein the statistical weights and / or by means of the attributes, an assignment of the respective keyword or word stem or the respective word sequence to a subset of a set of control commands can be established.
- the natural language statement uttered can be assigned at least one control command from a set of control commands, the assignment of the
- Control command is made to the natural language uttered expression by means of the user-specific language model stored in the data memory and / or wherein the assignment of the control command to the natural language uttered speech is made by the external data processing unit and the control command is transmitted to the terminal.
- the assignment of the control command to the spoken natural-language utterance can then depend, in particular, on the keywords and / or word stems and / or word sequences identified in the natural language utterance and / or depending on the statistical weights and / or attributes assigned to these keywords and / or word stems and / or phrases in the US SEM.
- a keyword or a corresponding word root, or one of several terminals designated by means of a corresponding attribute the amount of those control commands are assigned, which are used to control this terminal.
- an audio device and an exterior mirror are arranged in or on a vehicle, it can be ascertained by means of the semantic language model that an utterance containing the key word "exterior mirror” is an expression for controlling the exterior mirror and not for controlling the exterior mirror
- the assignment of a control command to a given utterance can therefore be limited to one or more (real) subsets of the set of all possible control commands based on the attributes.
- one and the same keyword can refer to different control commands.
- the keyword “misalign” may refer to shifting with respect to different axes, so a plurality of attributes may be associated with a given keyword, with each of the attributes reflecting the assignment to different subsets of all possible control commands.
- Key words can also be assigned statistical weights, which can identify the different probabilities associated with assigning a given keyword to various control commands.
- the keyword “search” may refer to the search in an address book or the search in a list of audio titles, in the case that a given user with the keyword "search” searches in a list in the great majority of cases to initiate audio tracks and not search in an address book, the keyword may be For example, in the semantic model, for this user, "search” will be associated with a first attribute "search in address book” and a second attribute "search in list of titles", the second attribute for this user having, for example, a greater statistical weight than the first attribute.
- an utterance contains several keywords, each of which keyword is assigned to another control command, different probabilities for the assignment of the utterance to the various possible control commands can be determined on the basis of the statistical weights assigned to the keywords. For example, a given utterance may be assigned the slightest control command for which the determined probability is greatest. It can also be provided that a final assignment is only made if the probability thus determined a predetermined
- Threshold exceeds.
- the user may be prompted to select a control command from a selection of a plurality of candidate control commands.
- the system may include an additional input and output unit, for. B. in the form of a touch screen.
- the user-specific language model can then be adjusted accordingly based on the Inter ⁇ action with the user, and taking into account the input or supplemented.
- the provision or supplementing of the user-specific language model can therefore in particular include an interaction with the user. For example, if the user first uses a term that is not yet part of the language model, then the user may be prompted to associate that term with a particular control command or with a particular subset of control commands.
- the new term can then be added to the US SLM and / or the US SEM. If appropriate, attributes and / or statistical weights can then be assigned to the term in the US-SEM. So can the custom Language model gradually expanded and cut to the user to ⁇ .
- Utterance can be made on the external data processing unit and / or on a further external data processing unit that can be connected to the external data processing unit via a data connection.
- a speech recognition software can be executed or to be executed.
- it may be z. B. to act an inter ⁇ netbas convinced dictation service. In this case, less Dik ⁇ animal resources have to be kept to transcribe in the (first) external data processing unit so that the first external data processing unit can be implemented cost-effectively.
- the further statistical language model and the further semantic language model are usually non-user-specific models, ie speaker-independent models. Since they are implemen ⁇ advantage on the external data processing unit and on the other external data processing unit, these models can be extensive without the local data store and / or the local processor must be so designed to be larger or more powerful.
- a further special embodiment of the method is characterized in that is communicated with the natural language utterance a user ID for identifying the user to the data processing unit, wherein the Benut ⁇ zerkennung
- - includes an acoustic voiceprint determined on the basis of the natural language utterance spoken by the user, and / or
- the einigene by the user natuer ⁇ lichsymmetricliche utterance can be used in the external data processing unit to create or complete of that user-specific language model, which is exactly assigned to this user in the external data processing unit.
- the natural language utterance and / or the user ID via a wireless data connection to the external data processing unit via ⁇ averages and / or that the user specific language model is transmitted via a wireless data link from the verarbei ⁇ processing unit to the terminal.
- This is preferably the already described wireless Internet connection or other wirelessInstitutmunikati ⁇ onsimpl.
- Fig. 1 schematically shows an inventive system to create or supplement a user-specific language model in a local data storage, wherein the language model is adapted, of course said ⁇ utterances of a user control commands for controlling a first terminal and / or of a second
- FIG. 2 schematically shows steps of a method for creating or supplementing the user-specific language model in the local data memory from FIG. 1 as well as
- Fig. 3 shows schematically further steps of the presented in Fig. 2 Darge ⁇ presented method, wherein a control command for controlling one of the terminals is assigned to a user-specific language model stored in the local data memory to a user-specific language model stored in the local data store, the control command is transmitted to this terminal and this terminal performs an action initiated by the control command.
- 1 shows a system 100 according to the invention.
- the system 100 comprises a motor vehicle 1, a first external data processing unit 2 and a second external data processing unit 3.
- a first terminal 4 and a second terminal 5 are connected ⁇ ordered.
- the first terminal 4 is an audio device with a plurality of audio files stored therein, which are playable by means of the audio device.
- Each audio file is z.
- a title, an artist, a year of recording, and a file size are assigned.
- the second terminal 5 is a rearview mirror in the interior of the vehicle 1, the z. B. by means of an electric actuator about a first and a second axis is pivotable. A position of the second terminal 5 is given for example by a first angle of rotation with respect to the first axis and by a second angle of rotation with respect to the second axis.
- the terminals 4 and 5 are controllable via control commands.
- Control commands concerning the first terminal 4 are, for example, a command for switching on and off the first terminal 4, for displaying all titles of a specific artist, for playing a specific title, for jumping within a given title, for adjusting a volume or for sorting the audio files based on predetermined criteria such as title, artist, Aufnähme ähr, file size, etc.
- Control commands that affect the second terminal 5 commands for adjusting the mirror, these commands z. B. may include one of the two axes as adjustment axis, an adjustment angle and an adjustment.
- the system 100 further comprises a local processor 6, a local data memory 7 for storing at least one user-specific language model 8, which here comprises a user-specific statistical language model (US-SLM) 9 and a user-specific semantic language model (US-SEM) 10 first input unit 11, a second input unit 12 and a local transmitting and receiving unit 13.
- the local processor 6, the local data memory 7, the input units 8 and 9 and the local transmitting and receiving unit 10 are also arranged in the interior of the vehicle 1. Via data lines 14, the input units 11 and 12, the terminals 4 and 5, the local data memory 7 and the local transmitting and receiving unit 13 are each connected to the local processor 6.
- the first input unit 11 comprises at least one acoustic input unit, for. In the form of a microphone through which a user can input natural language utterances. These can then be converted in the first input unit 11 itself or by the local processor 6 into a digital audio file.
- the second input unit 12 is embodied here as an input and output unit and comprises at least one sensor screen (touch screen), via which the user can interact with the system 100.
- the first external data processing unit 2 comprises at least a first external transmitting and receiving unit 15, at least one first external processor 16 and at least one first external data memory 17 for permanent or at least temporary storage of the user-specific language model 8 with the US SLM 9 and the US SEM 10.
- the first external transmitting and receiving unit 15 is connected via a first wireless Internetver- connection 18 with the local transmitting and receiving unit 13 ver ⁇ prevented.
- the first external data processing unit 2 is z. B. a server of a provider of speech recognition software.
- the second external data processing unit 3 we ⁇ iquess comprises a second external transmitting and receiving unit 19, at least one second external processor 20 and at least one second external data memory 21. In the data memory 21 z.
- a non-user-specific, ie speaker-independent, further statistical language model 22 and also a non-user-specific further semantic language model 23 are stored.
- the second external transmit and Receiving unit 19 is connected via a second wireless Internet ⁇ connection 24 with the first external transmitting and receiving unit 15.
- the second external data processing unit 3 is z.
- a server of an Internet-based dictation service that can transcribe audio files into text files.
- FIG. 2 shows steps of a method according to the invention for creating or supplementing the user-specific language model 8 in the local data memory 7.
- the user-specific language model 8 includes di ⁇ gitale data and / or an executable to the local processor 6, and on the first external processor 16 computer program.
- the language model 8 is set up to associate the natural language utterances spoken by the user via the first input unit 11 with one or more of a plurality of control commands for controlling the first terminal 4 and / or the second terminal 5.
- a user identifier that can be stored in digital form.
- This can be z. B. be a user name in conjunction with a password by which the user is uniquely identifiable.
- the user identifier may also be given by an acoustic voice print, the z. B. is determined based on a voice spectrum of the natural language utterance spoken by the user. It is also conceivable that in the interior of the vehicle, a camera is arranged, which takes a picture of the user's face, wherein the user is identified by means of a face recognition software.
- the user ID can also be from a
- Mobile phone of the user to the system 100 are transmitted.
- the user can also use an individual mechanical Key are identified, he pocketed for the purpose of iden ⁇ tification in an opening provided.
- the user enters a natural language utterance into the microphone of the first input unit 11.
- the user intends to trigger a particular action or function of one of the terminals 4 or 5.
- the user speaks the sentence "I want to hear X from Y now.” This is to make the first terminal 4 play the audio file stored in the terminal 4, which is assigned the title X and the interpreter Y.
- step 27 the spoken utterance of the user is converted into a digital audio file which is transmitted together with the user identification by the local transmitting and receiving unit 13 via the wireless Internet connection 18 is transmitted to the first external transmitting and receiving unit 15 of the first external data processing unit 2.
- the audio file with the natural language utterance is assigned on the basis of the user identification to the user-specific language model 8 stored in the first external data memory 17.
- the audio file is included the natural language statement "I want to hear X from Y now "via the second wireless Internet connection 24 to the second external data processing unit 3.
- step 29 it is transcribed there by means of the second external Pro ⁇ zessors 20 using the data stored in the data memory 21 non-user-specific language models SLM 22 and SEM 23rd
- the second external data processing unit 3 z For example, a digital text file is created in which said natural language utterance of the user is stored in the form of a sequence of words given by a sequence of characters.
- the transcribed natural language utterance is a sequence of letters of the Latin alphabet, punctuation and spaces.
- step 30 the received speech utterance as naturally transcribed in turn in digital form from the second external data processing unit 3 to the first external verar ⁇ beitungstician.
- step 29 is performed directly by means of the first external data processing unit 2.
- the SLM 22 and the SEM 23 can thus also be stored in the first external data processing unit 2. In this case, steps 28 and 30 need not be performed.
- step 31 the user-specific language model 8 is first supplemented in the first external data memory 17 of the first external data processing unit 2 using the transcribed natural language utterance. If the language model 8 does not yet exist, it is created for the first time in step 31.
- Step 31 includes steps 31a and 31b.
- step 31a the US SLM 9 is supplemented or created in the data memory 17.
- step 31b the US SEM is added or created in the data memory 17.
- the US SLM 9 of the language model 8 in the data memory 17 already includes a plurality of transcribed word sequences, eg. One-word sequences, two-word sequences, three-word sequences or longer word sequences that the same user has entered or recorded in previous sessions.
- the US SLM 9 will only be naturally transcribed ⁇ utterance "Now I want X heard of Y" adds, when the US-SLM 9 not include this.
- US-SLM 9 includes the entire sequence of words "I do not want to hear X from Y" yet, so it will be added to US SLM 9 in data store 17.
- only one-word sequences that are not yet included in the data memory of the US-SLM 9 are added 17 are included.
- these are, for example, the one-word sequences "X” and "Y” which are added to the US SLM 9 in the data memory 17 in step 31a.
- Statistical weights of such words or phrases of the statement "I would now like to hear X of Y", which already includes the US SLM 9 in the data memory 17, can be adjusted accordingly, eg increased, on the basis of the newly-spoken utterance.
- the US SEM 10 already includes a plurality of keywords in the data memory 17, which are each assigned attributes and statistical weights.
- the US SEM 10 already includes the keyword “listen” in the data memory 17.
- the attributes "audio device” and “playback” with a specific statistical weight are already assigned in the US SEM 10. This means, for example ., That natural language ⁇ utterances containing the keyword "hearing”, with a non-zero probability that Un ⁇ 1952ge of all possible control commands is assigned to the first terminal 4, ie the audio device concern.
- the title "X” and the interpreter "Y” are so far neither part of the US SLM 9 nor the US SEM 10 in the data memory 17. Because of the simultaneous occurrence of the US SLM 9 and the US SEM 10 already however, in step 31b the word “X” and the word “Y” are added to the US SEM 10 in the data memory 17 and there also receive the attributes "audio device” and "playback" assigned to the known keyword “listen”. " However, at the same time a larger statistical weight is assigned to the attribute "audio device” than to the attribute "play.” So every utterance contains the title "X” with great fortune ⁇ probability to assign a command that affects the audio device.
- Keywords "X” and "Y” to confirm.
- the user can be given the opportunity to add further attributes to the new keywords "X” and "Y".
- he assigns the new keyword “title” to the new keyword “X” and the further attribute "artist” to the new keyword "Y”.
- step 32 the user-specific language model 8 with the US SLM 9 and the US SLM 10 is transmitted completely or at least partially from the first external data processing unit 2 via the wireless Internet connection 18 to the local data memory 7 and stored therein.
- this is an update of one already in the local data memory 7 and stored therein.
- Data storage 7 stored previous version of the language model 8. So it is preferably only changes and / or Supplements to the previous version. Such an update may be made at regular intervals automatically or z. B. be taken on a corresponding input from the user before ⁇ . This can be the user z. B. via the second input unit 12 make. It is also conceivable that the updating of the language model is 8 also conducted the local data memory 7 after each session of the user, so every time after the user has ein
- FIG. 3 shows further method steps that can be carried out at the same time as the method steps illustrated in FIG. 2. These further method steps describe how the natural language utterance being spoken is assigned a control command on the basis of the model 8 already stored in the local data memory 7, and an action in one of the terminals 4 and 5 is triggered in accordance with this control command.
- the supplementing of the model 8 in the local data memory 7 described in FIG. 2 and the control of the terminals 4 and 5 on the basis of the spoken utterance and the version of the model 8 already stored in the data memory 7 can therefore be carried out in parallel.
- the natural language utterance transcription is performed by the local processor 6 using the US SLM 9 stored in the local data memory 7.
- the transcribed utterance is then assigned a control command using the US SEM 10 stored in the local data memory 7.
- this control command is then sent to the appropriate terminal.
- this terminal executes an action initiated by this control command.
- This action can z. B. the playback of an audio file by the first terminal 4 or the adjustment of the terminal 5 include.
- step 33 use of the US SLM 9 stored in the local data memory 7 or the assignment in step 34 using the US SEM 10 stored in the local data memory 7 can not be carried out because the versions of the US SLM 9 or of the US data stored in the local data memory 7 are not executable.
- SEM 10 are not yet powerful enough to process the currently uttered utterance of the user, the process steps shown in Fig. 2 are first performed, which is shown in Fig. 3 in the form of the process steps 37 and 38. In this case, therefore, an updating of the language model 8 stored in the local data memory 7 initially takes place.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
Beschreibung description
Verfahren und System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher Method and system for creating or supplementing a user-specific language model in a local data memory connectable to a terminal
Die Erfindung betrifft ein Verfahren zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher, wobei das Sprach- modell eingerichtet ist, natürlichsprachlichen Äußerungen eines Benutzers Steuerbefehle zum Steuern des Endgerätes zuzuordnen. Die Erfindung betrifft ferner ein System mit dem das Verfahren durchführbar ist. Aus dem Stand der Technik ist es bekannt, Endgeräte, bei¬ spielsweise InfotainmentSysteme oder Navigationssysteme für PKW oder LKW, durch Eingabe natürlichsprachlicher Äußerungen zu steuern. Zu diesem Zweck werden Spracherkenner gewöhnlich mit statistischen Sprachmodellen (SLM) und mit semantischen Modellen (SEM) ergänzt. Bei einer natürlichsprachlichen Äußerung handelt es sich normalerweise um einen von dem Benutzer gesprochenen Text oder auch von dem Benutzer geäußerte Laute. Die genannten Modelle sind darauf ausgerichtet, eine von dem Benutzer z. B. in eine entsprechende akustische Eingabeeinheit eingegebene natür- lichsprachliche Äußerung zu erkennen und der Äußerung einenThe invention relates to a method for creating or supplementing a user-specific language model in a local data memory which can be connected to a terminal, wherein the speech model is set up to associate natural language utterances of a user with control commands for controlling the terminal. The invention further relates to a system with which the method is feasible. From the prior art it is known terminals in ¬ play as infotainment systems and navigation systems for car or truck to control by entering natural language utterances. Speech recognizers are usually supplemented with statistical language models (SLM) and semantic models (SEM). A natural language utterance is usually a text spoken by the user or sounds uttered by the user. The models mentioned are geared to one of the user z. B. to recognize entered into a corresponding acoustic input unit natural language utterance and the utterance one
Steuerbefehl zum Steuern des Endgerätes zuzuordnen. Gewöhnlich wird durch diesen Steuerbefehl dann eine definierte Aktion oder Funktion des Endgerätes ausgelöst. Die genannten Modelle, mit denen bekannte Spracherkenner gewöhnlich ergänzt werden, haben jedoch den Nachteil, dass sie sehr umfangreich sind und viel Speicherplatz benötigen, damit sie in der Lage sind, den Wortschatz einer Vielzahl von Benutzern abzudecken. Die Folge sind lange Latenzzeiten bei der Benutzung. Ferner bedingt die Verwendung dieser Modelle den Einsatz leistungsstarker und entsprechend teurer Prozessoren im Endgerät . Der vorliegenden Erfindung liegt somit die Aufgabe zugrunde, ein Verfahren zur Erstellung eines möglichst leistungsstarken und gleichzeitig möglichst preisgünstig implementierbaren Sprach- modells zu entwickeln, wobei das Modell eingerichtet sein soll, natürlichsprachlichen Äußerungen eines Benutzers Steuerbefehle zum Steuern eines Endgerätes zuzuordnen. Ferner soll ein System angegeben werden, mit dem dieses Verfahren durchführbar ist. Diese Aufgabe wird gelöst durch ein Verfahren und ein System gemäß den unabhängigen Ansprüchen. Spezielle Ausgestaltungen des erfindungsgemäßen Verfahrens und des erfindungsgemäßen Systems sind in den Unteransprüchen beschrieben. Vorgeschlagen wird also ein Verfahren zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit wenigstens einem Endgerät verbindbaren lokalen Datenspeicher, wobei das Sprachmodell eingerichtet ist, natürlichsprachlichen Äußerungen eines Benutzers Steuerbefehle zum Steuern des Endgerätes zu- zuordnen, umfassend die Schritte: Assign control command for controlling the terminal. Usually, a defined action or function of the terminal is then triggered by this control command. However, these models, which are commonly supplemented by known speech recognizers, have the drawback that they are very large and require a lot of memory space to be able to cover the vocabulary of a large number of users. The result is long latency in use. Furthermore, the use of these models requires the use of powerful and correspondingly expensive processors in the terminal. The present invention is therefore based on the object to develop a method for creating a powerful as possible and at the same time as inexpensively implementable language model, the model should be set to associate natural language utterances of a user control commands for controlling a terminal. Furthermore, a system is to be specified, with which this method is feasible. This object is achieved by a method and a system according to the independent claims. Special embodiments of the method and the system according to the invention are described in the subclaims. A method is therefore proposed for creating or supplementing a user-specific language model in a local data memory which can be connected to at least one terminal, wherein the language model is set up to assign natural language utterances of a user to control commands for the terminal, comprising the steps:
- Einsprechen einer natürlichsprachlichen Äußerung durch den Benut zer ; - Speaking of a natural language utterance by the user;
- Übermitteln der natürlichsprachlichen Äußerung an eine externe Datenverarbeitungseinheit und Transkribieren der natürlich- sprachlichen Äußerung, vorzugsweise Transkribieren in eine - Transmission of the natural language utterance to an external data processing unit and transcribing the natural language utterance, preferably transcribing into one
Textform; Writing;
- Erstellen oder Ergänzen des benutzerspezifischen Sprachmodells auf der externen Datenverarbeitungseinheit anhand der transkribierten natürlichsprachlichen Äußerung; - creating or supplementing the user-specific language model on the external data processing unit based on the transcribed natural language utterance;
- vollständiges oder wenigstens teilweises Übertragen des completely or at least partially transferring the
Sprachmodells von der externen Datenverarbeitungseinheit an den mit dem Endgerät verbindbaren lokalen Datenspeicher sowie Speichern und/oder Ergänzen des Sprachmodells in dem lokalen Datenspeicher . Language model of the external data processing unit to the connectable to the terminal local data storage and storing and / or supplementing the language model in the local data memory.
Dadurch, dass das Erstellen und/oder Ergänzen des benutzerspezifischen Sprachmodells auf der externen Datenverarbei- tungseinheit durchgeführt wird und dass das Sprachmodell an¬ schließend vollständig oder wenigstens teilweise von der ex¬ ternen Datenverarbeitungseinheit an den lokalen Datenspeicher übertragen sowie in dem lokalen Datenspeicher gespeichert und/oder ergänzt wird, wird ein zur Steuerung des Endgerätes nutzbares Sprachmodell zur Verfügung gestellt, das auf den jeweiligen Benutzer zugeschnitten ist. Bei vergleichsweise geringem Speicherbedarf kann das derart im lokalen Datenspeicher zur Verfügung gestellte Sprachmodell den von diesem Benutzer zur Steuerung des Endgerätes verwendeten Wortschatz abdecken. Der lokale Datenspeicher kann also kleiner ausgelegt sein als dies bei ähnlich leistungsstarken Spracherkennern der Fall ist, die aus dem Stand der Technik bekannt sind. Gleichzeitig können gute Ergebnisse und kurze Latenzzeiten auch mit vergleichsweise leistungsschwachen und damit preisgünstigen Prozessoren erzielt werden . By creating and / or supplementing the user-specific language model on the external data processing processing unit is carried out and that the language model is supplemented transmitted to ¬ closing completely or at least partially by the ex ¬-internal data processing unit to the local data store and stored in the local data store and / or a useful for the control of the terminal language model is provided, which tailored to the respective user. With a comparatively small memory requirement, the language model provided in the local data memory in this way can cover the vocabulary used by this user for controlling the terminal. The local data memory can thus be designed to be smaller than is the case with similarly high-performance speech recognizers which are known from the prior art. At the same time, good results and short latencies can be achieved even with comparatively low-performance and therefore low-cost processors.
Der Vorgang des Transkribierens kann insbesondere das Erstellen einer orthografischen Darstellung der natürlichsprachlichen Äußerung umfassen, z. B. in Form einer Folge von Worten und/oder Zeichen. Dabei können beliebige Schriftarten und Alphabete verwendet werden. Vorzugsweise liegt die Darstellung nach dem Transkribieren in digitaler Form vor, z. B. in Gestalt einer Textdatei . The process of transcribing may include, in particular, the creation of an orthographic representation of the natural language utterance, e.g. In the form of a sequence of words and / or characters. Any fonts and alphabets can be used. Preferably, the representation after transcribing is in digital form, e.g. B. in the form of a text file.
Vorgeschlagen wird ferner ein System, mit dem das hier vorgeschlagene Verfahren durchführbar ist. Es handelt es sich also um ein System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher, wobei das Sprachmodell eingerichtet ist, natürlichsprachlichen Äußerungen eines Benutzers Steuerbefehle zum Steuern des Endgerätes zuzuordnen. Das System umfasst:Also proposed is a system with which the method proposed here can be carried out. It is thus a system for creating or supplementing a user-specific language model in a local data memory which can be connected to a terminal, wherein the language model is set up to associate natural language utterances of a user with control commands for controlling the terminal. The system includes:
- wenigstens ein Endgerät; - at least one terminal;
- einen mit dem Endgerät verbindbaren lokalen Datenspeicher zum Speichern des Sprachmodells; - A connectable to the terminal local data storage for storing the language model;
- eine akustische Eingabeeinheit, über die natürlichsprachliche Äußerungen zur Steuerung des Endgerätes eingebbar sind; - eine externe Datenverarbeitungseinheit, an die die natür¬ lichsprachlichen Äußerungen übermittelbar sind, wobei die externe Datenverarbeitungseinheit eingerichtet ist, anhand der natürlichsprachlichen Äußerungen ein benutzerspezifisches Sprachmodell zu erstellen oder zu ergänzen und das Sprachmodell vollständig oder wenigstens teilweise zum Speichern in dem lokalen Datenspeicher an den lokalen Datenspeicher zu übertragen und - An acoustic input unit, via the natural language utterances for controlling the terminal can be entered; - an external data processing unit to which the natuer ¬ lichsprachlichen statements can be transmitted, wherein the external data processing unit is configured to create a user-specific language model based on the natural language expressions or supplement and the language model completely or at least partly for storage in the local data memory to the local To transfer data memory and
- eine mit der akustischen Eingabeeinheit und mit dem lokalen Datenspeicher verbindbare lokale Sende- und Empfangseinheit zum Übermitteln der natürlichsprachlichen Äußerung an die externe Datenverarbeitungseinheit und zum Empfangen des Sprachmodells von der externen Datenverarbeitungseinheit. Vorzugsweise sind das Endgerät, der lokale Datenspeicher, die akustische Eingabeeinheit und die lokale Sende- und Empfangs¬ einheit in einem Kraftfahrzeug anordenbar, angeordnet oder eingebaut, z. B. in einem PKW oder LKW. Der lokale Datenspeicher zum Speichern des Sprachmodells kann in das Endgerät integriert sein. Das Endgerät und der lokale Datenspeicher können jedoch auch als separate Einheiten ausgeführt sein. Auch die akustische Eingabeeinheit und die lokale Sende- und Empfangseinheit können in das Endgerät integriert oder als separate Einheiten ausgeführt sein. Das Endgerät und der lokale Datenspeicher können über eine drahtgebundene und/oder über eine drahtlose Datenverbindung verbindbar oder verbunden sein. Die akustische Eingabeeinheit umfasst typischerweise wenigstens ein Mikrophon. - A connectable to the acoustic input unit and the local data storage local transmitting and receiving unit for transmitting the natural language utterance to the external data processing unit and for receiving the language model from the external data processing unit. Preferably, the terminal, the local data memory, the acoustic input unit and the local transmitting and receiving ¬ unit in a motor vehicle can be arranged, arranged or installed, for. B. in a car or truck. The local data memory for storing the language model can be integrated in the terminal. However, the terminal and the local data store may also be implemented as separate units. The acoustic input unit and the local transmitting and receiving unit can also be integrated into the terminal or designed as separate units. The terminal and the local data memory may be connectable or connected via a wired and / or wireless data link. The acoustic input unit typically comprises at least one microphone.
Gewöhnlich umfasst das System zudem wenigstens einen lokalen Prozessor, der mit dem Endgerät, dem lokalen Datenspeicher, der akustischen Eingabeeinheit und der lokalen Sende- und Emp¬ fangseinheit drahtlos oder drahtgebunden verbindbar oder verbunden ist. Auch der lokale Prozessor ist vorzugsweise in dem PKW oder LKW angeordnet. Insbesondere kann der lokale Prozessor eingerichtet sein, durch Ausführen einer entsprechenden Usually, the system also includes at least one local processor wirelessly with the terminal device, the local data memory, the acoustic input unit and the local transmission and Emp ¬ capturing unit or wired connectable or connected. Also, the local processor is preferably located in the car or truck. In particular, the local processor may be configured by executing a corresponding one
Spracherkennungssoftware das Transkribieren der eingegebenen natürlichsprachlichen Äußerung durchzuführen. Anhand des im lokalen Datenspeicher gespeicherten benutzerspezifischen Sprachmodells kann der lokale Prozessor der Äußerung dann wenigstens einen Steuerbefehl aus einer Menge von Steuerbefehlen zum Steuern des Endgerätes zuordnen und diesen Steuerbefehl an das Endgerät senden. Das Endgerät kann dann eine durch den Steuerbefehl veranlasste Aktion oder Funktion ausführen. Speech recognition software to transcribe the entered natural language utterance. Based on the im stored local data store user-specific language model, the local processor of the utterance then assign at least one control command from a set of control commands for controlling the terminal and send this control command to the terminal. The terminal may then perform an action or function initiated by the control command.
Das Endgerät kann z. B. wenigstens The terminal can z. At least
- ein Audiogerät zum Abspielen von Audiodateien und/oder - ein Videogerät zum Abspielen von Bild- und/oder Videodateien und/oder - an audio device for playing audio files and / or - a video device for playing back image and / or video files and / or
- ein Telekommunikationsgerät zum Empfangen und/oder Versenden von Text-, Sprach-, Bild- oder Videonachrichten und/oder a telecommunication device for receiving and / or sending text, voice, video or video messages and / or
- ein Navigationsgerät und/oder - a navigation device and / or
- einen Stellantrieb zum Verstellen der Position einer Fensterscheibe, eines Spiegels, eines Sitzes oder einer Luft¬ zuführvorrichtung und/oder - An actuator for adjusting the position of a window, a mirror, a seat or an air ¬ feeder and / or
- eine Anlage zur Regelung einer Temperatur und/oder einer Luftfeuchtigkeit und/oder - A system for controlling a temperature and / or humidity and / or
- eine Steuerung von aus dem Internet heruntergeladenen ApplikationsSoftwareeinheiten a controller of application software units downloaded from the Internet
umfassen. Bei dem Endgerät kann es sich auch um einen Bordcomputer oder um ein tragbares Infotainmentgerät , wie beispielsweise ein Smartphone, handeln. include. The terminal may also be an on-board computer or a portable infotainment device, such as a smartphone.
Die externe Datenverarbeitungseinheit kann z. B. ein zentraler Server eines Anbieters von Spracherkennern sein. Insbesondere kann die externe Datenverarbeitungseinheit eingerichtet sein, benutzerspezifische Sprachmodelle für eine Vielzahl ver- schiedener Benutzer zu erstellen, zu ergänzen, zu speichern und an verschiedene lokale Datenspeicher zum Speichern auf diesen lokalen Datenspeichern zu senden. Natürlich können auch verschiedene benutzerspezifische Sprachmodelle verschiedener Benutzer auf demselben lokalen Datenspeicher gespeichert werden. Dies kann sinnvoll sein, wenn mehrere Personen abwechselnd dasselbe Endgerät benutzen, z. B. wenn sie abwechselnd dasselbe Fahrzeug benutzen, in dem das Endgerät angeordnet oder eingebaut ist. Nur der Einfachheit halber wird hier und im Folgenden nur das Erstellen und Ergänzen eines benutzerspezifischen Sprachmodells für nur einen gegebenen Benutzer beschrieben. Die externe Datenverarbeitungseinheit umfasst normalerweise wenigstens eine externe Sende- und Empfangseinheit, wenigstens einen externen Prozessor zum Erstellen und/oder Ergänzen des benutzerspezifischen Sprachmodells und wenigstens einen ex¬ ternen Datenspeicher, in dem das benutzerspezifische Sprach- modell dauerhaft oder wenigstens zeitweise speicherbar ist.The external data processing unit can, for. B. be a central server of a provider of speech recognizers. In particular, the external data processing unit can be set up to create, supplement, store and send user-specific language models for a multiplicity of different users to various local data memories for storage on these local data memories. Of course, various user-specific language models of different users can also be stored on the same local data store. This can be useful if several people use the same terminal alternately, eg. B. when they use the same vehicle alternately in which the terminal arranged or installed is. For the sake of simplicity only and in the following, only the creation and supplementation of a user-specific language model for only one given user will be described. The external data processing unit at least normally comprises an external transmitting and receiving unit, at least one external processor to create and / or supplement the user-specific language model and at least one ex ¬-internal data memory in which the user voice is model permanently or at least temporarily stored.
Vorzugsweise sind die lokale Sende- und Empfangseinheit und die externe Sende- und Empfangseinheit über eine drahtlose Da¬ tenverbindung, z. B. über eine drahtlose Internetverbindung oder über eine sonstige drahtlose Telekommunikationsverbindung miteinander zum Austauschen von Daten verbindbar. Preferably, the local transmitting and receiving unit and the external transmitting and receiving unit via a wireless Da ¬ tenverbindung, z. B. via a wireless Internet connection or via any other wireless telecommunications connection with each other for exchanging data connectable.
Bei einer speziellen Ausführungsform des vorgeschlagenen Verfahrens umfasst das Erstellen oder das Ergänzen des be¬ nutzerspezifischen Sprachmodells auf der externen Datenver- arbeitungseinheit ein Erstellen oder ein Ergänzen eines be¬ nutzerspezifischen statistischen Sprachmodells (US-SLM) , wobei das US-SLM aus der transkribierten natürlichsprachlichen Äußerung des Benutzers gebildet wird oder um diese ergänzt wird und wobei die transkribierte natürlichsprachliche Äußerung trans- kribierte Worte und/oder transkribierte Laute und/oder trans¬ kribierte Wortfolgen und/oder transkribierte Lautfolgen umfasst. Alternativ oder zusätzlich kann das Erstellen oder das Ergänzen des benutzerspezifischen Sprachmodells auf der externen Datenverarbeitungseinheit ein Erstellen oder Ergänzen eines semantischen Sprachmodells (US-SEM) umfassen, wobei in der transkribierten natürlichsprachlichen Äußerung des Benutzers Schlüsselworte und/oder Wortstämme von Schlüsselworten und/oder Wortfolgen identifiziert werden und das US-SEM aus den In a particular embodiment of the proposed method to create or supplement the be ¬ user-specific language model to the external data processing unit comprises a creation or a complete one be ¬ user-specific statistical language model (US-SLM), the US-SLM natural language from the transcribed utterance of the user is formed or is added to this and wherein the transcribed natural language utterance transcribed words and / or transcribed sounds and / or trans ¬ kribierte word sequences and / or transcribed includes sound sequences. Alternatively or additionally, the creation or supplementation of the user-specific language model on the external data processing unit may comprise creating or supplementing a semantic language model (US-SEM), wherein keywords and / or word stems of keywords and / or word sequences are identified in the transcribed natural language utterance of the user and the US SEM from the
Schlüsselworten und/oder den Wortstämmen und/oder den Wortfolgen gebildet wird oder um diese ergänzt wird. Schlüsselworte des semantischen Modells lassen sich trainieren, indem der Benutzer eine Aktion ausführt und dieser ein Schlüsselwort zuordnet. In beiden Fällen basiert das erstellte benutzerspezifische Sprachmodell also vor allem auf dem Vokabular, der Ausdrucksweise und den Sprachgewohnheiten des jeweiligen Benutzers. Das be- nutzerspezifische Sprachmodell kommt also ohne Vokabeln und Ausdrucksweisen aus, die der Benutzer zum Eingeben der Steuerbefehle gar nicht verwendet. Dies trägt in vorteilhafter Weise dazu bei, den Speicherbedarf des benutzerspezifischen Sprachmodells zu verringern, so dass der lokale Datenspeicher und der lokale Prozessor kleiner und kostengünstiger ausgelegt sein können . Key words and / or the word stems and / or the word sequences is formed or supplemented. Keywords of the semantic model can be trained by the user performing an action and assigning a keyword to it. In both cases, the created user-specific language model is therefore based primarily on the vocabulary, the language and the language habits of each user. The user-specific language model therefore does not require vocabulary and expressions that the user does not even use to enter the control commands. This advantageously contributes to reducing the memory requirements of the user-specific language model, so that the local data memory and the local processor can be made smaller and more cost-effective.
Eine weitere spezielle Ausführungsform des Verfahrens zeichnet sich dadurch aus, dass das Erstellen oder das Ergänzen des US-SEM umfasst, dass den Schlüsselworten und/oder den Wortstämmen und/oder den Wortfolgen statistische Gewichte und/oder Attribute zugeordnet werden, wobei mittels der statistischen Gewichte und/oder mittels der Attribute eine Zuordnung des jeweiligen Schlüsselworts oder Wortstamms oder der jeweiligen Wortfolge zu einer Teilmenge aus einer Menge von Steuerbefehlen herstellbar ist . A further specific embodiment of the method is characterized in that the creation or supplementation of the US SEM comprises assigning statistical weights and / or attributes to the keywords and / or the word roots and / or the word sequences, wherein the statistical weights and / or by means of the attributes, an assignment of the respective keyword or word stem or the respective word sequence to a subset of a set of control commands can be established.
Insbesondere kann der eingesprochenen natürlichsprachlichen Äußerung wenigstens ein Steuerbefehl aus einer Menge von Steuerbefehlen zugeordnet werden, wobei die Zuordnung desIn particular, the natural language statement uttered can be assigned at least one control command from a set of control commands, the assignment of the
Steuerbefehls zur eingesprochenen natürlichsprachlichen Äußerung mittels des im Datenspeicher gespeicherten benutzerspezifischen Sprachmodells vorgenommen wird und/oder wobei die Zuordnung des Steuerbefehls zur eingesprochenen natürlich- sprachlichen Äußerung mittels der externen Datenverarbeitungseinheit vorgenommen wird und der Steuerbefehl an das Endgerät übermittelt wird. Control command is made to the natural language uttered expression by means of the user-specific language model stored in the data memory and / or wherein the assignment of the control command to the natural language uttered speech is made by the external data processing unit and the control command is transmitted to the terminal.
Die Zuordnung des Steuerbefehls zur eingesprochenen natür- lichsprachlichen Äußerung kann dann insbesondere in Abhängigkeit von den in der natürlichsprachlichen Äußerung identifizierten Schlüsselworten und/oder Wortstämmen und/oder Wortfolgen und/oder in Abhängigkeit von den diesen Schlüsselworten und/oder Wortstämmen und/oder Wortfolgen im US-SEM jeweils zugeordneten statistischen Gewichten und/oder Attributen vorgenommen werden. So kann einem Schlüsselwort oder einem entsprechenden Wortstamm, das oder der eines von mehreren Endgeräten bezeichnet, mittels eines entsprechenden Attributes die Menge derjenigen Steuerbefehle zugeordnet werden, die zur Steuerung dieses Endgerät dienen. Sind in oder an einem Fahrzeug beispielsweise ein Audiogerät und ein Außenspiegel angeordnet, so kann mittels des semantischen Sprachmodells festgestellt werden, dass es sich bei einer Äußerung, die das Schüsselwort „Außenspiegel" enthält, um eine Äußerung zum Steuern des Außenspiegels und nicht zum Steuern des Audiogerätes handelt. Die Zuordnung eines Steuerbefehls zu einer gegebenen Äußerung kann anhand der Attribute also auf eine oder mehrere (echte) Untermengen der Menge aller möglichen Steuerbefehle eingeschränkt werden. The assignment of the control command to the spoken natural-language utterance can then depend, in particular, on the keywords and / or word stems and / or word sequences identified in the natural language utterance and / or depending on the statistical weights and / or attributes assigned to these keywords and / or word stems and / or phrases in the US SEM. Thus, a keyword or a corresponding word root, or one of several terminals designated by means of a corresponding attribute, the amount of those control commands are assigned, which are used to control this terminal. If, for example, an audio device and an exterior mirror are arranged in or on a vehicle, it can be ascertained by means of the semantic language model that an utterance containing the key word "exterior mirror" is an expression for controlling the exterior mirror and not for controlling the exterior mirror The assignment of a control command to a given utterance can therefore be limited to one or more (real) subsets of the set of all possible control commands based on the attributes.
Es ist denkbar, dass ein und dasselbe Schlüsselwort sich auf unterschiedliche Steuerbefehle beziehen kann. Beispielsweise kann das Schlüsselwort „verstellen" sich im Zusammenhang mit einem Außenspiegel eines Fahrzeugs auf das Verstellen bezüglich unterschiedlicher Achsen beziehen. Einem gegebenen Schlüsselwort können also mehrere Attribute zugeordnet sein, wobei durch jedes der Attribute die Zuordnung zu unterschiedlichen Teilmengen aller möglichen Steuerbefehle zum Ausdruck kommt. Den Schlüsselworten können auch statistische Gewichte zugeordnet werden. Diese können die unterschiedlichen Wahrscheinlichkeiten kennzeichnen, mit denen ein gegebenes Schlüsselwort ver- schiedenen Steuerbefehlen zugeordnet wird. It is conceivable that one and the same keyword can refer to different control commands. For example, in the context of a vehicle exterior mirror, the keyword "misalign" may refer to shifting with respect to different axes, so a plurality of attributes may be associated with a given keyword, with each of the attributes reflecting the assignment to different subsets of all possible control commands. Key words can also be assigned statistical weights, which can identify the different probabilities associated with assigning a given keyword to various control commands.
Beispielsweise kann das Schlüsselwort„Suchen" sich auf die Suche in einem Adressbuch oder auf die Suche in einer Liste von Audiotiteln beziehen. In dem Fall, dass ein gegebener Benutzer mit dem Schlüsselwort „Suchen" in der großen Mehrzahl der Fälle die Suche in einer Liste von Audiotiteln initiieren möchte und nicht die Suche in einem Adressbuch, kann dem Schlüsselwort „Suchen" in dem semantischen Modell für diesen Benutzer beispielsweise ein erstes Attribut „Suche in Adressbuch" und ein zweites Attribut„Suche in Titelliste" zugeordnet sein, wobei das zweite Attribut für diesen Benutzer z. B. ein größeres sta- tistisches Gewicht hat als das erste Attribut. For example, the keyword "search" may refer to the search in an address book or the search in a list of audio titles, in the case that a given user with the keyword "search" searches in a list in the great majority of cases to initiate audio tracks and not search in an address book, the keyword may be For example, in the semantic model, for this user, "search" will be associated with a first attribute "search in address book" and a second attribute "search in list of titles", the second attribute for this user having, for example, a greater statistical weight than the first attribute.
Enthält eine Äußerung mehrere Schlüsselworte, von denen jedes Schlüsselwort einem anderen Steuerbefehl zugeordnet ist, können anhand der den Schlüsselworten zugeordneten statistischen Gewichte verschiedene Wahrscheinlichkeiten für die Zuordnung der Äußerung zu den verschiedenen in Frage kommenden Steuerbefehlen ermittelt werden. Zum Beispiel kann einer gegebenen Äußerung der enige Steuerbefehl zugeordnet werden, für den die ermittelte Wahrscheinlichkeit am größten ist. Es kann auch vorgesehen sein, dass eine endgültige Zuordnung nur dann vorgenommen wird, wenn die so ermittelte Wahrscheinlichkeit einen vorgegebenen If an utterance contains several keywords, each of which keyword is assigned to another control command, different probabilities for the assignment of the utterance to the various possible control commands can be determined on the basis of the statistical weights assigned to the keywords. For example, a given utterance may be assigned the slightest control command for which the determined probability is greatest. It can also be provided that a final assignment is only made if the probability thus determined a predetermined
Schwellwert überschreitet. Threshold exceeds.
Kann eine endgültige Zuordnung der Äußerung zu einem bestimmten Steuerbefehl nicht vorgenommen werden, so kann der Benutzer aufgefordert werden, einen Steuerbefehl aus einer Auswahl von mehren in Frage kommenden Steuerbefehlen auszuwählen. Dazu kann das System eine zusätzliche Ein- und Ausgabeeinheit umfassen, z. B. in Gestalt eines Sensorbildschirms (Touchscreen) . Das benutzerspezifische Sprachmodell kann dann anhand der Inter¬ aktion mit dem Benutzer und unter Berücksichtigung von dessen Eingabe entsprechend angepasst oder ergänzt werden. Das Er¬ stellen oder Ergänzen des benutzerspezifischen Sprachmodells kann also insbesondere eine Interaktion mit dem Benutzer um- fassen. Verwendet der Benutzer beispielsweise erstmalig einen Begriff, der noch nicht Teil des Sprachmodells ist, so kann der Benutzer aufgefordert werden, eine Zuordnung dieses Begriffes zu einem bestimmten Steuerbefehl oder zu einer bestimmten Teilmenge von Steuerbefehlen vorzunehmen. Der neue Begriff kann dann dem US-SLM und/oder dem US-SEM hinzugefügt werden. Gegebenenfalls können dem Begriff im US-SEM dann Attribute und/oder statistische Gewichte zugeordnet werden. So kann das benutzerspezifische Sprachmodell schrittweise erweitert und auf den Benutzer zu¬ geschnitten werden. If a final assignment of the utterance to a particular control command can not be made, the user may be prompted to select a control command from a selection of a plurality of candidate control commands. For this purpose, the system may include an additional input and output unit, for. B. in the form of a touch screen. The user-specific language model can then be adjusted accordingly based on the Inter ¬ action with the user, and taking into account the input or supplemented. The provision or supplementing of the user-specific language model can therefore in particular include an interaction with the user. For example, if the user first uses a term that is not yet part of the language model, then the user may be prompted to associate that term with a particular control command or with a particular subset of control commands. The new term can then be added to the US SLM and / or the US SEM. If appropriate, attributes and / or statistical weights can then be assigned to the term in the US-SEM. So can the custom Language model gradually expanded and cut to the user to ¬ .
Bei einer speziellen Ausführungsform des vorgeschlagenen Ver- fahrens kann das Transkribieren der natürlichsprachlichenIn a specific embodiment of the proposed method, the transcribing of the natural language
Äußerung auf der externen Datenverarbeitungseinheit und/oder auf einer mit der externen Datenverarbeitungseinheit über eine Datenverbindung verbindbaren weiteren externen Datenverarbeitungseinheit vorgenommen werden. Auf der externen Daten- Verarbeitungseinheit und/oder auf der weiteren externen Da¬ tenverarbeitungseinheit kann also eine Spracherkennungssoftware ausgeführt werden oder ausführbar sein. Bei der weiteren externen Datenverarbeitungseinheit kann es sich z. B. um einen inter¬ netbasierten Diktierservice handeln. In diesem Fall müssen in der (ersten) externen Datenverarbeitungseinheit also weniger Dik¬ tierressourcen zum Transkribieren vorgehalten werden, so dass die erste externe Datenverarbeitungseinheit kostengünstiger ausgeführt sein kann. Insbesondere kann es vorgesehen sein, dass das Transkribieren der natürlichsprachlichen Äußerung und/oder das Erstellen oder das Ergänzen des Sprachmodells mittels eines auf der externen Da¬ tenverarbeitungseinheit oder mittels eines auf der weiteren Datenverarbeitungseinheit gespeicherten weiteren statistischen Sprachmodells und/oder weiteren semantischen Sprachmodells und/oder eines neuronalen Netzes vorgenommen wird. Bei dem weiteren statistischen Sprachmodell und dem weiteren semantischen Sprachmodell handelt es sich dabei normalerweise um nicht-benutzerspezifische Modelle, also um sprecherunabhängige Modelle. Da sie auf der externen Datenverarbeitungseinheit bzw. auf der weiteren externen Datenverarbeitungseinheit implemen¬ tiert sind, können diese Modelle umfangreich sein, ohne dass der lokale Datenspeicher und/oder der lokale Prozessor deswegen größer oder leistungsstärker ausgebildet sein müssen. Damit kann die Wahrscheinlichkeit dafür erhöht werden, dass von dem Benutzer verwendete Begriffe oder Ausdrucksweisen auch dann transkribiert werden können, wenn diese Begriffe noch nicht Teil des weniger umfangreichen benutzerspezifischen Sprachmodells sind, das in der externen Datenverarbeitungseinheit gespeichert ist. Eine zusätzliche Interaktion mit dem Benutzer, bei der der Benutzer wie oben beschrieben zur Eingabe über die weitere Eingabeeinheit aufgefordert wird, kann damit weitgehend vermieden werden. Utterance can be made on the external data processing unit and / or on a further external data processing unit that can be connected to the external data processing unit via a data connection. On the external data processing unit and / or on the further external Since ¬ tenverarbeitungseinheit thus a speech recognition software can be executed or to be executed. In the other external data processing unit, it may be z. B. to act an inter ¬ netbasierten dictation service. In this case, less Dik ¬ animal resources have to be kept to transcribe in the (first) external data processing unit so that the first external data processing unit can be implemented cost-effectively. In particular, it may be provided that the transcription of the natural language utterance and / or creating or supplementing of the language model by means of a on the external Since ¬ tenverarbeitungseinheit or by means of data stored on the further data processing unit further statistical language model and / or other semantic language model and / or a neural network is made. The further statistical language model and the further semantic language model are usually non-user-specific models, ie speaker-independent models. Since they are implemen ¬ advantage on the external data processing unit and on the other external data processing unit, these models can be extensive without the local data store and / or the local processor must be so designed to be larger or more powerful. This can increase the likelihood that terms or expressions used by the user can be transcribed even if those terms are not yet part of the less extensive user-specific language model stored in the external data processing unit. An additional interaction with the user, in which the user is prompted for input via the additional input unit as described above, can thus be largely avoided.
Eine weitere spezielle Ausführungsform des Verfahrens zeichnet sich dadurch aus, dass mit der natürlichsprachlichen Äußerung eine Benutzerkennung zur Identifikation des Benutzers an die Datenverarbeitungseinheit übermittelt wird, wobei die Benut¬ zerkennung A further special embodiment of the method is characterized in that is communicated with the natural language utterance a user ID for identifying the user to the data processing unit, wherein the Benut ¬ zerkennung
- durch den Benutzer eingegeben wird und/oder - is entered by the user and / or
- einen akustischen Sprachabdruck umfasst, der anhand der durch den Benutzer eingesprochenen natürlichsprachlichen Äußerung bestimmt wird, und/oder - includes an acoustic voiceprint determined on the basis of the natural language utterance spoken by the user, and / or
- beim Einstecken eines Schlüssels in eine Einstecköffnung anhand einer Form des Schlüssels bestimmt wird und/oder - Is determined when inserting a key into an insertion opening on the basis of a shape of the key and / or
- mittels Gesichtserkennung bestimmt wird und/oder - Is determined by facial recognition and / or
- von einem mobilen Kommunikationsgerät des Benutzers, ins- besondere von einem Mobiltelefon, übermittelt wird. - Is transmitted by a mobile communication device of the user, in particular from a mobile phone.
Dies ermöglicht in vorteilhafter Weise eine Identifikation des Benutzers. So kann die von dem Benutzer eingesprochene natür¬ lichsprachliche Äußerung in der externen Datenverarbeitungs- einheit zum Erstellen oder Ergänzen desjenigen benutzerspezifischen Sprachmodells verwendet werden, das genau diesem Benutzer in der externen Datenverarbeitungseinheit zugeordnet ist. Dies ist besonders dann vorteilhaft, wenn in der externen Datenverarbeitungseinheit eine Vielzahl von benut zerspezifi- sehen Sprachmodellen jeweils unterschiedlicher Benutzer gespeichert sind, erstellt oder ergänzt werden. Dies ist auch vorteilhaft für den oben geschilderten Fall, in dem verschiedene Benutzer abwechselnd dasselbe Endgerät verwenden, z. B. wenn sie abwechselnd dasselbe Fahrzeug benutzen, in dem das Endgerät angeordnet oder eingebaut ist. Normalerweise ist es vorgesehen, dass die natürlichsprachliche Äußerung und/oder die Benutzerkennung über eine drahtlose Datenverbindung an die externe Datenverarbeitungseinheit über¬ mittelt wird und/oder dass das benutzerspezifische Sprachmodell über eine drahtlose Datenverbindung von der Datenverarbei¬ tungseinheit an das Endgerät übertragen wird. Vorzugsweise handelt es sich dabei um die bereits beschriebene drahtlose Internetverbindung oder sonstige drahtlose Telekommunikati¬ onsverbindung . This advantageously allows an identification of the user. Thus, the eingesprochene by the user natuer ¬ lichsprachliche utterance can be used in the external data processing unit to create or complete of that user-specific language model, which is exactly assigned to this user in the external data processing unit. This is particularly advantageous if in the external data processing unit a plurality of benut zerspezifi- see language models each different users are stored, created or supplemented. This is also advantageous for the above-described case in which different users use the same terminal alternately, e.g. B. when they use the same vehicle alternately in which the terminal is arranged or installed. Normally, it is provided that the natural language utterance and / or the user ID via a wireless data connection to the external data processing unit via ¬ averages and / or that the user specific language model is transmitted via a wireless data link from the Datenverarbei ¬ processing unit to the terminal. This is preferably the already described wireless Internet connection or other wireless Telekommunikati ¬ onsverbindung.
Ein Ausführungsbeispiel der Erfindung ist in den Zeichnungen dargestellt und wird anhand der folgenden Beschreibung näher erläutert. Es zeigen: Fig. 1 schematisch ein erfindungsgemäßes System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem lokalen Datenspeicher, wobei das Sprachmodell eingerichtet ist, natürlichsprach¬ lichen Äußerungen eines Benutzers Steuerbefehle zum Steuern eines ersten Endgerätes und/oder eines zweitenAn embodiment of the invention is illustrated in the drawings and will be explained in more detail with reference to the following description. In the drawings: Fig. 1 schematically shows an inventive system to create or supplement a user-specific language model in a local data storage, wherein the language model is adapted, of course said ¬ utterances of a user control commands for controlling a first terminal and / or of a second
Endgerätes zuzuordnen, Assign terminal,
Fig. 2 schematisch Schritte eines Verfahrens zum Erstellen oder Ergänzen des benutzerspezifischen Sprachmodells in dem lokalen Datenspeicher aus Fig. 1 sowie 2 schematically shows steps of a method for creating or supplementing the user-specific language model in the local data memory from FIG. 1 as well as
Fig. 3 schematisch weitere Schritte des in Fig. 2 darge¬ stellten Verfahrens, wobei einer von dem Benutzer eingegebenen natürlichsprachlichen Äußerung anhand des in dem lokalen Datenspeicher gespeicherten benutzerspezifischen Sprachmodells ein Steuerbefehl zum Steuern eines der Endgeräte zugeordnet wird, der Steuerbefehl an dieses Endgerät übermittelt wird und dieses Endgerät eine durch den Steuerbefehl veran- lasste Aktion durchführt. Fig. 1 zeigt ein erfindungsgemäßes System 100. Bei dem gezeigten Ausführungsbeispiel umfasst das System 100 ein Kraftfahrzeug 1, eine erste externe Datenverarbeitungseinheit 2 und eine zweite externe Datenverarbeitungseinheit 3. In einem Innenraum des Kfz 1 sind ein erstes Endgerät 4 und ein zweites Endgerät 5 an¬ geordnet. Bei dem ersten Endgerät 4 handelt es sich um ein Audiogerät mit einer Vielzahl von darin gespeicherten Audiodateien, die mittels des Audiogerätes abspielbar sind. Jeder Audiodatei ist z. B. ein Titel, ein Interpret, ein Aufnahmejahr und eine Dateigröße zugeordnet. Bei dem zweiten Endgerät 5 handelt es sich um einen Rückspiegel im Innenraum des Kfz 1, der z. B. mittels eines elektrischen Stellantriebes um eine erste und eine zweite Achse schwenkbar ist. Eine Stellung des zweiten Endgerätes 5 ist beispielsweise durch einen ersten Drehwinkel bezüglich der ersten Achse und durch einen zweiten Drehwinkel bezüglich der zweiten Achse gegeben. Fig. 3 shows schematically further steps of the presented in Fig. 2 Darge ¬ presented method, wherein a control command for controlling one of the terminals is assigned to a user-specific language model stored in the local data memory to a user-specific language model stored in the local data store, the control command is transmitted to this terminal and this terminal performs an action initiated by the control command. 1 shows a system 100 according to the invention. In the exemplary embodiment shown, the system 100 comprises a motor vehicle 1, a first external data processing unit 2 and a second external data processing unit 3. In an interior of the motor vehicle 1, a first terminal 4 and a second terminal 5 are connected ¬ ordered. The first terminal 4 is an audio device with a plurality of audio files stored therein, which are playable by means of the audio device. Each audio file is z. For example, a title, an artist, a year of recording, and a file size are assigned. In the second terminal 5 is a rearview mirror in the interior of the vehicle 1, the z. B. by means of an electric actuator about a first and a second axis is pivotable. A position of the second terminal 5 is given for example by a first angle of rotation with respect to the first axis and by a second angle of rotation with respect to the second axis.
Die Endgeräte 4 und 5 sind über Steuerbefehle steuerbar. The terminals 4 and 5 are controllable via control commands.
Steuerbefehle, die das erste Endgerät 4 betreffen, sind bei- spielsweise ein Befehl zum Ein- und Ausschalten des ersten Endgerätes 4, zum Anzeigen aller Titel eines bestimmten Interpreten, zum Abspielen eines bestimmten Titels, zum Springen innerhalb eines gegebenen Titels, zum Verstellen einer Lautstärke oder zum Ordnen der Audiodateien anhand vorgegebener Kriterien wie Titel, Interpret, Aufnähme ähr, Dateigröße etc. Steuerbefehle, die das zweite Endgerät 5 betreffen, sind Befehle zum Verstellen des Spiegels, wobei diese Befehle z. B. eine der beiden Achsen als Verstellachse, einen Verstellwinkel und eine Verstellrichtung umfassen können. Control commands concerning the first terminal 4 are, for example, a command for switching on and off the first terminal 4, for displaying all titles of a specific artist, for playing a specific title, for jumping within a given title, for adjusting a volume or for sorting the audio files based on predetermined criteria such as title, artist, Aufnähme ähr, file size, etc. Control commands that affect the second terminal 5, commands for adjusting the mirror, these commands z. B. may include one of the two axes as adjustment axis, an adjustment angle and an adjustment.
Das System 100 umfasst ferner einen lokalen Prozessor 6, einen lokalen Datenspeicher 7 zum Speichern wenigstens eines benutzerspezifischen Sprachmodells 8, das hier ein benutzerspezifisches statistisches Sprachmodell (US-SLM) 9 und ein benut- zerspezifisches semantisches Sprachmodell (US-SEM) 10 umfasst, eine erste Eingabeeinheit 11, eine zweite Eingabeeinheit 12 sowie eine lokale Sende- und Empfangseinheit 13. Der lokale Prozessor 6, der lokale Datenspeicher 7, die Eingabeeinheiten 8 und 9 sowie die lokale Sende- und Empfangseinheit 10 sind ebenfalls im Innenraum des Kfz 1 angeordnet. Über Datenleitungen 14 sind die Eingabeeinheiten 11 und 12, die Endgeräte 4 und 5, der lokale Datenspeicher 7 und die lokale Sende- und Empfangseinheit 13 jeweils mit dem lokalen Prozessor 6 verbunden. The system 100 further comprises a local processor 6, a local data memory 7 for storing at least one user-specific language model 8, which here comprises a user-specific statistical language model (US-SLM) 9 and a user-specific semantic language model (US-SEM) 10 first input unit 11, a second input unit 12 and a local transmitting and receiving unit 13. The local processor 6, the local data memory 7, the input units 8 and 9 and the local transmitting and receiving unit 10 are also arranged in the interior of the vehicle 1. Via data lines 14, the input units 11 and 12, the terminals 4 and 5, the local data memory 7 and the local transmitting and receiving unit 13 are each connected to the local processor 6.
Die erste Eingabeeinheit 11 umfasst wenigstens eine akustische Eingabeeinheit, z. B. in Form eines Mikrophons, über das ein Benutzer natürlichsprachliche Äußerungen eingeben kann. Diese können dann in der ersten Eingabeeinheit 11 selbst oder durch den lokalen Prozessor 6 in eine digitale Audiodatei umgewandelt werden. Die zweite Eingabeeinheit 12 ist hier als Ein- und Ausgabeeinheit ausgebildet und umfasst wenigstens einen Sen- sorbildschirm (Touchscreen) , über den der Benutzer mit dem System 100 interagieren kann. The first input unit 11 comprises at least one acoustic input unit, for. In the form of a microphone through which a user can input natural language utterances. These can then be converted in the first input unit 11 itself or by the local processor 6 into a digital audio file. The second input unit 12 is embodied here as an input and output unit and comprises at least one sensor screen (touch screen), via which the user can interact with the system 100.
Die erste externe Datenverarbeitungseinheit 2 umfasst wenigstens eine erste externe Sende- und Empfangseinheit 15, wenigstens einen ersten externen Prozessor 16 und wenigstens einen ersten externen Datenspeicher 17 zum dauerhaften oder wenigstens zeitweisen Speichern des benutzerspezifischen Sprachmodells 8 mit dem US-SLM 9 und dem US-SEM 10. Die erste externe Sende- und Empfangseinheit 15 ist über eine erste drahtlose Internetver- bindung 18 mit der lokalen Sende- und Empfangseinheit 13 ver¬ bunden. Bei der ersten externen Datenverarbeitungseinheit 2 handelt es sich z. B. um einen Server eines Anbieters von Spracherkennungssoftware . Die zweite externe Datenverarbeitungseinheit 3 umfasst we¬ nigstens eine zweite externe Sende- und Empfangseinheit 19, wenigstens einen zweiten externen Prozessor 20 und wenigstens einen zweiten externen Datenspeicher 21. In dem Datenspeicher 21 sind z. B. ein nicht-benutzerspezifisches, d. h. sprecheru- nabhängiges weiteres statistisches Sprachmodell 22 und ein ebenfalls nicht-benutzerspezifisches weiteres semantisches Sprachmodell 23 gespeichert. Die zweite externe Sende- und Empfangseinheit 19 ist über eine zweite drahtlose Internet¬ verbindung 24 mit der ersten externen Sende- und Empfangseinheit 15 verbunden. Bei der zweiten externen Datenverarbeitungseinheit 3 handelt es sich z. B. um einen Server eines internetbasierten Diktierdienstes, der Audiodateien in Textdateien transkribieren kann . The first external data processing unit 2 comprises at least a first external transmitting and receiving unit 15, at least one first external processor 16 and at least one first external data memory 17 for permanent or at least temporary storage of the user-specific language model 8 with the US SLM 9 and the US SEM 10. the first external transmitting and receiving unit 15 is connected via a first wireless Internetver- connection 18 with the local transmitting and receiving unit 13 ver ¬ prevented. The first external data processing unit 2 is z. B. a server of a provider of speech recognition software. The second external data processing unit 3 we ¬ nigstens comprises a second external transmitting and receiving unit 19, at least one second external processor 20 and at least one second external data memory 21. In the data memory 21 z. For example, a non-user-specific, ie speaker-independent, further statistical language model 22 and also a non-user-specific further semantic language model 23 are stored. The second external transmit and Receiving unit 19 is connected via a second wireless Internet ¬ connection 24 with the first external transmitting and receiving unit 15. In the second external data processing unit 3 is z. For example, a server of an Internet-based dictation service that can transcribe audio files into text files.
Fig. 2 zeigt Schritte eines erfindungsgemäßen Verfahrens zum Erstellen oder Ergänzen des benutzerspezifischen Sprachmodells 8 in dem lokalen Datenspeicher 7. Hier und im Folgenden sind wiederkehrenden Merkmale jeweils mit identischen Bezugszeichen versehen. Das benutzerspezifische Sprachmodell 8 umfasst di¬ gitale Daten und/oder ein auf dem lokalen Prozessor 6 und auf dem ersten externen Prozessor 16 ausführbares Computerprogramm. Das Sprachmodell 8 ist eingerichtet, den durch den Benutzer über die erste Eingabeeinheit 11 eingesprochenen natürlichsprachlichen Äußerungen einen oder mehrere einer Vielzahl von Steuerbefehlen zum Steuern des ersten Endgerätes 4 und/oder des zweiten Endgerätes 5 zuzuordnen. FIG. 2 shows steps of a method according to the invention for creating or supplementing the user-specific language model 8 in the local data memory 7. Here and in the following, recurring features are each provided with identical reference symbols. The user-specific language model 8 includes di ¬ gitale data and / or an executable to the local processor 6, and on the first external processor 16 computer program. The language model 8 is set up to associate the natural language utterances spoken by the user via the first input unit 11 with one or more of a plurality of control commands for controlling the first terminal 4 and / or the second terminal 5.
In einem ersten Schritt 25 gibt der Benutzer über den Sensorbildschirm der zweiten Eingabeeinheit 12 eine in digitaler Form speicherbare Benutzerkennung ein. Dies kann z. B. ein Benutzername in Verbindung mit einem Passwort sein, durch welche der Benutzer eindeutig identifizierbar ist . Damit wird dem System 100 mitgeteilt, dass im Weiteren das benutzerspezifische Sprach¬ modell 8 für genau diesen Benutzer erstellt oder ergänzt werden soll. Bei abgewandelten Ausführungsformen kann die Benutzerkennung auch durch einen akustischen Sprachabdruck gegeben sein, der z. B. anhand eines Stimmenspektrums der durch den Benutzer eingesprochenen natürlichsprachlichen Äußerung ermittelt wird. Denkbar ist es ebenso, dass im Innenraum des Fahrzeugs eine Kamera angeordnet ist, die ein Bild des Gesichts des Benutzers aufnimmt, wobei der Benutzer mittels einer Gesichtserkennungssoftware identifiziert wird. Die Benutzerkennung kann auch von einemIn a first step 25, the user inputs via the touch screen of the second input unit 12 a user identifier that can be stored in digital form. This can be z. B. be a user name in conjunction with a password by which the user is uniquely identifiable. This tells the system 100 that the user speech model ¬ 8 to be created or updated for this particular user in the following. In modified embodiments, the user identifier may also be given by an acoustic voice print, the z. B. is determined based on a voice spectrum of the natural language utterance spoken by the user. It is also conceivable that in the interior of the vehicle, a camera is arranged, which takes a picture of the user's face, wherein the user is identified by means of a face recognition software. The user ID can also be from a
Mobiltelefon des Benutzers an das System 100 übermittelt werden. Der Benutzer kann auch anhand eines individuellen mechanischen Schlüssels identifiziert werden, den er zum Zwecke der Iden¬ tifizierung in eine dafür vorgesehene Öffnung einsteckt. Mobile phone of the user to the system 100 are transmitted. The user can also use an individual mechanical Key are identified, he pocketed for the purpose of iden ¬ tification in an opening provided.
Im nächsten Schritt 26 spricht der Benutzer eine natürlich- sprachliche Äußerung in das Mikrophon der ersten Eingabeeinheit 11 ein. Mit der Eingabe der natürlichsprachlichen Äußerung beabsichtigt der Benutzer, eine bestimmte Aktion oder Funktion eines der Endgeräte 4 oder 5 auszulösen. Im vorliegenden Beispiel spricht der Benutzer den Satz „Ich möchte jetzt X von Y hören." Damit soll das erste Endgerät 4 veranlasst werden, die im Endgerät 4 gespeicherte Audiodatei abzuspielen, der der Titel X und der Interpret Y zugeordnet sind. Hier sind X und Y z. B. Einwort- folgen, bestehen also jeweils nur aus einem Wort. Im Schritt 27 wird die eingesprochene Äußerung des Benutzers in eine digitale Audiodatei umgewandelt . Diese wird zusammen mit der Benutzerkennung von der lokalen Sende- und Empfangseinheit 13 über die drahtlose Internetverbindung 18 an die erste externe Sende- und Empfangseinheit 15 der ersten externen Datenverar- beitungseinheit 2 übermittelt. Dort wird die Audiodatei mit der natürlichsprachlichen Äußerung anhand der Benutzerkennung dem in dem ersten externen Datenspeicher 17 gespeicherten benutzerspezifischen Sprachmodell 8 zugeordnet. Im Schritt 28 wird die Audiodatei mit der natürlichsprachlichen Äußerung „Ich möchte jetzt X von Y hören" über die zweite drahtlose Internetverbindung 24 an die zweite externe Datenverarbeitungseinheit 3 übermittelt. Im Schritt 29 wird sie dort mittels des zweiten externen Pro¬ zessors 20 unter Verwendung der im Datenspeicher 21 gespeicherten nicht-benutzerspezifischen Sprachmodelle SLM 22 und SEM 23 transkribiert. Dies bedeutet hier, dass die zweite externe Datenverarbeitungseinheit 3 z. B. eine digitale Textdatei er- stellt, in der die genannte natürlichsprachliche Äußerung des Benutzers in Form einer Folge von Worten gespeichert ist, die durch eine Folge von Zeichen gegeben ist. Zum Beispiel umfasst die transkribierte natürlichsprachliche Äußerung eine Folge von Buchstaben des lateinischen Alphabets, Satzzeichen und Leerzeichen . Im Schritt 30 wird die so transkribierte natürlichsprachliche Äußerung dann wiederum in digitaler Form von der zweiten externen Datenverarbeitungseinheit 3 an die erste externe Datenverar¬ beitungseinheit 2 übermittelt. Bei alternativen Ausführungsformen ist es auch denkbar, dass das im Schritt 29 beschriebene Transkribieren unmittelbar mittels der ersten externen Datenverarbeitungseinheit 2 vorgenommen wird. Das SLM 22 und das SEM 23 können also auch in der ersten externen Datenverarbeitungseinheit 2 gespeichert sein. In diesem Fall müssen die Schritte 28 und 30 nicht durchgeführt werden. In the next step 26, the user enters a natural language utterance into the microphone of the first input unit 11. By entering the natural language utterance, the user intends to trigger a particular action or function of one of the terminals 4 or 5. In the present example, the user speaks the sentence "I want to hear X from Y now." This is to make the first terminal 4 play the audio file stored in the terminal 4, which is assigned the title X and the interpreter Y. Here are X and Y eg one-word sequences, ie in each case consist of only one word In step 27 the spoken utterance of the user is converted into a digital audio file which is transmitted together with the user identification by the local transmitting and receiving unit 13 via the wireless Internet connection 18 is transmitted to the first external transmitting and receiving unit 15 of the first external data processing unit 2. There the audio file with the natural language utterance is assigned on the basis of the user identification to the user-specific language model 8 stored in the first external data memory 17. In step 28 the audio file is included the natural language statement "I want to hear X from Y now "via the second wireless Internet connection 24 to the second external data processing unit 3. In step 29 it is transcribed there by means of the second external Pro ¬ zessors 20 using the data stored in the data memory 21 non-user-specific language models SLM 22 and SEM 23rd This means here that the second external data processing unit 3 z. For example, a digital text file is created in which said natural language utterance of the user is stored in the form of a sequence of words given by a sequence of characters. For example, includes the transcribed natural language utterance is a sequence of letters of the Latin alphabet, punctuation and spaces. In step 30, the received speech utterance as naturally transcribed in turn in digital form from the second external data processing unit 3 to the first external Datenverar ¬ beitungseinheit. 2 In alternative embodiments, it is also conceivable that the transcription described in step 29 is performed directly by means of the first external data processing unit 2. The SLM 22 and the SEM 23 can thus also be stored in the first external data processing unit 2. In this case, steps 28 and 30 need not be performed.
Im Schritt 31 wird das benutzerspezifische Sprachmodell 8 unter Verwendung der transkribierten natürlichsprachlichen Äußerung zunächst im ersten externen Datenspeicher 17 der ersten externen Datenverarbeitungseinheit 2 ergänzt. Sofern das Sprachmodell 8 noch nicht besteht, wird es im Schritt 31 erstmalig erstellt. Der Schritt 31 umfasst Schritte 31a und 31b. Im Schritt 31a wird dabei das US-SLM 9 im Datenspeicher 17 ergänzt oder erstellt . Im Schritt 31b wird das US-SEM im Datenspeicher 17 ergänzt oder erstellt. In step 31, the user-specific language model 8 is first supplemented in the first external data memory 17 of the first external data processing unit 2 using the transcribed natural language utterance. If the language model 8 does not yet exist, it is created for the first time in step 31. Step 31 includes steps 31a and 31b. In step 31a, the US SLM 9 is supplemented or created in the data memory 17. In step 31b, the US SEM is added or created in the data memory 17.
Im vorliegenden Fall umfasst das US-SLM 9 des Sprachmodells 8 im Datenspeicher 17 schon eine Vielzahl von transkribierten Wortfolgen, z. B. Einwortfolgen, Zweiwortfolgen, Dreiwortfolgen oder längere Wortfolgen, die derselbe Benutzer in vorherigen Sitzungen eingegeben bzw. eingesprochen hat. Im Schritt 31a wird das US-SLM 9 nur insoweit durch die transkribierte natürlich¬ sprachliche Äußerung „Ich möchte jetzt X von Y hören" ergänzt, als das US-SLM 9 diese noch nicht umfasst. Beispielsweise umfasst das US-SLM 9 die gesamte Wortfolge„Ich möchte jetzt X von Y hören" noch nicht, so dass diese dem US-SLM 9 im Datenspeicher 17 hinzugefügt wird. Ergänzt werden aber beispielsweise nur solche Einwortfolgen, die noch nicht von dem US-SLM 9 im Datenspeicher 17 umfasst sind. Hier sind dies beispielsweise die Einwortfolgen „X" und ,,Y", die dem US-SLM 9 im Datenspeicher 17 im Schritt 31a hinzugefügt werden. Statistische Gewichte von solchen Worten oder Wortfolgen der Äußerung „Ich möchte jetzt X von Y hören", die das US-SLM 9 im Datenspeicher 17 bereits umfasst, können anhand der neu eingesprochenen Äußerung entsprechend angepasst, also z. B. erhöht werden. In the present case, the US SLM 9 of the language model 8 in the data memory 17 already includes a plurality of transcribed word sequences, eg. One-word sequences, two-word sequences, three-word sequences or longer word sequences that the same user has entered or recorded in previous sessions. In step 31, the US SLM 9 will only be naturally transcribed ¬ utterance "Now I want X heard of Y" adds, when the US-SLM 9 not include this. For example, US-SLM 9 includes the entire sequence of words "I do not want to hear X from Y" yet, so it will be added to US SLM 9 in data store 17. For example, only one-word sequences that are not yet included in the data memory of the US-SLM 9 are added 17 are included. Here, these are, for example, the one-word sequences "X" and "Y" which are added to the US SLM 9 in the data memory 17 in step 31a. Statistical weights of such words or phrases of the statement "I would now like to hear X of Y", which already includes the US SLM 9 in the data memory 17, can be adjusted accordingly, eg increased, on the basis of the newly-spoken utterance.
Ebenso umfasst das US-SEM 10 im Datenspeicher 17 schon eine Vielzahl von Schlüsselworten, denen jeweils Attribute und statistische Gewichte zugeordnet sind. Hier umfasst das US-SEM 10 im Datenspeicher 17 beispielsweise bereits das Schlüsselwort „hören.'" Diesem sind im US-SEM 10 schon die Attribute „Audiogerät" und „Abspielen" mit einem bestimmten statistischen Ge- wicht zugeordnet. Dies bedeutet z. B., dass natürlichsprach¬ lichen Äußerungen, die das Schlüsselwort „hören" beinhalten, mit einer von Null verschiedenen Wahrscheinlichkeit diejenige Un¬ termenge aller möglichen Steuerbefehle zugeordnet wird, die das erste Endgerät 4, also das Audiogerät, betreffen. Similarly, the US SEM 10 already includes a plurality of keywords in the data memory 17, which are each assigned attributes and statistical weights. Here, for example, the US SEM 10 already includes the keyword "listen" in the data memory 17. To this end, the attributes "audio device" and "playback" with a specific statistical weight are already assigned in the US SEM 10. This means, for example ., That natural language ¬ utterances containing the keyword "hearing", with a non-zero probability that Un ¬ termenge of all possible control commands is assigned to the first terminal 4, ie the audio device concern.
Im vorliegenden Beispiel sind der Titel „X" und der Interpret „Y" bisher weder Teil des US-SLM 9 noch des US-SEM 10 im Datenspeicher 17. Wegen des gleichzeitigen Auftretens des dem US-SLM 9 und dem US-SEM 10 bereits bekannten Schlüsselwortes „hören" werden das Wort „X" und das Wort „Y" im Schritt 31b jedoch dem US-SEM 10 im Datenspeicher 17 hinzugefügt und erhalten dort ebenfalls die dem bekannten Schlüsselwort „hören" zugeordneten Attribute „Audiogerät" und „Abspielen." Dabei wird dem Attribut „Audiogerät" jedoch gleichzeitig ein größeres statistisches Gewicht zuge- ordnet als dem Attribut „Abspielen." So ist mit großer Wahr¬ scheinlichkeit jeder Äußerung, die den Titel „X" enthält, ein Befehl zuzuordnen, der das Audiogerät betrifft. Jedoch wird nicht jede Äußerung, die den Titel „X" enthält, auf das Abspielen des Titels „X" gerichtet sein. Denkbar ist z. B., dass der Benutzer lediglich das Anzeigen des dem Titel „X" zugeordneten Aufnahmejahres wünscht. Da es sich bei den Worten „X" und „Y" um neu in das US-SEM 10 im Datenspeicher 17 aufgenommene Schlüsselworte handelt, wird der Benutzer über den Sensorbildschirm der zweiten Eingabeeinheit 12 aufgefordert, die Aufnahme der Worte „X" und „Y" als Schlüs- selworte in das US-SEM 10 im Datenspeicher 17 und die Zuordnung der Attribute „Audiogerät" und „Abspielen" zu den neuen In the present example, the title "X" and the interpreter "Y" are so far neither part of the US SLM 9 nor the US SEM 10 in the data memory 17. Because of the simultaneous occurrence of the US SLM 9 and the US SEM 10 already however, in step 31b the word "X" and the word "Y" are added to the US SEM 10 in the data memory 17 and there also receive the attributes "audio device" and "playback" assigned to the known keyword "listen". " However, at the same time a larger statistical weight is assigned to the attribute "audio device" than to the attribute "play." So every utterance contains the title "X" with great fortune ¬ probability to assign a command that affects the audio device. However, not every utterance contains the title "X" focused on playing the title "X" It is conceivable, for example, that the user merely wishes to display the recording year associated with the title "X". Since the words "X" and "Y" are newly entered keywords in the US SEM 10 in the data memory 17, the user is prompted via the touch screen of the second input unit 12 to record the words "X" and "Y "as keywords in the US SEM 10 in the data memory 17 and the assignment of the attributes" audio device "and" play "to the new
Schlüsselworten „X" und „Y" zu bestätigen. Zusätzlich kann dem Benutzer die Möglichkeit gegeben werden, den neuen Schlüsselworten „X" und „Y" weitere Attribute hinzuzufügen. Hier ordnet er dem neuen Schlüsselwort„X" beispielsweise manuell das weitere Attribut „Titel" und dem neuen Schlüsselwort „Y" das weitere Attribut „Interpret" zu. Keywords "X" and "Y" to confirm. In addition, the user can be given the opportunity to add further attributes to the new keywords "X" and "Y". Here, for example, he assigns the new keyword "title" to the new keyword "X" and the further attribute "artist" to the new keyword "Y".
Auf die hier beschriebene Weise können den Schlüsselworten und/oder Wortfolgen von Schlüsselworten des US-SEM 10 im Datenspeicher 17 also statistische Gewichte und Attribute zu¬ geordnet werden, anhand derer mit einer gegebenen Wahrscheinlichkeit eine Zuordnung des jeweiligen Schlüsselwortes oder der jeweiligen Wortfolge von Schlüsselworten zu einem bestimmten Steuerbefehl oder wenigstens zu einer Teilmenge aus der Menge aller möglichen Steuerbefehle zum Steuern der Endgeräte 4 und 5 herstellbar ist. Obwohl hier lediglich das Ergänzen der im Datenspeicher 17 bereits vorhandenen Modelle US-SLM 9 und US-SLM 10 beschrieben ist, wird es sich dem Fachmann unmittelbar erschließen, wie das Verfahren umgesetzt werden kann, wenn das Sprachmodell 8 anhand einer eingesprochenen natürlichsprachlichen Äußerung ganz von Neuem erstellt wird, z. B. bei einer allerersten Sitzung des Benutzers. Im Schritt 32 wird das benutzerspezifische Sprachmodell 8 mit dem US-SLM 9 und dem US-SLM 10 vollständig oder wenigstens teilweise von der ersten externen Datenverarbeitungseinheit 2 über die drahtlose Internetverbindung 18 an den lokalen Datenspeicher 7 übertragen und in diesem gespeichert. Vorzugsweise handelt es sich dabei um eine Aktualisierung einer bereits im lokalenIn the manner described here, the keywords and / or phrases of keywords of the US SEM 10 in the data memory 17 so statistic weights and attributes are ordered to ¬ on the basis of which with a given probability assignment of the respective keyword or word sequence of keywords to a certain control command or at least a subset of the set of all possible control commands for controlling the terminals 4 and 5 can be produced. Although only the supplementing of the models US-SLM 9 and US-SLM 10 already present in the data memory 17 is described here, it will be directly apparent to the person skilled in the art how the method can be implemented if the language model 8 is completely different from a natural-language utterance New is created, z. At a very first session of the user. In step 32, the user-specific language model 8 with the US SLM 9 and the US SLM 10 is transmitted completely or at least partially from the first external data processing unit 2 via the wireless Internet connection 18 to the local data memory 7 and stored therein. Preferably, this is an update of one already in the local
Datenspeicher 7 gespeicherten vorherigen Version des Sprachmodells 8. Es werden also vorzugsweise nur Änderungen und/oder Ergänzungen der vorherigen Version übertragen. Eine solche Aktualisierung kann in regelmäßigen Abständen automatisch oder z. B. auf eine entsprechende Eingabe des Benutzers hin vor¬ genommen werden. Diese kann der Benutzer z. B. über die zweite Eingabeeinheit 12 vornehmen. Es ist auch denkbar, dass die Aktualisierung des Sprachmodells 8 auch dem lokalen Datenspeicher 7 im Anschluss an jede Sitzung des Benutzers durchgeführt wird, also jedes Mal, nachdem der Benutzer eine na¬ türlichsprachliche Äußerung eingesprochen hat. Data storage 7 stored previous version of the language model 8. So it is preferably only changes and / or Supplements to the previous version. Such an update may be made at regular intervals automatically or z. B. be taken on a corresponding input from the user before ¬ . This can be the user z. B. via the second input unit 12 make. It is also conceivable that the updating of the language model is 8 also conducted the local data memory 7 after each session of the user, so every time after the user has eingesprochen a na ¬ türlichsprachliche statement.
In Fig. 3 sind weitere Verfahrensschritte gezeigt, die zeitgleich mit den in Fig. 2 dargestellten Verfahrensschritten durchführbar sind. Diese weiteren Verfahrensschritte beschreiben, wie der eingesprochenen natürlichsprachlichen Äußerung anhand des be- reits im lokalen Datenspeichers 7 gespeicherten Modells 8 ein Steuerbefehl zugeordnet wird und gemäß diesem Steuerbefehl eine Aktion in einem der Endgeräte 4 und 5 ausgelöst wird. Das in Fig. 2 beschriebene Ergänzen des Modells 8 im lokalen Datenspeicher 7 und das Steuern der Endgeräte 4 und 5 anhand der eingesprochenen Äußerung und der bereits im Datenspeicher 7 gespeicherten Version des Modells 8 können also parallel durchgeführt werden. FIG. 3 shows further method steps that can be carried out at the same time as the method steps illustrated in FIG. 2. These further method steps describe how the natural language utterance being spoken is assigned a control command on the basis of the model 8 already stored in the local data memory 7, and an action in one of the terminals 4 and 5 is triggered in accordance with this control command. The supplementing of the model 8 in the local data memory 7 described in FIG. 2 and the control of the terminals 4 and 5 on the basis of the spoken utterance and the version of the model 8 already stored in the data memory 7 can therefore be carried out in parallel.
Nach der Eingabe der Benutzerkennung und der natürlich sprachlichen Äußerung in den Schritten 25 und 26 wird in einem Schritt 33 das Transkribieren der natürlichsprachlichen Äußerung durch den lokalen Prozessor 6 unter Verwendung des im lokalen Datenspeicher 7 gespeicherten US-SLM 9 durchgeführt. Im Schritt 34 wird der transkribierten Äußerung dann unter Verwendung des im lokalen Datenspeicher 7 gespeicherten US-SEM 10 ein Steu- erbefehl zugeordnet. Im Schritt 35 wird dieser Steuerbefehl dann an das entsprechende Endgerät gesendet. Im Schritt 36 führt dieses Endgerät dann eine durch diesen Steuerbefehl veranlasst Aktion aus. Diese Aktion kann z . B . das Abspielen einer Audiodatei durch das erste Endgerät 4 oder das Verstellen des Endgerätes 5 umfassen. After entering the user ID and the natural language utterance in steps 25 and 26, in a step 33, the natural language utterance transcription is performed by the local processor 6 using the US SLM 9 stored in the local data memory 7. In step 34, the transcribed utterance is then assigned a control command using the US SEM 10 stored in the local data memory 7. In step 35, this control command is then sent to the appropriate terminal. In step 36, this terminal then executes an action initiated by this control command. This action can z. B. the playback of an audio file by the first terminal 4 or the adjustment of the terminal 5 include.
In dem Fall, dass das Transkribieren im Schritt 33 unter Ver- wendung des im lokalen Datenspeicher 7 gespeicherten US-SLM 9 oder die Zuordnung im Schritt 34 unter Verwendung des im lokalen Datenspeicher 7 gespeicherten US-SEM 10 nicht durchführbar sind, weil die im lokalen Datenspeicher 7 gespeicherten Versionen des US-SLM 9 oder des US-SEM 10 noch nicht mächtig genug sind, um die aktuell eingesprochene Äußerung des Benutzers zu verarbeiten, werden zunächst die in Fig. 2 gezeigten Verfahrensschritte durchgeführt, was in Fig. 3 in Gestalt der Verfahrensschritte 37 und 38 gezeigt ist. In diesem Fall erfolgt also zunächst eine Aktualisierung des im lokalen Datenspeicher 7 gespeicherten Sprachmodells 8. In the case that the transcription in step 33 use of the US SLM 9 stored in the local data memory 7 or the assignment in step 34 using the US SEM 10 stored in the local data memory 7 can not be carried out because the versions of the US SLM 9 or of the US data stored in the local data memory 7 are not executable. SEM 10 are not yet powerful enough to process the currently uttered utterance of the user, the process steps shown in Fig. 2 are first performed, which is shown in Fig. 3 in the form of the process steps 37 and 38. In this case, therefore, an updating of the language model 8 stored in the local data memory 7 initially takes place.
In dem Fall, dass die drahtlose Internetverbindung 18 zwischen der lokalen Sende- und Empfangseinheit 13 und der ersten externen Sende- und Empfangseinheit 15 nicht herstellbar ist, weil das Fahrzeug 1 z. B. durch einen Tunnel fährt oder sich in einer Tiefgarage befindet, werden nur die Verfahrensschritte 25, 26, 33, 34, 35 und 36 durchgeführt. In the event that the wireless Internet connection 18 between the local transmitting and receiving unit 13 and the first external transmitting and receiving unit 15 can not be produced because the vehicle 1 z. B. through a tunnel or is in an underground car park, only the steps 25, 26, 33, 34, 35 and 36 are performed.
Claims
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE201310219649 DE102013219649A1 (en) | 2013-09-27 | 2013-09-27 | Method and system for creating or supplementing a user-specific language model in a local data memory connectable to a terminal |
| DE102013219649.0 | 2013-09-27 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2015044097A1 true WO2015044097A1 (en) | 2015-04-02 |
Family
ID=51627268
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/EP2014/070164 Ceased WO2015044097A1 (en) | 2013-09-27 | 2014-09-23 | Method and system for creating or augmenting a user-specific speech model in a local data memory that can be connected to a terminal |
Country Status (2)
| Country | Link |
|---|---|
| DE (1) | DE102013219649A1 (en) |
| WO (1) | WO2015044097A1 (en) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9836527B2 (en) * | 2016-02-24 | 2017-12-05 | Google Llc | Customized query-action mappings for an offline grammar model |
| DE102017219616B4 (en) | 2017-11-06 | 2022-06-30 | Audi Ag | Voice control for a vehicle |
| DE102018206015A1 (en) * | 2018-04-19 | 2019-10-24 | Bayerische Motoren Werke Aktiengesellschaft | User communication on board a motor vehicle |
| DE102019217751B4 (en) * | 2019-11-18 | 2025-08-21 | Volkswagen Aktiengesellschaft | Method for operating a speech dialogue system and speech dialogue system |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20050102142A1 (en) * | 2001-02-13 | 2005-05-12 | Frederic Soufflet | Method, module, device and server for voice recognition |
| US20070156682A1 (en) * | 2005-12-28 | 2007-07-05 | Microsoft Corporation | Personalized user specific files for object recognition |
| US20070233487A1 (en) * | 2006-04-03 | 2007-10-04 | Cohen Michael H | Automatic language model update |
| US20070276651A1 (en) * | 2006-05-23 | 2007-11-29 | Motorola, Inc. | Grammar adaptation through cooperative client and server based speech recognition |
| US20120130709A1 (en) * | 2010-11-23 | 2012-05-24 | At&T Intellectual Property I, L.P. | System and method for building and evaluating automatic speech recognition via an application programmer interface |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6195641B1 (en) * | 1998-03-27 | 2001-02-27 | International Business Machines Corp. | Network universal spoken language vocabulary |
| US6463413B1 (en) * | 1999-04-20 | 2002-10-08 | Matsushita Electrical Industrial Co., Ltd. | Speech recognition training for small hardware devices |
| US20030182113A1 (en) * | 1999-11-22 | 2003-09-25 | Xuedong Huang | Distributed speech recognition for mobile communication devices |
| EP1215661A1 (en) * | 2000-12-14 | 2002-06-19 | TELEFONAKTIEBOLAGET L M ERICSSON (publ) | Mobile terminal controllable by spoken utterances |
| US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
| US20090271200A1 (en) * | 2008-04-23 | 2009-10-29 | Volkswagen Group Of America, Inc. | Speech recognition assembly for acoustically controlling a function of a motor vehicle |
| US7933777B2 (en) * | 2008-08-29 | 2011-04-26 | Multimodal Technologies, Inc. | Hybrid speech recognition |
-
2013
- 2013-09-27 DE DE201310219649 patent/DE102013219649A1/en not_active Ceased
-
2014
- 2014-09-23 WO PCT/EP2014/070164 patent/WO2015044097A1/en not_active Ceased
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20050102142A1 (en) * | 2001-02-13 | 2005-05-12 | Frederic Soufflet | Method, module, device and server for voice recognition |
| US20070156682A1 (en) * | 2005-12-28 | 2007-07-05 | Microsoft Corporation | Personalized user specific files for object recognition |
| US20070233487A1 (en) * | 2006-04-03 | 2007-10-04 | Cohen Michael H | Automatic language model update |
| US20070276651A1 (en) * | 2006-05-23 | 2007-11-29 | Motorola, Inc. | Grammar adaptation through cooperative client and server based speech recognition |
| US20120130709A1 (en) * | 2010-11-23 | 2012-05-24 | At&T Intellectual Property I, L.P. | System and method for building and evaluating automatic speech recognition via an application programmer interface |
Also Published As
| Publication number | Publication date |
|---|---|
| DE102013219649A1 (en) | 2015-04-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE60222093T2 (en) | METHOD, MODULE, DEVICE AND VOICE RECOGNITION SERVER | |
| EP0925578B1 (en) | Speech-processing system and method | |
| DE69935909T2 (en) | Device for processing information | |
| DE60215272T2 (en) | Method and apparatus for inputting linguistic data under unfavorable conditions | |
| DE102019111529A1 (en) | AUTOMATED LANGUAGE IDENTIFICATION USING A DYNAMICALLY ADJUSTABLE TIME-OUT | |
| DE102015211101B4 (en) | Speech recognition system and method for operating a speech recognition system with a mobile unit and an external server | |
| DE102016125812A1 (en) | Learn pronunciations of a personalized entity | |
| DE112020002288T5 (en) | Method, system and apparatus for understanding and generating human conversational cues | |
| DE102014201676B4 (en) | Methods for controlling the dialogue of speech systems | |
| DE102015106280B4 (en) | Systems and methods for compensating for speech artifacts in speech recognition systems | |
| EP1950672A1 (en) | Method and data processing system for manual access of structurally stored information | |
| WO2015044097A1 (en) | Method and system for creating or augmenting a user-specific speech model in a local data memory that can be connected to a terminal | |
| DE102022133571A1 (en) | NATURAL LANGUAGE PROCESSING DEVICE AND NATURAL LANGUAGE PROCESSING METHOD | |
| EP1058235B1 (en) | Reproduction method for voice controlled systems with text based speech synthesis | |
| EP1282897B1 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
| EP3735688B1 (en) | Method, device and computer-readable storage medium having instructions for processing a speech input, motor vehicle, and user terminal with speech processing | |
| WO2015106930A1 (en) | Method and system for generating a control command | |
| EP1125278B1 (en) | Data processing system or communications terminal with a device for recognising speech and method for recognising certain acoustic objects | |
| DE10011178A1 (en) | Speech-activated control method for electrical device | |
| DE102004017486A1 (en) | Method for noise reduction in a voice input signal | |
| DE102013216427B4 (en) | Device and method for means of transport-based speech processing | |
| DE60127398T2 (en) | SYNTAX AND SEMANTIC ANALYSIS OF LANGUAGE INSTRUCTIONS | |
| EP1224661B1 (en) | Method and arrangement for verifying a speaker with a computer | |
| EP2012218B1 (en) | Method for influencing the interpretation of multimodal inputs | |
| DE102018122762A1 (en) | CONTINUING TRAINING AND SPEECH IMPROVEMENT BY RADIO TRANSMISSION |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 14777027 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 14777027 Country of ref document: EP Kind code of ref document: A1 |