[go: up one dir, main page]

CN114694645B - 一种确定用户意图的方法及装置 - Google Patents

一种确定用户意图的方法及装置 Download PDF

Info

Publication number
CN114694645B
CN114694645B CN202011628131.6A CN202011628131A CN114694645B CN 114694645 B CN114694645 B CN 114694645B CN 202011628131 A CN202011628131 A CN 202011628131A CN 114694645 B CN114694645 B CN 114694645B
Authority
CN
China
Prior art keywords
intention
party
recognition model
intent
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011628131.6A
Other languages
English (en)
Other versions
CN114694645A (zh
Inventor
黄益贵
乔登龙
夏潘斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202011628131.6A priority Critical patent/CN114694645B/zh
Priority to PCT/CN2021/140555 priority patent/WO2022143349A1/zh
Priority to EP21914086.0A priority patent/EP4254400A4/en
Publication of CN114694645A publication Critical patent/CN114694645A/zh
Application granted granted Critical
Publication of CN114694645B publication Critical patent/CN114694645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请涉及一种确定用户意图的方法及装置,涉及人工智能领域的自然语言理解技术。所述方法包括:获取语音信号对应的语音文本;将所述语音文本分别输入至至少一个基准意图识别模型和至少一个第三方意图识别模型中,经所述至少一个基准意图识别模型输出第一意图集合,经所述至少一个第三方意图识别模型输出第二意图集合,其中,所述第三方意图识别模型被设置为基于相同技能类别的所述基准意图识别模型及其模型训练数据训练得到;根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图。

Description

一种确定用户意图的方法及装置
技术领域
本申请涉及人工智能语音交互技术领域,尤其涉及一种确定用户意图的方法及装置。
背景技术
近年来,智能语音交互(Intelligent Speech Interaction)技术得到迅速发展,智能语音交互技术基于语音识别、语音合成、自然语言理解等技术,可以为用户在多种实际应用场景下赋予产品“能听、会说、懂你”式的智能人机交互体验。
目前,智能语音交互平台往往需要与多个第三方平台的合作,才可以向用户提供丰富的语音技能。典型地,合作的第三方平台主要包括商家、音乐广播平台、天气资讯平台等等。由于第三方平台的数量众多且有很多第三方平台属于同一类型,因此,如何准确地识别用户想要触发哪个平台的哪个技能变得非常重要。通常,智能语音交互平台仅支持对第三方平台开放带有技能唤醒词的技能,这些技能只能通过用户语音文本中带有明确的技能唤醒词才能召回,在一个示例中,可以设置播放音乐的技能唤醒词为“播放音乐”,那么,如果用户需要听某个歌曲,则需要先说出技能唤醒词“播放音乐”,然后再说出歌曲的名称。由于智能语音交互平台所涉及到的语音技能很多,利用技能唤醒词唤醒技能的方式对用户的要求较高,用户不可能记住太多技能唤醒词。进而,免技能唤醒词触发语音技能成为用户比较受欢迎的语音交互方式,免技能唤醒词触发语音技能即为在不需要说出技能唤醒词的情况下触发语音技能,例如在上述示例中,用户不需要先说出技能唤醒词“播放音乐”,用户可以直接说“播放XY”(XY是歌曲的名称)即可触发播放音乐的技能。相关技术中,智能语音交互平台往往可以开发多个预设意图,这些预设意图往往不可修改。如果第三方平台支持其中的某个或者某些预设意图,可以引用对应的预设意图。这样,在用户的语音命中其中的一个预设意图且该预设意图对应于多个第三方平台的语音技能的情况下,可以向用户确认使用哪个第三方平台的语音技能。相关技术中的方式,第三方平台只能引用智能语音交互平台已经定义的预设意图,而不能扩展已有预设意图,可扩展性较差。
因此,相关技术中亟需一种能够为第三方平台提供扩展性较好的自定义语音意图的方式。
发明内容
有鉴于此,提出了一种确定用户意图的方法及装置。
第一方面,本申请的实施例提供了一种确定用户意图的方法。
根据第一方面,在第一种可能的实现方式中,包括:
获取语音信号对应的语音文本;
将所述语音文本分别输入至至少一个基准意图识别模型和至少一个第三方意图识别模型中,经所述至少一个基准意图识别模型输出第一意图集合,经所述至少一个第三方意图识别模型输出第二意图集合,其中,所述第三方意图识别模型基于相同技能类别的所述基准意图识别模型及其模型训练数据训练得到;
根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图。
本申请各个实施例所提供的确定用户意图的方法,能够利用至少一个基准意图识别模型和至少一个三方意图识别模型对用户的语音文本进行识别,其中,所述第三方意图识别模型被设置为基于相同技能类别的所述基准意图识别模型及其模型训练数据训练得到。由此可见,本申请实施例中,可以向第三方用户提供训练意图识别模型的条件,第三方用户可以在预设技能类别的基准意图识别模型的基础上训练得到属于第三方用户自己的意图识别模型,增强了第三方用户自定义意图的扩展性。另一方面,从用户的角度来说,利用多个意图识别模型识别用户的语音文本,能够帮助用户召回得到准确率较高的意图,优化用户的使用体验。
根据第一方面的第一种可能的实现方式,所述第三方意图识别模型为按照下述方式训练得到:
获取预设技能类别的基准意图识别模型及所述基准意图识别模型的模型训练数据,所述模型训练数据至少包括多个预设意图及所述多个预设意图分别对应的基准样本数据、基准模型参数;
获取与所述预设技能类别相匹配的第三方样本数据;
利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
本实施例提供一种训练得到第三方意图识别模型的具体方式,基于原有的基准意图识别模型开发得到第三方意图识别模型,不仅可以防止第三方意图识别模型对所述基准意图识别模型的意图造成污染,同时基于成熟的基准意图识别模型训练开发,还可以降低第三方开发意图的难度和提升第三方意图识别模型的解析能力。
根据第一方面的第二种可能的实现方式,所述获取与所述预设技能类别相匹配的第三方样本数据,包括:
获取第三方用户增加的第三方意图和所述第三方意图对应的第三方样本数据,所述第三方意图与所述预设技能类别相匹配,或者,
获取第三方用户在所述预设意图对应的基准样本数据的基础上增加的样本数据。
本实施例提供可第三方用户提供样本数据的方式,一方面,第三方用户可以增加第三方意图,另一方面,第三方用户可以增加已有意图的样本数据,由此可见,第三方用户不仅可以扩展意图,还可以丰富已有意图的样本数据,使得训练得到的第三方意图识别模型更加具有第三方用户的业务特征。
根据第一方面的第三种可能的实现方式,所述利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型,包括:
获取第三方用户的用户标识;
将所述用户标识与所述第三方样本数据关联;
利用所述模型训练数据和关联所述用户标识的所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
本申请实施例中,可以将第三方用户的用户标识统一代入至样本数据进行训练,一方面,在训练过程中代入用户标识以适应用户偏向于在语音指令中使用商家的用户标识的习惯,另一方面,避免第三方用户提供的每个第三方样本数据都增加用户标识,增加信息冗余。
根据第一方面的第四种可能的实现方式,所述用户标识包括所述第三方用户对应的品牌名称、APP名称、产品名称中的至少一种。
本申请实施例提供了多种可能的用户标识。
根据第一方面的第五种可能的实现方式,所述根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图,包括:
在确定所述第一意图集合所包含的意图的置信度都小于等于第一预设阈值,且所述第二意图集合所包含的意图的置信度都大于第二预设阈值的情况下,将所述第二意图集合中置信度最高的意图作为所述语音文本的意图;或者,
在确定所述第二意图集合所包含的意图的置信度都小于等于第二预设阈值的情况下,将所述第一意图集合中置信度最高的意图作为所述语音文本的意图;或者,
在确定所述第一意图集合所包含的意图的置信度都大于等于第一预设阈值,且所述第二意图集合所包含的意图的置信度都大于第二预设阈值的情况下,将所述第一意图集合和所述第二意图集合中置信度最高的意图作为所述语音文本的意图。
本申请实施例提供了决策出用户意图的多种方式,提升意图识别的召回率。
根据第一方面的第六种可能的实现方式,所述第一预设阈值、所述第二预设阈值被设置为分别与对应的技能类别相匹配。
本实施例可以分别设置不同的技能类别分别对应有各自的置信度阈值,以适应不同的技能类别所对应的置信度特征。
第二方面,本申请的实施例提供了一种生成意图识别模型的方法。
根据第二方面,在第一种可能的实现方式中,包括:
获取第三方用户选取的预设技能类别;
获取所述预设技能类别所对应的基准意图识别模型及其模型训练数据;
获取来自于所述第三方用户的与所述预设技能类别相匹配的第三方样本数据;
利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成第三方意图识别模型,所述第三方意图识别模型为对应于所述第三方用户的意图识别模型。
根据第二方面的第一种可能的实现方式,所述获取与所述预设技能类别相匹配的第三方样本数据,包括:
获取第三方用户增加的第三方意图和所述第三方意图对应的第三方样本数据,所述第三方意图与所述预设技能类别相匹配,或者,
获取第三方用户在所述预设意图对应的基准样本数据的基础上增加的样本数据。
根据第二方面的第二种可能的实现方式,所述利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型,包括:
获取第三方用户的用户标识;
将所述用户标识与所述第三方样本数据关联;
利用所述模型训练数据和关联所述用户标识的所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
根据第二方面的第三种可能的实现方式,所述用户标识包括所述第三方用户对应的品牌名称、APP名称、产品名称中的至少一种。
根据第二方面的第四种可能的实现方式,在所述生成第三方意图识别模型之后,还包括:
获取语音信号对应的语音文本;
将所述语音文本分别输入至至少一个基准意图识别模型和至少一个第三方意图识别模型中,经所述至少一个基准意图识别模型输出第一意图集合,经所述至少一个第三方意图识别模型输出第二意图集合;
根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图。
第三方面,本申请的实施例提供了一种确定用户意图的装置或系统。
根据第三方面,在第一种可能的实现方式中,所述装置或系统(所述系统可以是一个软件平台,如下文中提到的开放平台)可以包括:
语音识别模块,用于获取语音信号对应的语音文本;
对话管理模块,用于将所述语音文本分别输入至至少一个基准意图识别模型和至少一个第三方意图识别模型中,经所述至少一个基准意图识别模型输出第一意图集合,经所述至少一个第三方意图识别模型输出第二意图集合,其中,所述第三方意图识别模型基于相同技能类别的所述基准意图识别模型及其模型训练数据训练得到;以及,用于根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图。
根据第三方面的第一种可能的实现方式,所述第三方意图识别模型为按照下述方式训练得到:
获取预设技能类别的基准意图识别模型及所述基准意图识别模型的模型训练数据,所述模型训练数据至少包括多个预设意图及所述多个预设意图分别对应的基准样本数据、基准模型参数;
获取与所述预设技能类别相匹配的第三方样本数据;
利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
根据第三方面的第二种可能的实现方式,所述获取与所述预设技能类别相匹配的第三方样本数据,包括:
获取第三方用户增加的第三方意图和所述第三方意图对应的第三方样本数据,所述第三方意图与所述预设技能类别相匹配,或者,
获取第三方用户在所述预设意图对应的基准样本数据的基础上增加的样本数据。
根据第三方面的第三种可能的实现方式,所述利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型,包括:
获取第三方用户的用户标识;
将所述用户标识与所述第三方样本数据关联;
利用所述模型训练数据和关联所述用户标识的所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
根据第三方面的第四种可能的实现方式,所述用户标识包括所述第三方用户对应的品牌名称、APP名称、产品名称中的至少一种。
根据第三方面的第五种可能的实现方式,所述根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图,包括:
在确定所述第一意图集合所包含的意图的置信度都小于等于第一预设阈值,且所述第二意图集合所包含的意图的置信度都大于第二预设阈值的情况下,将所述第二意图集合中置信度最高的意图作为所述语音文本的意图;或者,
在确定所述第二意图集合所包含的意图的置信度都小于等于第二预设阈值的情况下,将所述第一意图集合中置信度最高的意图作为所述语音文本的意图;或者,
在确定所述第一意图集合所包含的意图的置信度都大于等于第一预设阈值,且所述第二意图集合所包含的意图的置信度都大于第二预设阈值的情况下,将所述第一意图集合和所述第二意图集合中置信度最高的意图作为所述语音文本的意图。
根据第三方面的第六种可能的实现方式,所述第一预设阈值、所述第二预设阈值被设置为分别与对应的技能类别相匹配。
第四方面,本申请的实施例提供了一种生成意图识别模型的装置或系统(所述系统可以是一个软件系统)。
根据第四方面,在第一种可能的实现方式中,包括:
技能类别获取模块,用于获取第三方用户选取的预设技能类别;
模型获取模块,用于获取所述预设技能类别所对应的基准意图识别模型及其模型训练数据;
样本获取模块,用于获取来自于所述第三方用户的与所述预设技能类别相匹配的第三方样本数据;
模型生成模块,用于利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成第三方意图识别模型,所述第三方意图识别模型为对应于所述第三方用户的意图识别模型。
根据第四方面的第一种可能的实现方式,所述获取与所述预设技能类别相匹配的第三方样本数据,包括:
获取第三方用户增加的第三方意图和所述第三方意图对应的第三方样本数据,所述第三方意图与所述预设技能类别相匹配,或者,
获取第三方用户在所述预设意图对应的基准样本数据的基础上增加的样本数据。
根据第四方面的第二种可能的实现方式,所述利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型,包括:
获取第三方用户的用户标识;
将所述用户标识与所述第三方样本数据关联;
利用所述模型训练数据和关联所述用户标识的所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
根据第四方面的第三种可能的实现方式,所述用户标识包括所述第三方用户对应的品牌名称、APP名称、产品名称中的至少一种。
根据第四方面的第四种可能的实现方式,还包括:
语音识别模块,用于获取语音信号对应的语音文本;
对话管理模块,用于将所述语音文本分别输入至至少一个基准意图识别模型和至少一个第三方意图识别模型中,经所述至少一个基准意图识别模型输出第一意图集合,经所述至少一个第三方意图识别模型输出第二意图集合;以及,用于根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图。
第五方面,本申请的实施例提供了一种终端设备,包括:
处理器;用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令使得所述终端设备实现上述第一/二方面或者第一/二方面的多种可能的实现方式中的一种或几种的方法。
第六方面,本申请的实施例提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行上述第一/二方面或者第一/二方面的多种可能的实现方式中的一种或几种的方法。
第七方面,本申请的实施例提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行上述第一/二方面或者第一/二方面的多种可能的实现方式中的一种或几种的方法。
第八方面,本申请实施例提供一种芯片,该芯片包括至少一个处理器,该处理器用于运行存储器中存储的计算机程序或计算机指令,以执行上述各方面任一项可能的实现中的方法。
可选的,该芯片还可以包括存储器,该存储器用于存储计算机程序或计算机指令。可选的,该芯片还可以包括通信接口,用于与芯片以外的其他模块进行通信。
可选的,一个或多个芯片可以构成芯片系统。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。
图1示出根据本申请一实施例的场景示例图。
图2示出根据本申请一实施例的场景示例图。
图3示出根据本申请一实施例的场景示例图。
图4示出根据本申请一实施例的场景示例图。
图5示出根据本申请一实施例的确定用户意图的方法流程图。
图6示出根据本申请一实施例的确定用户意图的方法流程图。
图7示出根据本申请一实施例的终端设备的结构示意图。
具体实施方式
以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
为了清楚地示出本申请实施例所提供的确定用户意图的方法,下面通过一个具体的应用场景说明技术方案。
在该示例性的场景中,用户的搜索意图是希望利用XX搜索周边好吃的饺子,其中,XX可以是某应用程序的名称。于是,在步骤1中,用户通过语音助手发送语音信号。所述语音助手例如可以包括具有麦克风和通信模块的设备,如智能手机、音箱、计算机、智能穿戴设备等等。所述语音助手在接收到所述语音信号之后,可以将所述语音信号发送至语音识别模块。所述语音识别模块用于识别出所述语音信号对应的语音文本,例如,所述语音识别模块识别出所述语音信号所对应的语音文本为“用XX搜最近好吃的饺子”。在步骤2中,所述语音识别模块可以将所述语音文本发送至对话管理模块。所述对话管理模块用于确定所述语音信号所对应的用户意图。基于本申请实施例所提供的技术方案,步骤3和步骤4中,所述对话管理模块可以将所述语音文本发送至至少一种基准意图识别模型和至少一个第三方意图识别模型中,所述意图识别模型和所述第三方意图识别模型例如可以包括NLU(NaturalLanguage Understanding,自然语言理解)模型。
本申请实施例中,智能语音交互平台可以提供多种预设技能类别的基准意图识别模型,如图1和图2所示,所述基准意图识别模型可以包括美食类基准意图识别模型、音乐类基准意图识别模型、酒店类基准意图识别模型、火车票类基准意图识别模型、天气类基准意图识别模型、机票类基准意图识别模型等等。所述预设技能类别可以包括以下中的至少一项:美食类(或称之为查询美食类,本文中其他相似处可以进行类似理解)、音乐类、酒店类、火车票类、天气类、机票类等。基于所述智能语音交互平台所提供的多种预设技能类别的基准意图识别模型,第三方平台或第三方用户(即第三方平台的开发者或维护者)可以开发自定义的第三方意图识别模型。例如,对于第三方用户,如提供美食服务的A方和B方,可以在所述美食类基准意图识别模型的基础上训练得到A方和B方自己的美食类意图识别模型,而不需要开发带有自定义的技能唤醒词的技能触发方式(如不需要开发对应于美食类的技能唤醒词)。对于提供旅游出行服务的C方,涉及到的服务项目包括美食、酒店、火车票、机票等等,基于此,C方可以在美食、酒店、火车票、机票等多个基准意图识别模型的基础上分别训练得到C方自己在多个服务项目上的意图识别模型。
图3示出了根据基准意图识别模型训练得到第三方意图识别模型的示意图。如图3所示,第三方平台可以提供预设技能类别所对应的样本数据,例如,A方或者B方可以提供美食类样本数据,C方可以提供美食类、酒店类、火车票类、机票类样本数据。这样,在获取到第三方提供的样本数据之后,可以在所述基准意图识别模型的基础上,增加第三方所提供的样本数据,对所述基准意图识别模型进行训练,生成所述第三方意图识别模型。本申请实施例中,在训练过程中,可以保留所述基准意图识别模型的模型训练数据,所述模型训练数据可以包括:训练样本数据集、模型参数、验证样本数据集等等。这样,在增加第三方所提供的样本数据之后,可以对所述基准意图识别模型进行微调(Fine-Tuning)以生成所述第三方意图识别模型。本申请实施例中,基于生成所述第三方意图识别模型的方式,同一个预设技能类别可以对应于多个第三方意图识别模型,如图1所示,所述美食类三方意图识别模型可以包括A方美食类意图识别模型、B方美食类意图识别模型、C方美食类意图识别模型等等,所述天气类三方意图识别模型可以包括C方天气类意图识别模型和F方天气类意图识别模型。
步骤5和步骤6中,将所述语音文本“用XX搜最近好吃的饺子”输入至至少一个基准意图识别模型之后,经所述至少一个基准意图识别模型输出第一意图集合,所述第一意图集合中可以包括多个意图及各个意图分别对应的置信度。将所述语音文本输入至少一个第三方意图识别模型之后,经所述至少一个第三方意图识别模型输出第二意图集合,所述第二意图集合中也可以包括多个意图及各个意图分别对应的置信度。所述第一意图集合中的意图可以包括所述至少一个基准意图识别模型所输出的置信度最高的预定数量的意图,所述第二意图集合中的意图可以包括所述至少一个第三方意图识别模型所输出的置信度最高的预定数量的意图。
所述对话管理模块在获取到所述第一意图集合和所述第二意图集合之后,可以从所述第一意图集合和所述第二意图集合中确定出最终的用户意图。在本申请的一个实施例中,在确定所述第一意图集合所包含的意图的置信度都小于等于第一预设阈值,且所述第二意图集合所包含的意图的置信度都大于第二预设阈值的情况下,将所述第二意图集合中置信度最高的意图作为所述语音文本的意图。在本申请的另一个实施例中,在确定所述第二意图集合所包含的意图的置信度都小于等于第二预设阈值的情况下,将所述第一意图集合中置信度最高的意图作为所述语音文本的意图。在本申请的另一个实施例中,在确定所述第一意图集合所包含的意图的置信度都大于等于第一预设阈值,且所述第二意图集合所包含的意图的置信度都大于第二预设阈值的情况下,将所述第一意图集合和所述第二意图集合中置信度最高的意图作为所述语音文本的意图。例如,所述对话管理模块在根据上述方式确定出最终的用户意图为利用XX APP推荐美食。
如图1所示,所述对话管理模块在确定所述语音文本对应的用户意图之后,步骤7中,可以将所述用户意图输入至所述意图实现配置模块。所述意图实现配置模块可以确定所述用户意图的实现方式,例如,可以向所述对话管理模块提供连接至第三方平台的API或者跳转链接等。所述对话管理模块在接收到API或者跳转链接之后,步骤9中,可以在第三方平台对应的APP中展示相关页面。
图4为本申请实施例所涉及到的功能模块,这些功能模块可以包括:
1)硬件方面,可以包括麦克风或者麦克风阵列。
所述麦克风或者麦克风阵列可以设置于语音助手设备中,所述麦克风或者麦克风阵列不仅可以获取声音信号,还可以对声源方向的声音进行加强,对非声源方向的噪声进行抑制。
另外,还可以通过摄像头+麦克风阵列进行配合的方式,可以实现对声音的定向消噪。
2)本地处理,可以包括信号处理模块。
所述信号处理模块不仅对获取到的语音信号进行放大、滤波等处理,还可以在确定出声源位置之后,确定出声源的角度,进而对麦克风或者麦克风阵列的声音拾取进行控制,以便实现定向消噪。
3)云端处理,即,在云端实现,当然也可以是本地处理,这可以根据设备自身的处理能力以及使用环境等确定。当然在云端实现的话,借助大数据对算法模型进行更新和调整,可以有效提升语音识别、自然语音理解和对话管理的准确性。
云端处理可以涉及在云端实现以下模块中的至少一个模块的功能:语音识别模块、对话管理模块、意图识别模块和意图实现配置模块等,其中,
所述语音识别模块主要用于识别出获取到的语音信号的语音文本。例如,获取了一段语音,需要理解其含义,那么需要先知道这段语音具体的文本内容,这个过程就需要借助语音识别模块将语音信号转换为语音文本。
对于机器而言,文字还是文字本身,需要确定出文字所表达的含义,那么就需要通过确定出语音文本对应的自然含义,这样才能识别出用户语音的意图。而对话管理模块的目的,就是为了实现与用户的有效交流,以获取执行操作所需的信息。在本申请实施例中,所述对话管理模块可以用于调用意图识别模块获取意图集合和意图的置信度,并根据意图集合和其中的意图的置信度决策出最终意图,以及根据意图和意图所属的技能类别调用意图实现配置模块获取意图的实现方式。
对于具体的语音识别模块、对话管理模块、意图识别模块和意图实现配置模块中的一个或多个模块所对应的功能,可以在云端处理(即通过服务器来实现,如云服务器来实现),也可以是在本地处理(如:在终端设备上实现,而非通过服务器来实现),这可以根据设备自身的处理能力以及使用环境等确定。当然在云端处理的话,借助大数据对算法模型进行更新和调整,可以有效提升语音识别、自然语音理解和对话管理的准确性。
下面结合附图对本申请所述的确定用户意图方法进行详细的说明。图5是本申请提供的确定用户意图方法的一种实施例的方法流程示意图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际中的确定用户意图过程中或者装置执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
如图5所示,在本申请的一个实施例中,所述方法可以包括:
S501:获取语音信号对应的语音文本。
本申请实施例中,用户可以通过语音助手发送语音信号。所述语音助手例如可以包括具有麦克风和通信模块的设备,如智能手机、音箱、计算机、智能穿戴设备等等。所述语音助手在接收到所述语音信号之后,可以将所述语音信号发送至本地的或者云端的语音识别模块。所述语音识别模块可以识别出所述语音信号对应的语音文本。所述语音识别模块例如可以包括自动语音识别(Automatic Speech Recognition,ASR)模块。
S502:将所述语音文本分别输入至至少一个基准意图识别模型和至少一个第三方意图识别模型中,经所述至少一个基准意图识别模型输出第一意图集合,经所述至少一个第三方意图识别模型输出第二意图集合,其中,所述第三方意图识别模型基于相同技能类别的所述基准意图识别模型及其模型训练数据训练得到。
本申请实施例中,所述第三方意图识别模型被设置为基于相同技能类别的所述基准意图识别模型及其模型训练数据训练得到。所述技能类别例如包括音乐技能、视频技能、美食技能、天气技能、机票技能等等。也就是说,如果需要训练得到美食类的第三方意图识别模型,则需要在美食类的基准意图识别模型的基础上训练,如果需要训练得到音乐类的第三方意图识别模型,则需要在音乐类的基准意图识别模型的基础上训练。在本申请实施例中,可以向第三方用户提供多种技能类别的基准意图识别模型。
在本申请的一个实施例中,所述第三方意图识别模型可以按照下述方式训练得到:
SS1:获取预设技能类别的基准意图识别模型及所述基准意图识别模型的模型训练数据,所述模型训练数据至少包括多个预设意图及所述多个预设意图分别对应的基准样本数据、基准模型参数;
SS3:获取与所述预设技能类别相匹配的第三方样本数据;
SS5:利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
下面结合图6说明上述实施例,如图6所示,可以向第三方用户(此处也可理解为第三方平台)提供训练意图识别模型的开放平台,所述开放平台可以包括所述智能语音交互平台,第三方用户可以在所述开放平台上训练得到第三方意图识别模型。基于此,如图6的步骤1所示,第三方首先需要确定所要训练的意图识别模型的技能类别。步骤2中,开放平台在获取到第三方确定的预设技能类别之后,可以获取到所述预设技能类别的基准意图识别模型及所述基准意图识别模型的模型训练数据。在本申请实施例中,可以设置有存储基准意图识别模型和第三方意图识别模型的区域,基于此,所述开放平台可以从所述区域中获取所需的基准意图识别模型及其模型训练数据。所述模型训练数据至少可以包括多个预设意图及所述多个预设意图分别对应的基准样本数据、基准模型参数。表1展示了美食类基准意图识别模型所包括的几个预设意图及相关信息。如表1所示,所述预设意图的信息可以包括意图唯一标识、意图名、实现方式、操作等等。所述预设意图对应的基准样本数据可以包括训练所述预设意图所使用的语料等等,例如,对于“叫外卖”而言,对应的语料例如可以包括“帮我点个外卖”、“我想点炸鸡”、“帮我点杯咖啡”等等。当然,所述基准样本数据还可以包括所述基准样本数据对应的槽位标识、槽位词典、槽位值等中的至少一种信息。例如,对于“上海今天天气怎么样?”这一语料,可以标注出对应的槽位和槽位值可以包括“城市=上海”、“时间=今天”。通过在样本数据中标注对应的槽位信息,可以增强所述基准意图识别模型和所述第三方意图识别模型的槽位预测能力。
表1美食类基准意图识别模型的预设意图信息表
意图标识 意图名 实现方式 操作
ORDER_TAKEOUT 叫外卖 Deeplink 修改
SEARCH_CATE 搜美食 RESTful API 修改
BOOK_RESTAURANT 找餐厅 RESTful API 修改
本申请实施例中,如图6的步骤3所示,第三方用户可以向所述开放平台提供第三方样本数据。在本申请的一个实施例中,在所述基准意图识别模型所包含的多个预设意图的基础上,所述第三方用户可以增加自定义的第三方意图和所述第三方意图对应的第三方样本数据,其中,所述第三方意图需要与所述预设技能类别相匹配。在一个示例中,在表1所示的美食类基准意图识别模型提供的预设意图的基础上,第三方用户可以增加自定义的其他美食类的预设意图,例如,增加“搜美食折扣券”的第三方意图,如下表2所示,形成的美食类第三方意图识别模型可以包括下述意图,其中,增加的第三方意图可以设置有用户自定义的意图标识、意图名和实现方式。当然,第三方用户增加第三方意图之后,还需要提供与所述第三方意图对应的第三方样本数据,例如,对于第三方意图“搜美食折扣券”来说,增加的第三方样本数据例如可以包括“有什么咖啡优惠券吗”、“XX品牌的炸鸡有折扣吗”等等。
表2美食类第三方意图识别模型的意图信息表
在本申请实施例中,可以设置第三方用户不可删除所述基准意图识别模型所包含的预设意图,这样,不仅可以防止第三方意图识别模型对本平台的基准意图识别模型的意图造成污染,同时基于成熟的基准意图识别模型训练开发,还可以降低第三方开发意图的难度和提升第三方意图识别模型的解析能力。但是,在本申请的一个实施例中,第三方用户可以对预设意图执行修改操作,修改的范围例如可以包括修改意图名或者增加所述预设意图的样本数据。在一个示例中,第三方用户发现开放平台提供的预设意图“叫外卖”对应的基准样本数据不够丰富或者不涉及到第三方用户自己的特色产品,基于此,第三方用户可以提供一些第三方样本数据以丰富样本数据的数量,例如可以增加包含第三方用户特色产品名称的样本数据。
需要说明的是,开放平台还可以对所述第三方用户提供的第三方意图、第三方样本数据进行审核,使得第三方用户提供的意图或者样本数据与选取的技能类别相匹配。在一个示例中,在训练美食类的第三方意图识别模型的过程中,第三方用户增加第三方意图“打开音乐”,开放平台在审核出该第三方意图明显与对应的美食技能类别不相匹配的情况下,可以向所述第三方用户提出反馈。同样地,开放平台还可以审核第三方用户提供的样本数据,在确定对应的样本数据与对应的技能类别不相匹配的情况下,也可以向所述第三方用户提出反馈。
如图6中的步骤4所示,所述开放平台可以利用所述基准意图识别模型的所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。在本申请的一个实施例中,可以采用微调(Fine-Tuning)算法对所述基准意图识别模型训练,具体地,可以只调整所述基准意图识别模型的部分网络层,如只调整最后一个网络层。这种方式比较适用于第三方用户提供的样本数据数量有限的情况下,通过这种方式,可以快速训练得到第三方意图识别模型。当然,在其他实施例中,还可以对所述基准意图识别模型重新训练,尤其适用于第三方用户提供的样本数据的数量较多的情况,本申请在此不做限制。
在实际应用环境下,用户(为普通用户,区别于本文中提到的第三方用户)发送的语音指令很多情况下是包含某些第三方(此处也可称之为第三方平台或第三方用户)的用户标识的,例如“点杯XX咖啡”(其中XX为咖啡品牌)、“用XX搜索最近好吃的饺子”(其中XX为美食类应用程序)、“打开XX音乐”(其中XX为音乐播放应用程序)等等。基于此,在本申请的一个实施例中,可以在训练所述第三方意图识别模型的过程中,将所述第三方样本数据与第三方用户的用户标识相关联。所述用户标识例如包括所述第三方用户的品牌名称、APP名称、产品名称中的至少一种。在实际应用环境中,开放平台难以要求第三方用户提供的每个样本数据中都包含对应的用户标识,尤其在样本数据数量较多的情况下。基于此,在本申请的一个实施例中,可以先获取第三方用户所提供的用户标识。在训练模型的过程中,可以自动将所述用户标识分别与每个所述第三方样本数据关联。关联的方式例如可以包括将所述用户标识添加至所述第三方样本数据中。然后,可以利用所述模型训练数据和关联所述用户标识的所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
如图6所示的步骤5中,在训练生成所述第三方意图识别模型之后,可以将所述第三方意图识别模型存储至所述意图识别模型集合中。这样,在所述意图识别模型集合中,对于相同的技能类别,可以包括多个不同的第三方用户所训练生成的第三方意图识别模型。
基于以上各个训练生成所述第三方意图识别模型的实施例,在将所述语音文本分别输入至至少一个基准意图识别模型和至少一个第三方意图识别模型中,可以经所述至少一个基准意图识别模型输出第一意图集合,经所述至少一个第三方意图识别模型输出第二意图集合。所述第一意图集合和所述第二意图集合中分别包括识别出的多个意图及各个意图的置信度。在本申请实施例中,由于涉及到的意图数量较多,因此,所述第一意图集合和所述第二意图集合中包含的意图数量可以小于等于预设数量。例如,所述第一意图集合中可以包括所述至少一个基准意图识别模型识别出的置信度最高的M个意图,M可以设置为5、10、20等,本申请在此不做限制。所述第二意图集合可以包括所述至少一个第三方意图识别模型识别出的置信度最高的N个意图,N可以设置为20、50、80等,本申请在此不做限制。
S503:根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图。
本申请实施例中,在获取到所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度之后,可以确定出所述语音文本对应的意图。
在本申请的一个实施例中,在确定所述第一意图集合所包含的意图的置信度都小于等于第一预设阈值,且所述第二意图集合所包含的意图的置信度都大于第二预设阈值的情况下,将所述第二意图集合中置信度最高的意图作为所述语音文本的意图。在本申请的另一个实施例中,在确定所述第二意图集合所包含的意图的置信度都小于等于第二预设阈值的情况下,将所述第一意图集合中置信度最高的意图作为所述语音文本的意图。在本申请的另一个实施例中,在确定所述第一意图集合所包含的意图的置信度都大于等于第一预设阈值,且所述第二意图集合所包含的意图的置信度都大于第二预设阈值的情况下,将所述第一意图集合和所述第二意图集合中置信度最高的意图作为所述语音文本的意图。
在本申请实施例中,所述第一预设阈值和所述第二预设阈值可以用于筛选出置信度较高的意图,排除一些置信度很低的意图。所述第一预设阈值和所述第二预设阈值被设置为分别与对应的技能类别相匹配。在一个示例中,对于美食类的意图,所述第一预设阈值可以设置为a,所述第二预设阈值可以设置为b,例如,a为0.75,b为0.7。另一方面,对于音乐类的意图,所述第一预设阈值可以设置为c,所述第二预设阈值可以设置为d。所述第一预设阈值和所述第二预设阈值的取值可以根据意图识别模型的性能等因素确定,本申请在此不做限制。
本申请实施例中,在确定所述语音文本对应的用户意图之后,可以实现所述用户意图。如表1和表2所示,在本申请实施例中,可以预先定义各个意图的实现方式,所述实现方式可以包括下述中的至少一种:Deeplink、RESTful API、返回所需文本等等。例如,识别出用户的意图是XX APP的叫外卖意图,那么可以通过Deeplink方式在用户界面中展示XXAPP中的点外卖页面,或者利用RESTful API方式在用户界面中展示一个跳转链接等等。当然,还可以在用户界面中直接展示用户所需的信息,例如,用户想要知道天气信息,那么在获取到天气信息后,可以利用文本或者卡片的形式在用户界面中展示对应的天气信息。
本申请各个实施例所提供的确定用户意图的方法,能够利用至少一个基准意图识别模型和至少一个三方意图识别模型对用户的语音文本进行识别,其中,所述第三方意图识别模型基于相同技能类别的所述基准意图识别模型及其模型训练数据训练得到。由此可见,本申请实施例中,可以向第三方用户提供训练意图识别模型的条件,第三方用户可以在预设技能类别的基准意图识别模型的基础上训练得到属于第三方用户自己的意图识别模型,增强了第三方用户自定义意图的扩展性。另一方面,从用户的角度来说,利用多个意图识别模型识别用户的语音文本,能够帮助用户召回得到准确率较高的意图,优化用户的使用体验。
本申请另一方面还提供一种生成意图识别模型的方法,包括:
获取第三方用户选取的预设技能类别;
获取所述预设技能类别所对应的基准意图识别模型及其模型训练数据;
获取来自于所述第三方用户的与所述预设技能类别相匹配的第三方样本数据;
利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成第三方意图识别模型,所述第三方意图识别模型为对应于所述第三方用户的意图识别模型。
可选的,在本申请的一个实施例中,所述获取与所述预设技能类别相匹配的第三方样本数据,包括:
获取第三方用户增加的第三方意图和所述第三方意图对应的第三方样本数据,所述第三方意图与所述预设技能类别相匹配,或者,
获取第三方用户在所述预设意图对应的基准样本数据的基础上增加的样本数据。
可选的,在本申请的一个实施例中,所述利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型,包括:
获取第三方用户的用户标识;
将所述用户标识与所述第三方样本数据关联;
利用所述模型训练数据和关联所述用户标识的所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
可选的,在本申请的一个实施例中,所述用户标识包括所述第三方用户对应的品牌名称、APP名称、产品名称中的至少一种。
可选的,在本申请的一个实施例中,在所述生成第三方意图识别模型之后,还包括:
获取语音信号对应的语音文本;
将所述语音文本分别输入至至少一个基准意图识别模型和至少一个第三方意图识别模型中,经所述至少一个基准意图识别模型输出第一意图集合,经所述至少一个第三方意图识别模型输出第二意图集合;
根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图。
上述各个实施例的实施方式可以参考说明书中对于相关内容的说明,在此不再赘述。
对应于上述确定用户意图的方法,本申请另一方面还提供一种确定用户意图的装置,所述装置包括:
语音识别模块,用于获取语音信号对应的语音文本;
对话管理模块,用于将所述语音文本分别输入至至少一个基准意图识别模型和至少一个第三方意图识别模型中,经所述至少一个基准意图识别模型输出第一意图集合,经所述至少一个第三方意图识别模型输出第二意图集合,其中,所述第三方意图识别模型基于相同技能类别的所述基准意图识别模型及其模型训练数据训练得到;以及,用于根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图。
可选的,在本申请的一个实施例中,所述第三方意图识别模型为按照下述方式训练得到:
获取预设技能类别的基准意图识别模型及所述基准意图识别模型的模型训练数据,所述模型训练数据至少包括多个预设意图及所述多个预设意图分别对应的基准样本数据、基准模型参数;
获取与所述预设技能类别相匹配的第三方样本数据;
利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
可选的,在本申请的一个实施例中,所述获取与所述预设技能类别相匹配的第三方样本数据,包括:
获取第三方用户增加的第三方意图和所述第三方意图对应的第三方样本数据,所述第三方意图与所述预设技能类别相匹配,或者,
获取第三方用户在所述预设意图对应的基准样本数据的基础上增加的样本数据。
可选的,在本申请的一个实施例中,所述利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型,包括:
获取第三方用户的用户标识;
将所述用户标识与所述第三方样本数据关联;
利用所述模型训练数据和关联所述用户标识的所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
可选的,在本申请的一个实施例中,所述用户标识包括所述第三方用户对应的品牌名称、APP名称、产品名称中的至少一种。
可选的,在本申请的一个实施例中,所述根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图,包括:
在确定所述第一意图集合所包含的意图的置信度都小于等于第一预设阈值,且所述第二意图集合所包含的意图的置信度都大于第二预设阈值的情况下,将所述第二意图集合中置信度最高的意图作为所述语音文本的意图;或者,
在确定所述第二意图集合所包含的意图的置信度都小于等于第二预设阈值的情况下,将所述第一意图集合中置信度最高的意图作为所述语音文本的意图;或者,
在确定所述第一意图集合所包含的意图的置信度都大于等于第一预设阈值,且所述第二意图集合所包含的意图的置信度都大于第二预设阈值的情况下,将所述第一意图集合和所述第二意图集合中置信度最高的意图作为所述语音文本的意图。
可选的,在本申请的一个实施例中,所述第一预设阈值、所述第二预设阈值被设置为分别与对应的技能类别相匹配。
对应于上述生成意图识别模型的方法,本申请另一方面还提供一种生成意图识别模型的装置,所述装置包括:
技能类别获取模块,用于获取第三方用户选取的预设技能类别;
模型获取模块,用于获取所述预设技能类别所对应的基准意图识别模型及其模型训练数据;
样本获取模块,用于获取来自于所述第三方用户的与所述预设技能类别相匹配的第三方样本数据;
模型生成模块,用于利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成第三方意图识别模型,所述第三方意图识别模型为对应于所述第三方用户的意图识别模型。
可选的,在本申请的一个实施例中,所述获取与所述预设技能类别相匹配的第三方样本数据,包括:
获取第三方用户增加的第三方意图和所述第三方意图对应的第三方样本数据,所述第三方意图与所述预设技能类别相匹配,或者,
获取第三方用户在所述预设意图对应的基准样本数据的基础上增加的样本数据。
可选的,在本申请的一个实施例中,所述利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型,包括:
获取第三方用户的用户标识;
将所述用户标识与所述第三方样本数据关联;
利用所述模型训练数据和关联所述用户标识的所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
可选的,在本申请的一个实施例中,所述用户标识包括所述第三方用户对应的品牌名称、APP名称、产品名称中的至少一种。
可选的,在本申请的一个实施例中,还包括:
语音识别模块,用于获取语音信号对应的语音文本;
对话管理模块,用于将所述语音文本分别输入至至少一个基准意图识别模型和至少一个第三方意图识别模型中,经所述至少一个基准意图识别模型输出第一意图集合,经所述至少一个第三方意图识别模型输出第二意图集合;以及,用于根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图。
本申请的实施例提供了一种终端设备,如图7所示,所述终端设备包括:处理器以及用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令使得所述终端设备实现上述方法。
本申请的实施例提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。
本申请的实施例提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述方法。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器(Electrically Programmable Read-Only-Memory,EPROM或闪存)、静态随机存取存储器(Static Random-Access Memory,SRAM)、便携式压缩盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能盘(Digital Video Disc,DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
这里所描述的计算机可读程序指令或代码可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(Instruction Set Architecture,ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(Local Area Network,LAN)或广域网(WideArea Network,WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(Field-ProgrammableGate Array,FPGA)或可编程逻辑阵列(Programmable Logic Array,PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本申请的多个实施例的装置、系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行相应的功能或动作的硬件(例如电路或ASIC(Application SpecificIntegrated Circuit,专用集成电路))来实现,或者可以用硬件和软件的组合,如固件等来实现。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其它变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其它单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (27)

1.一种确定用户意图的方法,其特征在于,包括:
获取语音信号对应的语音文本;
将所述语音文本分别输入至至少一个基准意图识别模型和至少一个第三方意图识别模型中,经所述至少一个基准意图识别模型输出第一意图集合,经所述至少一个第三方意图识别模型输出第二意图集合,其中,所述第三方意图识别模型基于相同技能类别的所述基准意图识别模型、所述基准意图识别模型的模型训练数据、第三方样本数据训练得到;
根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图。
2.根据权利要求1所述的方法,其特征在于,所述第三方意图识别模型为按照下述方式训练得到:
获取预设技能类别的基准意图识别模型及所述基准意图识别模型的模型训练数据,所述模型训练数据至少包括多个预设意图及所述多个预设意图分别对应的基准样本数据、基准模型参数;
获取与所述预设技能类别相匹配的第三方样本数据;
利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
3.根据权利要求2所述的方法,其特征在于,所述获取与所述预设技能类别相匹配的第三方样本数据,包括:
获取第三方用户增加的第三方意图和所述第三方意图对应的第三方样本数据,所述第三方意图与所述预设技能类别相匹配,或者,
获取第三方用户在所述预设意图对应的基准样本数据的基础上增加的样本数据。
4.根据权利要求2所述的方法,其特征在于,所述利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型,包括:
获取第三方用户的用户标识;
将所述用户标识与所述第三方样本数据关联;
利用所述模型训练数据和关联所述用户标识的所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
5.根据权利要求4所述的方法,其特征在于,所述用户标识包括所述第三方用户对应的品牌名称、APP名称、产品名称中的至少一种。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图,包括:
在确定所述第一意图集合所包含的意图的置信度都小于等于第一预设阈值,且所述第二意图集合所包含的意图的置信度都大于第二预设阈值的情况下,将所述第二意图集合中置信度最高的意图作为所述语音文本的意图;或者,
在确定所述第二意图集合所包含的意图的置信度都小于等于第二预设阈值的情况下,将所述第一意图集合中置信度最高的意图作为所述语音文本的意图;或者,
在确定所述第一意图集合所包含的意图的置信度都大于等于第一预设阈值,且所述第二意图集合所包含的意图的置信度都大于第二预设阈值的情况下,将所述第一意图集合和所述第二意图集合中置信度最高的意图作为所述语音文本的意图。
7.根据权利要求6所述的方法,其特征在于,所述第一预设阈值、所述第二预设阈值被设置为分别与对应的技能类别相匹配。
8.一种生成意图识别模型的方法,其特征在于,包括:
获取第三方用户选取的预设技能类别;
获取所述预设技能类别所对应的基准意图识别模型及其模型训练数据;
获取来自于所述第三方用户的与所述预设技能类别相匹配的第三方样本数据;
利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成第三方意图识别模型,所述第三方意图识别模型为对应于所述第三方用户的意图识别模型。
9.根据权利要求8所述的方法,其特征在于,所述获取与所述预设技能类别相匹配的第三方样本数据,包括:
获取第三方用户增加的第三方意图和所述第三方意图对应的第三方样本数据,所述第三方意图与所述预设技能类别相匹配,或者,
获取第三方用户在预设意图对应的基准样本数据的基础上增加的样本数据。
10.根据权利要求8所述的方法,其特征在于,所述利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型,包括:
获取第三方用户的用户标识;
将所述用户标识与所述第三方样本数据关联;
利用所述模型训练数据和关联所述用户标识的所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
11.根据权利要求10所述的方法,其特征在于,所述用户标识包括所述第三方用户对应的品牌名称、APP名称、产品名称中的至少一种。
12.根据权利要求8所述的方法,其特征在于,在所述生成第三方意图识别模型之后,还包括:
获取语音信号对应的语音文本;
将所述语音文本分别输入至至少一个基准意图识别模型和至少一个第三方意图识别模型中,经所述至少一个基准意图识别模型输出第一意图集合,经所述至少一个第三方意图识别模型输出第二意图集合;
根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图。
13.一种确定用户意图的装置,其特征在于,包括:
语音识别模块,用于获取语音信号对应的语音文本;
对话管理模块,用于将所述语音文本分别输入至至少一个基准意图识别模型和至少一个第三方意图识别模型中,经所述至少一个基准意图识别模型输出第一意图集合,经所述至少一个第三方意图识别模型输出第二意图集合,其中,所述第三方意图识别模型基于相同技能类别的所述基准意图识别模型、所述基准意图识别模型的模型训练数据、第三方样本数据训练得到;以及,用于根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图。
14.根据权利要求13所述的装置,其特征在于,所述第三方意图识别模型为按照下述方式训练得到:
获取预设技能类别的基准意图识别模型及所述基准意图识别模型的模型训练数据,所述模型训练数据至少包括多个预设意图及所述多个预设意图分别对应的基准样本数据、基准模型参数;
获取与所述预设技能类别相匹配的第三方样本数据;
利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
15.根据权利要求14所述的装置,其特征在于,所述获取与所述预设技能类别相匹配的第三方样本数据,包括:
获取第三方用户增加的第三方意图和所述第三方意图对应的第三方样本数据,所述第三方意图与所述预设技能类别相匹配,或者,
获取第三方用户在所述预设意图对应的基准样本数据的基础上增加的样本数据。
16.根据权利要求14所述的装置,其特征在于,所述利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型,包括:
获取第三方用户的用户标识;
将所述用户标识与所述第三方样本数据关联;
利用所述模型训练数据和关联所述用户标识的所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
17.根据权利要求16所述的装置,其特征在于,所述用户标识包括所述第三方用户对应的品牌名称、APP名称、产品名称中的至少一种。
18.根据权利要求13所述的装置,其特征在于,所述根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图,包括:
在确定所述第一意图集合所包含的意图的置信度都小于等于第一预设阈值,且所述第二意图集合所包含的意图的置信度都大于第二预设阈值的情况下,将所述第二意图集合中置信度最高的意图作为所述语音文本的意图;或者,
在确定所述第二意图集合所包含的意图的置信度都小于等于第二预设阈值的情况下,将所述第一意图集合中置信度最高的意图作为所述语音文本的意图;或者,
在确定所述第一意图集合所包含的意图的置信度都大于等于第一预设阈值,且所述第二意图集合所包含的意图的置信度都大于第二预设阈值的情况下,将所述第一意图集合和所述第二意图集合中置信度最高的意图作为所述语音文本的意图。
19.根据权利要求18所述的装置,其特征在于,所述第一预设阈值、所述第二预设阈值被设置为分别与对应的技能类别相匹配。
20.一种生成意图识别模型的装置,其特征在于,包括:
技能类别获取模块,用于获取第三方用户选取的预设技能类别;
模型获取模块,用于获取所述预设技能类别所对应的基准意图识别模型及其模型训练数据;
样本获取模块,用于获取来自于所述第三方用户的与所述预设技能类别相匹配的第三方样本数据;
模型生成模块,用于利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成第三方意图识别模型,所述第三方意图识别模型为对应于所述第三方用户的意图识别模型。
21.根据权利要求20所述的装置,其特征在于,所述获取与所述预设技能类别相匹配的第三方样本数据,包括:
获取第三方用户增加的第三方意图和所述第三方意图对应的第三方样本数据,所述第三方意图与所述预设技能类别相匹配,或者,
获取第三方用户在预设意图对应的基准样本数据的基础上增加的样本数据。
22.根据权利要求20所述的装置,其特征在于,所述利用所述模型训练数据和所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型,包括:
获取第三方用户的用户标识;
将所述用户标识与所述第三方样本数据关联;
利用所述模型训练数据和关联所述用户标识的所述第三方样本数据训练所述基准意图识别模型,生成所述第三方意图识别模型。
23.根据权利要求22所述的装置,其特征在于,所述用户标识包括所述第三方用户对应的品牌名称、APP名称、产品名称中的至少一种。
24.根据权利要求20所述的装置,其特征在于,还包括:
语音识别模块,用于获取语音信号对应的语音文本;
对话管理模块,用于将所述语音文本分别输入至至少一个基准意图识别模型和至少一个第三方意图识别模型中,经所述至少一个基准意图识别模型输出第一意图集合,经所述至少一个第三方意图识别模型输出第二意图集合;以及,用于根据所述第一意图集合中意图的置信度和所述第二意图集合中意图的置信度确定所述语音文本的意图。
25.一种终端设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令使得所述终端设备实现权利要求1-7任意一项所述的方法,或者实现权利要求8-12任意一项所述的方法。
26.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1-7中任意一项所述的方法,或者,实现权利要求8-12任意一项所述的方法。
27.一种计算机程序产品,其特征在于,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行时实现权利要求1-7中任意一项所述的方法,或者,实现权利要求8-12任意一项所述的方法。
CN202011628131.6A 2020-12-31 2020-12-31 一种确定用户意图的方法及装置 Active CN114694645B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011628131.6A CN114694645B (zh) 2020-12-31 2020-12-31 一种确定用户意图的方法及装置
PCT/CN2021/140555 WO2022143349A1 (zh) 2020-12-31 2021-12-22 一种确定用户意图的方法及装置
EP21914086.0A EP4254400A4 (en) 2020-12-31 2021-12-22 Method and device for determining user intent

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011628131.6A CN114694645B (zh) 2020-12-31 2020-12-31 一种确定用户意图的方法及装置

Publications (2)

Publication Number Publication Date
CN114694645A CN114694645A (zh) 2022-07-01
CN114694645B true CN114694645B (zh) 2025-06-13

Family

ID=82134435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011628131.6A Active CN114694645B (zh) 2020-12-31 2020-12-31 一种确定用户意图的方法及装置

Country Status (3)

Country Link
EP (1) EP4254400A4 (zh)
CN (1) CN114694645B (zh)
WO (1) WO2022143349A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273848B (zh) * 2022-08-01 2025-10-28 Vidaa国际控股(荷兰)公司 一种显示设备及显示设备的控制方法
CN115859999B (zh) * 2022-12-09 2023-07-07 河北尚云信息科技有限公司 意图识别方法、装置、电子设备及存储介质
CN116189684B (zh) * 2023-01-10 2025-10-03 天津车之家软件有限公司 一种用户意图识别方法、系统、计算设备及存储介质
CN116955395A (zh) * 2023-03-02 2023-10-27 北京火山引擎科技有限公司 一种数据处理方法、装置、设备及介质
CN119557418B (zh) * 2024-11-12 2025-09-26 北京百度网讯科技有限公司 搜索方法及装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147445A (zh) * 2019-04-09 2019-08-20 平安科技(深圳)有限公司 基于文本分类的意图识别方法、装置、设备及存储介质
US10453117B1 (en) * 2016-06-29 2019-10-22 Amazon Technologies, Inc. Determining domains for natural language understanding

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102873310B1 (ko) * 2016-11-10 2025-10-20 삼성전자주식회사 음성 인식 장치 및 방법
EP3483746A1 (en) * 2017-11-09 2019-05-15 Snips Methods and devices for generating data to train a natural language understanding component
US10452782B1 (en) * 2018-02-20 2019-10-22 Facebook, Inc. Systems and methods for distributing intent models
CN109522556B (zh) * 2018-11-16 2024-03-12 北京九狐时代智能科技有限公司 一种意图识别方法及装置
CN109508376A (zh) * 2018-11-23 2019-03-22 四川长虹电器股份有限公司 可在线纠错更新的意图识别方法及装置
CN111292752B (zh) * 2018-12-06 2023-05-12 北京嘀嘀无限科技发展有限公司 一种用户意图识别方法、装置、电子设备及存储介质
CN110349575A (zh) * 2019-05-22 2019-10-18 深圳壹账通智能科技有限公司 语音识别的方法、装置、电子设备和存储介质
CN110473537B (zh) * 2019-08-22 2022-04-26 百度在线网络技术(北京)有限公司 语音技能的控制方法、装置、设备及存储介质
CN110888968A (zh) * 2019-10-15 2020-03-17 浙江省北大信息技术高等研究院 客服对话意图分类方法及装置、电子设备及介质
CN110956955B (zh) * 2019-12-10 2022-08-05 思必驰科技股份有限公司 一种语音交互的方法和装置
CN112148874A (zh) * 2020-07-07 2020-12-29 四川长虹电器股份有限公司 可自动新增用户潜在意图的意图识别方法及系统
CN112101044B (zh) * 2020-11-02 2021-11-12 北京淇瑀信息科技有限公司 一种意图识别方法、装置及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10453117B1 (en) * 2016-06-29 2019-10-22 Amazon Technologies, Inc. Determining domains for natural language understanding
CN110147445A (zh) * 2019-04-09 2019-08-20 平安科技(深圳)有限公司 基于文本分类的意图识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2022143349A1 (zh) 2022-07-07
EP4254400A4 (en) 2024-05-01
EP4254400A1 (en) 2023-10-04
CN114694645A (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN114694645B (zh) 一种确定用户意图的方法及装置
US11398236B2 (en) Intent-specific automatic speech recognition result generation
US10964310B2 (en) Method and device for performing voice recognition using grammar model
JP6771805B2 (ja) 音声認識方法、電子機器、及びコンピュータ記憶媒体
US20240153505A1 (en) Proactive command framework
US12142271B2 (en) Cross-device voiceprint recognition
US8972260B2 (en) Speech recognition using multiple language models
US11043205B1 (en) Scoring of natural language processing hypotheses
CN103035240B (zh) 用于使用上下文信息的语音识别修复的方法和系统
US8738375B2 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
CN111292733A (zh) 一种语音交互方法和装置
WO2014183373A1 (en) Systems and methods for voice identification
KR102409873B1 (ko) 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템
CN107808667A (zh) 声音识别装置以及声音识别方法
CN112581938B (zh) 基于人工智能的语音断点检测方法、装置和设备
US20240212687A1 (en) Supplemental content output
CN113851106A (zh) 音频播放方法、装置、电子设备和可读存储介质
US20170270923A1 (en) Voice processing device and voice processing method
JP7230085B2 (ja) 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN113707183B (zh) 一种视频中的音频处理方法及装置
CN113539234B (zh) 语音合成方法、装置、系统及存储介质
JP5196114B2 (ja) 音声認識装置およびプログラム
CN113744718A (zh) 语音文本的输出方法及装置、存储介质、电子装置
CN111640423A (zh) 一种词边界估计方法、装置及电子设备
US11069341B2 (en) Speech correction system and speech correction method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant