CN121034301A - 语音交互处理方法、装置、系统、智能门锁及云端服务器 - Google Patents
语音交互处理方法、装置、系统、智能门锁及云端服务器Info
- Publication number
- CN121034301A CN121034301A CN202511177336.XA CN202511177336A CN121034301A CN 121034301 A CN121034301 A CN 121034301A CN 202511177336 A CN202511177336 A CN 202511177336A CN 121034301 A CN121034301 A CN 121034301A
- Authority
- CN
- China
- Prior art keywords
- voice
- instruction
- door lock
- local
- cloud server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Lock And Its Accessories (AREA)
Abstract
本发明适用于智能门锁技术领域,提供了一种语音交互处理方法、装置、系统、智能门锁及云端服务器,方法包括接收用户发出的语音指令并进行本地识别,以得到本地识别结果及其置信度;当本地识别结果匹配本地指令集且置信度高时,执行与本地识别结果对应的本地操作;否则,基于从语音指令中提取的声纹生物特征,建立与云端服务器的安全通信会话;通过安全通信会话,将语音指令发送至云端服务器,并接收由云端服务器返回的云端操作指令及/或动态响应文本;根据云端操作指令执行相应操作,及/或通过文本转语音引擎将动态响应文本转换为语音进行播报。本发明解决了现有智能门锁语音交互技术在实时性、可靠性、安全性和交互智能化之间难以平衡的问题。
Description
技术领域
本发明涉及智能门锁技术领域,特别涉及一种语音交互处理方法、装置、系统、智能门锁及云端服务器。
背景技术
随着物联网(IoT)技术和人工智能(AI)的飞速发展,智能家居设备日益普及,其中智能门锁作为家庭安防的第一道屏障,其功能已从传统的钥匙开锁、密码指纹解锁,逐步向更高阶的智能化、交互化方向演进。语音交互作为一种自然、便捷、非接触的交互方式,正逐渐被应用于智能门锁中。
当前,应用于智能门锁的语音识别和控制技术方案主要存在以下固有缺陷:
纯本地离线方案:将语音识别模型和指令集固化在门锁的嵌入式芯片中,所有语音处理均在门锁的本地处理器上完成。该方案的优点是响应速度快、不受网络环境影响、安全性相对较高,保障了基本功能的可用性。然而,受限于端侧设备的计算和存储能力,能够支持的语音指令集非常有限,通常仅包含“开门成功”、“电量不足”、“已上锁”等少数几条固定指令,无法扩展或更新,无法满足用户多样化的需求;其次,语音播报内容通常是预设在固件中的几条固定音频,内容生硬,无法根据实际场景动态变化,用户体验较差。
纯云端处理方案:门锁端仅负责采集语音数据,然后通过网络将语音数据上传至云端服务器,利用云端服务器强大的计算资源进行语音识别、自然语言理解和声纹验证。该方案的优点是识别能力强、指令集灵活、可支持复杂的语义理解。但其缺陷也严重制约了其在门锁等高实时性、高安全性场景的应用,首先,响应延迟高,其中网络波动、丢包、带宽限制等因素会导致交互体验卡顿甚至功能失效,其语音数据经过网络传输和云端处理,整个交互链路耗时较长(通常超过1秒),导致用户体验不佳;其次,网络依赖性强,在网络抖动或中断的情况下,语音交互功能会完全失效,系统的可用性无法保证;最后,安全与隐私风险,用户的声纹等生物特征数据需要在公网传输和云端存储,存在被窃听、截获和伪造攻击的风险,安全隐患突出。其中现有方案普遍对声纹攻击的防御能力不足,此时利用录音回放、语音合成等技术进行攻击的成功率较高(据统计可达19%),这对以语音作为身份验证核心的门锁系统构成了致命威胁。同时,在嘈杂环境下,高达23%的误识别率也严重影响了用户体验和安全性。
更进一步的,在公租房、酒店公寓等管理场景中,存在大量的业务信息需要触达用户,例如租金催缴、合同到期提醒、维修通知、访客留言等。目前,这些信息主要通过短信、电话或App推送,与用户回家开门这一核心行为场景是割裂的,信息触达效率和体验不佳。即便部分门锁支持通过云端下发文本并进行TTS播报,其下发的文本内容也往往是后台管理系统预设的模板。系统缺乏对业务数据进行深度理解和逻辑判断的能力,无法根据用户的身份、历史行为、当前事件的紧急程度等多个维度,生成个性化、人性化的通知内容。例如,系统无法区分是向一位长期按时缴费的租户发送友好提醒,还是向一位多次逾期的租户发送严肃警告。
综上所述,现有智能门锁语音交互技术在实时性、可靠性、安全性和交互智能化之间难以取得平衡,亟需一种能够融合端侧与云端优势,同时解决安全和网络容错问题的新型技术方案,以满足用户对智能门锁高效、安全、个性化交互的需求。
发明内容
基于此,本发明的目的是提供一种语音交互处理方法、装置、系统、智能门锁及云端服务器,以从根本上解决现有智能门锁语音交互技术在实时性、可靠性、安全性和交互智能化之间难以平衡的问题。
根据本发明实施例的一种语音交互处理方法,应用于智能门锁,所述方法包括:
接收用户发出的语音指令,并对所述语音指令进行本地识别,以得到本地识别结果及对应的置信度;
当所述本地识别结果与预设的本地指令集中的指令相匹配且所述置信度高于预设置信度阈值时,直接执行与所述本地识别结果相对应的本地操作;
当所述本地识别结果不与所述本地指令集中的指令相匹配或所述置信度不高于所述预设置信度阈值时,基于从所述语音指令中提取的声纹生物特征,建立与云端服务器进行安全增强的安全通信会话;
通过所述安全通信会话,将所述语音指令发送至所述云端服务器,以使所述云端服务器进行识别、并结合关联的业务数据通过大语言模型进行逻辑处理,从而生成与当前业务场景相匹配的动态响应文本及/或云端操作指令;
通过所述安全通信会话,接收由所述云端服务器返回的所述云端操作指令及/或所述动态响应文本;
根据所述云端操作指令执行相应操作,及/或通过内置的文本转语音引擎将所述动态响应文本转换为语音进行播报。
另外,根据本发明上述实施例的一种语音交互处理方法,还可以具有如下附加的技术特征:
进一步地,所述基于从所述语音指令中提取的声纹生物特征,建立与云端服务器进行安全增强的安全通信会话的步骤包括:
与所述云端服务器执行密钥协商协议,以协商生成一个基础会话密钥;
从所述语音指令的音频信号中,通过梅尔频率倒谱系数分析,提取出一个作为生物识别因子的声纹特征向量;
将所述声纹特征向量派生为一个声纹认证密钥,并使用所述声纹认证密钥对一个预设的认证数据进行加密,以生成一个初始认证数据包;
将所述初始认证数据包发送至所述云端服务器,以供所述云端服务器进行解密验证;
在所述云端服务器验证成功后,将所述声纹认证密钥与所述基础会话密钥进行组合运算,生成一个经过生物特征增强的最终会话密钥;
使用所述最终会话密钥,建立一个对称加密通道作为所述安全通信会话。
进一步地,所述对所述语音指令进行本地识别的步骤包括:
对所述语音指令的音频信号进行频谱特性分析,以识别由录音设备或语音合成技术引入的非自然声学伪影;
对所述语音指令的音频信号进行活体特征分析,以检测其中是否存在人类发声所特有的微弱生理特征;
当且仅当所述频谱特性分析和所述活体特征分析的结果均表明所述语音指令来源于真实用户时,建立与云端服务器进行安全增强的安全通信会话。
进一步地,所述对所述语音指令的音频信号进行频谱特性分析,以识别由录音设备或语音合成技术引入的非自然声学伪影的步骤包括:
将所述语音指令的音频信号转换为恒定Q变换倒谱系数的特征向量序列;
将所述特征向量序列分别输入至一个预先训练的用于表征真实人声的活体高斯混合模型,和一个预先训练的用于表征非活体声音的伪造高斯混合模型;
分别计算所述特征向量序列由所述活体高斯混合模型和所述伪造高斯混合模型生成的对数似然值;
计算两个对数似然值的比值,并将所述比值与预设的防伪判决阈值进行比较,以判定所述音频信号中是否包含非自然声学伪影。
进一步地,所述对所述语音指令的音频信号进行活体特征分析,以检测其中是否存在人类发声所特有的微弱生理特征的步骤包括:
对所述语音指令的音频信号进行端点检测,以分割出语音段和静音段;
对所述静音段进行频谱分析,以检测是否存在符合人类呼吸声谱特征的信号分量;
对所述语音段提取基频轮廓,并对所述基频轮廓自身进行二次频谱分析,以检测在预设频率范围内是否存在由心率搏动引起的周期性基频微颤;
当且仅当同时检测到所述呼吸声谱特征和所述周期性基频微颤时,判定所述音频信号包含人类发声所特有的微弱生理特征。
进一步地,所述对所述语音指令进行本地识别,以得到本地识别结果及对应的置信度的步骤包括:
通过一个循环音频缓冲区实时采集用户发出的语音指令的音频流;
对所述音频流执行声学前端处理,以提取出梅尔频率倒谱系数的特征序列;
将所述特征序列输入至一个预先部署在智能门锁本地的基于深度神经网络的声学模型,以计算所述特征序列对应于预设本地指令集中各个指令的声学得分;
将所述声学模型输出的所述声学得分输入至一个有限状态传感器解码器中,结合一个预置的语言模型进行解码搜索,以输出一个包含一个或多个候选识别结果的列表;
选择所述候选识别结果的列表中的最优结果作为所述本地识别结果,并将所述最优结果对应的后验概率作为所述置信度。
进一步地,所述方法还包括:
通过所述安全通信会话,周期性地从所述云端服务器接收并下载针对高频使用场景的轻量化语音模型包;
对所述轻量化语音模型包进行本地解压和加载,以热更新的方式替换或补充原有的本地识别模型,以使原需通过云端服务器处理的部分语音指令被更新后的本地识别模型直接识别并执行。
进一步地,所述方法还包括:
通过心跳机制持续监测与所述云端服务器的网络连接状态;
当检测到网络中断或连接质量连续低于预设的通信质量阈值时,自动切换至纯本地工作模式;
在所述纯本地工作模式下,对于接收到用户的所有语音指令均仅进行本地识别,并仅本地识别结果与预设的本地指令集中的指令相匹配且在所述置信度高于所述预设置信度阈值时才执行相应的本地操作;
若在所述纯本地工作模式下连续预设次数的本地识别结果不与所述本地指令集中的指令相匹配及/或本地识别所得到的置信度均不高于所述预设置信度阈值时,则触发所述智能门锁上的本地报警装置。
本发明另一实施例的目的还在于提供一种语音交互处理方法,应用于云端服务器,所述方法包括:
与智能门锁建立一个基于用户声纹生物特征进行安全增强的安全通信会话;
通过已建立的所述安全通信会话,接收来自所述智能门锁的语音指令;
在所述安全通信会话内,对所述智能门锁的身份及所述语音指令的来源进行声纹安全验证;
在所述声纹安全验证通过后,对所述语音指令进行识别,以得到指令文本;
将所述指令文本以及所获取的与所述智能门锁关联的业务数据一同输入至一个大语言模型进行逻辑处理,以生成与当前业务场景相匹配的动态响应文本及/或云端操作指令;
通过所述安全通信会话,将生成的所述动态响应文本及/或所述云端操作指令下发至所述智能门锁。
进一步地,所述与智能门锁建立一个基于用户声纹生物特征进行安全增强的安全通信会话的步骤包括:
与所述智能门锁执行密钥协商协议,以协商生成一个基础会话密钥;
接收由所述智能门锁发送的基于从所述语音指令中提取的声纹生物特征而加密的初始认证数据包;
从所存储的用户注册声纹模板中,派生出一个用于解密的声纹模板密钥;
使用所述声纹模板密钥对所述初始认证数据包进行解密,并验证解密后的数据是否与预设的认证数据一致;
在验证一致后,将所述声纹模板密钥与所述基础会话密钥进行组合运算,生成一个用于后续通信的、经过生物特征增强的最终会话密钥;
使用所述最终会话密钥,建立一个对称加密通道作为所述安全通信会话。
进一步地,所述对所述智能门锁的身份及所述语音指令的来源进行声纹安全验证的步骤包括:
从通过所述安全通信会话接收的所述语音指令中,提取出一个实时声纹特征向量;
根据所述智能门锁的设备标识,从安全存储中检索出与所述设备标识绑定的、预先注册的用户声纹模板向量;
在一个预训练的深度声纹识别模型中,分别计算所述实时声纹特征向量和所述用户声纹模板向量的嵌入表示,并计算两个嵌入表示之间的余弦相似度得分;
当且仅当所述余弦相似度得分高于一预设的身份验证阈值时,判定所述声纹安全验证通过。
进一步地,所述方法还包括:
持续监控并统计分析由各个智能门锁上报的在云端服务器进行识别的语音指令的类型和频率,以识别出在特定用户群体中高频使用的、需要云端服务器处理的复杂指令;
从部署在所述云端服务器上的大规模语音识别模型中,针对高频使用的复杂指令进行模型切片与知识蒸馏压缩,以生成轻量化语音模型包;
通过所述安全通信会话,将所述轻量化语音模型包主动推送至对应的智能门锁,以供所述智能门锁进行本地识别模型的更新。
进一步地,所述将所述指令文本与所述业务数据一同输入至一个大语言模型进行逻辑处理的步骤包括:
根据从所述指令文本中识别出的用户意图以及所述业务数据的类型,从一个预设的提示词工程模板库中,动态选择一个相匹配的情境提示词模板;
将所述业务数据中的各项关键信息,依据所述情境提示词模板中预定义的变量占位符进行提取和填充,以构建一个包含完整业务上下文的、结构化的最终提示词;
将所述结构化的最终提示词发送至所述大语言模型进行逻辑推理,以生成与当前业务场景相匹配的动态响应文本及/或云端操作指令。
本发明另一实施例的目的还在于提供一种语音交互处理装置,应用于智能门锁,所述系统包括:
本地识别模块,用于接收用户发出的语音指令,并对所述语音指令进行本地识别,以得到本地识别结果及对应的置信度;
本地操作模块,用于当所述本地识别结果与预设的本地指令集中的指令相匹配且所述置信度高于预设置信度阈值时,直接执行与所述本地识别结果相对应的本地操作;
第一安全通信会话模块,用于当所述本地识别结果不与所述本地指令集中的指令相匹配或所述置信度不高于所述预设置信度阈值时,基于从所述语音指令中提取的声纹生物特征,建立与云端服务器进行安全增强的安全通信会话;
语音指令发送模块,用于通过所述安全通信会话,将所述语音指令发送至所述云端服务器,以使所述云端服务器进行识别、并结合关联的业务数据通过大语言模型进行逻辑处理,从而生成与当前业务场景相匹配的动态响应文本及/或云端操作指令;
数据接收模块,用于通过所述安全通信会话,接收由所述云端服务器返回的所述云端操作指令及/或所述动态响应文本;
响应操作模块,用于根据所述云端操作指令执行相应操作,及/或通过内置的文本转语音引擎将所述动态响应文本转换为语音进行播报。
本发明另一实施例的目的还在于提供一种语音交互处理装置,应用于云端服务器,所述系统包括:
第二安全通信会话模块,用于与智能门锁建立一个基于用户声纹生物特征进行安全增强的安全通信会话;
语音指令接收模块,用于通过已建立的所述安全通信会话,接收来自所述智能门锁的语音指令;
声纹安全验证模块,用于在所述安全通信会话内,对所述智能门锁的身份及所述语音指令的来源进行声纹安全验证;
语音指令识别模块,用于在所述声纹安全验证通过后,对所述语音指令进行识别,以得到指令文本;
逻辑处理模块,用于将所述指令文本以及所获取的与所述智能门锁关联的业务数据一同输入至一个大语言模型进行逻辑处理,以生成与当前业务场景相匹配的动态响应文本及/或云端操作指令;
数据发送模块,用于通过所述安全通信会话,将生成的所述动态响应文本及/或所述云端操作指令下发至所述智能门锁。
本发明另一实施例的目的还在于提供一种智能门锁,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上述所述的语音交互处理方法。
本发明另一实施例的目的还在于提供一种云端服务器,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上述所述的语音交互处理方法。
本发明另一实施例的目的还在于提供一种语音交互处理系统,包括:
如上述所述的智能门锁;以及
与所述智能门锁进行通信连接的如上述所述的云端服务器。
本发明实施例提供的语音交互处理方法,通过在智能门锁端部署本地识别模型,并设置指令集匹配与置信度双重检验的决策机制,实现了对高频核心指令的快速本地响应,以及对复杂云端指令的精准分流,从而极大地降低了用户常用操作的交互延迟,显著提升了系统的响应速度和用户体验;通过基于用户实时声纹生物特征,构建与云端服务器进行安全增强的安全通信会话,将身份认证与密钥交换协议深度融合,确保了只有合法的用户才能发起并建立加密通道,从根本上解决了传统认证方式与通信过程分离所带来的安全风险,杜绝了身份伪造和中间人攻击;通过在本地识别前置入频谱特性分析与活体特征分析的双重防伪检测,实现了对录音重放、语音合成等欺骗攻击的源头拦截,确保了仅处理来源于真实用户的语音指令,从根本上解决了声纹识别技术面临的伪造攻击威胁;通过在智能门锁本地部署高效的深度神经网络声学模型,并结合有限状态传感器解码器进行本地识别,实现了在资源受限的嵌入式设备上进行高精度的语音到文本转换,为快速、准确的本地决策提供了坚实的技术基础,解决了传统端侧识别能力弱、准确率低的问题;通过云端持续分析用户高频指令,并利用知识蒸馏等技术生成轻量化模型包,以热更新的方式动态优化端侧的本地识别模型,实现了智能门锁本地识别能力的自适应,使得原需依赖云端服务器的复杂指令,能够逐步下沉至智能门锁进行高效识别,有效解决了传统设备功能固化、无法成长的弊端,在长期使用中持续降低交互延迟、增强系统在弱网环境下的可用性;通过引入基于心跳机制的网络状态监测与自动降级切换至纯本地工作模式的容错机制,确保了在网络中断或质量极差的情况下,开锁等核心本地功能依然稳定可用,并能通过智能化的本地报警为用户提供清晰的状态反馈,解决了现有云端语音方案过度依赖网络连接、在弱网环境下服务不可用的关键痛点。解决了现有智能门锁语音交互技术在实时性、可靠性、安全性和交互智能化之间难以平衡的问题。
附图说明
图1为本发明第一实施例中的语音交互处理方法的流程示意图;
图2为本发明第二实施例中的语音交互处理方法的流程示意图;
图3为本发明第三实施例中的语音交互处理装置的结构示意图;
图4为本发明第四实施例中的语音交互处理装置的结构示意图;
以下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例一
请参阅图1,所示为本发明第一实施例中的语音交互处理方法,为了便于说明,仅示出了与本发明实施例相关的部分,本发明实施例提供的语音交互处理方法应用于智能门锁,方法包括:
步骤S11,接收用户发出的语音指令,并对语音指令进行本地识别,以得到本地识别结果及对应的置信度;
其中,在本发明的一个实施例中,该语音交互处理方法应用于智能门锁,其中智能门锁通常包括麦克风阵列、高性能低功耗的处理器(例如集成NPU的嵌入式SoC)、存储器(Flash、RAM)、扬声器、锁体控制执行器以及网络通信模块(Wi-Fi/蓝牙/Zigbee/5G等)。
其中首先智能门锁的处理器及其内置的麦克风阵列处于持续的低功耗待机状态,该麦克风该阵列通常由2至4个呈线性或环形排列的麦克风单元组成。处理器通过一个循环音频缓冲区,以一个预设的采样率(例如16kHz)和位深度(例如16-bit)持续不断地采集周围环境的声学信号,形成多通道的原始音频流。处理器预加载了一个轻量级的唤醒词识别模型,该模型专门用于在连续的音频流中检测特定的唤醒指令(例如“你好,门锁”)。
当用户发出语音指令时,处理器通过一个循环音频缓冲区实时采集来自麦克风阵列的多通道原始音频流。该循环音频缓冲区的设计确保了在唤醒词被检测到的那一刻,包含唤醒词本身以及之前短暂时间(约数百毫秒)的音频数据得以完整保留。一旦唤醒词识别模型检测到唤醒指令并达到预设的激活阈值,处理器即刻被完全激活,并正式开始对紧随其后的用户核心指令进行录制和处理。此刻,从循环音频缓冲区中捕获的、未经处理的原始音频流,即为原始声学信号。其中,原始声学信号直接反映了用户语音的综合声学环境,包括用户发声本身的语音内容、环境中的稳态或瞬态背景噪声(如空调声、路人交谈声)、以及由室内空间结构引起的回声和混响等。
进一步的,处理器接收麦克风阵列采集的原始声学信号,并在进行核心识别任务之前,为了从嘈杂的现实环境中精确地捕获用户的语音指令,对原始声学信号进行一系列声学前端处理,以生成一个更适合识别的、干净的单路音频流。其中声学前端处理具体包括:
1、声学回声消除:在处理之前,若智能门锁自身正在通过扬声器播放提示音或与用户对话,处理器会获取该播放信号的参考副本。在采集原始声学信号的同时,通过自适应滤波器算法,从原始声学信号中减去这个参考信号及其在环境中的回声部分,从而消除设备自身产生的回声干扰。
2、麦克风阵列波束形成:处理器利用各麦克风接收到用户语音信号的时间差,计算出声源方位。然后通过波束形成算法(如固定波束或自适应波束),对多路音频信号进行加权叠加,在用户说话的方向上形成一个拾音波束,同时抑制来自其他方向的噪声。
3、噪声抑制与去混响:基于预处理后的音频信号,运用谱减法或深度学习模型等技术,进一步滤除残留的背景噪声和房间混响,提升语音的清晰度。
此时,经过上述声学前端处理后得到一个干净、清晰的单声道语音信号。然后,基于该语音信号进行本地识别,以生成本地识别结果及对应的置信度。其中上述对语音指令进行本地识别的步骤包括:
对语音指令的音频信号进行频谱特性分析,以识别由录音设备或语音合成技术引入的非自然声学伪影;
对语音指令的音频信号进行活体特征分析,以检测其中是否存在人类发声所特有的微弱生理特征;
当且仅当频谱特性分析和活体特征分析的结果均表明语音指令来源于真实用户时,对语音指令进行本地识别。
进一步的,在本发明的一个实施例中,上述对语音指令的音频信号进行频谱特性分析,以识别由录音设备或语音合成技术引入的非自然声学伪影的步骤包括:
将语音指令的音频信号转换为恒定Q变换倒谱系数的特征向量序列;
将特征向量序列分别输入至一个预先训练的用于表征真实人声的活体高斯混合模型,和一个预先训练的用于表征非活体声音的伪造高斯混合模型;
分别计算特征向量序列由活体高斯混合模型和伪造高斯混合模型生成的对数似然值;
计算两个对数似然值的比值,并将比值与预设的防伪判决阈值进行比较,以判定音频信号中是否包含非自然声学伪影。
进一步的,在本发明的一个实施例中,上述对语音指令的音频信号进行活体特征分析,以检测其中是否存在人类发声所特有的微弱生理特征的步骤包括:
对语音指令的音频信号进行端点检测,以分割出语音段和静音段;
对静音段进行频谱分析,以检测是否存在符合人类呼吸声谱特征的信号分量;
对语音段提取基频轮廓,并对基频轮廓自身进行二次频谱分析,以检测在预设频率范围内是否存在由心率搏动引起的周期性基频微颤;
当且仅当同时检测到呼吸声谱特征和周期性基频微颤时,判定音频信号包含人类发声所特有的微弱生理特征。
具体来说,在智能门锁的处理器对用户语音指令的内容进行解码识别之前,其首要任务是执行一个严格的声源活体验证流程。该流程旨在确保接收到的音频信号确实来源于一个现场、真实的合法用户,而非录音重放、语音合成等欺骗性攻击手段。此验证流程是一个前置的、强制性的安全关卡,只有在完全通过后,音频信号才会被送入后续的本地识别流程,确保了智能门锁仅处理来自可信来源的请求,从源头上杜绝了多种潜在的欺骗攻击。
具体的,智能门锁的处理器在接收到用户发出的语音指令音频流后,并不会立即进行特征提取和识别,而是先对其进行频谱特性分析,以识别由录音设备或语音合成技术引入的非自然声学伪影。在本发明的一个实施例中,该频谱特性分析的步骤包括:处理器首先将捕获到的语音指令的音频信号,通过一系列数学变换(具体通过恒定Q变换(Constant-Q Transform,CQT)和离散余弦变换(DCT)级联处理),转换为一个恒定Q变换倒谱系数(Constant-Q Cepstral Coefficients,CQCC)的特征向量序列。这种特征表示方法对声音信号的低频部分具有更高的分辨率,能够更敏锐地捕捉到由播放设备引入的电噪声或合成语音中不自然的谐波结构。接着,处理器将这个生成的特征向量序列同时输入至两个预先固化在本地存储器中的概率模型进行评估。其中一个模型是活体高斯混合模型,其通过学习海量的真实人声数据训练而成,专门用于表征真实人声的统计分布特性。其中另一个模型是伪造高斯混合模型,其通过学习各种录音重放和合成语音数据训练而成,专门用于表征非活体声音的特征。处理器分别计算该特征向量序列由上述两个模型生成的对数似然值,其中这两个对数似然值直观地反映了当前语音更像真实人声还是更像伪造声音。最后,处理器计算这两个对数似然值的比值,并将该比值与一个经过大量实验标定的预设防伪判决阈值进行比较,此时只有当活体模型的似然显著高于伪造模型的似然,即比值超过该防伪判决阈值时,则表明该语音信号在频谱特性上未包含非自然声学伪影,通过此项频谱特性分析检测。
进一步的,在通过上述的防伪攻击检测后,处理器继续对同一段语音指令的音频信号进行活体特征分析,以检测其中是否存在只有真实人类发声时才会产生的、极其细微的生理特征。在本发明的一个实施例中,该活体特征分析的步骤包括:处理器首先对语音指令的音频信号进行端点检测,利用短时能量和过零率等指标,精确地将信号分割成包含实际话语的语音段和话语间隙的静音段。然后,处理器针对这两个不同类型的分段进行差异化分析。其中对于静音段,进行精细的频谱分析,通过在特定频率范围(通常是中高频)内搜索符合人类呼吸声(尤其是吸气声)的能量分布和时域模式的信号分量,来检测是否存在呼吸声谱特征。因为真实人类在说话时,句子之间不可避免地会存在自然的换气声。与此同时,对于语音段,处理器提取其随时间变化的基频轮廓,其中基频轮廓反映了说话人声带振动的频率。由于心脏的规律性搏动会通过胸腔和气管对声带的张力产生微弱的周期性调制,使得会体现在基频的细微抖动上。因此,处理器对提取出的基频轮廓自身进行二次频谱分析(即将其视为一个信号,再做一次傅里叶变换),以检测在这个基频轮廓的极低频的预设频率范围(例如0.8Hz至2.0Hz,对应于每分钟48至120次的心率)内,是否存在一个显著的能量峰值,也即由说话人心率搏动所引起的、极其微弱但具有周期性的基频微颤。其中这种生理现象源于血液流经喉部时对声带振动产生的细微扰动,是目前已知的最难被机器模仿和伪造的活体特征之一。
最后,处理器对上述两步的检测结果进行综合决策。当且仅当第一步的频谱特性分析结果表明语音不含非自然声学伪影,并且第二步的活体特征分析结果同时检测到了呼吸声谱特征和周期性基频微颤时,处理器才会最终判定该语音指令来源于真实用户。只有在这个最终判定成立后,该段原始的、被确认为安全可信的语音指令音频流,才会被允许进入后续的本地识别流程中。如果任何一项前置安全检测失败,处理器将立即丢弃该段语音指令,不进行任何识别或响应,从而确保智能门锁的绝对安全。
进一步的,在本发明的一个实施例中,上述对语音指令进行本地识别,以得到本地识别结果及对应的置信度的步骤包括:
通过一个循环音频缓冲区实时采集用户发出的语音指令的音频流;
对音频流执行声学前端处理,以提取出梅尔频率倒谱系数的特征序列;
将特征序列输入至一个预先部署在智能门锁本地的基于深度神经网络的声学模型,以计算特征序列对应于预设本地指令集中各个指令的声学得分;
将声学模型输出的声学得分输入至一个有限状态传感器解码器中,结合一个预置的语言模型进行解码搜索,以输出一个包含一个或多个候选识别结果的列表;
选择候选识别结果的列表中的最优结果作为本地识别结果,并将最优结果对应的后验概率作为置信度。
具体的,智能门锁中的麦克风阵列被配置为持续工作状态,其采集的音频数据被实时送入一个循环音频缓冲区。该循环音频缓冲区的大小被设定为能够存储例如2-3秒的音频数据,确保了即使在指令发出前后的非语音部分也能被完整捕获。处理器以固定的时间间隔(例如每10毫秒)从该缓冲区中读取一个长度为25毫秒的音频帧,相邻帧之间具有15毫秒的重叠,这种帧移和帧长的设置保证了语音信号在时域上的连续性和完整性。
进一步的,在进行特征提取之前,处理器首先对每一个音频帧进行预处理,该预处理包括预加重和加窗,其中预加重是通过一个高通滤波器来提升语音信号中高频部分的能量,以补偿高频在发声过程中自然衰减的效应,从而突出唇齿音等对识别至关重要的细节。其中加窗(例如使用汉明窗)则是为了平滑音频帧两端的信号,减少后续进行频谱分析时可能产生的频谱泄露问题。
进一步的,处理器接收经过预处理的音频帧,并根据音频帧生成一个表征该时刻语音声学特性的梅尔频率倒谱系数(MFCC)特征向量。具体来说,首先对预处理后的每个音频帧进行快速傅里叶变换(FFT),将其从时域信号转换到频域,得到一个线性频谱。接着,将该线性频谱通过一组梅尔滤波器组进行滤波,这组滤波器的中心频率在低频区域分布密集,在高频区域分布稀疏,旨在模仿人耳对不同频率声音的感知特性。然后,计算每个滤波器输出能量的对数值,以压缩动态范围并使其更符合人类的听觉感知模型。最后,对这些对数能量值进行离散余弦变换去除特征之间的相关性,取其前预设数量(例如13)个系数作为该音频帧的静态MFCC特征,使得得到一个多维(例如13维)的MFCC特征向量。
进一步的,为了捕捉语音信号的动态变化信息,处理器还计算了这些静态MFCC特征的一阶差分和二阶差分,并将静态特征、一阶差分、二阶差分拼接在一起,形成一个39维的MFCC特征向量。随着时间推移,连续生成的特征向量便构成了一个特征序列,该特征序列完整地、数字化地描述了用户发出的整段语音指令,反映了语音内容随时间变化的动态声学特性。
进一步的,处理器将生成的特征序列输入至一个预先部署在智能门锁本地存储器中的基于深度神经网络的声学模型。在本实施例中,该声学模型采用了一种适合嵌入式设备的高效架构,例如深度前馈序列记忆网络(DFSMN)。具体来说声学模型接收特征序列,并通过其多个记忆模块进行前向计算。每个记忆模块通过其内部的块处理层和记忆层,不仅学习了当前语音帧的声学信息,还有效地编码了前后数十帧乃至上百帧的上下文信息,从而能够精准地捕捉语音信号中的长时依赖关系。其中声学模型的输出层是一个Softmax层,其神经元数量与预设本地指令集(如“开门”、“关门”、“启动摄像头”等)中的所有音素状态数量相对应。对于输入的每一个特征向量(即每一帧),声学模型都会输出一个概率分布向量,该向量中的每一个值,都代表了当前这帧语音属于某一个特定音素状态的声学得分。
进一步的,处理器将声学模型输出的声学得分序列,连同原始的特征序列,一同送入一个有限状态传感器(WFST)解码器。该解码器内部预先编译好了一个庞大而高效的语言模型,这个语言模型融合了发音词典(描述单词如何由音素构成)和语法规则(描述单词之间出现的概率)。解码器基于声学得分并结合语言模型提供的发音词典和语法规则,在所有可能的词序列路径中进行高效的维特比(Viterbi)搜索或集束搜索(Beam Search),寻找一条从开始到结束概率最大的路径,这条路径对应了最可能的识别结果。为了得到更可靠的结果和置信度,解码器被配置为输出一个包含N个最佳候选识别结果的列表,例如N=5,且列表按照后验概率从高到低排列。
最后,处理器选择这个列表中的最优结果(即后验概率最高的路径所对应的词序列)作为最终的本地识别结果。同时,将该最优结果所对应的归一化后验概率作为本次识别的置信度。这个后验概率直接反映了在给定声学模型和语言模型下,当前语音信号被识别为该结果的确定性程度。例如,如果最优结果的后验概率为0.92,则置信度为0.92,表示智能门锁对这个识别结果非常有把握。
步骤S12,当本地识别结果与预设的本地指令集中的指令相匹配且置信度高于预设置信度阈值时,直接执行与本地识别结果相对应的本地操作;
其中,在本发明的一个实施例中,智能门锁的处理器在完成本地语音识别流程后,已获得一个确切的本地识别结果(例如,文本字符串“开门”)以及一个量化的置信度分数(例如,0.92)。与此同时,处理器内部固化了一个明确且有限的预设本地指令集,其中本地指令集是一个包含所有被授权在本地直接执行的语音指令的白名单列表,例如[“开门”,“上锁”,“打开摄像头”,“静音模式”,“查询时间”等]。此外,处理器还为每个或每类指令预设了相应的置信度阈值,其为经过大量实验数据标定和优化的关键参数,用于作为决策的分界线。例如,对于涉及安全核心的操作(如开门),其预设置信度阈值可能被设定为一个较高的值,如0.9;而对于非安全相关的辅助操作(如查询时间),阈值可能适当放宽至0.85。
其中,当处理器获取到本地识别结果和置信度后,立即启动一个双重验证的决策判断逻辑。该逻辑包含两个串联的指令匹配验证步骤和置信度阈值验证步骤,其中指令匹配验证步骤具体为:处理器首先将本地识别结果“开门”与预设本地指令集进行匹配校验。其遍历指令集中的每一个标准指令,采用精确匹配或模糊匹配算法。在此场景中,经过归一化处理后,本地识别结果“开门”成功匹配到指令集中的标准指令“开门”。如果无法匹配到任何预设指令,即使置信度再高,流程也会被中断并转向后续的云端服务器处理或拒绝服务。其中置信度阈值验证步骤具体为:在指令匹配成功的前提下,处理器接着将与本地识别结果关联的置信度(0.92)与匹配上的指令“开门”所对应的预设置信度阈值(0.9)进行比较。在此场景中,由于0.92高于0.9,因此第二个判断条件也成立。其中当且仅当上述两个验证步骤均成功通过时,处理器才最终判定该语音指令是一个有效的、高可信度的本地操作请求,此时将直接直接执行与本地识别结果相对应的本地操作。
具体的,处理器将已通过双重验证的、标准化的本地识别结果“开门”作为一个指令索引,查询一个预置在本地固件中的本地指令-操作映射表。这个映射表是一个结构化的数据集合,精确定义了预设本地指令集中每一个标准指令与其对应的具体物理或软件操作之间的关联。处理器通过在映射表中精确匹配“开门”这一字符串,检索到其对应的操作函数以及相关参数。这个操作函数直接封装了与智能门锁硬件底层交互的驱动级代码。
最后,处理器调用该操作函数,处理器通过内部总线向锁体控制执行器发送一个明确的、低级别的硬件控制指令。例如,输出一个特定模式的PWM(脉冲宽度调制)信号至电机驱动芯片。电机驱动芯片接收到该信号后,精确控制电流的方向和大小,驱动内置的直流电机或步进电机开始旋转。电机的旋转通过一组精密的齿轮传动机构,最终带动锁舌(主锁舌或反锁舌)从锁扣中缩回,从而完成物理上的开锁动作。整个过程完全在智能门锁的本地闭环内完成,其执行不依赖于任何外部网络连接,实现了对高置信度本地识别结果的即时、可靠的本地操作响应。
进一步的,在本发明的一个实施例中,为校验用户身份信息,上述直接执行与本地识别结果相对应的本地操作的步骤包括:
在一个预训练的深度声纹识别模型中,分别计算从语音指令中提取出一个实时声纹特征向量和智能门锁预先注册的用户声纹模板向量的嵌入表示;
计算两个嵌入表示之间的余弦相似度得分;
当且仅当所述余弦相似度得分高于一预设的身份验证阈值时,执行与本地识别结果相对应的本地操作。
具体的,当智能门锁的处理器判定一个本地识别结果(例如“打开门锁”)是有效的并且置信度(例如,0.98)高于预设的置信度阈值(例如,0.95)时,并不会立即触发物理操作。取而代之的是,处理器启动一个强制性的、基于声纹识别的身份验证流程,作为执行任何本地操作前的最后一道安全防线。其确保即使指令内容正确,也必须是由预先授权的用户本人发出,从而防止未经授权的人员(例如访客或家中的孩童)通过模仿指令词语来触发敏感操作。
具体来说,处理器首先从刚通过本地识别的原始语音指令的音频信号中,提取出一个实时声纹特征向量。该特征向量的提取过程与前述安全通信会话建立时类似,通过梅尔频率倒谱系数分析或其他声学特征提取方法,生成一个能够高度浓缩当前说话人声音特性的实时声纹特征向量。与此同时,处理器根据当前的智能门锁状态(例如,家庭模式或访客模式),从其内部的安全存储区(例如,一个加密的闪存分区或专用的安全元件)中,根据当前的用户上下文,检索出预先注册并存储的用户声纹模板向量。该模板向量是在用户初次设置智能门锁时,通过采集多段标准语音样本并进行平均或建模而生成的,代表了该授权用户的基准声纹特征。接着,处理器将实时声纹特征向量和用户声纹模板向量这两个向量,同时输入至一个预先训练并部署在本地的深度声纹识别模型中。在本实施例中,该模型可能采用高效的卷积神经网络(例如ResNet架构),其经过海量说话人数据的训练,能够将不同长度的语音特征序列,映射到一个固定维度的、具有高度区分性的超空间中,生成各自的嵌入表示。在这个超空间里,来自同一说话人的不同语音所产生的嵌入表示在几何上会非常接近,而来自不同说话人的则会相距遥远。随后,处理器计算这两个嵌入表示之间的余弦相似度得分,该得分是通过计算两个向量夹角的余弦值来衡量它们在方向上的一致性,其值域为[-1,1],其中余弦相似度得分越接近1,表明两个声纹特征在模型所学习到的辨识空间中越相似,即来源于同一人的可能性越高。最后,处理器将计算出的余弦相似度得分与一个经过严格安全标准设定的预设身份验证阈值(例如,0.90)进行比较。当且仅当所述余弦相似度得分明确高于此阈值时,智能门锁才最终确认指令的发出者为合法用户本人,此时身份验证通过。这时处理器才将已通过内容识别和身份验证双重确认的本地识别结果“开门”,提交给后续的指令执行模块,其通过查询本地指令-操作映射表,并向锁体控制执行器发送硬件控制指令,最终完成物理开锁动作。若相似度得分不高于该阈值,即使指令内容识别得再准确,系统也会判定为身份验证失败,立即中止操作流程,并触发安全警报或语音提示,例如播报“身份验证失败,操作已取消”。
步骤S13,当本地识别结果不与本地指令集中的指令相匹配或置信度不高于预设置信度阈值时,基于从语音指令中提取的声纹生物特征,建立与云端服务器进行安全增强的安全通信会话;
其中,在本发明的一个实施例中,当本地识别结果不与本地指令集中的指令相匹配或置信度不高于预设置信度阈值任一条件被满足时,处理器判定本地能力不足以或不够确信地处理当前的用户请求。此时,智能门锁并不会简单地拒绝服务,而是自动激活一个与安全云端服务器进行安全增强的安全通信会话的建立协议。该协议并非建立一个常规的网络连接(TLS/SSL),而是将用户的声纹生物特征作为启动和增强该通信会话安全性的核心要素。
其中,在本发明的一个实施例中,上述基于从语音指令中提取的声纹生物特征,建立与云端服务器进行安全增强的安全通信会话的步骤包括:
与云端服务器执行密钥协商协议,以协商生成一个基础会话密钥;
从语音指令的音频信号中,通过梅尔频率倒谱系数分析,提取出一个作为生物识别因子的声纹特征向量;
将声纹特征向量派生为一个声纹认证密钥,并使用声纹认证密钥对一个预设的认证数据进行加密,以生成一个初始认证数据包;
将初始认证数据包发送至云端服务器,以供云端服务器进行解密验证;
在云端服务器验证成功后,将声纹认证密钥与基础会话密钥进行组合运算,生成一个经过生物特征增强的最终会话密钥;
使用最终会话密钥,建立一个对称加密通道作为安全通信会话。
具体来说,处理器首先与云端服务器执行一次标准的密钥协商协议,例如椭圆曲线迪菲-赫尔曼(ECDH)密钥交换,双方各自独立计算出一个临时的、对称的基础会话密钥。处理器利用一个密钥派生函数(Key DerivationFunction,KDF),将本地实时提取出的声纹特征向量转换为一个具有密码学安全强度的声纹认证密钥。处理器使用此声纹认证密钥,对一个预设的、双方共享的认证数据进行对称加密(如AES),生成一个初始认证数据包。其中该数据包为一个加密的通行凭证,其正确性间接证明了发送方持有与注册用户相匹配的实时声纹。此时处理器将该初始认证数据包发送至云端服务器供其解密验证。在云端服务器使用其存储的用户声纹模板派生出的密钥验证成功后,智能门锁的处理器与云端服务器同步地将各自拥有的声纹认证密钥与之前协商的基础会话密钥进行一次安全的组合运算(例如,通过另一次KDF),生成一个独一无二的经过生物特征双重认证的最终会话密钥。
最后,使用该包含用户生物特征信息的最终会话密钥,处理器与云端服务器之间建立起一个端到端的、采用对称加密算法(如AES-GCM)进行保护的安全通信会话。其中后续所有的数据交换,包括将完整的原始语音指令上传至云端进行高精度识别,都将在这个高度安全且经过身份验证的通道内进行。
步骤S14,通过安全通信会话,将语音指令发送至云端服务器,以使云端服务器进行识别、并结合关联的业务数据通过大语言模型进行逻辑处理,从而生成与当前业务场景相匹配的动态响应文本及/或云端操作指令;
其中,在本发明的一个实施例中,在智能门锁成功地与云端服务器建立起一个基于用户声纹生物特征进行安全增强的安全通信会话后,便拥有了一个加密且经过身份验证的数据传输通道。此时,智能门锁的处理单器首先将包含用户完整话语的原始音频信号(例如,一段包含“我朋友五分钟后到,帮他开个门”、或“查询本月账单”的音频数据)与必要的元数据进行封装,形成一个结构化的云端请求数据包。其中元数据为云端服务器提供了处理请求所需的上下文信息,其至少包括设备唯一标识符、请求时间戳、以及本地识别结果等。
接着,处理器使用在会话建立阶段协商生成的、独一无二的最终会话密钥,通过一个对称加密算法(例如AES-256-GCM模式),对整个云端请求数据包进行加密和认证,其中上述加密确保了语音内容在传输过程中的机密性,防止被窃听;而上述的GCM模式提供的认证标签则保证了数据的完整性和来源真实性,防止被篡改。此时加密后的数据包通过已建立的安全通信会话,被发送至云端服务器的指定API端点。
进一步的,当云端服务器通过安全通信会话接收到加密的云端请求数据包后,使用与之对应的最终会话密钥进行解密和验证。验证通过后,云端服务器的后端处理流程启动,其中核心流程具体包括如下:
1、高精度语音识别:云端服务器将解密出的原始音频信号,送入其部署的大规模、高精度的自动语音识别引擎中。该引擎利用比智能门锁更复杂的声学模型和语言模型,能够精准地将复杂的、口语化的、甚至是带有噪声的语音指令,转换为高度准确的文本字符串,例如:“我朋友五分钟后到,帮他开个门”。
2、业务数据关联:云端服务器根据请求数据包中的设备唯一标识符,从其庞大的业务数据库中检索出所有与该智能门锁关联的业务数据。这些数据构成了一个完整的业务场景画像,可能包括:该智能门锁的当前状态(锁定/解锁)、智能门锁关联的电子账单、历史门禁记录、已注册的用户列表、访客授权列表、关联的智能家居设备状态、以及用户的个性化偏好设置等。
3、大语言模型逻辑处理:云端服务器将高精度识别出的指令文本,连同刚刚关联到的全部业务数据,通过一个精心设计的提示词(Prompt),一同输入到一个功能强大的大语言模型中进行深度的语义理解和逻辑推理。该提示词会引导大语言模型扮演一个智能门锁管家的角色,并要求其基于当前情境(用户是谁、说了什么、门锁的现状和历史是怎样的)进行决策。
4、生成动态响应:大语言模型在理解了用户的意图(为访客在五分钟后提供一次性开门权限)后,会结合业务数据进行推理,并生成动态响应文本及/或云端操作指令两类关键输出,其中动态响应文本为一段为当前场景量身定制的、人性化的回复语。例如:“好的,已为您创建临时访客权限。五分钟后,您的朋友可以通过报出姓名或临时密码进入,该权限单次有效。”。其中云端操作指令为一个或多个结构化的、机器可执行的指令。
最终,云端服务器将大语言模型生成的与当前业务场景完全匹配的动态响应文本及/或云端操作指令封装成一个响应数据包,同样使用该安全通信会话的密钥进行加密,并下发给智能门锁。
步骤S15,通过安全通信会话,接收由云端服务器返回的云端操作指令及/或动态响应文本;
其中,在本发明的一个实施例中,智能门锁的网络通信模块一旦检测到来自该安全通信会话的下行数据流,便立即开始接收。其中接收到的数据是一个加密的、二进制格式的响应数据包。处理器首先使用相同的最终会话密钥和对称解密算法(例如AES-256-GCM),对该数据包进行解密和完整性验证。验证过程不仅将密文还原为明文,还会校验附加的认证标签,以确保数据在传输过程中未被篡改,并且确实来源于与之建立会话的云端服务器。若解密或验证失败,处理器将丢弃该数据包并触发网络异常处理逻辑。在成功解密并验证数据包后,处理器得到一个结构化的、明文格式的数据对象,其通常是一个遵循预定义JSON格式的字符串。此时处理器调用其内置的JSON解析器,对该字符串进行解析。根据预设的协议,该数据对象至少包含两个关键字段:一个用于存储云端操作指令的指令代码字段,和一个用于存储需要向用户播报的动态响应文本的文本字段。
步骤S16,根据云端操作指令执行相应操作,及/或通过内置的文本转语音引擎将动态响应文本转换为语音进行播报;
其中,在本发明的一个实施例中,处理器首先检查解析出的指令代码字段。其中该指令代码字段的值决定了智能门锁接下来需要执行的物理操作或状态变更。其中处理器内部维护着一个云端指令映射表,用于将这些从云端服务器接收的指令代码,转换为本地可执行的具体动作。此时如果指令代码是一个需要物理动作的指令,例如“REMOTE_UNLOCK”(远程开锁),处理器会查询映射表,找到其对应的本地操作代码(例如0x01)。随后,将该操作代码发送至微控制器单元(MCU),驱动锁体电机执行开锁动作,并等待MCU返回操作成功的状态码。其中如果指令代码是一个非物理操作,例如“DISPLAY_INFO”(显示信息),或者“UPDATE_CONFIG”(更新配置),处理器则会执行相应的软件层面的操作。对于显示信息,由于智能门锁可能没有屏幕,此时该指令通常表示无需执行额外动作,仅需播报信息即可。其中如果指令代码字段为空或为“NULL”,则表示云端服务器仅返回了需要播报的信息,无需智能门锁执行任何操作。
其中,处理器严格按照指令代码的内容执行相应的操作,确保云端服务器的决策能够被精确地在智能门锁实现。在执行完云端操作指令(如果存在)之后,或者与操作执行并行地,处理器会检查解析出的文本字段。其中只要该字段包含有效的文本内容,处理器就会启动其内置的文本转语音(Text-to-Speech,TTS)引擎。具体来说,处理器将该文本字段的字符串(例如“您好,查询到您本月的租金已缴纳。”)作为输入传递给文本转语音引擎。其中该文本转语音引擎是一个高效的、专门为嵌入式设备优化的神经网络模型,能够将输入的文本序列,实时地转换为一段听起来自然、流畅的语音波形数据。最后,处理器将文本转语音引擎生成的语音波形数据,通过数字模拟转换器(DAC)和音频放大器,驱动智能门锁的扬声器进行播放。此时用户能听到清晰、人性化的语音反馈,明确地了解到其请求的处理结果。其中播报过程不仅告知了用户查询的结果,其自然流畅的语调和个性化的内容,也极大地提升了交互的亲切感和智能化体验,从而完成了整个从用户提问到智能门锁解答的完整的交互闭环。
其中,在本发明的一个实施例中,方法还包括:
通过安全通信会话,周期性地从云端服务器接收并下载针对高频使用场景的轻量化语音模型包;
对轻量化语音模型包进行本地解压和加载,以热更新的方式替换或补充原有的本地识别模型,以使原需通过云端服务器处理的部分语音指令被更新后的本地识别模型直接识别并执行。
具体来说,在云端服务器上,一个后台数据分析任务会持续监控并统计分析由区域内(例如同一小区或同一城市)各个智能门锁上报的、需要云端进行识别的语音指令。该任务会对这些指令进行匿名化处理后,聚类分析其类型和出现的频率。通过这种大规模的群体智能分析,能够准确地识别出在特定用户群体中高频使用的、但初始状态下不被本地识别模型支持的复杂指令。例如,云端服务器可能会发现,“查询物业通知”、“呼叫管家”和“查询访客记录”是本月使用频率最高的三个云端语音指令。一旦识别出这些高频指令,云端服务器自动触发一个模型优化流程。此时云端服务器从部署在云端的、功能全面的大规模语音识别模型中,专门针对这些高频指令及其相关的声学和语言学特征,进行模型切片。接着,利用知识蒸馏等先进的模型压缩技术,将从大规模模型中学到的知识提炼并压缩到一个模型体积小、计算量低、但识别特定指令性能优越的轻量化语音模型包中。其中轻量化语音模型包类似一个针对性的补丁,专门用于增强智能门锁对这几类新指令的听力。
其中云端服务器在生成了轻量化语音模型包后,并不会立即下发,而是会等待一个合适的时机。其根据预设的策略,例如在设备空闲时段(如凌晨两点至四点)且检测到智能门锁的网络连接稳定(例如通过Wi-Fi连接且信号良好)时,才启动推送流程。推送过程严格通过双方已建立或临时建立的安全通信会话进行。云端服务器将轻量化语音模型包进行加密和签名后,通过该安全通道下发至对应的智能门锁。智能门锁在接收到数据包后,会首先使用云端服务器的公钥验证其数字签名,确保轻量化语音模型包在传输过程中未被篡改且确实来源于合法的云端服务器。
其中,在验证轻量化语音模型包的完整性和安全性之后,智能门锁的处理器开始执行本地识别模型的更新操作。其中该过程被设计为一种热更新机制,用于在不中断智能门锁正常运行、不影响用户正常使用的前提下,完成模型的无缝升级。具体来说,处理器首先将接收到的轻量化语音模型包进行本地解压,解压后的内容可能包括更新后的声学模型文件、补充的发音词典以及扩展的语言模型网络等。接着,处理器并不会立即用新模型覆盖旧模型,而是采用一种原子化的替换或补充策略,其将新模型组件加载到一块备用的内存区域中,并进行初始化。在所有准备工作就绪后,处理器仅需修改一个指向当前活动模型的内存指针,使其从指向旧模型瞬间切换到指向新模型。通过这种热更新的方式,原有的本地识别模型被成功地替换或补充,因此智能门锁的本地识别能力可以得到了相应进化。此后,当用户再次发出之前需要云端处理的指令时,例如“查询访客记录”,进化后的本地识别模型将能够直接在本地完成高精度的识别,并输出一个高置信度的识别结果。此时原先必须依赖云端服务器才能完成的语音到文本的识别过程,被前移到了智能门锁,此时智能门锁向云端服务器发送的不再是冗长的音频流,而是一个轻量的、结构化的文本请求,这使得交互延迟显著降低,用户体验得到质的提升。更重要的是,即使在网络状况不佳(例如高延迟、低带宽)的情况下,由于识别已在本地完成,智能门锁依然能够大概率成功地与用户完成交互,从而极大地增强了复杂指令交互的鲁棒性和可用性。
其中,在本发明的一个实施例中,方法还包括:
通过心跳机制持续监测与云端服务器的网络连接状态;
当检测到网络中断或连接质量连续低于预设的通信质量阈值时,自动切换至纯本地工作模式;
在纯本地工作模式下,对于接收到用户的所有语音指令均仅进行本地识别,并仅本地识别结果与预设的本地指令集中的指令相匹配且在置信度高于预设置信度阈值时才执行相应的本地操作;
若在纯本地工作模式下连续预设次数的本地识别结果不与本地指令集中的指令相匹配及/或本地识别所得到的置信度均不高于预设置信度阈值时,则触发智能门锁上的本地报警装置。
具体的,智能门锁的处理器启动一个后台任务,该任务的核心是一个心跳机制。其以一个固定的、较短的时间间隔(例如每三十秒),通过其网络通信模块向云端服务器的一个特定心跳接口发送一个极小的数据包。云端服务器在接收到该心跳包后,会立即返回一个确认响应。处理器持续地监测这个发送-接收的闭环过程,并从多个维度评估网络连接的质量。其不仅包括对心跳包是否能够成功收发进行二元判断,还包括对往返时延和连续丢包率等关键指标的量化统计。通过这种方式,智能门锁能够实时、精确地感知当前与云端服务器之间的网络连接状态。
其中处理器内部维护着一个通信质量阈值,该阈值不是单一数值,而是一个复合条件,例如“连续三次心跳包丢失”或“平均往返时延连续一分钟高于一秒”。当处理器通过心跳机制的监测,发现网络状况连续低于这个预设的通信质量阈值时(例如,检测到网络完全中断,或者连接质量极差导致数据交互不可靠),智能门锁立即触发自动切换至纯本地工作模式的机制。在这个模式下,智能门锁暂时中断所有尝试与云端服务器进行通信的主动行为。当用户发出语音指令后,即使双重检验决策判定该语音指令需要云端处理,智能门锁也会跳过建立安全通信会话的步骤,以避免在不可靠的网络上进行徒劳的尝试和长时间的等待,从而保证了用户交互的即时反馈。
其中,在进入纯本地工作模式后,智能门锁的功能会受到限制,但核心能力得以保留。具体来说,对于接收到的用户的所有语音指令,智能门锁都仅会执行本地识别流程。本地识别流程完成后,智能门锁同样进行双重检验决策。但是,由于已处于离线状态,任何在本地指令集中不存在的指令(如“查询租金”)都会被直接判定为无法执行。只有那些在本地指令集中存在、且识别置信度高于预设置信度阈值的本地指令(如“打开门锁”),才会被允许执行相应的本地操作。这种受限的操作模式,确保了在网络故障期间,用户依然可以使用智能门锁最基础、最核心的语音控制功能,保障了基本的用户体验。
其中,为了避免用户在纯本地工作模式下因无法执行复杂指令而感到困惑,还设计了一套智能化的本地报警机制。当智能门锁处于纯本地工作模式下时,如果处理器连续接收到预设次数(例如连续三次)的语音指令,而这几次指令的本地识别结果均因指令不匹配及/或置信度不高于阈值而无法执行时,智能门锁会判定用户可能正在尝试执行云端指令,并且可能并未意识到设备已离线。此时,触发智能门锁上的本地报警装置。其中该报警并非刺耳的警报声,而是一种人性化的提示。例如智能门锁面板上的环形LED指示灯会以一种特定的颜色(如橙色)和缓慢的呼吸式闪烁方式进行视觉提示。与此同时,智能门锁调用文本转语音引擎,通过扬声器播报一段预设的、清晰的提示语音,例如:“网络连接异常,部分功能已受限,暂时无法为您查询在线信息”。
综上,本发明上述实施例当中的语音交互处理方法,通过在智能门锁端部署本地识别模型,并设置指令集匹配与置信度双重检验的决策机制,实现了对高频核心指令的快速本地响应,以及对复杂云端指令的精准分流,从而极大地降低了用户常用操作的交互延迟,显著提升了系统的响应速度和用户体验;通过基于用户实时声纹生物特征,构建与云端服务器进行安全增强的安全通信会话,将身份认证与密钥交换协议深度融合,确保了只有合法的用户才能发起并建立加密通道,从根本上解决了传统认证方式与通信过程分离所带来的安全风险,杜绝了身份伪造和中间人攻击;通过在本地识别前置入频谱特性分析与活体特征分析的双重防伪检测,实现了对录音重放、语音合成等欺骗攻击的源头拦截,确保了仅处理来源于真实用户的语音指令,从根本上解决了声纹识别技术面临的伪造攻击威胁;通过在智能门锁本地部署高效的深度神经网络声学模型,并结合有限状态传感器解码器进行本地识别,实现了在资源受限的嵌入式设备上进行高精度的语音到文本转换,为快速、准确的本地决策提供了坚实的技术基础,解决了传统端侧识别能力弱、准确率低的问题;通过云端持续分析用户高频指令,并利用知识蒸馏等技术生成轻量化模型包,以热更新的方式动态优化端侧的本地识别模型,实现了智能门锁本地识别能力的自适应,使得原需依赖云端服务器的复杂指令,能够逐步下沉至智能门锁进行高效识别,有效解决了传统设备功能固化、无法成长的弊端,在长期使用中持续降低交互延迟、增强系统在弱网环境下的可用性;通过引入基于心跳机制的网络状态监测与自动降级切换至纯本地工作模式的容错机制,确保了在网络中断或质量极差的情况下,开锁等核心本地功能依然稳定可用,并能通过智能化的本地报警为用户提供清晰的状态反馈,解决了现有云端语音方案过度依赖网络连接、在弱网环境下服务不可用的关键痛点。解决了现有智能门锁语音交互技术在实时性、可靠性、安全性和交互智能化之间难以平衡的问题。
实施例二
请参阅图2,所示为本发明第二实施例中的语音交互处理方法,为了便于说明,仅示出了与本发明实施例相关的部分,本发明实施例提供的语音交互处理方法应用于云端服务器,方法包括:
步骤S21,与智能门锁建立一个基于用户声纹生物特征进行安全增强的安全通信会话;
其中,在本发明的一个实施例中,上述与智能门锁建立一个基于用户声纹生物特征进行安全增强的安全通信会话的步骤包括:
与智能门锁执行密钥协商协议,以协商生成一个基础会话密钥;
接收由智能门锁发送的基于从语音指令中提取的声纹生物特征而加密的初始认证数据包;
从所存储的用户注册声纹模板中,派生出一个用于解密的声纹模板密钥;
使用声纹模板密钥对初始认证数据包进行解密,并验证解密后的数据是否与预设的认证数据一致;
在验证一致后,将声纹模板密钥与基础会话密钥进行组合运算,生成一个用于后续通信的、经过生物特征增强的最终会话密钥;
使用最终会话密钥,建立一个对称加密通道作为安全通信会话。
具体的,云端服务器的接入层持续监听来自互联网的连接请求。当接收到来自一个智能门锁发起的密钥协商请求时,服务器会立即响应,并与其共同执行一个预设的、无需传输机密信息即可生成共享密钥的协议,例如椭圆曲线迪菲-赫尔曼协议。具体来说,云端服务器在接收到智能门锁的临时公钥后,立即生成自己本次会话专属的临时私钥和公钥,并将自己的公钥回传给智能门锁。随后,云端服务器使用自己的私钥和收到的门锁公钥进行一次数学运算。根据该协议的特性,其运算的结果将与智能门锁在其自身进行的运算结果完全一致,从而双方独立地、安全地生成了一个共享的秘密数值。这个数值即被云端服务器确认为本次通信的基础会话密钥。在完成基础会话密钥的协商后,云端服务器会等待并接收由智能门锁发送的初始认证数据包。其中该数据包是经过加密的,包含了用于身份验证的关键信息。
在接收到数据包的同时,云端服务器会解析请求中附带的设备标识符,以确定是哪一个智能门锁发起的请求。根据该设备标识符,云端服务器会立即从其高度安全的用户数据库中,检索出与该设备标识符绑定的、用户在注册时预先存储的声纹模板。进一步的,云端服务器并不会直接使用原始的声纹模板进行解密,而是通过一个与智能门锁完全相同的、不可逆的密码学哈希函数,将这个存储的声纹模板转换为一个固定长度的用于本次验证的声纹模板密钥。
进一步的,云端服务器使用上一步中派生出的声纹模板密钥,尝试对接收到的初始认证数据包进行对称解密。如果解密失败,则意味着数据包的加密密钥(即智能门锁实时派生的声纹认证密钥)与云端服务器基于注册模板派生的声纹模板密钥不匹配。这直接表明,发起请求的语音源并非注册用户本人,或者数据包在传输中已损坏。云端服务器会立即判定本次会话建立失败,并中断连接。如果解密成功,云端服务器进一步将解密出的明文内容,与一个双方预先约定好的、固定的认证数据进行逐位比对。只有当解密出的内容与预设的认证数据完全一致时,云端服务器才能最终确认数据包确实是由拥有合法声纹的用户生成的以及数据在传输过程中没有被篡改。
在成功验证了智能门锁的身份后,云端服务器会执行与智能门锁完全同步的密钥生成操作。将自己拥有的声纹模板密钥与第一步协商生成的基础会话密钥进行一次组合运算,例如按位进行异或操作。该运算生成一个最终会话密钥。其中最终会话密钥由于同时融入了密钥协商协议提供的、每次会话都不同的随机性,以及用户声纹生物特征所固有的、独一无二的唯一性,所以其安全性得到了极大的增强。
最后,云端服务器使用这个最终会话密钥,初始化一个高性能的对称加密算法实例(如AES-256-GCM模式),并以此为基础,正式建立起与该智能门锁的、端到端加密且经过声纹认证的安全通信会话。从这一刻起,所有在该会话内传输的数据,都将受到该最终会话密钥的保护,为后续的语音识别、大模型处理以及结果下发等所有敏感操作提供了坚实可靠的安全保障。
步骤S22,通过已建立的安全通信会话,接收来自智能门锁的语音指令;
其中,在本发明的一个实施例中,一旦云端服务器与智能门锁成功建立起安全增强的安全通信会话,云端服务器便进入一个持续监听与安全接收的状态,准备处理由智能门锁发送的业务请求。当用户在智能门锁端发出一个需要云端服务器处理的语音指令后,云端服务器的网络接入层通过其开放的端口,持续接收来自互联网的数据流。当一个数据包到达时,云端服务器首先会检查其网络协议头信息,例如源IP地址和端口号,以识别该数据包所属的TCP/IP连接。其中云端服务器内部维护着一个活动会话表,该表中记录了所有当前处于激活状态的安全通信会话及其对应的网络连接信息和安全上下文(包括会话密钥、加密算法、初始化向量等)。云端服务器使用接收到的数据包的网络连接信息,在该活动会话表中进行快速查找,以将该数据包精确地匹配到之前已建立的、与特定智能门锁对应的那个安全通信会话。如果一个数据包无法在活动会话表中找到匹配的会话,或者其所属的会话已超时失效,云端服务器会将其判定为无效或恶意数据包,并直接丢弃,不进行任何后续处理。
其中由于用户的语音指令音频数据通常较大,其会被智能门锁按照传输控制协议(TCP)的规则,分割成多个较小的数据段(Segments)进行传输。云端服务器在网络层接收到属于同一个会话的连续数据包后,其操作系统内核的TCP/IP协议栈会自动负责处理这些数据段。具体来说,协议栈会根据每个数据段的序列号,对其进行排序和重组,确保数据的顺序正确无误。同时,还会通过校验和机制检查每个数据段在传输过程中是否发生比特错误。如果发现有数据段丢失或损坏,协议栈会自动发起重传请求,直至所有数据被完整、正确地接收。当所有属于该次语音指令传输的数据段都被成功接收并重组后,协议栈会将它们拼接成一个完整的、连续的应用层数据块。这个数据块就是经过加密的、包含了完整用户语音指令的原始数据。
其中云端服务器的处理器从TCP/IP协议栈获取到完整的应用层加密数据块后,便进入了安全层的处理环节。首先从与当前会话匹配的活动会话表中,取出在会话建立时生成的最终会话密钥以及相关的加密参数。接着,处理器调用预设的对称加密算法实例(例如AES-256-GCM模式),使用该最终会话密钥对整个加密数据块进行解密。在解密过程中,GCM模式还会利用数据块中附带的认证标签(AuthenticationTag),同步进行完整性校验。这个校验过程能够确保数据不仅被正确解密,而且在从智能门锁发出到被云端服务器接收的整个传输过程中没有被任何人进行篡改。其中如果解密失败或完整性校验不通过,云端服务器判定其为一次潜在的网络攻击或数据传输错误,此时立即终止处理并记录安全日志。
其中在成功解密并通过完整性校验后,处理器最终得到了一个明文的应用层数据包。根据预设的应用协议,这个数据包内包含了经过编码的、原始的用户语音指令音频流(例如采用PCM或Opus编码格式)。处理器将这个纯净的、可信的语音指令音频流,从网络接收模块中提取出来。
步骤S23,在安全通信会话内,对智能门锁的身份及语音指令的来源进行声纹安全验证;
其中,在本发明的一个实施例中,上述对智能门锁的身份及语音指令的来源进行声纹安全验证的步骤包括:
从通过安全通信会话接收的语音指令中,提取出一个实时声纹特征向量;
根据智能门锁的设备标识,从安全存储中检索出与设备标识绑定的、预先注册的用户声纹模板向量;
在一个预训练的深度声纹识别模型中,分别计算实时声纹特征向量和用户声纹模板向量的嵌入表示,并计算两个嵌入表示之间的余弦相似度得分;
当且仅当余弦相似度得分高于一预设的身份验证阈值时,判定声纹安全验证通过。
具体的,云端服务器在通过安全通信会话成功接收并解密了来自智能门锁的语音指令音频流后,并不会立即将其送入语音识别引擎进行处理。取而代之的是,其会首先启动一个基于声纹生物特征的安全验证流程,用于对当前指令的用户身份进行二次确认,确保其与建立该安全会话时所认证的用户身份一致,从而防止会话被劫持或滥用。
具体来说,处理器获取刚解密得到的、纯净的语音指令音频流。随即对这段音频流进行处理得到实时声纹特征向量,参照前述的智能门锁中的特征提取。具体的,首先对音频流进行分帧、加窗等预处理,然后通过梅尔频率倒谱系数分析或其他声学特征提取方法(如滤波器组能量特征),将这段不定长的语音信号,转换成一个能够高度浓缩当前用户身份核心特性的实时声纹特征向量。
在提取实时声纹特征的同时,云端服务器根据当前安全通信会话所关联的设备标识符,向用户数据库的安全存储区发起一次检索请求,用于获取与该智能门锁绑定的、用户在系统初始化时预先注册并存储的用户声纹模板向量。其中存储的用户声纹模板向量通常是通过采集用户在安静环境下念出的多段标准文本,提取其声纹特征后,经过平均、去噪和建模等一系列过程生成的,代表了该授权用户最标准、最稳定的声音模型。处理器将准备好的实时声纹特征向量和用户声纹模板向量,一同送入一个部署在云端服务器上的预训练深度声纹识别模型。该模型通常采用神经网络架构,例如基于残差网络(ResNet)的模型或基于Transformer的模型,其识别精度和鲁棒性远超智能门锁的轻量级模型。其中该深度声纹识别模型的核心功能,是将输入的、维度可能很高且不固定的声纹特征,映射到一个被称为嵌入表示的、固定维度的(例如五百一十二维)数学向量空间中。在这个空间里,同一个说话人的不同语音所生成的嵌入向量在几何上会聚集在一起,而不同说话人的嵌入向量则会相互远离。此时深度声纹识别模型分别计算出实时声纹特征向量和用户声纹模板向量在该嵌入空间中的精确坐标,即其嵌入表示。接着处理器在这两个嵌入表示之间,计算其余弦相似度得分。
最后,处理器将计算出的余弦相似度得分,与一个在云端服务器中为该用户或该用户等级设定的预设身份验证阈值(例如0.95)进行比较。当且仅当所述计算出的余弦相似度得分高于该预设的身份验证阈值时,云端服务器才会最终判定,当前这条语音指令的来源确实是该智能门锁绑定的授权用户本人。此时,声纹安全验证通过,处理器给该段语音指令打上已认证的标签,并允许其进入后续的流程。如果计算出的相似度得分不高于该阈值,则表明当前说话人的声音与注册用户存在显著差异,可能存在非授权用户尝试操作、会话被恶意利用等安全风险。此时,云端服务器判定声纹安全验证失败,并立即中断本次请求的处理流程。此时不仅会阻止该语音指令进入识别环节,还会记录一次安全告警事件,并可能通过安全通信会话向智能门锁返回一个身份验证失败的错误响应,从而确保了整个处理云端流程的最高安全性。
步骤S24,在声纹安全验证通过后,对语音指令进行识别,以得到指令文本;
其中,在本发明的一个实施例中,在云端服务器的判定当前语音指令的声纹安全验证通过后,云端服务器将其送入大规模自动语音识别(ASR)引擎,以执行高精度的语音到文本转换。该大规模自动语音识别引擎基于服务器集群强大的计算能力和海量的数据模型,其识别性能远超智能门锁的本地识别模型,能够处理更广泛的词汇、更复杂的句式以及更具挑战性的声学环境。具体实现如下:
处理器将已经通过声纹安全验证的、纯净的语音指令音频流,作为输入传递给大规模自动语音识别引擎的声学前端处理模块。与智能门锁主要关注效率的特征提取不同,云端服务器的前端处理旨在最大化地挖掘音频信号中的有效信息,并抑制噪声干扰。具体来说,该声学前端处理模块首先对音频流进行分帧、加窗等基础预处理。接着,其不仅会提取标准的梅尔频率倒谱系数(MFCC),还可能并行地提取多种高级声学特征,例如基于感知线性预测(Perceptual Linear Prediction,PLP)的系数、滤波器组能量特征(FBank)以及音高(Pitch)特征等。将这些多维度的特征进行拼接或融合,可以为后续的声学模型提供一个比单一MFCC更丰富、更鲁棒的声学表征。
经过前端处理后生成的复杂特征序列,被输入至一个部署在服务器集群上的大规模深度声学模型。该模型通常采用神经网络架构,例如基于Transformer的端到端模型。这些模型通过在海量、多领域语音数据上进行预训练,具备了极其强大的声学建模能力。模型接收输入的特征序列,并通过其多层的自注意力机制和卷积模块,深度地学习语音信号在时间维度上的复杂依赖关系和局部相关性。模型的最终输出是一个概率分布序列。对于输入特征序列的每一个时间步,模型都会输出一个向量,该向量中的每一个值,都代表了当前时刻的语音信号对应于词典中某一个基本发音单元(例如字、词或子词单元)的概率。
进一步的,大规模自动语音识别引擎的解码器接收来自声学模型的概率分布序列,并开始进行解码搜索,以找出最可能的文本转写结果。其中解码器通常会采用复杂的解码算法,例如束搜索(Beam Search),以在庞大的搜索空间中高效地寻找最优路径。在搜索过程中,解码器不仅依赖于声学模型给出的“听觉”信息,还会紧密地结合一个大规模的语言模型。这个语言模型通过学习海量的文本语料库(例如公开网页、书籍、对话数据等)构建而成,其能够提供强大的语法和语义约束。例如,当声学模型在“查询”和“茶讯”之间犹豫不决时,语言模型会根据上下文判断出“查询账单”的概率远高于“茶讯账单”,从而引导解码器选择正确的词。
为了进一步提升准确性,在束搜索初步得到一个包含多个候选结果的列表后,还可能启动一个二次重估的流程。其使用一个比解码时所用语言模型更强大、更复杂的神经网络语言模型,对这个候选列表中的每一个句子进行重新打分,选出全局语义上最通顺、最合理的一个句子。
最终,经过二次重估后得分最高的候选句子,被确定为本次语音识别的最终结果,即指令文本(例如“帮我查一下这个月的租金交了没?”),其被从大规模自动语音识别引擎中输出。
步骤S25,将指令文本以及所获取的与智能门锁关联的业务数据一同输入至一个大语言模型进行逻辑处理,以生成与当前业务场景相匹配的动态响应文本及/或云端操作指令;
其中,在本发明的一个实施例中,将上述指令文本与业务数据一同输入至一个大语言模型进行逻辑处理的步骤包括:
根据从指令文本中识别出的用户意图以及业务数据的类型,从一个预设的提示词工程模板库中,动态选择一个相匹配的情境提示词模板;
将业务数据中的各项关键信息,依据情境提示词模板中预定义的变量占位符进行提取和填充,以构建一个包含完整业务上下文的、结构化的最终提示词;
将结构化的最终提示词发送至大语言模型进行逻辑推理,以生成与当前业务场景相匹配的动态响应文本及/或云端操作指令。
具体的,云端服务器的处理器首先对已经获得的指令文本(例如“帮我查一下这个月的租金交了没?”)进行用户意图识别。通过一个轻量级的自然语言理解模型或关键词匹配规则,能够快速地将该指令归类为“业务查询-租金状态”这一具体意图。与此同时,处理器分析已获取的业务数据的类型和结构。基于识别出的用户意图和业务数据类型,云端服务器会从一个预设在云端服务器的提示词工程模板库中,动态地选择一个最相匹配的情境提示词模板。这个模板库是预先由领域专家精心设计的,每一个模板都对应一个特定的业务场景,并内置了引导大语言模型进行正确思考和输出的最佳实践。
其中选定模板后,处理器会开始构建一个结构化的最终提示词。这个过程并非简单的文本拼接,而是一个将离散信息注入到模板框架中的精确操作。具体来说,情境提示词模板内部定义了一系列的变量占位符。处理器从获取的业务数据中,提取出各项关键信息(例如租户姓名、缴纳状态、金额、下次到期日等),并依据模板中预定义的变量占位符,将这些信息进行提取和填充。处理器将业务数据填充进去,构建出一段包含完整业务上下文的、结构化的最终提示词。
其中,处理器将构建好的、包含丰富上下文和明确指令的结构化的最终提示词,通过API调用,发送至大语言模型进行逻辑推理。大语言模型在接收到这个精心设计的提示词后,首先会遵循系统指令中定义的物业管家角色,决定后续生成文本的语气和风格。然后阅读并理解“上下文数据”部分,掌握所有关于本次查询的背景事实。进一步的,结合上下文,对用户查询进行回答,并根据业务逻辑进行决策。例如,因为其知道租金已缴纳,所以判断无需执行任何催缴操作。最关键的是,其会严格遵循输出格式约束中定义的JSON结构,将其思考的结果进行封装。最终,大语言模型会返回一个结构化的字符串。
其中,云端服务器的处理器接收到大语言模型返回的这个JSON格式的字符串后,对其进行解析分别提取出需要向用户播报的动态响应文本、需要下发给智能门锁的云端操作指令、以及作为执行指令时可能需要的参数。至此,整个逻辑处理流程完成。云端服务器利用大语言模型,将一个简单的用户查询,和一组冰冷的数据库条目,转换成了一段信息完整的自然语言回答,及/或一个明确的、可供机器执行的操作指令。这个响应结果随后会被打包并通过安全通信会话下发至智能门锁。
步骤S26,通过安全通信会话,将生成的动态响应文本及/或云端操作指令下发至智能门锁;
其中,在本发明的一个实施例中,当云端服务器的大语言模型逻辑处理流程成功生成了结构化的响应结果后,云端服务器的处理器首先获取由大语言模型输出的已经解析好的动态响应文本(一个字符串)及/或云端操作指令(一个指令代码及相关参数)。为了便于网络传输和智能门锁解析,处理器会构建一个遵循预定义应用层协议的响应数据对象。在本实施例中,该响应数据对象是一个结构化的数据格式,例如JSON对象。
接着,处理器对这个构建好的响应数据对象进行序列化处理。即将这个内存中的数据结构,转换为一个连续的字节流,例如一个紧凑的UTF-8编码的JSON字符串。此时处理器将序列化后的明文字节流,传递给安全层进行加密处理。安全层会从与当前会话关联的活动会话表中,取出在会话建立时生成的最终会话密钥以及相关的加密上下文。
随后,处理器调用预设的对称加密算法实例(例如AES-256-GCM模式),使用该最终会话密钥对整个明文字节流进行加密,生成一段无法被直接读取的密文字节流。GCM模式在加密的同时,还会根据密钥和明文内容,生成一个简短但高度安全的认证标签。这个认证标签将被附加在密文字节流的末尾。其作用是向接收方证明,这段密文确实是由持有相同密钥的一方生成的,并且在传输过程中没有被篡改过。
其中经过加密并附加了认证标签的数据包被视为一个完整的应用层数据块。处理器将这个数据块传递给操作系统内核的TCP/IP协议栈,准备进行网络传输。其中如果该数据块的大小超过了网络的最大传输单元(MTU),TCP协议会自动将其分割成多个较小的数据段。TCP会为每个数据段添加包含了序列号、端口号等信息的头部,并计算校验和,然后将这些数据段依次交给网络层。网络层(IP协议)为每个数据段添加包含了源、目的IP地址的头部,形成最终的IP数据包。最后,这些数据包通过云端服务器的物理网络接口,被发送到互联网中,并由路由器根据其目的地址,最终路由到对应的智能门锁。
在数据发送后,云端服务器的TCP协议栈会等待智能门锁返回对每个数据段的确认(ACK)信息。如果某个数据段的确认信息在预设时间内没有收到,TCP协议会自动进行重传,直至所有数据都被对方成功接收。通过这种可靠的传输机制确保了即使在网络存在丢包的情况下,完整的响应数据也能最终送达智能门锁。在所有数据被确认送达后,本次下发流程即告完成。云端服务器会更新该安全通信会话的状态,例如重置计时器或记录一次成功的交互,然后继续保持监听状态,等待该智能门锁的下一次请求,或在预设的空闲时间后安全地关闭该会话。
其中,在本发明的一个实施例中,方法还包括:
持续监控并统计分析由各个智能门锁上报的在云端服务器进行识别的语音指令的类型和频率,以识别出在特定用户群体中高频使用的、需要云端服务器处理的复杂指令;
从部署在云端服务器上的大规模语音识别模型中,针对高频使用的复杂指令进行模型切片与知识蒸馏压缩,以生成轻量化语音模型包;
通过安全通信会话,将轻量化语音模型包主动推送至对应的智能门锁,以供智能门锁进行本地识别模型的更新。
具体的,云端服务器持续监控并统计分析所有由智能门锁上报的、需要云端进行识别的语音指令。具体来说,一个数据挖掘任务会周期性地(例如每日凌晨)运行。其汇总过去二十四小时内所有需要云端识别的指令文本,并对这些文本进行聚类分析和频率统计。通过自然语言处理技术,云端服务器能够自动地将语义相近的指令(例如“查物业费”、“物业费交了没”、“物业费多少钱”)归为同一意图类别,也即物业费查询。通过对这些意图类别的频率进行排序,能够清晰地识别出在特定用户群体中高频使用的、但目前仍需依赖云端服务器处理的复杂指令。例如,分析报告可能会指出,物业费查询、访客预约码生成和查询快递信息是本周排名前三的高频云端指令。
其中一旦识别出这些高频复杂指令,云端服务器从部署在云端的、参数量巨大的大规模语音识别模型中,定位到与这些高频指令相关的神经网络层和权重参数。接着,启动知识蒸馏流程,将庞大复杂的大规模模型作为教师模型,并创建一个网络结构更简单、参数量更少的轻量化模型作为学生模型。云端服务器使用大量与这些高频指令相关的语音数据,同时输入给教师模型和学生模型。学生模型的学习目标,不再是仅仅拟合数据的标准答案(硬标签),更重要的是要去模仿教师模型在面对这些数据时,其内部复杂的概率输出分布(软标签)。通过这种教学方式,学生模型能够以极小的模型体积,高效地学到教师模型在处理特定任务上的精髓。在知识蒸馏完成后,还会对学生模型进行量化压缩,例如将模型权重从三十二位浮点数转换为八位整数,进一步减小其体积和计算量。最终,生成一个专门用于在智能门锁的高效识别这些高频指令的轻量化语音模型包。
其中云端服务器将生成好的轻量化语音模型包存储起来,并为其附加版本号和数字签名。然后,进入一个智能推送阶段。云端服务器会根据预设的策略,例如在设备空闲、网络良好(Wi-Fi连接)且电量充足的条件下,通过安全通信会话,将这个轻量化语音模型包主动推送至目标用户群体的智能门锁。在推送轻量化语音模型包的同时,云端服务器还会附带一个更新指令。这个更新指令清晰地告知智能门锁其为用于更新本地识别模型的软件包,并提供了验证其完整性和安全性的校验信息。这个过程确保了只有经过授权的、安全可靠的模型才能被端侧设备接收和加载。智能门锁接收到模型包和指令后,便会执行如前文所述的本地热更新流程,从而完成一次无缝的、智能化的能力升级。
其中,在本发明实施例中,通过在已建立的安全通信会话内,进行基于深度声纹识别模型的身份验证,实现了对每一条业务指令来源的二次确认,构建了通道安全及内容安全的双重保险,有效防止了会话被劫持或滥用的风险,确保了云端敏感操作的绝对安全,通过将用户指令文本与实时业务数据一同输入至大语言模型,并利用动态提示词模板工程进行逻辑处理,实现了从简单的命令执行到真正的情境感知与人性化交互的跨越,使得云端服务器能够像一位专业的助理一样,结合上下文进行智能推理和决策,生成信息丰富、语气自然的动态响应,彻底解决了传统语音交互内容生硬、缺乏智能的根本问题。
实施例三
请参阅图3,所示为本发明第三实施例提供的一种语音交互处理装置的结构示意图,为了便于说明,仅示出了与本发明实施例相关的部分,本发明实施例提供的语音交互处理装置应用于智能门锁,所述装置包括:
本地识别模块11,用于接收用户发出的语音指令,并对所述语音指令进行本地识别,以得到本地识别结果及对应的置信度;
本地操作模块12,用于当所述本地识别结果与预设的本地指令集中的指令相匹配且所述置信度高于预设置信度阈值时,直接执行与所述本地识别结果相对应的本地操作;
第一安全通信会话模块13,用于当所述本地识别结果不与所述本地指令集中的指令相匹配或所述置信度不高于所述预设置信度阈值时,基于从所述语音指令中提取的声纹生物特征,建立与云端服务器进行安全增强的安全通信会话;
语音指令发送模块14,用于通过所述安全通信会话,将所述语音指令发送至所述云端服务器,以使所述云端服务器进行识别、并结合关联的业务数据通过大语言模型进行逻辑处理,从而生成与当前业务场景相匹配的动态响应文本及/或云端操作指令;
数据接收模块15,用于通过所述安全通信会话,接收由所述云端服务器返回的所述云端操作指令及/或所述动态响应文本;
响应操作模块16,用于根据所述云端操作指令执行相应操作,及/或通过内置的文本转语音引擎将所述动态响应文本转换为语音进行播报。
进一步的,在本发明的一个实施例中,所述第一安全通信会话模块13包括:
第一协商单元,用于与所述云端服务器执行密钥协商协议,以协商生成一个基础会话密钥;
音频信号分析单元,用于从所述语音指令的音频信号中,通过梅尔频率倒谱系数分析,提取出一个作为生物识别因子的声纹特征向量;
密钥数据加密单元,用于将所述声纹特征向量派生为一个声纹认证密钥,并使用所述声纹认证密钥对一个预设的认证数据进行加密,以生成一个初始认证数据包;
数据包发送单元,用于将所述初始认证数据包发送至所述云端服务器,以供所述云端服务器进行解密验证;
第一密钥生成单元,用于在所述云端服务器验证成功后,将所述声纹认证密钥与所述基础会话密钥进行组合运算,生成一个经过生物特征增强的最终会话密钥;
第一安全通信会话建立单元,用于使用所述最终会话密钥,建立一个对称加密通道作为所述安全通信会话。
进一步的,在本发明的一个实施例中,所述本地识别模块11包括:
频谱特性分析单元,用于对所述语音指令的音频信号进行频谱特性分析,以识别由录音设备或语音合成技术引入的非自然声学伪影;
活体特征分析单元,用于对所述语音指令的音频信号进行活体特征分析,以检测其中是否存在人类发声所特有的微弱生理特征;
第二安全通信会话建立单元,用于当且仅当所述频谱特性分析和所述活体特征分析的结果均表明所述语音指令来源于真实用户时,建立与云端服务器进行安全增强的安全通信会话。
进一步的,在本发明的一个实施例中,所述频谱特性分析单元包括:
音频信号转换子单元,用于将所述语音指令的音频信号转换为恒定Q变换倒谱系数的特征向量序列;
模型输入子单元,用于将所述特征向量序列分别输入至一个预先训练的用于表征真实人声的活体高斯混合模型,和一个预先训练的用于表征非活体声音的伪造高斯混合模型;
对数似然值计算子单元,用于分别计算所述特征向量序列由所述活体高斯混合模型和所述伪造高斯混合模型生成的对数似然值;
第一判定子单元,用于计算两个对数似然值的比值,并将所述比值与预设的防伪判决阈值进行比较,以判定所述音频信号中是否包含非自然声学伪影。
进一步的,在本发明的一个实施例中,活体特征分析单元包括:
端点检测子单元,用于对所述语音指令的音频信号进行端点检测,以分割出语音段和静音段;
第一频谱分析子单元,用于对所述静音段进行频谱分析,以检测是否存在符合人类呼吸声谱特征的信号分量;
第二频谱分析子单元,用于对所述语音段提取基频轮廓,并对所述基频轮廓自身进行二次频谱分析,以检测在预设频率范围内是否存在由心率搏动引起的周期性基频微颤;
第二判定子单元,用于当且仅当同时检测到所述呼吸声谱特征和所述周期性基频微颤时,判定所述音频信号包含人类发声所特有的微弱生理特征。
进一步的,在本发明的一个实施例中,所述本地识别模块11包括:
音频流采集单元,用于通过一个循环音频缓冲区实时采集用户发出的语音指令的音频流;
特征序列提取单元,用于对所述音频流执行声学前端处理,以提取出梅尔频率倒谱系数的特征序列;
声学得分计算单元,用于将所述特征序列输入至一个预先部署在智能门锁本地的基于深度神经网络的声学模型,以计算所述特征序列对应于预设本地指令集中各个指令的声学得分;
候选识别结果输出单元,用于将所述声学模型输出的所述声学得分输入至一个有限状态传感器解码器中,结合一个预置的语言模型进行解码搜索,以输出一个包含一个或多个候选识别结果的列表;
本地识别单元,用于选择所述候选识别结果的列表中的最优结果作为所述本地识别结果,并将所述最优结果对应的后验概率作为所述置信度。
进一步的,在本发明的一个实施例中,所述系统还包括:
轻量化语音模型包接收模块,用于通过所述安全通信会话,周期性地从所述云端服务器接收并下载针对高频使用场景的轻量化语音模型包;
本地识别模型更新模块,用于对所述轻量化语音模型包进行本地解压和加载,以热更新的方式替换或补充原有的本地识别模型,以使原需通过云端服务器处理的部分语音指令被更新后的本地识别模型直接识别并执行。
进一步的,在本发明的一个实施例中,所述系统还包括:
网络连接状态监测模块,用于通过心跳机制持续监测与所述云端服务器的网络连接状态;
工作模式切换模块,用于当检测到网络中断或连接质量连续低于预设的通信质量阈值时,自动切换至纯本地工作模式;
本地识别操作模块,用于在所述纯本地工作模式下,对于接收到用户的所有语音指令均仅进行本地识别,并仅本地识别结果与预设的本地指令集中的指令相匹配且在所述置信度高于所述预设置信度阈值时才执行相应的本地操作;
本地报警模块,用于若在所述纯本地工作模式下连续预设次数的本地识别结果不与所述本地指令集中的指令相匹配及/或本地识别所得到的置信度均不高于所述预设置信度阈值时,则触发所述智能门锁上的本地报警装置。
本发明实施例所提供的语音交互处理装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例四
请参阅图4,所示为本发明第四实施例提供的一种语音交互处理装置的结构示意图,为了便于说明,仅示出了与本发明实施例相关的部分,本发明实施例提供的语音交互处理装置应用于云端服务器,所述装置包括:
第二安全通信会话模块21,用于与智能门锁建立一个基于用户声纹生物特征进行安全增强的安全通信会话;
语音指令接收模块22,用于通过已建立的所述安全通信会话,接收来自所述智能门锁的语音指令;
声纹安全验证模块23,用于在所述安全通信会话内,对所述智能门锁的身份及所述语音指令的来源进行声纹安全验证;
语音指令识别模块24,用于在所述声纹安全验证通过后,对所述语音指令进行识别,以得到指令文本;
逻辑处理模块25,用于将所述指令文本以及所获取的与所述智能门锁关联的业务数据一同输入至一个大语言模型进行逻辑处理,以生成与当前业务场景相匹配的动态响应文本及/或云端操作指令;
数据发送模块26,用于通过所述安全通信会话,将生成的所述动态响应文本及/或所述云端操作指令下发至所述智能门锁。
进一步的,在本发明的一个实施例中,所述第二安全通信会话模块21包括:
第二协商单元,用于与所述智能门锁执行密钥协商协议,以协商生成一个基础会话密钥;
初始认证数据包接收单元,用于接收由所述智能门锁发送的基于从所述语音指令中提取的声纹生物特征而加密的初始认证数据包;
声纹模板密钥派生单元,用于从所存储的用户注册声纹模板中,派生出一个用于解密的声纹模板密钥;
解密验证单元,用于使用所述声纹模板密钥对所述初始认证数据包进行解密,并验证解密后的数据是否与预设的认证数据一致;
第一密钥生成单元,用于在解密验证单元验证一致后,将所述声纹模板密钥与所述基础会话密钥进行组合运算,生成一个用于后续通信的、经过生物特征增强的最终会话密钥;
第三安全通信会话建立单元,用于使用所述最终会话密钥,建立一个对称加密通道作为所述安全通信会话。
进一步的,在本发明的一个实施例中,所述声纹安全验证模块23包括:
实时声纹特征向量提取单元,用于从通过所述安全通信会话接收的所述语音指令中,提取出一个实时声纹特征向量;
检索单元,用于根据所述智能门锁的设备标识,从安全存储中检索出与所述设备标识绑定的、预先注册的用户声纹模板向量;
嵌入表示计算单元,用于在一个预训练的深度声纹识别模型中,分别计算所述实时声纹特征向量和所述用户声纹模板向量的嵌入表示,并计算两个嵌入表示之间的余弦相似度得分;
声纹安全验证单元,用于当且仅当所述余弦相似度得分高于一预设的身份验证阈值时,判定所述声纹安全验证通过。
进一步的,在本发明的一个实施例中,所述系统还包括:
统计分析模块,用于持续监控并统计分析由各个智能门锁上报的在云端服务器进行识别的语音指令的类型和频率,以识别出在特定用户群体中高频使用的、需要云端服务器处理的复杂指令;
轻量化语音模型包生成模块,用于从部署在所述云端服务器上的大规模语音识别模型中,针对高频使用的复杂指令进行模型切片与知识蒸馏压缩,以生成轻量化语音模型包;
轻量化语音模型包推送模块,用于通过所述安全通信会话,将所述轻量化语音模型包主动推送至对应的智能门锁,以供所述智能门锁进行本地识别模型的更新。
进一步的,在本发明的一个实施例中,所述逻辑处理模块25包括:
提示词模板选择单元,用于根据从所述指令文本中识别出的用户意图以及所述业务数据的类型,从一个预设的提示词工程模板库中,动态选择一个相匹配的情境提示词模板;
提示词构建单元,用于将所述业务数据中的各项关键信息,依据所述情境提示词模板中预定义的变量占位符进行提取和填充,以构建一个包含完整业务上下文的、结构化的最终提示词;
逻辑处理单元,用于将所述结构化的最终提示词发送至所述大语言模型进行逻辑推理,以生成与当前业务场景相匹配的动态响应文本及/或云端操作指令。
本发明实施例所提供的语音交互处理装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例五
本发明另一方面还提出一种智能门锁,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现如上述实施例一的语音交互处理方法。
其中,处理器在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器中存储的程序代码或处理数据,例如执行访问限制程序等。
其中,存储器至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器在一些实施例中可以是智能门锁的内部存储单元,例如该智能门锁的硬盘。存储器在另一些实施例中也可以是智能门锁的外部存储装置,例如智能门锁上配备的智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器还可以既包括智能门锁的内部存储单元也包括外部存储装置。存储器不仅可以用于存储安装于智能门锁的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
实施例六
本发明另一方面还提出一种云端服务器,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现如上述实施例二的语音交互处理方法。
具体的,处理器在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器中存储的程序代码或处理数据,例如执行访问限制程序等。
其中,存储器至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器在一些实施例中可以是云端服务器的内部存储单元,例如该云端服务器的硬盘。存储器在另一些实施例中也可以是云端服务器的外部存储装置,例如云端服务器上配备的智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器还可以既包括云端服务器的内部存储单元也包括外部存储装置。存储器不仅可以用于存储安装于云端服务器的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
实施例七
本发明另一方面还提出一种语音交互处理系统,包括如上述实施例五所述的智能门锁;以及与所述智能门锁进行通信连接的如上述实施例六所述的云端服务器。
其中智能门锁作为用户交互的入口,其硬件上通常包括麦克风阵列、高性能低功耗的处理器(例如集成NPU的嵌入式SoC)、存储器(Flash、RAM)、扬声器、锁体控制执行器以及网络通信模块(Wi-Fi/蓝牙/Zigbee/5G等)。其软件上运行一个嵌入式操作系统,并部署了实现前述实施例一中方法的程序,具体存储器中存储有计算机程序,当处理器执行该程序时,实现本发明前述实施例一中的语音交互处理方法。
其中云端服务器作为数据处理和智能决策的中心,其硬件上是一个或多个基于标准云计算架构的服务器集群或虚拟机集群,包括高性能处理器(CPU/GPU)、分布式大容量存储器、数据库以及负载均衡等,其云端服务器具备强大的计算和存储能力。其软件上运行一个嵌入式操作系统,部署了大规模语音识别(ASR)模型、深度声纹识别模型、大语言模型(LLM)服务接口以及用于处理业务逻辑的应用程序,进一步的,其云端服务器的存储器中存储有计算机程序,当处理器执行该程序时,实现本发明前述实施例二所述的语音交互处理方法。
本发明实施例还提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现如前述实施例一所述的语音交互处理方法。
本发明实施例还提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现如前述实施例二所述的语音交互处理方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。
Claims (18)
1.一种语音交互处理方法,其特征在于,应用于智能门锁,所述方法包括:
接收用户发出的语音指令,并对所述语音指令进行本地识别,以得到本地识别结果及对应的置信度;
当所述本地识别结果与预设的本地指令集中的指令相匹配且所述置信度高于预设置信度阈值时,直接执行与所述本地识别结果相对应的本地操作;
当所述本地识别结果不与所述本地指令集中的指令相匹配或所述置信度不高于所述预设置信度阈值时,基于从所述语音指令中提取的声纹生物特征,建立与云端服务器进行安全增强的安全通信会话;
通过所述安全通信会话,将所述语音指令发送至所述云端服务器,以使所述云端服务器进行识别、并结合关联的业务数据通过大语言模型进行逻辑处理,从而生成与当前业务场景相匹配的动态响应文本及/或云端操作指令;
通过所述安全通信会话,接收由所述云端服务器返回的所述云端操作指令及/或所述动态响应文本;
根据所述云端操作指令执行相应操作,及/或通过内置的文本转语音引擎将所述动态响应文本转换为语音进行播报。
2.根据权利要求1所述的语音交互处理方法,其特征在于,所述基于从所述语音指令中提取的声纹生物特征,建立与云端服务器进行安全增强的安全通信会话的步骤包括:
与所述云端服务器执行密钥协商协议,以协商生成一个基础会话密钥;
从所述语音指令的音频信号中,通过梅尔频率倒谱系数分析,提取出一个作为生物识别因子的声纹特征向量;
将所述声纹特征向量派生为一个声纹认证密钥,并使用所述声纹认证密钥对一个预设的认证数据进行加密,以生成一个初始认证数据包;
将所述初始认证数据包发送至所述云端服务器,以供所述云端服务器进行解密验证;
在所述云端服务器验证成功后,将所述声纹认证密钥与所述基础会话密钥进行组合运算,生成一个经过生物特征增强的最终会话密钥;
使用所述最终会话密钥,建立一个对称加密通道作为所述安全通信会话。
3.根据权利要求1所述的语音交互处理方法,其特征在于,所述对所述语音指令进行本地识别的步骤包括:
对所述语音指令的音频信号进行频谱特性分析,以识别由录音设备或语音合成技术引入的非自然声学伪影;
对所述语音指令的音频信号进行活体特征分析,以检测其中是否存在人类发声所特有的微弱生理特征;
当且仅当所述频谱特性分析和所述活体特征分析的结果均表明所述语音指令来源于真实用户时,对所述语音指令进行本地识别。
4.根据权利要求3所述的语音交互处理方法,其特征在于,所述对所述语音指令的音频信号进行频谱特性分析,以识别由录音设备或语音合成技术引入的非自然声学伪影的步骤包括:
将所述语音指令的音频信号转换为恒定Q变换倒谱系数的特征向量序列;
将所述特征向量序列分别输入至一个预先训练的用于表征真实人声的活体高斯混合模型,和一个预先训练的用于表征非活体声音的伪造高斯混合模型;
分别计算所述特征向量序列由所述活体高斯混合模型和所述伪造高斯混合模型生成的对数似然值;
计算两个对数似然值的比值,并将所述比值与预设的防伪判决阈值进行比较,以判定所述音频信号中是否包含非自然声学伪影。
5.根据权利要求3所述的语音交互处理方法,其特征在于,所述对所述语音指令的音频信号进行活体特征分析,以检测其中是否存在人类发声所特有的微弱生理特征的步骤包括:
对所述语音指令的音频信号进行端点检测,以分割出语音段和静音段;
对所述静音段进行频谱分析,以检测是否存在符合人类呼吸声谱特征的信号分量;
对所述语音段提取基频轮廓,并对所述基频轮廓自身进行二次频谱分析,以检测在预设频率范围内是否存在由心率搏动引起的周期性基频微颤;
当且仅当同时检测到所述呼吸声谱特征和所述周期性基频微颤时,判定所述音频信号包含人类发声所特有的微弱生理特征。
6.根据权利要求1所述的语音交互处理方法,其特征在于,所述对所述语音指令进行本地识别,以得到本地识别结果及对应的置信度的步骤包括:
通过一个循环音频缓冲区实时采集用户发出的语音指令的音频流;
对所述音频流执行声学前端处理,以提取出梅尔频率倒谱系数的特征序列;
将所述特征序列输入至一个预先部署在智能门锁本地的基于深度神经网络的声学模型,以计算所述特征序列对应于预设本地指令集中各个指令的声学得分;
将所述声学模型输出的所述声学得分输入至一个有限状态传感器解码器中,结合一个预置的语言模型进行解码搜索,以输出一个包含一个或多个候选识别结果的列表;
选择所述候选识别结果的列表中的最优结果作为所述本地识别结果,并将所述最优结果对应的后验概率作为所述置信度。
7.根据权利要求1所述的语音交互处理方法,其特征在于,所述方法还包括:
通过所述安全通信会话,周期性地从所述云端服务器接收并下载针对高频使用场景的轻量化语音模型包;
对所述轻量化语音模型包进行本地解压和加载,以热更新的方式替换或补充原有的本地识别模型,以使原需通过云端服务器处理的部分语音指令被更新后的本地识别模型直接识别并执行。
8.根据权利要求1所述的语音交互处理方法,其特征在于,所述方法还包括:
通过心跳机制持续监测与所述云端服务器的网络连接状态;
当检测到网络中断或连接质量连续低于预设的通信质量阈值时,自动切换至纯本地工作模式;
在所述纯本地工作模式下,对于接收到用户的所有语音指令均仅进行本地识别,并仅本地识别结果与预设的本地指令集中的指令相匹配且在所述置信度高于所述预设置信度阈值时才执行相应的本地操作;
若在所述纯本地工作模式下连续预设次数的本地识别结果不与所述本地指令集中的指令相匹配及/或本地识别所得到的置信度均不高于所述预设置信度阈值时,则触发所述智能门锁上的本地报警装置。
9.一种语音交互处理方法,其特征在于,应用于云端服务器,所述方法包括:
与智能门锁建立一个基于用户声纹生物特征进行安全增强的安全通信会话;
通过已建立的所述安全通信会话,接收来自所述智能门锁的语音指令;
在所述安全通信会话内,对所述智能门锁的身份及所述语音指令的来源进行声纹安全验证;
在所述声纹安全验证通过后,对所述语音指令进行识别,以得到指令文本;
将所述指令文本以及所获取的与所述智能门锁关联的业务数据一同输入至一个大语言模型进行逻辑处理,以生成与当前业务场景相匹配的动态响应文本及/或云端操作指令;
通过所述安全通信会话,将生成的所述动态响应文本及/或所述云端操作指令下发至所述智能门锁。
10.根据权利要求9所述的语音交互处理方法,其特征在于,所述与智能门锁建立一个基于用户声纹生物特征进行安全增强的安全通信会话的步骤包括:
与所述智能门锁执行密钥协商协议,以协商生成一个基础会话密钥;
接收由所述智能门锁发送的基于从所述语音指令中提取的声纹生物特征而加密的初始认证数据包;
从所存储的用户注册声纹模板中,派生出一个用于解密的声纹模板密钥;
使用所述声纹模板密钥对所述初始认证数据包进行解密,并验证解密后的数据是否与预设的认证数据一致;
在验证一致后,将所述声纹模板密钥与所述基础会话密钥进行组合运算,生成一个用于后续通信的、经过生物特征增强的最终会话密钥;
使用所述最终会话密钥,建立一个对称加密通道作为所述安全通信会话。
11.根据权利要求9所述的语音交互处理方法,其特征在于,所述对所述智能门锁的身份及所述语音指令的来源进行声纹安全验证的步骤包括:
从通过所述安全通信会话接收的所述语音指令中,提取出一个实时声纹特征向量;
根据所述智能门锁的设备标识,从安全存储中检索出与所述设备标识绑定的、预先注册的用户声纹模板向量;
在一个预训练的深度声纹识别模型中,分别计算所述实时声纹特征向量和所述用户声纹模板向量的嵌入表示,并计算两个嵌入表示之间的余弦相似度得分;
当且仅当所述余弦相似度得分高于一预设的身份验证阈值时,判定所述声纹安全验证通过。
12.根据权利要求9所述的语音交互处理方法,其特征在于,所述方法还包括:
持续监控并统计分析由各个智能门锁上报的在云端服务器进行识别的语音指令的类型和频率,以识别出在特定用户群体中高频使用的、需要云端服务器处理的复杂指令;
从部署在所述云端服务器上的大规模语音识别模型中,针对高频使用的复杂指令进行模型切片与知识蒸馏压缩,以生成轻量化语音模型包;
通过所述安全通信会话,将所述轻量化语音模型包主动推送至对应的智能门锁,以供所述智能门锁进行本地识别模型的更新。
13.根据权利要求9所述的语音交互处理方法,其特征在于,所述将所述指令文本与所述业务数据一同输入至一个大语言模型进行逻辑处理的步骤包括:
根据从所述指令文本中识别出的用户意图以及所述业务数据的类型,从一个预设的提示词工程模板库中,动态选择一个相匹配的情境提示词模板;
将所述业务数据中的各项关键信息,依据所述情境提示词模板中预定义的变量占位符进行提取和填充,以构建一个包含完整业务上下文的、结构化的最终提示词;
将所述结构化的最终提示词发送至所述大语言模型进行逻辑推理,以生成与当前业务场景相匹配的动态响应文本及/或云端操作指令。
14.一种语音交互处理装置,其特征在于,应用于智能门锁,所述系统包括:
本地识别模块,用于接收用户发出的语音指令,并对所述语音指令进行本地识别,以得到本地识别结果及对应的置信度;
本地操作模块,用于当所述本地识别结果与预设的本地指令集中的指令相匹配且所述置信度高于预设置信度阈值时,直接执行与所述本地识别结果相对应的本地操作;
第一安全通信会话模块,用于当所述本地识别结果不与所述本地指令集中的指令相匹配或所述置信度不高于所述预设置信度阈值时,基于从所述语音指令中提取的声纹生物特征,建立与云端服务器进行安全增强的安全通信会话;
语音指令发送模块,用于通过所述安全通信会话,将所述语音指令发送至所述云端服务器,以使所述云端服务器进行识别、并结合关联的业务数据通过大语言模型进行逻辑处理,从而生成与当前业务场景相匹配的动态响应文本及/或云端操作指令;
数据接收模块,用于通过所述安全通信会话,接收由所述云端服务器返回的所述云端操作指令及/或所述动态响应文本;
响应操作模块,用于根据所述云端操作指令执行相应操作,及/或通过内置的文本转语音引擎将所述动态响应文本转换为语音进行播报。
15.一种语音交互处理装置,其特征在于,应用于云端服务器,所述系统包括:
第二安全通信会话模块,用于与智能门锁建立一个基于用户声纹生物特征进行安全增强的安全通信会话;
语音指令接收模块,用于通过已建立的所述安全通信会话,接收来自所述智能门锁的语音指令;
声纹安全验证模块,用于在所述安全通信会话内,对所述智能门锁的身份及所述语音指令的来源进行声纹安全验证;
语音指令识别模块,用于在所述声纹安全验证通过后,对所述语音指令进行识别,以得到指令文本;
逻辑处理模块,用于将所述指令文本以及所获取的与所述智能门锁关联的业务数据一同输入至一个大语言模型进行逻辑处理,以生成与当前业务场景相匹配的动态响应文本及/或云端操作指令;
数据发送模块,用于通过所述安全通信会话,将生成的所述动态响应文本及/或所述云端操作指令下发至所述智能门锁。
16.一种智能门锁,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如权利要求1-8中任一项所述的语音交互处理方法。
17.一种云端服务器,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如权利要求9-13中任一项所述的语音交互处理方法。
18.一种语音交互处理系统,其特征在于,包括:
如权利要求16所述的智能门锁;以及
与所述智能门锁进行通信连接的如权利要求17所述的云端服务器。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202511177336.XA CN121034301A (zh) | 2025-08-21 | 2025-08-21 | 语音交互处理方法、装置、系统、智能门锁及云端服务器 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202511177336.XA CN121034301A (zh) | 2025-08-21 | 2025-08-21 | 语音交互处理方法、装置、系统、智能门锁及云端服务器 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN121034301A true CN121034301A (zh) | 2025-11-28 |
Family
ID=97757334
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202511177336.XA Pending CN121034301A (zh) | 2025-08-21 | 2025-08-21 | 语音交互处理方法、装置、系统、智能门锁及云端服务器 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN121034301A (zh) |
-
2025
- 2025-08-21 CN CN202511177336.XA patent/CN121034301A/zh active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111355781B (zh) | 一种语音信息交流的管理方法、装置和存储介质 | |
| US8812319B2 (en) | Dynamic pass phrase security system (DPSS) | |
| KR102250460B1 (ko) | 사용자 성문 모델을 구축하기 위한 방법, 장치 및 시스템 | |
| CN112997186A (zh) | “存活性”检测系统 | |
| JP6738867B2 (ja) | 話者認証方法及び音声認識システム | |
| CN103106717A (zh) | 基于声纹识别的智能仓库声控门卫系统及其身份认证方法 | |
| CN113823303A (zh) | 音频降噪方法、装置及计算机可读存储介质 | |
| Zheng et al. | Robustness-related issues in speaker recognition | |
| CN109246473A (zh) | 基于声纹识别的个性化视频弹幕的语音交互方法及终端系统 | |
| WO2016184096A1 (zh) | 一种音频解锁方法及装置 | |
| CN109087647A (zh) | 声纹识别处理方法、装置、电子设备及存储介质 | |
| CN121034301A (zh) | 语音交互处理方法、装置、系统、智能门锁及云端服务器 | |
| CN112883350B (zh) | 一种数据处理方法、装置、电子设备以及存储介质 | |
| KR100791485B1 (ko) | 음성신호를 이용한 otp 보안 인증시스템 및 그 보안 인증방법 | |
| Mawalim et al. | InaSAS: Benchmarking Indonesian Speech Antispoofing Systems | |
| CN116935859A (zh) | 一种声纹识别处理方法及系统 | |
| CN115618311A (zh) | 身份识别方法、装置、电子设备及存储介质 | |
| KR102098237B1 (ko) | 화자 검증 방법 및 음성인식 시스템 | |
| US20250005123A1 (en) | System and method for highly accurate voice-based biometric authentication | |
| CN121191523A (zh) | 一种基于动态声纹的保险业务身份认证方法及设备 | |
| CN120568005B (zh) | 一种智能会议记录与录制方法及系统 | |
| CN120748413B (zh) | 基于多模态特征与动态评估的语音识别认证方法及系统 | |
| CN112513845A (zh) | 与语音使能设备的暂时账户关联 | |
| CN117351945A (zh) | 身份鉴权方法、装置及介质 | |
| JP5436951B2 (ja) | 本人認証装置および本人認証方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination |