CN113963699A - 一种金融设备智能语音交互方法 - Google Patents
一种金融设备智能语音交互方法 Download PDFInfo
- Publication number
- CN113963699A CN113963699A CN202111283365.6A CN202111283365A CN113963699A CN 113963699 A CN113963699 A CN 113963699A CN 202111283365 A CN202111283365 A CN 202111283365A CN 113963699 A CN113963699 A CN 113963699A
- Authority
- CN
- China
- Prior art keywords
- loudness
- signal
- audio signal
- equipment
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000005236 sound signal Effects 0.000 claims abstract description 77
- 238000000926 separation method Methods 0.000 claims abstract description 15
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 5
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 4
- 238000005070 sampling Methods 0.000 claims abstract description 4
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 4
- 230000008859 change Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种金融设备智能语音交互方法,包括如下步骤:信号的采集和分离:对音频信号进行采集,并采用分离算法对音频信号进行分离,分离为语音信号和噪声信号;语音信号的合成:对语音信号进行语音识别,进行语义理解,找出最佳答案文本,将答案文本合成为回答语音信号;根据公式1确定播放音频信号:其中,f(n)是播放音频信号,s3(n)是预估用户听到的声音信号,除振幅外,其它参数与回答语音信号均相同,d1(n)是噪声信号,n是对音频信号进行离散分析的采样频率;确定播放声音响度为基础声音响度与响度衰减量之和,根据播放声音响度对设备进行设置,实现音量大小调节。
Description
技术领域
本发明涉及金融自助终端技术领域,尤其涉及一种金融设备智能语音交互方法。
背景技术
智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。语音交互最大的问题是不够精准。首先是受环境的影响,导致语音识别的准确率较低;再者就是表达一个意图的说法千变万化,更本无法覆盖全;最后就是语音交互是一个开放域的事情,需要处理很多意外的情况。这里还没有考虑有些场景不适合语音交互,比如会议场景,家人睡觉的时候等。
随着金融自助设备和客服机器人的广泛应用,现有设备在交互过程中音量恒定,在复杂环境中,环境声音会影响使用者收听效果,这些问题都一定程度上影响了客户体验的满意度。
发明内容
本发明的目的是针对现有技术中播放声音恒定的技术缺陷,而提供一种金融设备智能语音交互方法,在嘈杂环境中,使用者位置不同,设备自动调节设备播放音量大小,提高客户在智能设备语音交换过程中的满意度。
为实现本发明的目的所采用的技术方案是:
一种金融设备智能语音交互方法,其特征在于,包括如下步骤:
(1)播放音频信号的获取:
信号的采集和分离:对音频信号进行采集,并采用分离算法对音频信号进行分离,分离为语音信号和噪声信号;
语音信号的合成:对语音信号进行语音识别,进行语义理解,找出最佳答案文本,将答案文本合成为回答语音信号;
根据公式1确定播放音频信号,;
其中,f(n)是播放音频信号,s3(n)是预估用户听到的声音信号,除振幅外,其它参数与回答语音信号均相同,d1(n)是噪声信号,n 是对音频信号进行离散分析的采样频率,m取值为0-n,且为整数;
(2)播放声音响度的获取
确定播放声音响度为基础声音响度与响度衰减量之和;
(3)通过播放音频信号确定设备播放的信息内容,通过播放声音响度确定设备播放的音量大小,实现智能语音交互。
作为优选的,采用ICA盲源分离算法,对音频信号进行分离。
作为优选的,喇叭到用户的距离r的确定步骤如下:
通过红外传感器,判断设备前方是否为活体,若为活体,通过超声波传感器,测量用户与设备间的距离;
通过麦克风阵列进行音频信号采集,得到用户与设备的相对角度;
根据超声波传感器到用户的距离,用户与设备的相对角度,以及超声波传感器、麦克风阵列、喇叭之间的相对距离,得到喇叭到用户的距离r。
作为优选的,设备在被唤醒后,开始音频信号采集;对音频信号进行分帧处理,当停顿时间超过设定时间阈值,判为停顿,进行音频信号分离;唤醒方式包括唤醒词唤醒或红外线触发唤醒。
作为优选的,设备在被唤醒后,采集到第一次音频信号,分离得到的噪声信号为本次语音交互中每次确定播放音频信号时用到的噪声信号;在一次语音交互中,每当检测到用户位置变化超过设定距离阈值或者业务环境噪声响度超过设定响度阈值,则对最新得到的音频信号进行分离,重新得到噪声信号,作为本次语音交互中接下来每次确定播放音频信号时用到的噪声信号。
作为优选的,基础声音响度为固定已知值,响度衰减量的计算方法如下:
其中,r 是喇叭到用户的距离。
作为优选的,每当检测到用户位置变化超过设定距离阈值,对响度衰减量重新计算,根据新的播放声音响度对设备进行设置,实现音量大小的实时调节。
作为优选的,播放声音响度最大值设为基础声音响度的二倍
本发明的有益效果在于:
1.本发明给出了一种噪声不同、使用者位置不同,设备可以自动调节播放音量大小的方法,提高了客户在智能设备语音交换过程中的满意度。
2.根据每次采集到的音频信号,并分离为语音信号和噪声信号,每次采集到的音频信号的不同,语音信号和噪声信号也不同,实现了针对不同用户分别进行音频信号调节的目的,使得每个用户都能听到最舒服、最合适的声音。
3. 当客户不与设备交流时,通过设备的麦克风阵列,直接测的信号为噪声信号。客户与设备交流时,通过设备的麦克风阵列,对混有噪声的音频信号进行采集:y1(n)=s1(n)+d1(n),y(n)为采集的音频信号,s1(n)为语言信号,d1(n)为噪声信号。先对混有噪声的音频信号进行消噪处理,采用ICA盲源分离算法,对音频信号进行分离,分别得到语音信号s1(n)和噪声信号d1(n),通过降噪处理使语音信号转化成文本信息正确率提高。
附图说明
附图1本发明的流程示意图。
具体实施方式
以下结合具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一种金融设备智能语音交互方法,包括如下步骤:
(1)播放音频信号的获取:
信号的采集和分离:对音频信号进行采集,并采用分离算法对音频信号进行分离,分离为语音信号和噪声信号;
语音信号的合成:对语音信号进行语音识别,进行语义理解,找出最佳答案文本,将答案文本合成为回答语音信号;
音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。设备将答案文本合成的回答语音信号也是一种音频信号,也可以说是一种声波,声波有三个重要参数:频率、幅度和相位,这也就决定了音频信号的特征。现有技术中,设备直接将答案文本合成为回答语音信号,就通过喇叭播放出去,这样的回答语音信号作为一种声波,频率、幅度和相位都是固定的,都是设备最初设定的值,因此无论用户现场是什么样的环境,声波都是一样的,这样就造成不同噪声环境中,虽然设备播放的音频信号是一样的,但是用户听到的音频信号却是不一样的。在信号处理里,有用的叫信号,没用的叫噪声,而本申请将噪声信号也进行了利用。
鉴于此,本发明设计的技术方案中,将采集并分离出的噪声信号作为一个计算已知量;设备发出的文字,通过语言合成,合成的语音信号为s2(n);s3(n)频率和相位角与s2(n)一样,振幅通过公式2和基础响度计算得到,得到s3(n),其是预估用户听到的声音信号。公式1中s3(n)和d1(n)都是已知量,因此可以进行反卷积处理,通过叠加噪声信号,确定了f(n),在此需要说明下,振幅跟响度有关,在下面播放声音响度的获取中得到振幅,从而确定播放响度。
每次设备唤醒后对音频信号的首次采集,得到的噪声信号,是本次交互中的公式1卷积计算的已知量,当设备再次被唤醒,噪声信号又发生了变化,因此保证了每次交互过程中噪声信号作为计算的已知量都是根据当时的实际情况得到的。
根据公式1确定播放音频信号:
其中,f(n)是播放音频信号,s3(n)是预估用户听到的声音信号,除振幅外,其它参数与回答语音信号均相同,d1(n)是噪声信号,n 是对音频信号进行离散分析的采样频率,m取值为0-n,且为整数。
常规方法是找到最佳答案文本,合成为语音信号后就被设备播放给用户,而本方案中将答案文本合成为回答语音信号后,又进行了降噪处理,对公式1反求f(n),此方法预先将语音信号减去噪声信号,再将该信号进行响度的增强,进行音频播放。通过这个方法,达到了降噪效果。展开说明公式1具体如下:
(2)播放声音响度的获取
确定播放声音响度为基础声音响度与响度衰减量之和。
基础声音响度即为用户听到的舒适声音响度,为固定已知值,声压大小的单位是分贝 db,1分贝是人类耳朵刚刚能听到的声音,20分贝以下的声音,一般来说,我们认为它是安静的,一般来说15分贝以下的我们就可以认为它属于“死寂”的了。20-40分贝大约是喃喃细语。40-60分贝属于我们正常的交谈声音。由于金融设备一般设于银行大堂内,因此此处设定用户听到声音舒服的响度为50分贝。
响度衰减量的计算方法如下:
其中,r 是喇叭到用户的距离。
(3)通过播放音频信号确定设备播放的信息内容,通过播放声音响度确定设备播放的音量大小,实现智能语音交互。
在本实施例中采用了FFT降噪算法和ICA盲源分离算法,对音频信号进行分离。
喇叭到用户的距离r的确定步骤如下:
通过麦克风阵列进行音频信号采集,得到用户与设备的相对角度;
通过红外传感器,判断设备前方是否为活体,若为活体,通过超声波传感器,测量用户与设备间的距离;
根据超声波传感器到用户的距离,用户与设备的相对角度,以及传感器、麦克风阵列、喇叭之间的相对距离,得到喇叭到用户的距离r。传感器到喇叭的相对距离为固定已知值。
设备在被唤醒后,开始音频信号采集;对音频信号进行分帧处理,当停顿时间超过设定时间阈值,判为停顿,进行音频信号分离;唤醒方式包括唤醒词唤醒或红外线触发唤醒。
一般来说,设备在被唤醒后,采集到第一次音频信号,分离得到的噪声信号为本次语音交互中每次确定播放音频信号时用到的噪声信号。
但是在实际应用中,我们发现用户环境会发生一些变化,导致噪声信号也不同,因此需要重新确定噪声信号,再通过普减法得到要播放的无噪音频信号。从而保证人听到的频信号为纯净的音频信号。因此在一次语音交互中,每当检测到用户位置变化超过设定距离阈值或者业务环境噪声响度超过设定响度阈值,则对最新得到的音频信号进行分离,重新得到噪声信号,作为本次语音交互中接下来每次确定播放音频信号时用到的噪声信号。
更进一步地,为了保证每时刻的音量都是最合适的,每当检测到用户位置变化超过设定距离阈值,对响度衰减量重新计算,根据新的播放声音响度对设备进行设置,实现音量调节。
播放声音响度最大值设为基础声音响度的二倍。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种金融设备智能语音交互方法,其特征在于,包括如下步骤:
(1)播放音频信号的获取:
信号的采集和分离:对音频信号进行采集,并采用分离算法对音频信号进行分离,分离为语音信号和噪声信号;
语音信号的合成:对语音信号进行语音识别,进行语义理解,找出最佳答案文本,将答案文本合成为回答语音信号;
根据公式1确定播放音频信号:
其中,f(n)是播放音频信号,s3(n)是预估用户听到的声音信号,除振幅外,其它参数与回答语音信号均相同,d1(n)是噪声信号,n 是对音频信号进行离散分析的采样频率,m取值为0-n,且为整数;
(2)播放声音响度的获取
确定播放声音响度为基础声音响度与响度衰减量之和;
(3)通过播放音频信号确定设备播放的信息内容,通过播放声音响度确定设备播放的音量大小,实现智能语音交互。
2.根据权利要求1所述的一种金融设备智能语音交互方法,其特征在于,采用ICA盲源分离算法,对音频信号进行分离。
3.根据权利要求1所述的一种金融设备智能语音交互方法,其特征在于,喇叭到用户的距离r的确定步骤如下:
通过红外传感器,判断设备前方是否为活体,若为活体,通过超声波传感器,测量用户与设备间的距离;
通过麦克风阵列进行音频信号采集,得到用户与设备的相对角度;
根据超声波传感器到用户的距离,用户与设备的相对角度,以及超声波传感器、麦克风阵列、喇叭之间的相对距离,得到喇叭到用户的距离r。
4.根据权利要求1所述的一种金融设备智能语音交互方法,其特征在于,设备在被唤醒后,开始音频信号采集;对音频信号进行分帧处理,当停顿时间超过设定时间阈值,判为停顿,进行音频信号分离;唤醒方式包括唤醒词唤醒或红外线触发唤醒。
5.根据权利要求4所述的一种金融设备智能语音交互方法,其特征在于,
设备在被唤醒后,采集到第一次音频信号,分离得到的噪声信号为本次语音交互中每次确定播放音频信号时用到的噪声信号;在一次语音交互中,每当检测到用户位置变化超过设定距离阈值或者业务环境噪声响度超过设定响度阈值,则对最新得到的音频信号进行分离,重新得到噪声信号,作为本次语音交互中接下来每次确定播放音频信号时用到的噪声信号。
7.根据权利要求6所述的一种金融设备智能语音交互方法,其特征在于,每当检测到用户位置变化超过设定距离阈值,对响度衰减量重新计算,根据新的播放声音响度对设备进行设置,实现音量大小的实时调节。
8.根据权利要求1所述的一种金融设备智能语音交互方法,其特征在于,播放声音响度最大值设为基础声音响度的二倍。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111283365.6A CN113963699A (zh) | 2021-11-01 | 2021-11-01 | 一种金融设备智能语音交互方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111283365.6A CN113963699A (zh) | 2021-11-01 | 2021-11-01 | 一种金融设备智能语音交互方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN113963699A true CN113963699A (zh) | 2022-01-21 |
Family
ID=79468672
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202111283365.6A Withdrawn CN113963699A (zh) | 2021-11-01 | 2021-11-01 | 一种金融设备智能语音交互方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN113963699A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117294985A (zh) * | 2023-10-27 | 2023-12-26 | 深圳市迪斯声学有限公司 | 一种tws蓝牙耳机控制方法 |
-
2021
- 2021-11-01 CN CN202111283365.6A patent/CN113963699A/zh not_active Withdrawn
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117294985A (zh) * | 2023-10-27 | 2023-12-26 | 深圳市迪斯声学有限公司 | 一种tws蓝牙耳机控制方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9591410B2 (en) | Hearing assistance apparatus | |
| US20240221769A1 (en) | Voice optimization in noisy environments | |
| US8898058B2 (en) | Systems, methods, and apparatus for voice activity detection | |
| CN100397781C (zh) | 声音增强系统 | |
| CN105869651B (zh) | 基于噪声混合相干性的双通道波束形成语音增强方法 | |
| Yoo et al. | Speech signal modification to increase intelligibility in noisy environments | |
| CN108235181B (zh) | 在音频处理装置中降噪的方法 | |
| US8423357B2 (en) | System and method for biometric acoustic noise reduction | |
| WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
| JP2009075160A (ja) | コミュニケーション音声処理方法とその装置、及びそのプログラム | |
| Premananda et al. | Speech enhancement algorithm to reduce the effect of background noise in mobile phones | |
| CN113963699A (zh) | 一种金融设备智能语音交互方法 | |
| US8223979B2 (en) | Enhancement of speech intelligibility in a mobile communication device by controlling operation of a vibrator based on the background noise | |
| EP4158625B1 (en) | A own voice detector of a hearing device | |
| WO2008075305A1 (en) | Method and apparatus to address source of lombard speech | |
| RU2589298C1 (ru) | Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке | |
| CN114023352A (zh) | 一种基于能量谱深度调制的语音增强方法及装置 | |
| Shankar et al. | Smartphone-based single-channel speech enhancement application for hearing aids | |
| JP2011141540A (ja) | 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体 | |
| CN121001018A (zh) | 一种音响扬声器的校正增强方法及系统 | |
| US20130226568A1 (en) | Audio signals by estimations and use of human voice attributes | |
| Datla | Implementation and evaluation of spectral subtraction (SS) with minimum statistics and wiener beamformer combination | |
| HK1187757A (zh) | 聽力輔助裝置 | |
| Loizou et al. | A MODIFIED SPECTRAL SUBTRACTION METHOD COMBINED WITH PERCEPTUAL WEIGHTING FOR SPEECH ENHANCEMENT |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| WW01 | Invention patent application withdrawn after publication | ||
| WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220121 |