[go: up one dir, main page]

CN113035199B - 音频处理方法、装置、设备及可读存储介质 - Google Patents

音频处理方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113035199B
CN113035199B CN202110139349.3A CN202110139349A CN113035199B CN 113035199 B CN113035199 B CN 113035199B CN 202110139349 A CN202110139349 A CN 202110139349A CN 113035199 B CN113035199 B CN 113035199B
Authority
CN
China
Prior art keywords
audio
sign language
text
language gesture
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110139349.3A
Other languages
English (en)
Other versions
CN113035199A (zh
Inventor
田园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Skyworth Display Technology Co ltd
Original Assignee
Shenzhen Skyworth RGB Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Skyworth RGB Electronics Co Ltd filed Critical Shenzhen Skyworth RGB Electronics Co Ltd
Priority to CN202110139349.3A priority Critical patent/CN113035199B/zh
Publication of CN113035199A publication Critical patent/CN113035199A/zh
Application granted granted Critical
Publication of CN113035199B publication Critical patent/CN113035199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种音频处理方法、装置、设备及可读存储介质,所述方法包括:获取待处理音频,并将所述待处理音频转换为目标文本;对所述目标文本进行特征提取,以获得所述目标文本对应的文本特征数据;通过预设手语手势转换模型获取所述文本特征数据对应的目标手语手势图像,并显示所述目标手语手势图像,由此将音频转化为相应的手语手势图像,从而提高了信息传输方式的多样性,进而提升用户体验。

Description

音频处理方法、装置、设备及可读存储介质
技术领域
本发明涉及音频处理技术领域,尤其涉及一种音频处理方法、装置、设备及可读存储介质。
背景技术
信息本身是无形的,如果要使信息能被人理解和接受,必须将信息通过一定的方法表示出来,例如电视剧在播放视频或新闻信息时,通常采用视频结合音频或文字的方式进行信息传输,信息传输方式过于单一。
然而据最新研究数据表明,中国听障人群数量达到2.2亿,中度以上听力损失的有7000多万,由于目前大多数播放终端进行视频播放时仅支持音频播放,例如主流媒体的新闻直播节目大部分是不配手语播音员的同步播报及文字同步播报,即目前由于信息传输方式比较单一,而导致该类人员观看新闻直播节目时无法理解新闻内容,从而影响该类人员观看体验。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种音频处理方法、装置、设备及可读存储介质,旨在解决目前信息传输方式过于单一而影响用户体验的技术问题。
为实现上述目的,本发明提供一种音频处理方法,所述音频处理方法包括以下步骤:
获取待处理音频,并将所述待处理音频转换为目标文本;
对所述目标文本进行特征提取,以获得所述目标文本对应的文本特征数据;
通过预设手语手势转换模型获取所述文本特征数据对应的目标手语手势图像,并显示所述目标手语手势图像。
优选地,所述将所述待处理音频转换为目标文本的步骤包括:
对所述待处理音频进行人声提取,以获得待处理音频中的目标人声音频;
对所述目标人声音频进行语义识别,以获得目标文本。
优选地,所述对所述待处理音频进行人声提取,以获得待处理音频中的目标人声音频的步骤包括:
获取所述待处理音频的音频特征;
将所述音频特征输入至预设音频分离模型,以通过所述预设音频分离模型获取所述音频特征对应的音频特征分离结果,其中,所述音频特征分离结果包括目标人声音频特征;
基于所述目标人声音频特征获取待处理音频中的目标人声音频。
优选地,所述通过预设手语手势转换模型获取所述文本特征数据对应的手语手势图像的步骤之前,还包括:
获取初始模型及若干个文本训练数据;
通过所述初始模型确定所述文本训练数据对应的手语手势预测结果;
获取所述文本训练数据对应的手语手势真实结果,并基于所述手语手势预测结果和所述手语手势真实结果确定损失函数;
通过梯度下降的方式更新所述初始模型的模型参数,并将所述损失函数收敛或模型训练轮次达到预设训练迭代轮次时对应的模型参数作为最终模型参数;
根据所述最终模型参数确定预设手语手势转换模型。
优选地,所述将所述待处理音频转换为目标文本的步骤之后,还包括:
对所述目标文本进行分词处理,以获得所述目标文本对应的多组文本分词;
分别对各组所述文本分词进行语义识别,以获得各组所述文本分词对应的语义识别结果;
基于所述语义识别结果遍历预设手语手势文本词库,以获得预设手语手势文本词库中与所述语义识别结果匹配的目标手语手势文本;
基于所述目标手语手势文本获取所述多组文本分词对应的多帧手语手势图像,并显示所述多帧手语手势图像。
优选地,所述显示所述多帧手语手势图像的步骤包括:
确定各帧所述手语手势图像对应的各组文本分词在所述目标文本中的位置信息;
基于所述位置信息对所述多帧手语手势图像进行排序,以获得排序结果;
根据所述排序结果将所述多帧手语手势图像转化为目标手语手势图像,并将显示所述目标手语手势图像。
优选地,所述将显示所述目标手语手势图像的步骤包括:
确定所述待处理音频的音频帧时间戳;
基于所述音频帧时间戳确定所述目标手语手势图像的图像帧时间戳,以基于所述图像帧时间戳显示所述目标手语手势图像。
进一步地,为实现上述目的,本发明还提供一种音频处理装置,所述音频处理装置包括:
获取模块,用于获取待处理音频,并将所述待处理音频转换为目标文本;
提取模块,用于对所述目标文本进行特征提取,以获得所述目标文本对应的文本特征数据;
输出模块,用于通过预设手语手势转换模型获取所述文本特征数据对应的目标手语手势图像,并显示所述目标手语手势图像。
进一步地,为实现上述目的,本发明还提供一种音频处理设备,所述音频处理设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的音频处理程序,所述音频处理程序被所述处理器执行时实现如上述所述的音频处理方法的步骤。
进一步地,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有音频处理程序,所述音频处理程序被处理器执行时实现如上所述的音频处理方法的步骤。
相较于现有的终端视频播放方式,本发明中通过获取待处理音频,并将所述待处理音频转换为目标文本;对所述目标文本进行特征提取,以获得所述目标文本对应的文本特征数据;通过预设手语手势转换模型获取文本特征数据对应的目标手语手势图像,并显示所述目标手语手势图像,由此将音频转化为相应的手语手势图像,提高了信息传输方式的多样性,进而提升用户体验。
附图说明
图1为本发明音频处理设备实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明音频处理方法第一实施例的流程示意图;
图3为本发明音频处理方法第二实施例的流程示意图;
图4为本发明音频处理方法第三实施例的流程示意图;
图5为本发明音频处理装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种音频处理设备,参照图1,图1为本发明音频处理设备实施例方案涉及的硬件运行环境的结构示意图。
如图1所示,该音频处理设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储音频处理设备。
本领域技术人员可以理解,图1中示出的音频处理设备的硬件结构并不构成对音频处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及音频处理程序。其中,操作系统是管理和控制音频处理设备的硬件与软件资源的程序,支持网络通信模块、用户接口模块、音频处理程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1004;用户接口模块用于管理和控制用户接口1003。
在图1所示的音频处理设备硬件结构中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;处理器1001可以调用存储器1005中存储的音频处理程序,并执行以下操作:
获取待处理音频,并将所述待处理音频转换为目标文本;
对所述目标文本进行特征提取,以获得所述目标文本对应的文本特征数据;
通过预设手语手势转换模型获取所述文本特征数据对应的目标手语手势图像,并显示所述目标手语手势图像。
进一步地,所述处理器1001可以调用存储器1005中存储的音频处理程序,并执行以下操作:
对所述待处理音频进行人声提取,以获得待处理音频中的目标人声音频;
对所述目标人声音频进行语义识别,以获得目标文本。
进一步地,所述处理器1001可以调用存储器1005中存储的音频处理程序,并执行以下操作:
获取所述待处理音频的音频特征;
将所述音频特征输入至预设音频分离模型,以通过所述预设音频分离模型获取所述音频特征对应的音频特征分离结果,其中,所述音频特征分离结果包括目标人声音频特征;
基于所述目标人声音频特征获取待处理音频中的目标人声音频。
进一步地,所述处理器1001可以调用存储器1005中存储的音频处理程序,并执行以下操作:
获取初始模型及若干个文本训练数据;
通过所述初始模型确定所述文本训练数据对应的手语手势预测结果;
获取所述文本训练数据对应的手语手势真实结果,并基于所述手语手势预测结果和所述手语手势真实结果确定损失函数;
通过梯度下降的方式更新所述初始模型的模型参数,并将所述损失函数收敛或模型训练轮次达到预设训练迭代轮次时对应的模型参数作为最终模型参数;
根据所述最终模型参数确定预设手语手势转换模型。
进一步地,所述处理器1001可以调用存储器1005中存储的音频处理程序,并执行以下操作:
对所述目标文本进行分词处理,以获得所述目标文本对应的多组文本分词;
分别对各组所述文本分词进行语义识别,以获得各组所述文本分词对应的语义识别结果;
基于所述语义识别结果遍历预设手语手势文本词库,以获得预设手语手势文本词库中与所述语义识别结果匹配的目标手语手势文本;
基于所述目标手语手势文本获取所述多组文本分词对应的多帧手语手势图像,并显示所述多帧手语手势图像。
进一步地,所述处理器1001可以调用存储器1005中存储的音频处理程序,并执行以下操作:
确定各帧所述手语手势图像对应的各组文本分词在所述目标文本中的位置信息;
基于所述位置信息对所述多帧手语手势图像进行排序,以获得排序结果;
根据所述排序结果将所述多帧手语手势图像转化为目标手语手势图像,并将显示所述目标手语手势图像。
进一步地,所述处理器1001可以调用存储器1005中存储的音频处理程序,并执行以下操作:
确定所述待处理音频的音频帧时间戳;
基于所述音频帧时间戳确定所述目标手语手势图像的图像帧时间戳,以基于所述图像帧时间戳显示所述目标手语手势图像。
本发明还提供一种音频处理方法。
参照图2,图2为本发明音频处理方法第一实施例的流程示意图。
本发明实施例提供了音频处理方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。具体地,本实施例音频处理方法包括:
步骤S10,获取待处理音频,并将所述待处理音频转换为目标文本;
需要说明的是,本实施例的执行主体可以是具备音频处理功能及显示功能的智能终端设备,其中,智能终端设备可为电脑或手机等电子设备,还可为其他可实现相同或相似功能的设备,本实施例对此不加以限制,在本实施例中,以电视终端为例说明。
应当理解地,信息本身是无形的,如果要使信息能被人理解和接受,必须将信息通过一定的方法表示出来,例如目前一些电视终端在播放视频时,例如电视终端在播放新闻直播节目时由于新闻直播节目大部分是不配手语播音员的同步播报及文字同步播报,导致存在听力障碍的观众观看新闻直播节目时无法理解新闻内容,,从而影响该类人员观看效果,因此本实施例中,为了解决上述技术问题,提出了一种音频处理的实施方式。
其中,本实施中,上述待处理音频可为预先录制好的录播音频,例如纪录片、影视剧等中的音频数据,还可为实时音频,例如新闻直播节目或者进行视频通话过程中的实时音频数据等,本实施例对此不作限制。
应当理解地,当待处理音频为实时音频时,可实时获取直播视频中的原始音频数据并对原始音频数据进行分析,如对原始音频数据进行特征提取,以将原始音频数据中的目标人声音频数据及非人声音频数据(如背景音乐数据及噪声数据等)进行分离,接着对目标人声音频数据进行检测,以判断目标人声音频数据是否存在中断,如在检测期间第10s至第120s期间检测到人声音频数据,然后又在第130s时重新检测到人声音频数据,则判定目标人声音频数据存在中断,则确定出中断时刻(如第120s或第130s或第120s至第130s之间的任意一秒),以基于中断时刻将目标人声音频数据分割成第一段人声音频数据及第二段人声音频数据,其中,第一段人声音频数据指代中断前的人声音频数据,第二段人声音频数据指代中断前的人声音频数据,接着将第一段人声音频数据作为待处理音频,并对待处理音频进行音频处理,同时将第二段人声音频数据作为目标人声音频数据并重复执行上述步骤,直至目标人声音频数据处理结束。
当待处理音频可为预先录制好的录播音频时,可选地将完整的录播音频作为待处理录播音频,还可将待处理录播音频拆分成若干段音频,分别将各段音频作为待处理音频,本实施例对此不做限制。
应当理解地,为了提高音频处理结果的准确度,在将待处理音频转换为目标文本之前,需先对待处理音频进行去噪等处理,以去除噪音对待处理音频处理结果的影响。
此外,为了便于理解,本实施例对上述将所述待处理音频转换为目标文本的实施方式具体说明:
对所述待处理音频进行人声提取,以获得待处理音频中的目标人声音频;
对所述目标人声音频进行语义识别,以获得所述目标人声音频匹配的目标文本。
应当理解地,一般情况下上述待处理音频为混合音频,即音频中不仅包括人声音频部分还包括背景音乐音频部分等其他环境音频部分,因此为了提高音频处理结果的准确度,本实施例中对待处理音频进行人声提取,以获得待处理音频中的目标人声音频,从而根据目标人声音频获取目标文本。
优选地,本一施例中,采用预先训练好的音频分离模型对待处理音频进行人声提取,具体地,对待处理音频进行特征提取,以获取特征向量,并将特征向量输入至预先训练好的音频分离模型,以通过预先训练好的音频分离模型输出人声音频特征向量,以通过人声音频特征向量从待处理音频中提取出目标人声音频。
优选地,在另一实施例中,当待处理音频为预先录制好的录播音频时,可以理解地,录音音频是一种合成音频,即将人声音频与背景音乐音频等部分进行声道加成,因此可基于声道特征将待处理音频分解成多个不同声道对应的多节子音频,基于声道标识从多个不同声道中筛选出人声声道对应的子音频,并将人声声道对应的子音频作为目标人声音频。
具体而言,为了提高人声提取结果的精准度,本实施例中采用模型对待处理音频进行人声提取,为了便于理解,本实施例对上述对所述待处理音频进行人声提取,以获得待处理音频中的目标人声音频的实施方式具体说明:
获取所述待处理音频的音频特征;
将所述音频特征输入至预设音频分离模型,以通过所述预设音频分离模型获取所述音频特征对应的音频特征分离结果,其中,所述音频特征分离结果包括目标人声音频特征;
基于所述目标人声音频特征获取待处理音频中的目标人声音频。
应当理解地,上述预设音频分离模型指代利用若干个音频训练数据预先训练好的模型,本实施例中,优选地,对待处理音频进行预去噪、预加重、分帧、加窗、快速傅里叶变换等处理获取梅尔倒频谱系数,并将梅尔倒频谱系数作为待处理音频的音频特征。
在获取目标人声音频之后,对目标人声音频进行音标特征提取,以确定目标人声音频对应的音标属性,如中文音标、英文音标等,若检测出目标人声音频对应的音标属性为中文音标,则基于预设中文音标划分规则将目标人声音频划分成若干组音标,并基于预设中文词库确定各组音频匹配的至少一个候选词,接着对各组音频匹配的候选词一一进行组合,以获取若干组文本及各组文本对应的语境契合权重,最后选取语境契合权重最大对应的文本作为目标文本,此外,本实施例中,还可调用预设音频识别引擎对目标人声音频进行识别,得到目标文字,由于采用预设音频识别引擎来加快识别速度。
此外,在另一实施例中,当目标人声音频对应的音标属性为非中文音标时,如英文音标,则应当理解地,为了提高音频解读的准确度,应当先将目标人声音频对应的音标属性转换为中文音标,在基于预设中文音标划分规则将目标人声音频划分成若干组音标,以进行文字识别,由此提高文字识别结果的准确度。
步骤S20,对所述目标文本进行特征提取,以获得所述目标文本对应的文本特征数据;
步骤S30,通过预设手语手势转换模型获取所述文本特征数据对应的目标手语手势图像,并显示所述目标手语手势图像。
具体而言,上述文本特征数据包括目标文本中的关键词、目标文本中各个词的属性,例如人称代词、语气助词、形容词、动词等,此外文本特征数据还包括用于表征目标文本中的各个词含义的特征数据等。
本实施例中,采用预设手语手势转换模型确定目标文本对应的对应的目标手语手势图像,该步骤中,将文本特征数据输入至预设手语手势转换模型中,以由预设手语手势转换模型输出相应的目标手语手势图像。
此外,值得注意的,由于目标文本由多个词或词组组成,而一般情况下一个词或词组均映射有一帧手语手势图像,因此本实施例中,上述目标手语手势图像由多帧手语手势图像组成,而在一些实施例中,在获得多帧手语手势图像之后,进行手语手势图像显示时,会出现手语手势图像与音频内容不同步或不匹配的问题,从而影响用户体验,因此本实施例中,为了确保手语手势图像与视频中的音频内容同步,在显示所述目标手语手势图像时,提供一种实施方案,具体地:
确定所述目标手语手势图像中各帧手语手势图像的显示次序信息;
根据所述显示次序信息显示所述目标手语手势图像。
具体而言,上述显示次序信息指代各帧手语手势图像对应的词或词组在在目标文本中从左往右的字符排序,例如“我今天要去上班了”对应的文本分词为“我”、“今天”、“去”“上班”,则将“我”对应的手语手势图像排在第一位、将“今天”对应的手语手势图像排在第二位,依次类推,基于显示次序信息将多帧手语手势图像转化为连贯的动态手语手势进行显示输出。
此外在输出手语手势图像时,应当注意确保输出的手语手势图像的显示时间与待处理音频的播放时间的同步,优选地,待处理音频可为预先录制好的录播音频时,确定各帧手语手势图像对应的音频数据在待处理音频中的音频帧时间戳,以根据该音频帧时间戳确定目标手语手势图像中各帧手语手势图像的图像帧时间戳,优选地,当待处理音频为实时音频时,预先缓存一段时长的音频流,接着对该音频流进行音频处理,并将音频处理后的手语手势图像进行实时输出。
此外,在一实施例中,上述将显示所述动态手语手势的步骤包括:
确定所述待处理音频的音频帧时间戳;
基于所述音频帧时间戳确定所述目标手语手势图像的图像帧时间戳,以基于所述图像帧时间戳显示所述目标手语手势图像。
具体而言,上述音频帧时间戳指代待处理音频每一帧音频流的播放时间信息,上述图像帧时间戳指代目标手语手势图像中每一帧手语手势图像的显示时间信息。
此外,当待处理音频存在对应的视频流时,在将视频流、待处理音频及目标手语手势图像在目标终端中进行同步输出显示。
应当理解地,上述目标终端指代待处理视频对应的播放终端,可选地,将目标手语手势图像显示在显示屏中显示待处理音频对应的视频流的区域内,例如显示在该区域的左下侧、右下侧、左上侧及右上侧等,或者还可将目标手语手势图像显示在显示屏中显示待处理音频存在对应的视频流的区域外等,本实施例对此不作限制。
本实施例中,通过根据待处理音频每一帧音频流的播放时间来确定目标手语手势图像中每一帧手语手势图像的显示时间,来确保待处理音频与目标手语手势图像的内容显示同步以及根据待处理音频对应的视频流在目标终端的显示屏中的显示位置信息及目标手语手势图像在目标终端的显示屏中的显示位置信息,在确保信息传输方式的多样性的同时,来确保显示画面的协调性,进而提升用户体验。
相较于现有的终端视频播放方式,本实施例中通过获取待处理音频,并将所述待处理音频转换为目标文本;对所述目标文本进行特征提取,以获得所述目标文本对应的文本特征数据;通过预设手语手势转换模型获取所述文本特征数据对应的目标手语手势图像,并显示所述目标手语手势图像,由此将音频转化为相应的手语手势图像,从而提高了信息传输方式的多样性,进而提升用户体验。
进一步地,基于本发明音频处理方法的第一实施例,提出本发明音频处理方法第二实施例。
参照图3,图3为本发明音频处理方法第二实施例的流程示意图。
所述音频处理方法第二实施例与所述音频处理方法第一实施例的区别在于,所述通过预设手语手势转换模型获取所述多组文本分词对应的多帧手语手势图像的步骤之前,还包括:
步骤S301,获取初始模型及若干个文本训练数据;
步骤S302,通过所述初始模型确定所述文本训练数据对应的手语手势预测结果;
步骤S303,获取所述文本训练数据对应的手语手势真实结果,并基于所述手语手势预测结果和所述手语手势真实结果确定损失函数;
步骤S304,通过梯度下降的方式更新所述初始模型的模型参数,并将所述损失函数收敛或模型训练轮次达到预设训练迭代轮次时对应的模型参数作为最终模型参数;
步骤S305,根据所述最终模型参数确定预设手语手势转换模型。
具体而言,上述文本训练数据指代标注有相应手语手势特征的文本数据,可选地,本实施例中基于深度学习网络或者卷积神经网络构建初始模型,接着提取各文本训练数据的文本特征,将文本特征作为初始模型的输入值,以由该初始模型输出手语手势预测结果,可选地,手语手势预测结果为手语手势图像,还可为手语手势图像对应的特征向量,例如当手语手势预测结果为手语手势预测特征向量时,提取该文本训练数据对应的手语手势真实结果的手语手势真实特征向量,接着计算各文本训练数据对应的手语手势预测特征向量与手语手势真实特征向量之间的偏差值,以通过各文本训练数据对应的偏差值确定出初始模型对应的损失函数,最后通过梯度下降的方式更新初始模型的模型参数,并将损失函数收敛或达到预设训练迭代轮次对应的模型参数作为最终模型参数,以获得预设手语手势转换模型,进而通过预设手语手势转换模型获取各组文本分词对应的手语手势图像。
本实施例中通过预先构建预设手语手势转换模型来通过预设手语手势转换模型获取文本特征数据对应的目标手语手势图像,由此加快文本转换成手语手势图像的速度,进而提升用户体验。
进一步地,基于本发明音频处理方法的第一实施例,提出本发明音频处理方法第三实施例。
参照图4,图4为本发明音频处理方法第三实施例的流程示意图。
所述音频处理方法第三实施例与所述音频处理方法第一实施例的区别在于,所述获取所述目标文本对应的多组文本分词的步骤之后,还包括:
步骤S40,对所述目标文本进行分词处理,以获得所述目标文本对应的多组文本分词;
步骤S50,分别对各组所述文本分词进行语义识别,以获得各组所述文本分词对应的语义识别结果;
步骤S60,基于所述语义识别结果遍历预设手语手势文本词库,以获得预设手语手势文本词库中与所述语义识别结果匹配的目标手语手势文本;
步骤S70,基于所述目标手语手势文本获取所述多组文本分词对应的多帧手语手势图像,并显示所述多帧手语手势图像。
应当理解地,某一些特定的词可用某一特定的手语手势来表示,因此在对目标文本进行手语手势转换之前,可先将目标文本拆分成多组文本分词,例如先定位出目标文本中的停用词(如的、得、地等)或承接词(虽然、但是、然而等)对目标文本进行拆分,或者基于预设词典将目标文本拆分成多组文本分词,例如先随机将目标文本划分成若干组文本分词,接着检测各组文本分词在预设词典是否存在,若检测出至少一组文本分词在预设词典中不存在,则基于该组文本分词对目标文本重新进行划分,直至各组文本分词在预设词典均存在,此外,本实施例中还可利用预先训练好的分词模型对目标文本进行分词处理,本实施例对此不做限制。
此外应当理解地,为了避免预设手语手势转换模型的模型效果不好,而导致获取的手语手势图像不准确,本实施中采用预设手语手势文本词库来获取组文本分词匹配的手语手势图像。
具体而言,上述语义识别结果指代词语词性及词语意思等词语参数,在获取各组文本分词对应的语义识别结果之后,遍历预设手语手势文本词库,以从预设手语手势文本词库获取与文本分词的词语词性及词语意思等词语参数一致或者相似度高的目标手语手势文本,例如“俺”和“我”、“好”和“不错”、“走”和“走”等,接着确定预设手语手势文本词库中各组文本分词匹配的目标手语手势文本对应的手语手势图像。
此外,在一实施例中,为了确保手语手势图像与音频内容同步,在显示所述多帧手语手势图像时,提供一种实施方案,具体地:
确定各帧所述手语手势图像对应的各组文本分词在所述目标文本中的位置信息;
基于所述位置信息对所述多帧手语手势图像进行排序,以获得排序结果;
根据所述排序结果将所述多帧手语手势图像转化为目标手语手势图像,并将显示所述目标手语手势图像。
具体而言,上述位置信息指代各组文本分词在目标文本中从左往右的字符排序,例如“我今天要去上班了”对应的文本分词为“我”、“今天”、“去”“上班”,则将“我”对应的手语手势图像排在第一位、将“今天”对应的手语手势图像排在第二位,依次类推,基于排序结果将多帧手语手势图像转化为连贯的动态手语手势。
此外在输出手语手势图像时,应当注意确保输出的手语手势图像的显示时间与待处理视频中的音频播放时间的同步,优选地,当待处理视频可为预先录制好的录播视频时,确定各帧手语手势图像对应的音频数据在待处理视频中的音频帧时间戳,以根据该音频帧时间戳确定各帧手语手势图像的输出时间戳,优选地,当待处理音频可为预先录制好的录播音频时,预先截取一段时长的视频流,接着对该视频流进行音频处理,并将音频处理后的手语手势图像进行实时输出。
此外,在一实施例中,上述将显示所述动态手语手势的步骤包括:
确定所述待处理音频的音频帧时间戳;
基于所述音频帧时间戳确定所述目标手语手势图像的图像帧时间戳,以基于所述图像帧时间戳显示所述目标手语手势图像。
具体而言,上述音频帧时间戳指代待处理音频每一帧音频流的播放时间信息,上述图像帧时间戳指代目标手语手势图像中每一帧手语手势图像的显示时间信息。
此外,当待处理音频存在对应的视频流时,在将视频流、待处理音频及目标手语手势图像在目标终端中进行同步输出显示。
应当理解地,上述目标终端指代待处理视频对应的播放终端,可选地,将目标手语手势图像显示在显示屏中显示待处理音频对应的视频流的区域内,例如显示在该区域的左下侧、右下侧、左上侧及右上侧等,或者还可将目标手语手势图像显示在显示屏中显示待处理音频存在对应的视频流的区域外等,本实施例对此不作限制。
本实施例中,通过根据待处理音频每一帧音频流的播放时间来确定目标手语手势图像中每一帧手语手势图像的显示时间,来确保待处理音频与目标手语手势图像的内容显示同步以及根据待处理音频对应的视频流在目标终端的显示屏中的显示位置信息及目标手语手势图像在目标终端的显示屏中的显示位置信息,在确保信息传输方式的多样性的同时,来确保显示画面的协调性,进而提升用户体验。
本实施例中通过分别对各组文本分词进行语义识别,以获得各组文本分词对应的语义识别结果;基于语义识别结果遍历预设手语手势文本词库,以获得预设手语手势文本词库中与语义识别结果匹配的目标手语手势文本;基于目标手语手势文本获取多组文本分词对应的多帧手语手势图像,并显示多帧手语手势,由此避免预设手语手势转换模型的模型效果不好时,而导致获取的手语手势图像不准确的技术问题,且通过采用预设手语手势文本词库来获取组文本分词匹配的手语手势图像,由此将音频转化为相应的手语手势图像,提高了信息传输方式的多样性,进而提升用户体验。
本发明还提供一种音频处理装置。请参照图5,所述音频处理装置包括:
获取模块10,用于获取待处理音频,并将所述待处理音频转换为目标文本;
提取模块20,用于对所述目标文本进行特征提取,以获得所述目标文本对应的文本特征数据;
输出模块30,用于通过预设手语手势转换模型获取所述文本特征数据对应的目标手语手势图像,并显示所述目标手语手势图像。
此外,本发明实施例还提出一种可读存储介质。
可读存储介质上存储有音频处理程序,音频处理程序被处理器执行时实现如上所述的音频处理方法的步骤。
本发明可读存储介质可以为计算机可读存储介质,其具体实施方式与上述音频处理方法各实施例基本相同,在此不再赘述。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。

Claims (9)

1.一种音频处理方法,其特征在于,所述音频处理方法包括以下步骤:
获取待处理音频,并将所述待处理音频转换为目标文本;
对所述目标文本进行特征提取,以获得所述目标文本对应的文本特征数据;
通过预设手语手势转换模型获取所述文本特征数据对应的目标手语手势图像,并显示所述目标手语手势图像;
所述通过预设手语手势转换模型获取所述文本特征数据对应的目标手语手势图像的步骤之前,还包括:
获取初始模型及若干个文本训练数据;
通过所述初始模型确定所述文本训练数据对应的手语手势预测结果,所述手语手势预测结果为手语手势预测特征向量;
获取所述文本训练数据对应的手语手势真实结果的手语手势真实特征向量;
确定各所述文本训练数据对应的所述手语手势预测特征向量与所述手语手势真实特征向量之间的偏差值,并基于所述偏差值确定损失函数;
通过梯度下降的方式更新所述初始模型的模型参数,并将所述损失函数收敛或模型训练轮次达到预设训练迭代轮次时对应的模型参数作为最终模型参数;
根据所述最终模型参数确定预设手语手势转换模型。
2.如权利要求1所述的音频处理方法,其特征在于,所述将所述待处理音频转换为目标文本的步骤包括:
对所述待处理音频进行人声提取,以获得待处理音频中的目标人声音频;
对所述目标人声音频进行语义识别,以获得目标文本。
3.如权利要求2所述的音频处理方法,其特征在于,所述对所述待处理音频进行人声提取,以获得待处理音频中的目标人声音频的步骤包括:
获取所述待处理音频的音频特征;
将所述音频特征输入至预设音频分离模型,以通过所述预设音频分离模型获取所述音频特征对应的音频特征分离结果,其中,所述音频特征分离结果包括目标人声音频特征;
基于所述目标人声音频特征获取待处理音频中的目标人声音频。
4.如权利要求1所述的音频处理方法,其特征在于,所述将所述待处理音频转换为目标文本的步骤之后,还包括:
对所述目标文本进行分词处理,以获得所述目标文本对应的多组文本分词;
分别对各组所述文本分词进行语义识别,以获得各组所述文本分词对应的语义识别结果;
基于所述语义识别结果遍历预设手语手势文本词库,以获得预设手语手势文本词库中与所述语义识别结果匹配的目标手语手势文本;
基于所述目标手语手势文本获取所述多组文本分词对应的多帧手语手势图像,并显示所述多帧手语手势图像。
5.如权利要求4所述的音频处理方法,其特征在于,所述显示所述多帧手语手势图像的步骤包括:
确定各帧所述手语手势图像对应的各组文本分词在所述目标文本中的位置信息;
基于所述位置信息对所述多帧手语手势图像进行排序,以获得排序结果;
根据所述排序结果将所述多帧手语手势图像转化为目标手语手势图像,并将显示所述目标手语手势图像。
6.如权利要求1至5任一项所述的音频处理方法,其特征在于,显示所述目标手语手势图像的步骤包括:
确定所述待处理音频的音频帧时间戳;
基于所述音频帧时间戳确定所述目标手语手势图像的图像帧时间戳,以基于所述图像帧时间戳显示所述目标手语手势图像。
7.一种音频处理装置,其特征在于,所述音频处理装置包括:
获取模块,用于获取待处理音频,并将所述待处理音频转换为目标文本;
提取模块,用于对所述目标文本进行特征提取,以获得所述目标文本对应的文本特征数据;
输出模块,用于通过预设手语手势转换模型获取所述文本特征数据对应的目标手语手势图像,并显示所述目标手语手势图像;
所述输出模块,还用于获取初始模型及若干个文本训练数据;通过所述初始模型确定所述文本训练数据对应的手语手势预测结果,所述手语手势预测结果为手语手势预测特征向量;获取所述文本训练数据对应的手语手势真实结果的手语手势真实特征向量;
所述输出模块,还用于确定各所述文本训练数据对应的所述手语手势预测特征向量与所述手语手势真实特征向量之间的偏差值,并基于所述偏差值确定损失函数;通过梯度下降的方式更新所述初始模型的模型参数,并将所述损失函数收敛或模型训练轮次达到预设训练迭代轮次时对应的模型参数作为最终模型参数;根据所述最终模型参数确定预设手语手势转换模型。
8.一种音频处理设备,其特征在于,所述音频处理设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的音频处理程序,所述音频处理程序被所述处理器执行时实现如权利要求1-6中任一项所述的音频处理方法的步骤。
9.一种可读存储介质,其特征在于,所述可读存储介质上存储有音频处理程序,所述音频处理程序被处理器执行时实现如权利要求1-6中任一项所述的音频处理方法的步骤。
CN202110139349.3A 2021-02-01 2021-02-01 音频处理方法、装置、设备及可读存储介质 Active CN113035199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110139349.3A CN113035199B (zh) 2021-02-01 2021-02-01 音频处理方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110139349.3A CN113035199B (zh) 2021-02-01 2021-02-01 音频处理方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113035199A CN113035199A (zh) 2021-06-25
CN113035199B true CN113035199B (zh) 2024-05-07

Family

ID=76459672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110139349.3A Active CN113035199B (zh) 2021-02-01 2021-02-01 音频处理方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113035199B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113709548B (zh) * 2021-08-09 2023-08-25 北京达佳互联信息技术有限公司 基于图像的多媒体数据合成方法、装置、设备及存储介质
CN113722513B (zh) * 2021-09-06 2022-12-20 抖音视界有限公司 多媒体数据的处理方法及设备
CN114157920B (zh) * 2021-12-10 2023-07-25 深圳Tcl新技术有限公司 一种展示手语的播放方法、装置、智能电视及存储介质
CN113923521B (zh) * 2021-12-14 2022-03-08 深圳市大头兄弟科技有限公司 一种视频的脚本化方法
CN117975949B (zh) * 2024-03-28 2024-06-07 杭州威灿科技有限公司 基于语音转换的事件记录方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766459A (zh) * 2018-06-13 2018-11-06 北京联合大学 一种多人语音混合中目标说话人估计方法及系统
CN109740447A (zh) * 2018-12-14 2019-05-10 深圳壹账通智能科技有限公司 基于人工智能的通信方法、设备及可读存储介质
CN110730360A (zh) * 2019-10-25 2020-01-24 北京达佳互联信息技术有限公司 视频上传、播放的方法、装置、客户端设备及存储介质
CN110931042A (zh) * 2019-11-14 2020-03-27 北京欧珀通信有限公司 同声传译方法、装置、电子设备以及存储介质
CN111640450A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 多人声音频处理方法、装置、设备及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020140718A1 (en) * 2001-03-29 2002-10-03 Philips Electronics North America Corporation Method of providing sign language animation to a monitor and process therefor

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766459A (zh) * 2018-06-13 2018-11-06 北京联合大学 一种多人语音混合中目标说话人估计方法及系统
CN109740447A (zh) * 2018-12-14 2019-05-10 深圳壹账通智能科技有限公司 基于人工智能的通信方法、设备及可读存储介质
CN110730360A (zh) * 2019-10-25 2020-01-24 北京达佳互联信息技术有限公司 视频上传、播放的方法、装置、客户端设备及存储介质
CN110931042A (zh) * 2019-11-14 2020-03-27 北京欧珀通信有限公司 同声传译方法、装置、电子设备以及存储介质
CN111640450A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 多人声音频处理方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN113035199A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
US12483683B2 (en) Interactive information processing method, device and medium
KR102650611B1 (ko) 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
US10929683B2 (en) Video processing method, apparatus and device
US10504039B2 (en) Short message classification for video delivery service and normalization
CN109218629B (zh) 视频生成方法、存储介质和装置
US20240428784A1 (en) Method, apparatus, electronic device and storage medium for text content matching
CN112601101B (zh) 一种字幕显示方法、装置、电子设备及存储介质
CN112616062B (zh) 一种字幕显示方法、装置、电子设备及存储介质
CN112738557A (zh) 视频处理方法及装置
CN112785669B (zh) 一种虚拟形象合成方法、装置、设备及存储介质
JP7691055B2 (ja) データ処理方法、装置、電子機器および記憶媒体
CN115967833A (zh) 视频生成方法、装置、设备计存储介质
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium
CN115052188B (zh) 一种视频剪辑方法、装置、设备及介质
CN118764681B (zh) 针对视频的交互方法和针对视频的处理方法、装置
CN112601102A (zh) 同声传译字幕的确定方法、装置、电子设备及存储介质
KR102690078B1 (ko) 음성 및 텍스트 데이터 생성시스템
CN112562733A (zh) 媒体数据处理方法及装置、存储介质、计算机设备
CN119299770A (zh) 一种视频字幕提取方法、装置及电子设备
JP5213572B2 (ja) 手話映像生成システム、サーバ、端末装置、情報処理方法、及びプログラム
CN112423106A (zh) 一种自动翻译伴音的方法及系统
WO2024188276A1 (zh) 文本分类方法及制冷设备系统
KR20160131730A (ko) 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
US12513348B2 (en) Video rendering method for live broadcast scene, electronic device and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20241127

Address after: 518000 First Floor, Chuangwei Technology Industrial Park Experimental Factory, Tangtou Community, Shiyan Street, Bao'an District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Skyworth Display Technology Co.,Ltd.

Country or region after: China

Address before: 518057 13-16 floor, block A, SKYWORTH building, Shennan Avenue, Nanshan District, Shenzhen, Guangdong.

Patentee before: SHENZHEN SKYWORTH-RGB ELECTRONIC Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right