[go: up one dir, main page]

CN110234032B - 一种语音技能创建方法及系统 - Google Patents

一种语音技能创建方法及系统 Download PDF

Info

Publication number
CN110234032B
CN110234032B CN201910376055.5A CN201910376055A CN110234032B CN 110234032 B CN110234032 B CN 110234032B CN 201910376055 A CN201910376055 A CN 201910376055A CN 110234032 B CN110234032 B CN 110234032B
Authority
CN
China
Prior art keywords
voice
skill
voice skill
skills
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910376055.5A
Other languages
English (en)
Other versions
CN110234032A (zh
Inventor
戚耀文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Shanghai Xiaodu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd, Shanghai Xiaodu Technology Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201910376055.5A priority Critical patent/CN110234032B/zh
Publication of CN110234032A publication Critical patent/CN110234032A/zh
Priority to JP2019223396A priority patent/JP6969051B2/ja
Priority to US16/711,568 priority patent/US11450318B2/en
Application granted granted Critical
Publication of CN110234032B publication Critical patent/CN110234032B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44521Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
    • G06F9/44526Plug-ins; Add-ons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/34Graphical or visual programming
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • G06F9/4451User profiles; Roaming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种语音技能创建方法及系统,其中所述方法包括响应于开发者的语音技能创建指令,提供语音技能创建界面;通过所述语音技能创建界面获取所述语音技能的基础信息及内容配置;响应于开发者的发布上线指令,为所述语音技能的内容添加对应的语音交互能力,创建并发布所述语音技能。应用本发明所述方案,无需任何编程即可完成语音技能的创建,提高了语音技能的开发效率。

Description

一种语音技能创建方法及系统
【技术领域】
本发明涉及计算机应用技术,特别涉及语音技能创建方法及系统。
【背景技术】
随着人工智能的快速发展,各大公司都对人工智能语音方向进行了深入的研究,逐渐推出了各自的语音对话平台,开发者在语音对话平台中可以根据自己的需求、自己的创意,向语音对话平台发布技能,进行调用。
技能类似于一个应用,通过语音对话完成一个或多个特定的功能,所述技能由一个或多个意图直接构成,在多轮对话中以明确意图的上下文意图来区分说法,从而进入相应的意图。例如音频语音技能,可以实现通过语音对音频的控制;图片语音技能,可以实现通过语音对图片的控制;话术语音技能,可以实现对话术的控制。
现有技术中,开发者在语音对话平台中发布技能需要通过代码层面进行相关的创建,这就要求开发者掌握相当的编程能力才能完成技能创建,提高了发布技能的门槛。
【发明内容】
本申请的多个方面提供了语音技能创建方法、系统、设备及存储介质,无需编程即可完成语音技能创建,提高了语音技能的开发效率。
本申请的一方面,提供一种语音技能创建方法,包括:
响应于开发者的语音技能创建指令,提供语音技能创建界面;
通过所述语音技能创建界面获取所述语音技能的基础信息及内容配置;
响应于开发者的发布上线指令,为所述语音技能的基础信息及内容配置添加对应的语音交互能力,创建并发布所述语音技能。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述语音技能创建界面包括:
基础信息页面,用于获取所述语音技能的基础信息;
内容管理页面,用于获取所述语音技能的内容配置;
发布上线页面,用于获取所述发布者的发布上线指令。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,响应于开发者的语音技能创建指令,提供语音技能创建界面包括:
响应于所述开发者的语音技能创建指令,提供语音技能类型选择界面;
响应于所述开发者选择所述语音技能类型,提供所述语音技能类型的语音技能创建界面。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述技能类型包括以下任一项:话术语音技能、图片语音技能和音频语音技能。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述语音技能的基础信息包括:
技能名称、调用名称、技能付费信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述语音技能的内容配置包括:
所述话术语音技能的话术内容、播放模式;或,
所述图片语音技能的图片内容、播放模式;或,
所述音频语音技能的音频内容、播放模式。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述为所述语音技能的基础信息及内容配置添加对应的语音交互能力包括:
根据所获取的所述语音技能的基础信息及内容配置,
为所述话术语音技能添加基础意图、监听开启与关闭、技能退出、上线展示能力;或,
为所述图片语音技能添加基础意图、检索意图、自动播放、技能退出能力、上线展示能力;或,
为所述音频语音技能添加基础意图、检索意图、自动播放、技能退出、上线展示能力。
本申请的另一方面,提供一种语音技能创建系统,包括:
语音技能创建界面提供模块,用于响应于开发者的语音技能创建指令,提供语音技能创建界面;
语音技能配置模块,用于通过所述语音技能创建界面获取所述语音技能的基础信息及内容配置;
技能创建及发布模块,用于响应于开发者的发布上线指令,为所述语音技能的基础信息及内容配置添加对应的语音交互能力,创建并发布所述语音技能。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述语音技能创建界面包括:
基础信息页面,用于获取所述语音技能的基础信息;
内容管理页面,用于获取所述语音技能的内容配置;
发布上线页面,用于获取所述发布者的发布上线指令。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述语音技能创建界面提供模块具体用于:
响应于所述开发者的语音技能创建指令,提供语音技能类型选择界面;
响应于所述开发者选择所述语音技能类型,提供所述语音技能类型的语音技能创建界面。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述技能类型包括以下任一项:话术语音技能、图片语音技能和音频语音技能。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述语音技能的基础信息包括:
技能名称、调用名称、技能付费信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述语音技能的内容配置包括;
所述话术语音技能的话术内容、播放模式;或,
所述图片语音技能的图片内容、播放模式;或,
所述音频语音技能的音频内容、播放模式。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述语技能创建及发布模块具体用于:
根据所获取的所述语音技能的基础信息及内容配置,
为所述话术语音技能添加基础意图、监听开启与关闭、技能退出、上线展示能力;或,
为所述图片语音技能添加基础意图、检索意图、自动播放、技能退出能力、上线展示能力;或,
为所述音频语音技能添加基础意图、检索意图、自动播放、技能退出、上线展示能力。
本发明的另一方面,提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
本发明的另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,无需编程即可完成语音技能创建,提高了语音技能的开发效率。
【附图说明】
图1为本发明所述语音技能创建方法的流程图;
图2为本发明所述语音技能创建系统的结构图;
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图;
图4为本发明所述话术语音技能的基础信息页面示意图;
图5为本发明所述图片语音技能的基础信息页面示意图;
图6为本发明所述音频语音技能的基础信息页面示意图;
图7为本发明所述话术语音技能的内容管理页面示意图;
图8为本发明所述图片语音技能的内容管理页面示意图;
图9为本发明所述音频语音技能的内容管理页面示意图;
图10为本发明所述话术语音技能的发布上线页面示意图;
图11为本发明所述图片语音技能的发布上线页面示意图;
图12为本发明所述音频语音技能的发布上线页面示意图。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。
图1为本发明所述语音技能创建方法实施例的流程图,如图1所示,包括以下步骤:
步骤S11、响应于开发者的语音技能创建指令,提供语音技能创建界面;
步骤S12、通过所述语音技能创建界面获取所述语音技能的基础信息及内容配置;
步骤S13、响应于开发者的发布上线指令,为所述语音技能的基础信息及内容配置添加对应的语音交互能力,创建并发布所述语音技能。
所述方法的执行主体为语音技能开发平台。
在步骤S11的一种优选实现方式中,
所述语音技能开发平台响应于开发者的语音技能创建指令,例如开发者登录语音技能开发平台后,在展现的主界面上对技能创建按钮的操作,为所述开发者提供语音技能创建界面。
优选地,本实施例中,所述语音技能以话术语音技能、图片语音技能和音频语音技能为例,包括但不限于上述语音技能。由于话术语音技能、图片语音技能和音频语音技能的不同,因此,为上述语音技能提供的语音技能模板也有所差别,这就需要为不同技能提供不同的语音技能创建界面。
优选地,响应于所述开发者的语音技能创建指令,例如开发者登录语音技能开发平台后,在展现的主界面上对技能创建按钮的操作,为所述开发者提供语音技能类型选择界面,以便获取不同的语音技能模板。响应于所述开发者选择所述语音技能类型,提供所述语音技能类型的语音技能创建界面。
在步骤S12的一种优选实现方式中,
通过所述语音技能创建界面获取所述语音技能的基础信息及内容配置;
优选地,所述语音技能创建界面包括:基础信息页面,用于获取所述语音技能的基础信息;内容管理页面,用于获取所述语音技能的内容配置;发布上线页面,用于获取所述发布者的发布上线指令。
优选地,所述语音技能创建界面还可以包括其他相关页面,例如:测试验证页面、资源管理页面、SSML转码页面、支持页面、文档中心页面、常见答疑页面、提交反馈页面、技术课堂页面等,可根据需要灵活设置。
优选地,所述基础信息页面,如图4、图5、图6所示,用于获取所述语音技能的基础信息。所述语音技能的基础信息至少包括:技能名称、调用名称、技能付费信息。
其中,所述技能名称信息为开发人员从基础信息页面的技能名称输入框中输入的技能名称;所述调用名称信息为开发人员从基础信息页面的调用名称输入框中输入的调用名称;所述技能付费信息为开发人员从基础信息页面的技能付费单选框中选择的付费或免费选项。
优选地,对于话术语音技能及音频语音技能,所述语音技能的基础信息还包括应用场景,例如所述话术语音技能应用于有屏场景还是无屏场景。对于图片语音技能,默认为有屏场景,所以在所述基础信息页面中无需提供应用场景选项。
优选地,所述语音技能的基础信息还可以包括:直接播放内容选项、欢迎语、退出语、退出确认信息等。
所述基础信息页面还可以展示所述语音技能的技能类型、技能ID;所述技能类型是开发人员在语音技能类型选择界面所选择的技能类型;所述技能ID为所述技能开发平台为所述语音技能所生成的ID。
优选地,所述内容管理页面,用于获取所述语音技能的内容配置。
优选地,对于话术语音技能,所述话术语音技能的内容配置包括所述话术语音技能的话术内容、播放模式,如图7所示。
所述话术内容包括:展现标题、展现内容、网页链接、背景图片、背景音乐、预览等选项;上述话术内容将会在技能内呈现。
开发人员可以在所述内容管理页面进行话术内容的添加。也可以批量添加话术内容,给话术添加背景图片,网页链接及背景音乐,并且会生成展现的预览。
所述播放模式包括:顺序播放、随机播放、播放一个后关闭等选项,系统将按照开发人员所选择的播放模式进行播放。还包括播放后是否开启监听选项。还包括对上一个、下一个意图等切换话术的表达,以便开发人员添加切换话术的表达。
开发人员可以控制话术的播放模式,可以对话术进行顺序播放,随机播放的设置,开发人员可以设置播放后关闭,设置播放后关闭在播放完话术内容后技能则退出。开发人员可以控制播放完一条话术后,麦克风是否打开。开发人员可以配置切换话术的内容。当开发人员表达这些内容的时候,话术内容则会进行切换。
优选地,对于图片语音技能,所述图片语音技能的内容配置包括所述话术语音技能的图片内容、播放模式,如图8所示。
所述图片内容包括本地添加图片内容按钮和从资源管理添加图片内容按钮。上传的图片会自动保存到资源管理中并按照开发人员所选择的播放模式进行播放。
所述播放模式包括:顺序播放、随机播放选项。系统将按照开发人员所选择的播放模式进行播放。还包括对上一个、下一个意图等切换话术的表达,以便开发人员添加切换话术的表达。
开发人员可以在所述内容管理页面进行图片内容的添加。添加的内容分为两块,一块是本地添加,一块是从资源管理添加。添加后可以选择播放模式,播放模式为顺序播放或者是随机播放。
优选地,对于音频语音技能,所述音频语音技能的内容配置包括所述音频语音技能的音频内容、播放模式,如图9所示。
所述音频内容包括本地添加音频内容按钮和从资源管理添加音频内容按钮。上传的音频会自动保存到资源管理中并按照开发人员所选择的播放模式进行播放。
所述播放模式包括:顺序播放、随机播放、播放一个后关闭等选项,系统将按照开发人员所选择的播放模式进行播放。还包括对上一个、下一个意图等切换话术的表达,以便开发人员添加切换话术的表达。
开发人员可以在所述内容管理页面进行音频内容的添加。添加的音频内容分为两块,一块是本地添加,一块是从资源管理添加。添加后可以选择播放模式,播放模式为顺序播放或者是随机播放。开发人员还可以对音频的名称进行编辑。此编辑将会影响音频在界面上的展示。
优选地,所述发布上线页面,用于获取所述发布者的发布上线指令。
优选地,开发人员在所述基础信息页面完成所述语音技能的基础信息,并在所述内容管理页面完成所述语音技能的内容配置后,即可跳转到发布上线页面。
所述发布上线页面用于获取开发者填入或选择的:技能版本、技能名称、调用名称、应用场景、技能收费、技能图标、展示视频、展示图片、技能分类、开发者信息、技能简介、表达示例、版本信息、审核测试说明等信息,如图10、图11、图12所示。
在步骤S13的一种优选实现方式中,
响应于开发者的发布上线指令,为所述语音技能的基础信息及内容配置添加对应的语音交互能力,创建并发布所述语音技能。
优选地,开发者在所述发布上线页面完成所述语音技能的相关信息后,即可发出发布上线指令,例如,通过点击所述发布上线页面的申请上线按钮,即可向所述语音技能开发平台发出上线指令。
优选地,以话术语音技能为例,所述为所述语音技能的基础信息及内容配置添加对应的语音交互能力包括:根据所获取的所述话术语音技能的内容配置,为所述话术语音技能的内容添加基础意图、监听开启与关闭、技能退出、上线展示能力。
其中,所述基础意图为:切换意图,当用户说出对应的表达后,话术将会进行切换。
所述监听的开启与关闭为:用户在配置完监听开启后,播放玩一条内容后会自动打开麦克风收取用户声音。
所述技能的退出为:当用户表达”退出”的时候技能进行退出。
所述上线后的展示为:为所述话术技能添加背景图片进行展示。
优选地,以图片语音技能为例,所述为所述语音技能的基础信息及内容配置添加对应的语音交互能力包括:根据所获取的所述图片语音技能的内容配置,为所述图片语音技能的内容添加基础意图、检索意图、自动播放、技能退出能力、上线展示能力。
其中,所述基础意图包含上一个,下一个,用户说上一个,下一个可以自动切换图片。
所述检索意图包括图像检索意图和名称检索意图;
所述图像检索意图可以对用户上传的图片进行识别,并且识别出图片的标签,当用户说出相关的关键词后,机器返回相应的图片。
所述名称检索意图可以对用户指定的图片进行识别,用户说出的名称和图片名称相近的时候,机器返回相应的图片匹配用户的需求。
susohu图片的自动播放为:一定时间内切换图片,顺序播放遍历完图片后进行新的遍历,随机播放则一直播放图片。
所述技能的退出为当用户表达”退出”的时候技能进行退出。
所述上线展示为:图片的自动化模糊背景,若图片比例不能很好的贴满屏幕,则进行图片的自适应,背后加高斯模糊,提升显示体验。
优选地,以音频语音技能为例,所述为所述语音技能的基础信息及内容配置添加对应的语音交互能力包括:根据所获取的所述音频语音技能的内容配置,为所述音频语音技能的内容添加基础意图、检索意图、自动播放、技能退出、上线展示能力。
其中,
所述基础意图包含上一个,下一个,暂停,继续。用户说上一个,下一个可以自动切换音频内容,说暂停及继续可以控制音频的播放。
所述检索意图为音频名称检索意图,可以对用户指定的音频进行识别,用户说出的名称和视频名称相近的时候,机器返回相应的音频匹配用户的需求。
所述自动播放意图为:在播放完一个视频后,机器会进行下一个视频的播放,按照顺序或者随机进行播放。
所述技能的退出为:当用户表达”退出”的时候技能进行退出。
所述上线后的展示为:为所述话术技能添加背景图片进行展示。
应用本发明所述方案,无需任何编程即可完成语音技能的创建,用户仅需要在语音技能创建界面中的基础信息页面、内容管理页面、发布上线页面依次编辑相关信息,语音技能开发平台即可对用户编辑的内容进行处理,填补相关能力,自动生成并上线语音技能。无需开发人员进行任何编程即可完成语音技能的生成,提高了语音技能的开发效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图2为本发明所述智能设备音量控制系统实施例的结构图,如图2所示,包括:
语音技能创建界面提供模块21,用于响应于开发者的语音技能创建指令,提供语音技能创建界面;
语音技能配置模块22,用于通过所述语音技能创建界面获取所述语音技能的基础信息及内容配置;
技能创建及发布模块23,用于响应于开发者的发布上线指令,为所述语音技能的内容添加对应的语音交互能力,创建并发布所述语音技能。
所述方法的执行主体为语音技能开发平台。
在语音技能创建界面提供模块21的一种优选实现方式中,
所述语音技能开发平台响应于开发者的语音技能创建指令,例如开发者登录语音技能开发平台后,在展现的主界面上对技能创建按钮的操作,为所述开发者提供语音技能创建界面。
优选地,本实施例中,所述语音技能以话术语音技能、图片语音技能和音频语音技能为例,包括但不限于上述语音技能。由于话术语音技能、图片语音技能和音频语音技能的不同,因此,为上述语音技能提供的语音技能模板也有所差别,这就需要为不同技能提供不同的语音技能创建界面。
优选地,响应于所述开发者的语音技能创建指令,例如开发者登录语音技能开发平台后,在展现的主界面上对技能创建按钮的操作,为所述开发者提供语音技能类型选择界面,以便获取不同的语音技能模板。响应于所述开发者选择所述语音技能类型,提供所述语音技能类型的语音技能创建界面。
在语音技能配置模块22的一种优选实现方式中,
所述语音技能配置模块22通过所述语音技能创建界面获取所述语音技能的基础信息及内容配置;
优选地,所述语音技能创建界面包括:基础信息页面,用于获取所述语音技能的基础信息;内容管理页面,用于获取所述语音技能的内容配置;发布上线页面,用于获取所述发布者的发布上线指令。
优选地,所述语音技能创建界面还可以包括其他相关页面,例如:测试验证页面、资源管理页面、SSML转码页面、支持页面、文档中心页面、常见答疑页面、提交反馈页面、技术课堂页面等,可根据需要灵活设置。
优选地,所述基础信息页面,如图4、图5、图6所示,用于获取所述语音技能的基础信息。所述语音技能的基础信息至少包括:技能名称、调用名称、技能付费信息。
其中,所述技能名称信息为开发人员从基础信息页面的技能名称输入框中输入的技能名称;所述调用名称信息为开发人员从基础信息页面的调用名称输入框中输入的调用名称;所述技能付费信息为开发人员从基础信息页面的技能付费单选框中选择的付费或免费选项。
优选地,对于话术语音技能及音频语音技能,所述语音技能的基础信息还包括应用场景,例如所述话术语音技能应用于有屏场景还是无屏场景。对于图片语音技能,默认为有屏场景,所以在所述基础信息页面中无需提供应用场景选项。
优选地,所述语音技能的基础信息还可以包括:直接播放内容选项、欢迎语、退出语、退出确认信息等。
所述基础信息页面还可以展示所述语音技能的技能类型、技能ID;所述技能类型是开发人员在语音技能类型选择界面所选择的技能类型;所述技能ID为所述技能开发平台为所述语音技能所生成的ID。
优选地,所述内容管理页面,用于获取所述语音技能的内容配置。
优选地,对于话术语音技能,所述话术语音技能的内容配置包括所述话术语音技能的话术内容、播放模式,如图7所示。
所述话术内容包括:展现标题、展现内容、网页链接、背景图片、背景音乐、预览等选项;上述话术内容将会在技能内呈现。
开发人员可以在所述内容管理页面进行话术内容的添加。也可以批量添加话术内容,给话术添加背景图片,网页链接及背景音乐,并且会生成展现的预览。
所述播放模式包括:顺序播放、随机播放、播放一个后关闭等选项,系统将按照开发人员所选择的播放模式进行播放。还包括播放后是否开启监听选项。还包括对上一个、下一个意图等切换话术的表达,以便开发人员添加切换话术的表达。
开发人员可以控制话术的播放模式,可以对话术进行顺序播放,随机播放的设置,开发人员可以设置播放后关闭,设置播放后关闭在播放完话术内容后技能则退出。开发人员可以控制播放完一条话术后,麦克风是否打开。开发人员可以配置切换话术的内容。当开发人员表达这些内容的时候,话术内容则会进行切换。
优选地,对于图片语音技能,所述图片语音技能的内容配置包括所述话术语音技能的图片内容、播放模式,如图8所示。
所述图片内容包括本地添加图片内容按钮和从资源管理添加图片内容按钮。上传的图片会自动保存到资源管理中并按照开发人员所选择的播放模式进行播放。
所述播放模式包括:顺序播放、随机播放选项。系统将按照开发人员所选择的播放模式进行播放。还包括对上一个、下一个意图等切换话术的表达,以便开发人员添加切换话术的表达。
开发人员可以在所述内容管理页面进行图片内容的添加。添加的内容分为两块,一块是本地添加,一块是从资源管理添加。添加后可以选择播放模式,播放模式为顺序播放或者是随机播放。
优选地,对于音频语音技能,所述音频语音技能的内容配置包括所述音频语音技能的音频内容、播放模式,如图9所示。
所述音频内容包括本地添加音频内容按钮和从资源管理添加音频内容按钮。上传的音频会自动保存到资源管理中并按照开发人员所选择的播放模式进行播放。
所述播放模式包括:顺序播放、随机播放、播放一个后关闭等选项,系统将按照开发人员所选择的播放模式进行播放。还包括对上一个、下一个意图等切换话术的表达,以便开发人员添加切换话术的表达。
开发人员可以在所述内容管理页面进行音频内容的添加。添加的音频内容分为两块,一块是本地添加,一块是从资源管理添加。添加后可以选择播放模式,播放模式为顺序播放或者是随机播放。开发人员还可以对音频的名称进行编辑。此编辑将会影响音频在界面上的展示。
优选地,所述发布上线页面,用于获取所述发布者的发布上线指令。
优选地,开发人员在所述基础信息页面完成所述语音技能的基础信息,并在所述内容管理页面完成所述语音技能的内容配置后,即可跳转到发布上线页面。
所述发布上线页面用于获取开发者填入或选择的:技能版本、技能名称、调用名称、应用场景、技能收费、技能图标、展示视频、展示图片、技能分类、开发者信息、技能简介、表达示例、版本信息、审核测试说明等信息,如图10、图11、图12所示。
在技能创建及发布模块23的一种优选实现方式中,
所述技能创建及发布模块23响应于开发者的发布上线指令,为所述语音技能的基础信息及内容配置添加对应的语音交互能力,创建并发布所述语音技能。
优选地,开发者在所述发布上线页面完成所述语音技能的相关信息后,即可发出发布上线指令,例如,通过点击所述发布上线页面的申请上线按钮,即可向所述语音技能开发平台发出上线指令。
优选地,以话术语音技能为例,所述为所述语音技能的基础信息及内容配置添加对应的语音交互能力包括:根据所获取的所述话术语音技能的内容配置,为所述话术语音技能的内容添加基础意图、监听开启与关闭、技能退出、上线展示能力。
其中,所述基础意图为:切换意图,当用户说出对应的表达后,话术将会进行切换。
所述监听的开启与关闭为:用户在配置完监听开启后,播放玩一条内容后会自动打开麦克风收取用户声音。
所述技能的退出为:当用户表达”退出”的时候技能进行退出。
所述上线后的展示为:为所述话术技能添加背景图片进行展示。
优选地,以图片语音技能为例,所述为所述语音技能的基础信息及内容配置添加对应的语音交互能力包括:根据所获取的所述图片语音技能的内容配置,为所述图片语音技能的内容添加基础意图、检索意图、自动播放、技能退出能力、上线展示能力。
其中,所述基础意图包含上一个,下一个,用户说上一个,下一个可以自动切换图片。
所述检索意图包括图像检索意图和名称检索意图;
所述图像检索意图可以对用户上传的图片进行识别,并且识别出图片的标签,当用户说出相关的关键词后,机器返回相应的图片。
所述名称检索意图可以对用户指定的图片进行识别,用户说出的名称和图片名称相近的时候,机器返回相应的图片匹配用户的需求。
susohu图片的自动播放为:一定时间内切换图片,顺序播放遍历完图片后进行新的遍历,随机播放则一直播放图片。
所述技能的退出为当用户表达”退出”的时候技能进行退出。
所述上线展示为:图片的自动化模糊背景,若图片比例不能很好的贴满屏幕,则进行图片的自适应,背后加高斯模糊,提升显示体验。
优选地,以音频语音技能为例,所述为所述语音技能的基础信息及内容配置添加对应的语音交互能力包括:根据所获取的所述音频语音技能的内容配置,为所述音频语音技能的内容添加基础意图、检索意图、自动播放、技能退出、上线展示能力。
其中,
所述基础意图包含上一个,下一个,暂停,继续。用户说上一个,下一个可以自动切换音频内容,说暂停及继续可以控制音频的播放。
所述检索意图为音频名称检索意图,可以对用户指定的音频进行识别,用户说出的名称和视频名称相近的时候,机器返回相应的音频匹配用户的需求。
所述自动播放意图为:在播放完一个视频后,机器会进行下一个视频的播放,按照顺序或者随机进行播放。
所述技能的退出为:当用户表达”退出”的时候技能进行退出。
所述上线后的展示为:为所述话术技能添加背景图片进行展示。
应用本发明所述方案,无需任何编程即可完成语音技能的创建,用户仅需要在语音技能创建界面中的基础信息页面、内容管理页面、发布上线页面依次编辑相关信息,语音技能开发平台即可对用户编辑的内容进行处理,填补相关能力,自动生成并上线语音技能。无需开发人员进行任何编程即可完成语音技能的生成,提高了语音技能的开发效率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的终端和服务器的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理器中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图3显示的计算机系统/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理器016,系统存储器028,连接不同系统组件(包括系统存储器028和处理器016)的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白,尽管图3中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器016通过运行存储在系统存储器028中的程序,从而执行本发明所描述的实施例中的功能和/或方法。
上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理器中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (16)

1.一种语音技能创建方法,其特征在于,包括以下步骤:
响应于开发者的语音技能创建指令,提供语音技能创建界面;
通过所述语音技能创建界面获取所述语音技能的基础信息及内容配置;
响应于开发者的发布上线指令,根据语音技能类型,以及所述语音技能的基础信息及内容配置,为不同的语音技能类型添加所述基础信息所对应的语音交互能力和所述内容配置所对应的语音交互能力,创建并发布所述语音技能。
2.根据权利要求1所述的方法,其特征在于,所述语音技能创建界面包括:
基础信息页面,用于获取所述语音技能的基础信息;
内容管理页面,用于获取所述语音技能的内容配置;
发布上线页面,用于获取所述发布者的发布上线指令。
3.根据权利要求2所述的方法,其特征在于,响应于开发者的语音技能创建指令,提供语音技能创建界面包括:
响应于所述开发者的语音技能创建指令,提供语音技能类型选择界面;
响应于所述开发者选择所述语音技能类型,提供所述语音技能类型的语音技能创建界面。
4.根据权利要求3所述的方法,其特征在于,所述技能类型包括以下任一项:话术语音技能、图片语音技能和音频语音技能。
5.根据权利要求书4所述的方法,其特征在于,所述语音技能的基础信息包括:
技能名称、调用名称、技能付费信息。
6.根据权利要求4所述的方法,其特征在于,所述语音技能的内容配置包括:
所述话术语音技能的话术内容、播放模式;或,
所述图片语音技能的图片内容、播放模式;或,
所述音频语音技能的音频内容、播放模式。
7.根据权利要求4所述的方法,其特征在于,所述根据语音技能类型,以及所述语音技能的基础信息及内容配置,为不同的语音技能类型添加所述基础信息所对应的语音交互能力和所述内容配置所对应的语音交互能力,包括:
根据所获取的所述语音技能的基础信息及内容配置,
为所述话术语音技能添加基础意图、监听开启与关闭、技能退出、上线展示能力;或,
为所述图片语音技能添加基础意图、检索意图、自动播放、技能退出能力、上线展示能力;或,
为所述音频语音技能添加基础意图、检索意图、自动播放、技能退出、上线展示能力。
8.一种语音技能创建系统,其特征在于,包括:
语音技能创建界面提供模块,用于响应于开发者的语音技能创建指令,提供语音技能创建界面;
语音技能配置模块,用于通过所述语音技能创建界面获取所述语音技能的基础信息及内容配置;
技能创建及发布模块,用于响应于开发者的发布上线指令,根据语音技能类型,以及所述语音技能的基础信息及内容配置,为不同的语音技能类型添加所述基础信息所对应的语音交互能力和所述内容配置所对应的语音交互能力,创建并发布所述语音技能。
9.根据权利要求8所述的系统,其特征在于,所述语音技能创建界面包括:
基础信息页面,用于获取所述语音技能的基础信息;
内容管理页面,用于获取所述语音技能的内容配置;
发布上线页面,用于获取所述发布者的发布上线指令。
10.根据权利要求8所述的系统,其特征在于,所述语音技能创建界面提供模块具体用于:
响应于所述开发者的语音技能创建指令,提供语音技能类型选择界面;
响应于所述开发者选择所述语音技能类型,提供所述语音技能类型的语音技能创建界面。
11.根据权利要求10所述的系统,其特征在于,所述技能类型包括以下任一项:话术语音技能、图片语音技能和音频语音技能。
12.根据权利要求书10所述的系统,其特征在于,所述语音技能的基础信息包括:
技能名称、调用名称、技能付费信息。
13.根据权利要求11所述的系统,其特征在于,所述语音技能的内容配置包括;
所述话术语音技能的话术内容、播放模式;或,
所述图片语音技能的图片内容、播放模式;或,
所述音频语音技能的音频内容、播放模式。
14.根据权利要求11所述的系统,其特征在于,所述技能创建及发布模块具体用于:
根据所获取的所述语音技能的基础信息及内容配置,
为所述话术语音技能添加基础意图、监听开启与关闭、技能退出、上线展示能力;或,
为所述图片语音技能添加基础意图、检索意图、自动播放、技能退出能力、上线展示能力;或,
为所述音频语音技能添加基础意图、检索意图、自动播放、技能退出、上线展示能力。
15.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的方法。
CN201910376055.5A 2019-05-07 2019-05-07 一种语音技能创建方法及系统 Active CN110234032B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910376055.5A CN110234032B (zh) 2019-05-07 2019-05-07 一种语音技能创建方法及系统
JP2019223396A JP6969051B2 (ja) 2019-05-07 2019-12-11 音声スキル作成方法及びシステム
US16/711,568 US11450318B2 (en) 2019-05-07 2019-12-12 Speech skill creating method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910376055.5A CN110234032B (zh) 2019-05-07 2019-05-07 一种语音技能创建方法及系统

Publications (2)

Publication Number Publication Date
CN110234032A CN110234032A (zh) 2019-09-13
CN110234032B true CN110234032B (zh) 2022-02-25

Family

ID=67860604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910376055.5A Active CN110234032B (zh) 2019-05-07 2019-05-07 一种语音技能创建方法及系统

Country Status (3)

Country Link
US (1) US11450318B2 (zh)
JP (1) JP6969051B2 (zh)
CN (1) CN110234032B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322873B (zh) * 2019-07-02 2022-03-01 百度在线网络技术(北京)有限公司 语音技能的退出方法、装置、设备及存储介质
CN110570866A (zh) * 2019-09-11 2019-12-13 百度在线网络技术(北京)有限公司 语音技能创建方法、装置、电子设备和介质
CN110674338B (zh) * 2019-09-27 2022-11-01 百度在线网络技术(北京)有限公司 语音技能推荐方法、装置、设备及存储介质
CN110706701B (zh) * 2019-10-08 2023-04-18 百度在线网络技术(北京)有限公司 语音技能推荐方法、装置、设备及存储介质
CN110784384B (zh) * 2019-10-16 2021-11-02 杭州九阳小家电有限公司 一种家电语音技能的生成方法及智能家电
CN111031141B (zh) * 2019-12-24 2022-08-23 思必驰科技股份有限公司 用于实现语音技能的定制化配置的方法及服务器
CN111142833B (zh) * 2019-12-26 2022-07-08 思必驰科技股份有限公司 基于情景模式开发语音交互产品的方法及系统
CN112907703A (zh) * 2021-01-18 2021-06-04 深圳全民吃瓜科技有限公司 一种表情包生成方法及系统
CN113867781B (zh) * 2021-09-29 2025-07-08 深圳Tcl新技术有限公司 语音功能配置管理方法、装置、电子设备及可读存储介质
CN117009468A (zh) * 2022-04-29 2023-11-07 青岛海尔科技有限公司 技能的创建方法和装置、存储介质及电子装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010016364A (ko) * 2000-12-06 2001-03-05 김순협 음성인식 기술을 이용한 씨디롬 타이틀 제어
CN106961385A (zh) * 2017-03-15 2017-07-18 腾讯科技(深圳)有限公司 虚拟场景交互中实时语音的实现方法和装置
CN108491188A (zh) * 2018-03-19 2018-09-04 苏州思必驰信息科技有限公司 语音对话产品的开发资源的管理方法及装置
CN108564946A (zh) * 2018-03-16 2018-09-21 苏州思必驰信息科技有限公司 在语音对话平台创建技能、语音对话产品的方法及系统
CN108984157A (zh) * 2018-07-27 2018-12-11 苏州思必驰信息科技有限公司 用于语音对话平台的技能配置和调用方法及系统
CN109358856A (zh) * 2018-10-12 2019-02-19 四川长虹电器股份有限公司 一种语音技能发布方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002312318A (ja) * 2001-04-13 2002-10-25 Nec Corp 電子装置、本人認証方法およびプログラム
US20060136870A1 (en) * 2004-12-22 2006-06-22 International Business Machines Corporation Visual user interface for creating multimodal applications
US8195749B2 (en) * 2006-11-13 2012-06-05 Bindu Rama Rao Questionnaire server capable of providing questionnaires based on device capabilities
CN103874019B (zh) * 2014-03-11 2015-09-16 腾讯科技(深圳)有限公司 语音交互方法和装置
US9263042B1 (en) * 2014-07-25 2016-02-16 Google Inc. Providing pre-computed hotword models
US10137902B2 (en) * 2015-02-12 2018-11-27 Harman International Industries, Incorporated Adaptive interactive voice system
US10146923B2 (en) * 2015-03-20 2018-12-04 Aplcomp Oy Audiovisual associative authentication method, related system and device
US10275671B1 (en) * 2015-07-14 2019-04-30 Wells Fargo Bank, N.A. Validating identity and/or location from video and/or audio
US10560575B2 (en) * 2016-06-13 2020-02-11 Google Llc Escalation to a human operator
US10409551B1 (en) * 2016-06-21 2019-09-10 Amazon Technologies, Inc. Voice-driven monitoring of resources in a service provider network
US10332513B1 (en) * 2016-06-27 2019-06-25 Amazon Technologies, Inc. Voice enablement and disablement of speech processing functionality
CN106649825B (zh) * 2016-12-29 2020-03-24 上海智臻智能网络科技股份有限公司 语音交互系统及其创建方法和装置
US10102855B1 (en) * 2017-03-30 2018-10-16 Amazon Technologies, Inc. Embedded instructions for voice user interface
EP3396667A1 (en) * 2017-04-24 2018-10-31 Koninklijke Philips N.V. Personal voice assistant authentication
US11221823B2 (en) * 2017-05-22 2022-01-11 Samsung Electronics Co., Ltd. System and method for context-based interaction for electronic devices
US10791078B2 (en) * 2017-07-30 2020-09-29 Google Llc Assistance during audio and video calls
US10490195B1 (en) * 2017-09-26 2019-11-26 Amazon Technologies, Inc. Using system command utterances to generate a speaker profile
US10621984B2 (en) * 2017-10-04 2020-04-14 Google Llc User-configured and customized interactive dialog application
US11295735B1 (en) * 2017-12-13 2022-04-05 Amazon Technologies, Inc. Customizing voice-control for developer devices
US10958457B1 (en) * 2018-01-16 2021-03-23 Amazon Technologies, Inc. Device control based on parsed meeting information
US10789959B2 (en) * 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10623246B1 (en) * 2018-03-27 2020-04-14 Amazon Technologies, Inc. Device configuration by natural language processing system
US10720157B1 (en) * 2018-06-13 2020-07-21 Amazon Technologies, Inc. Voice to voice natural language understanding processing
US10950231B1 (en) * 2018-09-04 2021-03-16 Amazon Technologies, Inc. Skill enablement

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010016364A (ko) * 2000-12-06 2001-03-05 김순협 음성인식 기술을 이용한 씨디롬 타이틀 제어
CN106961385A (zh) * 2017-03-15 2017-07-18 腾讯科技(深圳)有限公司 虚拟场景交互中实时语音的实现方法和装置
CN108564946A (zh) * 2018-03-16 2018-09-21 苏州思必驰信息科技有限公司 在语音对话平台创建技能、语音对话产品的方法及系统
CN108491188A (zh) * 2018-03-19 2018-09-04 苏州思必驰信息科技有限公司 语音对话产品的开发资源的管理方法及装置
CN108984157A (zh) * 2018-07-27 2018-12-11 苏州思必驰信息科技有限公司 用于语音对话平台的技能配置和调用方法及系统
CN109358856A (zh) * 2018-10-12 2019-02-19 四川长虹电器股份有限公司 一种语音技能发布方法

Also Published As

Publication number Publication date
US11450318B2 (en) 2022-09-20
JP2020184298A (ja) 2020-11-12
CN110234032A (zh) 2019-09-13
JP6969051B2 (ja) 2021-11-24
US20200357397A1 (en) 2020-11-12

Similar Documents

Publication Publication Date Title
CN110234032B (zh) 一种语音技能创建方法及系统
US11488585B2 (en) Real-time discussion relevance feedback interface
JP2023539815A (ja) 議事録のインタラクション方法、装置、機器及び媒体
JP6866336B2 (ja) 人工知能アプリケーションを構築する方法及び装置
US11769504B2 (en) Virtual meeting content enhancement triggered by audio tracking
JP2025524433A (ja) ページ表示方法、装置、デバイス、コンピュータ可読記憶媒体、及び製品
WO2024193227A1 (zh) 语音编辑方法、装置、存储介质及电子装置
WO2020216310A1 (zh) 用于生成应用的方法、终端设备和计算机可读介质
CN118689347A (zh) 智能体的生成方法、交互方法、装置、介质及设备
CN113761865A (zh) 声文重对齐及信息呈现方法、装置、电子设备和存储介质
KR102353797B1 (ko) 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
JP7712029B2 (ja) マルチメディア処理方法、装置、デバイスおよび媒体
US20230267145A1 (en) Generating personalized digital thumbnails
WO2025139163A1 (zh) 视频生成方法、装置、介质及设备
CN117577092A (zh) 语音播报方法、移动支付设备、存储介质及计算机设备
US11875698B2 (en) Language learning through content translation
CN109524000A (zh) 离线对话实现方法和装置
US20230030342A1 (en) Automatic appending of subtitles based on media context
JP7166370B2 (ja) 音声記録のための音声認識率を向上させる方法、システム、およびコンピュータ読み取り可能な記録媒体
WO2023184266A1 (zh) 语音控制方法及装置、计算机可读存储介质、电子设备
JP2022061932A (ja) アプリとウェブサイトの連動によって音声ファイルに対するメモを作成する方法、システム、およびコンピュータ読み取り可能な記録媒体
JP7128222B2 (ja) 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
US11587590B2 (en) Programmatically controlling media content navigation based on corresponding textual content
US20220399010A1 (en) Annotation of media files with convenient pause points
HK40074560A (zh) 语音合成中的文本处理方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210512

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant