[go: up one dir, main page]

WO2018177134A1 - 用户生成内容处理方法、存储介质和终端 - Google Patents

用户生成内容处理方法、存储介质和终端 Download PDF

Info

Publication number
WO2018177134A1
WO2018177134A1 PCT/CN2018/079228 CN2018079228W WO2018177134A1 WO 2018177134 A1 WO2018177134 A1 WO 2018177134A1 CN 2018079228 W CN2018079228 W CN 2018079228W WO 2018177134 A1 WO2018177134 A1 WO 2018177134A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
image frame
terminal
feature
generated content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/CN2018/079228
Other languages
English (en)
French (fr)
Inventor
杨田从雨
陈宇
张�浩
华有为
薛丰
肖鸿志
冯绪
吴昊
张振伟
欧义挺
董晓龙
戚广全
谢俊驰
谢斯豪
梁雪
段韧
张新磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201710199078.4A external-priority patent/CN107168619B/zh
Priority claimed from CN201710282661.1A external-priority patent/CN108334806B/zh
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of WO2018177134A1 publication Critical patent/WO2018177134A1/zh
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism

Definitions

  • the terminal can convert the selected image frame into a grayscale image, detect the edge in the grayscale image, thereby determining the grayscale change rate at the edge, and determining the sharpness according to the grayscale change rate.
  • access rights can be set when user-generated content is created. For example, if the content creator sets the access right that is only visible to the friend when creating the user-generated content, when the uploaded user account has a friend relationship with the creator's user account, the uploaded user account has the user-generated content. access permission. If the content creator sets access rights visible to everyone when creating user-generated content, any legitimate user account has access to the user-generated content.
  • the terminal uploads the selected image frame to the server, and the server queries the template image that matches the selected image frame.
  • the server queries the matching template image
  • the server feeds back the first notification to the terminal;
  • the server does not query the matching template image
  • the server registers the uploaded image frame as a template image, and feeds back the second notification to the terminal.
  • the terminal displays the content creation entry.
  • the corners of the mouth will rise. If the expression data extracted by the terminal including the facial feature data in the image frame is raised in the corner of the mouth, it can indicate that the emotional feature reflected by the face in the image frame is Happy. When people feel surprised, the mouth opens a large amount. If the terminal extracts the feature data extracted from the face feature data in the image frame, the mouth opening amplitude is large, and the face in the image frame can be represented. The emotional characteristics reflected are astonished.
  • the JPEG format refers to an image format compressed according to the international image compression standard.
  • the direction conforming to the emotional feature recognition condition may specifically be a direction when the angle between the central axis of the face image and the vertical direction in the image frame is not more than 45 degrees.
  • the voice emotional feature recognition result is “happy”.
  • the text obtained by the terminal to recognize the voice data is “I am very happy today”, including the emotional feature keyword “happy”, and the emotional feature mapped to “happy” is “happy”, then the voice emotional feature recognition result is “happy”.
  • the text obtained by the terminal recognizing the voice data is "I am very happy”, including the emotional feature keyword “happy”, and the emotional feature mapped to "happy” is "happy”, then the speech emotional feature recognition result is also "happy”.
  • the acoustic features include timbre and prosodic features.
  • the timbre refers to the sound of the sounding body. Different sounding bodies have different sounds due to different materials and structures.
  • the tone is characterized physics by spectral parameters.
  • the prosodic feature refers to the basic pitch and rhythm of the sound emitted by the sound body, and the rhythm feature is characterized by the fundamental frequency parameter, the duration distribution and the signal intensity.
  • the emotional feature type refers to the type of emotional features reflected by the face. Such as “happy”, “sad” or “anger”.
  • the confidence of the recognition result indicates that the facial emotion feature recognition result is the credibility of the real emotional feature of the face, and the higher the confidence of the recognition result, the higher the possibility that the face emotion feature recognition result is the real emotional feature of the face.
  • the emotional feature image library established in advance by the terminal may include a plurality of emotional feature image sets, and each of the emotional feature image sets reflects an emotional feature type.
  • the terminal may map an emotional feature image one by one corresponding to the intensity of the emotion.
  • the terminal searches for the emotional feature image set that is reflected in the emotional feature image database and the emotional feature type included in the speech emotional feature recognition result, and selects from the found emotional feature image set.
  • the speech emotion feature recognition result includes an emotional feature image corresponding to the emotional intensity.
  • step S1308 determining whether the facial emotion feature recognition result matches the voice emotion feature recognition result; if yes, the process goes to step S1309; if not, the process goes to step S1310.
  • S1316 Render user generated content in the played image frame according to the placement position.
  • the recognition result obtaining module 1703 is further configured to adjust the size of the image frame to a preset size; rotate the direction of the adjusted image frame to a direction that conforms to the emotional feature recognition condition; and send the rotated image frame to the server. Receiving a face emotion feature recognition result returned by the server for the transmitted image frame.
  • RAM is available in a variety of formats, such as static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDRSDRAM), enhanced SDRAM (ESDRAM), synchronization chain.
  • SRAM static RAM
  • DRAM dynamic RAM
  • SDRAM synchronous DRAM
  • DDRSDRAM double data rate SDRAM
  • ESDRAM enhanced SDRAM
  • Synchlink DRAM SLDRAM
  • Memory Bus Radbus
  • RDRAM Direct RAM
  • DRAM Direct Memory Bus Dynamic RAM
  • RDRAM Memory Bus Dynamic RAM

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种用户生成内容处理方法,包括:从现实世界采集图像帧;将采集的图像帧按照采集的时序逐帧播放;从采集的图像帧中选取图像帧;获取与选取的图像帧匹配的模板图像所关联的用户生成内容;获取所述用户生成内容在所述匹配的模板图像中的展示位置;按照所述展示位置,在播放的图像帧中渲染所述用户生成内容。

Description

用户生成内容处理方法、存储介质和终端
本申请要求于2017年03月29日提交中国专利局,申请号为201710199078.4,申请名称为“用户生成内容处理方法和装置”的中国专利申请的优先权,及于2017年04月26日提交中国专利局,申请号为201710282661.1,申请名称为“图像处理方法、装置和电子设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及计算机技术领域,特别是涉及一种用户生成内容处理方法、存储介质和终端。
背景技术
社交应用是目前广泛应用的一种应用程序。基于社交应用,用户之间能够建立基于社交网络的社交关系,从而基于社交关系进行交互,如发送即时消息、语音通话、视频通话以及在线会议等,为人们的生活和工作提供了极大便利。目前,社交应用能够展示用户生成内容(UGC,User Generated Content)。
目前,用户之间在建立社交关系后,才能够找到对方的个人主页,或者彼此出现在对方的好友共享页面,彼此的用户生成内容将展示在个人主页或者好友共享页面,因此目前用户生成内容的展示须依赖于社交关系,限制了用户生成内容的传播。
发明内容
根据本申请提供的各种实施例,提供一种用户生成内容处理方法、存储介质和终端。
一种用户生成内容处理方法,包括:
终端从现实世界采集图像帧;
所述终端将采集的图像帧按照采集的时序逐帧播放;
所述终端从采集的图像帧中选取图像帧;
所述终端获取与选取的图像帧匹配的模板图像所关联的用户生成内容;
所述终端获取所述用户生成内容在所述匹配的模板图像中的展示位置;及
所述终端按照所述展示位置,在播放的图像帧中渲染所述用户生成内容。
一个或多个存储有计算机可执行指令的非易失性计算机可读存储介质,所述计算机可执行指令被一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:
从现实世界采集图像帧;
将采集的图像帧按照采集的时序逐帧播放;
从采集的图像帧中选取图像帧;
获取与选取的图像帧匹配的模板图像所关联的用户生成内容;
获取所述用户生成内容在所述匹配的模板图像中的展示位置;及
按照所述展示位置,在播放的图像帧中渲染所述用户生成内容。
一种终端,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行以下步骤:
从现实世界采集图像帧;
将采集的图像帧按照采集的时序逐帧播放;
从采集的图像帧中选取图像帧;
获取与选取的图像帧匹配的模板图像所关联的用户生成内容;
获取所述用户生成内容在所述匹配的模板图像中的展示位置;及
按照所述展示位置,在播放的图像帧中渲染所述用户生成内容。
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中用户生成内容处理方法的应用环境图;
图2为一个实施例中终端的内部结构示意图;
图3为一个实施例中用户生成内容处理方法的流程示意图;
图4为一个具体应用场景中用户生成内容处理方法的流程示意图;
图5为一个实施例中社交应用的主页面的示意图;
图6为一个实施例中在主页面中展示工具菜单的示意图;
图7为一个实施例中通过功能入口进入的虚拟世界页面和现实世界物体的对比图;
图8为一个实施例中展示内容创建者头像列表的虚拟世界页面和现实世界物体的对比图;
图9为一个实施例中具有评论页面的虚拟世界页面和现实世界物体的对比图;
图10为一个实施例中具有内容创建入口的虚拟世界页面和现实世界物体的对比图;
图11为一个实施例中具有图片编辑页面的虚拟世界页面和现实世界物体的对比图;
图12为另一个实施例中用户生成内容处理方法的流程示意图;
图13为另一个实施例中用户生成内容处理方法的流程示意图;
图14为一个实施例中绘制情感特征图像前后界面的对比示意图;
图15为一个实施例中显示根据语音数据识别得到的文本前后界面的对比示意图;
图16为一个实施例中终端的结构框图;
图17为另一个实施例中终端的结构框图;及
图18为另一个实施例中终端的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中用户生成内容处理方法的应用环境图。参照图1,该应用环境包括终端110和服务器120,终端110能够通过网络与服务器120连接通信。其中,终端110可用于从现实世界采集图像帧;将采集的图像帧按照采集的时序逐帧播放;从采集的图像帧中选取图像帧;从服务器120拉取与选取的图像帧匹配的模板图像所关联的用户生成内容,以及用户生成内容在匹配的模板图像中的展示位置;按照展示位置,在播放的图像帧中渲染用户生成内容。服务器120可用于存储模板图像、用户生成内容以及用户生成内容在匹配的模板图像中的展示位置之间的对应关系。
图2为一个实施例中终端的内部结构示意图。该终端具体可以是如图1所示的终端110。参照图2,该终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、摄像头和输入装置。其中,存储器包括非易失性存储介质和内存储器。终端的非易失性存储介质存储有操作系统和计算机可读指令,该计算机可读指令被执行时,可使得处理器执行一种用户生成内容处理方法。终端的处理器用于提供计算和控制能力,支撑整个终端的运行。终端中的内存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种用户生成内容处理方法。终端的网络接口用于与服务器120进行网络通信,如上传图像帧、上传创建的用户生成内容或者拉取用户生成内容等。终端的摄像头用于采集图像帧。终端的显示屏可以是液晶显示屏或者电子墨水显示屏,终端的输入装置可以是显示屏上覆盖的触摸层,也 可以是终端外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。该终端包括固定终端和移动终端,移动终端包括手机、平板电脑、个人数字助理和穿戴式设备等中的一种或几种的组合。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图3所示,在一个实施例中,提供了一种用户生成内容处理方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图3,该用户生成内容处理方法具体包括如下步骤:
S302,从现实世界采集图像帧。
其中,现实世界是自然存在的世界,也是人类所处的世界。图像帧是能够形成动态画面的图像帧序列中的单元,用来记录某时刻现实世界中的物体。
在一个实施例中,终端具体可按照固定或动态的帧率,从现实世界采集图像帧。其中,固定或动态的帧率能够使图像帧按照该固定或动态的帧率播放时形成连续的动态画面。
在一个实施例中,终端可通过摄像头,在摄像头当前的视野下,采集现实世界的图像帧。其中,摄像头的视野可因终端的姿态和位置的变化而变化。
在一个实施例中,终端可通过社交应用,提供AR(Augmented Reality,增强现实)拍摄模式,并在选定该AR拍摄模式后,从现实世界采集图像帧。其中,社交应用是能够基于社交网络进行网络社交互动的应用。社交应用包括即时通信应用、SNS(Social Network Service,社交网站)应用、直播应用或者拍照应用等。
S304,将采集的图像帧按照采集的时序逐帧播放。
其中,采集的时序是指采集图像帧时的时间顺序,可通过图像帧在采集时记录的时间戳的大小关系来表示。逐帧播放是指逐图像帧播放。
终端具体可按照采集图像帧的帧率,按照时间戳升序,逐个播放采集的 图像帧。终端可以将采集的图像帧直接播放,也可以将采集的图像帧按照采集的时序存入缓存区,并按采集的时序从缓存区取出图像帧播放。
S306,从采集的图像帧中选取图像帧。
其中,选取的图像帧,可以是采集的图像帧中的关键帧。
在一个实施例中,终端可接收用户选择指令,根据该用户选择指令,从采集的图像帧中选取图像帧。
在一个实施例中,终端可在播放的图像帧符合画面稳定条件时,从采集的图像帧中选取当前采集或当前正播放的图像帧。画面稳定条件可以是播放的图像帧在预设时长内的差异在设定的范围内。
S308,获取与选取的图像帧匹配的模板图像所关联的用户生成内容。
其中,用户生成内容是指由用户产生的内容。用户生成内容可以包括文本、图片、音频或者视频中的至少一种。用户生成内容可以是用户发表的内容,也可以是用户对发表的内容的评论内容,还可以是用户对评论内容的回复内容。
模板图像与用户生成内容关联,用于标记用户生成内容。通过模板图像可以定位到相关联的用户生成内容。一个模板图像可以关联一个或多个用户生成内容。一个模板图像可以关联一个或多个用户所发表的用户生成内容。发表用户生成内容的用户可以称为内容创建者。
在一个实施例中,在判断选取的图像帧和模板图像是否匹配,具体可先计算选取的图像帧和模板图像之间的相似度,进而判断该相似度是否大于等于预设相似度;若是,则匹配;若否,则不匹配。
计算选取的图像帧和模板图像之间的相似度时,可先提取选取的图像帧和模板图像各自的特征,从而计算两特征之间的差异,特征之间的差异越大则相似度越低,特征之间的差异越小则相似度越高。具体可通过经过训练的神经网络模型来提取特征,具体可以提取颜色特征、纹理特征和形状特征中的一种或几种的组合。相似度可采用余弦相似度或者图像间各自感知哈希值的汉明距离。
在一个实施例中,终端可先从本地缓存区查询与选取的图像帧匹配的模板图像,当查询到匹配的模板图像时,再从本地缓存区或服务器拉取该模板图像所关联的用户生成内容。当本地缓存区中未查询到匹配的模板图像时,终端可进一步从服务器查询与选取的图像帧匹配的模板图像,当本地缓存区中查询到匹配的模板图像时,终端可从服务器拉取该模板图像所关联的用户生成内容。终端从服务器查询到匹配的模板图像后,可将匹配的模板图像存储在本地缓存区。
在一个实施例中,终端可获取用户生成内容,该用户生成内容所关联的模板图像与选取的图像帧匹配,该模板图像对应的地理位置与当前地理位置满足相近条件。相近条件是量化的表示两个地理位置接近的条件,相近条件如地理位置之间的距离小于或等于预设值。本实施例中,结合地理位置,可以进行更加准确的匹配。
S310,获取用户生成内容在匹配的模板图像中的展示位置。
其中,用户生成内容在匹配的模板图像中的展示位置,该展示位置表示用户生成内容在模板图像中所占的区域。展示位置可以由用户生成内容在模板图像中所占的区域在模板图像的坐标系中的坐标表示。
在一个实施例中,终端可在获取用户生成内容时,一并获取该用户生成内容的展示位置。终端具体可从本地缓存区或者服务器获取该展示位置。
S312,按照展示位置,在播放的图像帧中渲染用户生成内容。
具体地,终端可在当前播放的图像帧中,在获取的展示位置处渲染用户生成内容。终端可获取用户生成内容对应的样式数据,从而按照该样式数据和获取的展示位置,在播放的图像帧中渲染用户生成内容。
在一个实施例中,展示位置可以是用户生成内容相对于模板图像中物体区域的位置;终端可在播放的图像帧中追踪板图像中的物体区域,从而按照该展示位置和追踪到的物体区域,确定当前播放的图像帧中用户生成内容相对于追踪到的物体区域的位置,从而按照确定的位置渲染用户生成内容。
其中,物体区域是图像中可表示现实世界物体的区域,该物体可以是生 物或者非生物,生物如人体、动物体或者植物体,非生物如建筑物、工业产品或者自然景观。
上述用户生成内容处理方法,从现实世界采集图像帧并按照采集的时序播放,通过从采集的图像帧中选取的图像帧,就能够确定该图像帧所匹配的模板图像所关联的用户生成内容,并进行展示。能够通过现实世界中拍摄的图像帧定位到用户生成内容并展示,可以不必依赖社交关系,扩展了用户生成内容的传播方式。而且,按照用户生成内容在匹配的模板图像中的展示位置,在播放的图像帧中追踪渲染用户生成内容,将虚拟世界中的用户生成内容与播放的视频帧所反映的现实世界融合,提供了用户生成内容的新互动方式。
在一个实施例中,该用户生成内容处理方法还包括:判断选取的图像帧的特征是否符合预设的模板图像特征。该步骤具体可在S306之后执行。当选取的图像帧的特征符合模板图像特征时,执行步骤S308;当选取的图像帧的特征不符合模板图像特征时,返回至步骤S306。
其中,预设的模板图像特征,是预先设置的作为模板图像的图像应当具备的特征。模板图像可具备良好的区分性,避免不同的模板图像关联的用户生成内容相混淆。
在一个实施例中,判断选取的图像帧的特征是否符合预设的模板图像特征包括:提取选取的图像帧的特征点,判断提取的特征点的数量是否达到预设的模板图像特征点数量阈值。本实施例中,预设的模板图像特征为特征点的数量达到预设的模板图像特征点数量阈值。
其中特征点是选取的图像帧中具有鲜明特性并能够有效反映图像本质特征的点,该特征点具有标识图像帧中的物体的能力。模板图像特征点数量阈值可根据需要设置。模板图像特征点数量阈值越高,能够作为模板图像的图像帧的区分性越好。
在一个实施例中,判断选取的图像帧的特征是否符合预设的模板图像特征包括:获取选取的图像帧的分辨率,判断分辨率是否达到预设的模板图像 分辨率阈值。本实施例中,预设的模板图像特征为分辨率达到预设的模板图像分辨率阈值。
其中,选取的图像帧的分辨率,表示图像帧的宽度和高度,预设的模板图像分辨率阈值包括预设的模板图像宽度和模板图像高度。终端具体可获取选取的图像帧的宽度和高度,判断获取的宽度和高度是否均分别达到了预设的模板图像宽度和模板图像高度。
在一个实施例中,判断选取的图像帧的特征是否符合预设的模板图像特征包括:获取选取的图像帧的清晰度,判断清晰度是否达到预设的模板图像清晰度阈值。本实施例中,预设的模板图像特征为清晰度达到预设的模板图像清晰度阈值。
其中,清晰度与分辨率不同,是指相应图像帧上各细部影纹及其边界的清晰程度。终端可将选取的图像帧转化为灰度图像,检测灰度图像中的边缘,从而判断边缘处的灰度变化率,根据灰度变化率确定清晰度。边缘处灰度变化越快,表示清晰度越高;边缘处灰度变化越慢,表示清晰度越低。
在一个实施例中,判断选取的图像帧的特征是否符合预设的模板图像特征包括:获取选取的图像帧中的物体区域占选取的图像帧的占比,判断占比是否达到预设的模板图像物体占比。本实施例中,预设的模板图像特征为物体区域占选取的图像帧的占比达到预设的模板图像物体占比。
具体地,终端可检测选取的图像帧的边缘,将由检测到的边缘构成的面积达到预设面积的封闭区域作为物体区域,判断物体区域的面积占选取的图像帧的总面积的占比是否达到预设的模板图像物体占比。图像或区域的面积,可由该图像或区域所含像素点的数量表示。
上述各个实施例中判断选取的图像帧的特征是否符合预设的模板图像特征的条件可自由组合;当组合的条件均满足时,判定符合预设的模板图像特征;当组合的条件至少一个不满足时,判定不符合预设的模板图像特征。
上述实施例中,当选取的图像帧的特征符合模板图像特征时,获取与选取的图像帧匹配的模板图像所关联的用户生成内容,可以直接过滤掉难以匹 配到模板图像的图像帧,提高处理效率。
在一个实施例中,步骤S308包括:将选取的图像帧上传至服务器;接收服务器反馈的表示查询到与上传的图像帧匹配的模板图像的第一通知;根据第一通知,获取与模板图像关联的用户生成内容。
其中,第一通知和下述的第二通知都是通知,第一和第二的描述用于区分不同的通知。通知可以是独立的消息,也可以是混合了多种类型信息的消息。
具体地,终端将选取的图像帧上传至服务器,由服务器查询与上传的图像帧匹配的模板图像。当查询到该模板图像时,服务器向终端返回第一通知,该第一通知表示查询到与上传的图像帧匹配的模板图像。
在一个实施例中,终端可将本地登陆所用的用户账号和选取的图像帧上传至服务器,接收服务器反馈的第一通知,该第一通知表示查询到与上传的图像帧匹配的模板图像,且该模板图像所关联的用户生成内容对上传的用户账号开放了访问权限。终端可进一步根据第一通知,获取与模板图像关联的、对上传的用户账号开放了访问权限的用户生成内容。
其中,访问权限可在用户生成内容创建时设置。比如,若内容创建者在创建用户生成内容时,设置了仅对好友可见的访问权限,则当上传的用户账号与创建者的用户账号存在好友关系时,上传的用户账号对该用户生成内容具有访问权限。若内容创建者在创建用户生成内容时,设置了对所有人可见的访问权限,则任意合法的用户账号对该用户生成内容具有访问权限。
终端可根据第一通知,获取匹配的模板图像,并将该模板图像缓存到本地的缓存区。终端还可以获取与用户生成内容相关的用户信息,该用户信息比如用户账号、用户头像或者用户昵称等。
在一个实施例中,终端可直接从第一通知中获取与模板图像关联的用户生成内容,还可以从第一通知中获取模板图像和/或与用户生成内容相关的用户信息。
在一个实施例中,终端可从第一通知获取匹配的模板图像的图像编号, 从而向服务器发送携带该图像编号的查询请求,从而接收由服务器查询到并反馈的与该图像编号关联的用户生成内容。终端还可以从服务器查询与该图像编号对应的模板图像和/或用户信息。
上述实施例中,服务器实现对上传的图像帧和模板图像的匹配,这样基于服务器,各个用户都可以针对现实世界中相同或相似的场景进行基于用户生成内容的交互,实现了基于现实世界、虚拟世界和社交网络的社交互动。
在一个实施例中,步骤S308包括:将选取的图像帧上传至服务器;接收服务器反馈的表示未查询到与上传的图像帧匹配的模板图像的第二通知;根据第二通知展示内容创建入口;根据对内容创建入口的操作创建用户生成内容;将创建的用户生成内容上传至服务器,使得服务器将上传的用户生成内容与由上传的图像帧注册而成的模板图像关联存储。
其中,未查询到与上传的图像帧匹配的模板图像,可以是服务器上不存在与上传的图像帧匹配的模板图像;或者可以是虽然服务器上存在与上传的图像帧匹配的模板图像,但该模板图像对应的用户生成内容均未对触发图像帧上传的用户账号开放访问权限。
内容创建入口用于触发创建用户生成内容。内容创建入口可以是可视的能够触发事件的控件,如图标或者按钮。内容创建入口具体可以是触发创建全新用户生成内容的入口。其中全新用户生成内容是指与已有的用户生成内容在内容上相独立的用户生成内容。内容创建入口也可以是触发创建与已有的用户生成内容关联的用户生成内容的入口。其中,与已有的用户生成内容关联的用户生成内容比如评论内容或者对评论内容的回复内容。
具体地,终端将选取的图像帧上传至服务器,由服务器查询与选取的图像帧匹配的模板图像。服务器在查询到匹配的模板图像时,向终端反馈第一通知;服务器在未查询到匹配的模板图像时,将上传的图像帧注册为模板图像,并向终端反馈第二通知。终端接收到第二通知后,展示内容创建入口。
进一步地,终端检测对内容创建入口的操作,根据检测到的操作获取用户输入的内容,从而创建用户生成内容,将该用户生成内容上传至服务器, 由服务器将上传的用户生成内容与由上传的图像帧注册而成的模板图像关联并存储。服务器若在将上传的图像帧注册为模板图像起的预设时长内未接收到创建的用户生成内容,或者接收到终端反馈的取消注册请求,则将对上传的图像帧的注册取消。
上述实施例中,针对现实世界的某一场景,当还未存在相关联的用户生成内容时,可以创建与该场景关联的用户生成内容,下次就能够以本次上传的图像帧作为模板图像进行匹配,不断丰富用户生成内容,为用户提供基于现实世界和虚拟世界的更加便利的互动方式。
在一个实施例中,该用户生成内容处理方法还包括:获取在创建用户生成内容时配置的立体旋转参数。该步骤具体可在S312之前执行。步骤S312包括:按照展示位置,在播放的图像帧中渲染按照立体旋转参数旋转后的用户生成内容。
其中,立体旋转参数是指将用户生成内容在虚拟世界的立体坐标系中旋转的参数。立体旋转参数比如水平旋转角度和/或垂直旋转角度。其中水平旋转角度是指将用户生成内容沿着虚拟世界的立体坐标系中的水平面进行旋转时所旋转的角度。垂直旋转角度则是用户生成内容沿着虚拟世界的立体坐标系中的垂直面进行旋转时所旋转的角度。立体旋转参数可在用户生成内容被创建时一并配置,并对应于该用户生成内容存储。
上述实施例中,用户可以在创建用户生成内容时配置用户生成内容的立体旋转参数,从而在播放反映现实世界的图像帧时,就可以展示按照该立体旋转参数旋转后的用户生成内容,提供了新的互动方式。
在一个实施例中,步骤S312包括:在播放的图像帧中追踪模板图像中的物体区域;根据展示位置和追踪到的物体区域确定追踪渲染位置;在播放的图像帧中按照追踪渲染位置渲染用户生成内容。
其中,追踪是指在连续播放的图像帧中定位物体区域的变化。物体区域的变化如位置的变化和/或形态的变化。追踪渲染位置是指用户生成内容在播放的图像帧中的实时渲染位置。选取的图像帧与模板图像匹配,终端可以将 模板图像的图像区域作为选取的图像帧中的物体区域,进而在播放的图像帧中追踪物体区域。
展示位置可以表示待显示的用户生成内容在展示时相对于模板图像中的物体区域的位置,根据该展示位置和追踪到的物体区域的位置变化,就可以确定用户生成内容的追踪渲染位置。
进一步地,根据展示位置和踪到的物体区域的形态变化,便可以确定用户生成内容的追踪渲染形态,从而可在播放的图像帧中,按照追踪渲染位置和追踪渲染形态,渲染用户生成内容。追踪渲染形态可以用实时的立体旋转参数表示。
上述实施例中,在播放的图像帧中追踪模板图像中的物体区域,从而在播放的图像帧中根据追踪到的物体区域对用户生成内容进行追踪渲染,实现了虚拟世界中的用户生成内容和现实世界中物体的强关联,实现了虚拟世界和现实世界之间基于用户生成内容的全新互动方式。
在一个实施例中,终端可在播放的图像帧中追踪模板图像中的物体区域;检测追踪到的物体区域相对于模板图像中的物体区域的形态变化;根据形态变化确定表示观察方向的参数;根据展示位置,在播放的图像帧中渲染按照表示观察方向的参数变形后的用户生成内容。
本实施例中,当对现实世界中的物体的观察方向发生变化时,通过检测追踪到的物体区域相对于模板图像中的物体区域的形态变化,可以确定表示该观察方向的参数。按照该参数对用户生成内容进行变形,使得变形后的用户生成内容可以表示出观察方向的变化,实现了虚拟世界中的用户生成内容和现实世界中物体的强关联,实现了虚拟世界和现实世界之间基于用户生成内容的全新互动方式。
在一个实施例中,步骤S308包括:获取与选取的图像帧匹配的模板图像所关联的多个内容创建者信息及相对应的用户生成内容。步骤S312包括:展示多个内容创建者信息;选中多个内容创建者信息中的一个;按照选中的一个内容创建者信息相对应的展示位置,在播放的图像帧中渲染相对应的用户 生成内容。
其中,内容创建者信息是指用户生成内容的内容创建者的身份信息,可以是相应内容创建者的用户头像、用户昵称或者用户账号等。同一个模板图像可以关联多于一个的用户生成内容,每个用户生成内容对应一个内容创建者信息,于是一个用户生成内容可以关联多个内容创建者信息。
多个内容创建者信息的数量取决于同一个模板图像所关联的用户生成内容的内容创建者的数量。每个内容创建者信息对应一个用户生成内容,每个用户生成内容对应一个展示位置,终端可按照选中的用户生成内容对应的展示位置,在播放的图像帧中渲染相对应的用户生成内容。
上述实施例中,一个模板图像可以关联多个内容创建者所创建的用户生成内容,扩充了现实世界中的物体所能够关联的用户生成内容的数量;用户可以在多个内容创建者所创建的用户生成内容之间切换,扩展了用于基于虚拟世界和现实世界进行交互的维度。
参照图4,下面用一个具体应用场景来说明上述用户生成内容处理方法的原理。用户可进入社交应用,社交应用展示如图5所示的主页面。用户可以点击主页面中的工具菜单触发按钮502,使得社交应用在如图6所示的主页面中展示工具菜单601,工具菜单601包括功能入口602。用户点击功能入口602,使得社交应用开始从现实世界采集图像帧,并将采集的图像帧按照采集的时序逐帧播放,参照图7左,终端形成反映现实世界的实时动态画面。
终端在播放图像帧时,若图像帧在预设时长内基本未发生变化,则选取当前播放的图像帧,判断选取的图像帧是否符合预设的模板图像特征。当选取的图像帧不符合模板图像特征时,提示用户未识别到物体,继续采集并播放图像帧。当选取的图像帧符合模板图像特征时,终端进一步判断本地是否缓存有与选取的图像帧匹配的模板图像。
当本地缓存有与选取的图像帧匹配的模板图像时,终端拉取与该模板图像关联的由多个内容创建者各自创建的用户生成内容、相应的内容创建者头像以及相应的展示位置,从而如图8左所示,在当前播放的视频帧上,展示 内容创建者头像列表801。用户选中内容创建者头像列表中的一个内容创建者头像801a,使得社交应用按照与该选中的内容创建者头像相应的展示位置,展示相应的用户生成内容802和803。
如果模板图像配置了立体旋转角度,则终端会按照该立体旋转角度将用户生成内容802和803按照该立体旋转角度变形后展示。当物体区域(如酒杯和水杯)在播放的图像帧中变化时,用户生成内容802和803会跟着变化。当物体区域的观察角度变化时,用户生成内容802和803也会进行相应的旋转。
用户可以在如图8左所示的页面中进行向上滑动的操作,进入对于当前所展示的用户生成内容的评论页面,如图9所示,用户可在该评论页面中添加评论内容或者评论回复内容。
当本地未缓存与选取的图像帧匹配的模板图像时,终端将选取的图像帧上传至服务器,由服务器为上传的图像帧匹配模板图像。若服务器查询到匹配的模板图像,终端可拉取与该模板图像关联的由多个内容创建者各自创建的用户生成内容、相应的内容创建者头像以及相应的展示位置,从而如图8左所示,在当前播放的视频帧上,展示内容创建者头像列表801。用户选中内容创建者头像列表中的一个内容创建者头像801a,使得社交应用按照与该选中的内容创建者头像相应的展示位置,展示相应的用户生成内容802和803。
若服务器未查询到匹配的模板图像,终端可展示如图10所示的内容创建入口1001,用户点击内容创建入口1001后,用户可选择图片和/或输入文字,还可以在如图11所示的图片编辑页面中对图片进行编辑,如进行立体旋转,还可以设定是否仅对好友可见的访问权限,确认后创建用户生成内容,并将用户生成内容上传至服务器,由服务器将上传的用户生成内容与由上传的图像帧注册而成的模板图像关联存储。如果上传用户生成内容失败,则社交应用将提示出错,并进入用于重新上传用户生成内容的发件箱。
另一方面,随着计算机技术的发展,图像处理技术也不断进步。用户可 以通过专业的图像处理软件对图像进行处理,使得经过处理的图像表现更好。用户还可以通过图像处理软件,在图像中附加由图像处理软件提供的素材,让经过处理的图像能够传递更多的信息。然而,目前的图像处理方式,需要用户展开图像处理软件的素材库,浏览素材库,从素材库中选择合适的素材,调整素材在图像中的位置,从而确认修改,完成图像处理。于是目前的图像处理方式需要大量的人工操作,耗时长,导致图像处理过程效率低。
基于此,前述实施例中的用户生成内容处理方法还可包括人脸图像处理的步骤,以通过执行该人脸图像处理的步骤来提高图像处理的效率。
在一个实施例中,终端从采集的图像帧中选取图像帧后,可检测选取的图像帧中是否包括人脸图像,在选取的图像帧中包括人脸图像区域时可继续执行上述实施例中S306之后的步骤,还可以执行人脸图像处理的步骤。
如图12所示,在一个实施例中,当选取的图像帧中包括人脸图像区域时,用户生成内容处理方法包括的人脸图像处理的步骤具体可包括以下步骤。这些步骤具体可在S306之后执行。
S1202,获取识别图像帧中包括的人脸图像得到的人脸情感特征识别结果。
其中,情感特征是反应人或动物情感的特征。情感特征是计算机可识别和处理的特征。情感特征比如开心、忧郁或者愤怒等。人脸情感特征是指通过人脸表情反映的情感特征。
在一个实施例中,终端可在从现实场景中采集图像帧时,检测采集到的图像帧中是否包括人脸图像。若终端在判定采集的图像帧中包括人脸图像时,则对该图像帧中包括的人脸图像进行表情识别,获取识别得到的人脸情感特征识别结果。
在一个实施例中,终端可在通过摄像头,在摄像头当前的视野下,采集现实场景的图像帧后,提取采集的图像帧中包括的图像数据,并检测该图像数据是否包含人脸特征数据。若终端检测到该图像数据中包含人脸特征数据,则判定该图像帧中包括人脸图像。终端可进一步从人脸特征数据中提取表情 特征数据,根据提取的表情特征数据,在本地对采集的图像帧中包括的人脸图像进行表情识别,得到人脸情感特征识别结果。其中,表情特征数据可以是用于反映出人脸的轮廓、眼镜、鼻子、嘴以及各个脸部器官之间的距离等其中的一种或多种特征信息。
举例说明,人们在感觉到开心的时候,嘴角都会上扬,若终端在图像帧中包括人脸特征数据提取出的表情特征数据为嘴角上扬,则可表示该图像帧中人脸反映的情感特征为开心。人们在感觉到惊讶的时候,嘴张开的幅度较大,若终端在图像帧中包括人脸特征数据提取出的表情特征数据为嘴张开幅度较大,则可表示该图像帧中人脸反映的情感特征为惊讶。
在一个实施例中,终端也可将检测得到的包括人脸图像的图像帧发送至服务器,服务器在接收到终端发送的图像帧后,对该图像帧中包括的人脸图像进行表情识别得到人脸情感特征识别结果,再将识别得到的人脸情感特征识别结果反馈至终端,终端获取服务器返回的人脸情感特征识别结果。
在一个实施例中,终端也可在接收到另一终端发送的从现实场景中采集的图像帧后,检测接收到的图像帧中是否包括人脸图像。若终端在判定接收到的图像帧中包括人脸图像时,可在本地对该图像帧中包括的人脸图像进行表情识别,得到相应的人脸情感特征识别结果;也可将该图像帧发送至服务器,使得服务器在对该图像帧中包括的人脸图像进行识别后,返回人脸情感特征识别结果。
S1204,根据人脸情感特征识别结果,查找相应的情感特征图像。
其中,情感特征图像是指能反映情感特征的图像。反映伤心的情感特征图像比如包括眼泪的图像或者包括下雨场景的图像等。反映愤怒的情感特征图像比如包括火焰的图像等。情感特征图像可以是终端从互联网上爬取的图像,也可以是终端根据通过该终端包括的摄像设备拍摄的图像。情感特征图像可以是动态图片,也可以是静态图片。
在一个实施例中,终端可事先选定可进行图像处理的情感特征,并对应于选定的情感特征配置相应的情感特征图像。终端在获取到人脸情感特征识 别结果后,获取人脸情感特征识别结果表征的情感特征相应的情感特征图像。
在一个实施例中,终端可事先建立情感特征图像库,并将情感特征图像库中反映相同情感特征的情感特征图像映射至相同的情感特征。终端在获取到人脸情感特征识别结果后,可在情感特征图像库中查找反映的情感特征与人脸情感特征识别结果匹配的情感特征图像。
在一个实施例中,终端事先建立的情感特征图像库可以包括多个情感特征图像集合,每个情感特征图像集合反映一种情感特征。终端在获取到人脸情感特征识别结果后,查找情感特征图像库中反映的情感特征与人脸情感特征识别结果一致的情感特征图像集合,从查找到的情感特征图像集合中选取情感特征图像。
S1206,获取情感特征图像在当前播放的图像帧中的展示位置。
其中,情感特征图像在当前播放的图像帧中的展示位置,该展示位置表示情感特征图像在当前播放的图像帧中所占的区域。展示位置可以由情感特征图像在当前播放的图像帧中所占的区域在当前播放的图像帧中的坐标系中的坐标表示。
在一个实施例中,终端可在查找情感特征图像时,一并获取该情感特征图像的展示位置。终端具体可从本地获取查找到的情感特征图像对应的绘制方式,根据获取的绘制方式确定情感特征图像的展示位置。
进一步地,情感特征图像的绘制方式可以是动态跟随参照物。具体地,终端可确定查找到的情感特征图像需动态跟随的参照物在当前播放的图像帧中的显示位置,再根据参照物的显示位置确定情感特征图像在当前播放的图像帧中的展示位置。
情感特征图像的绘制方式也可以是静态展示。具体地,对于静态展示的情感特征图像,终端可事先直接设置该情感特征图像在当前播放的图像帧中的展示区域,终端在需要绘制该情感特征图像便可直接获取。
S1208,按照展示位置,在当前播放的图像帧中渲染情感特征图像。
具体地,终端可在当前播放的图像帧中,在获取的展示位置处渲染情感 特征图像。终端可获取情感特征图像对应的样式数据,从而按照该样式数据和获取的展示位置,在播放的图像帧中渲染情感特征图像。在一个实施例中,情感特征图像为包括一组图像帧序列的动态图像。终端可按照动态图像对应的帧率和展示位置,逐个渲染动态图像包括的图像帧。
在一个实施例中,展示位置可以是情感特征图像相对于当前播放的图像帧中某一特定区域的位置;终端可在播放的图像帧中追踪该特定区域,从而按照该展示位置和追踪到的特定区域,确定当前播放的图像帧中情感特征图像相对于追踪到的特定区域的位置,从而按照确定的位置渲染情感特征图像。其中,特定区域是图像中可表示现实场景中特定的区域,该特定的区域可以是人脸区域等。
上述用户生成内容处理方法,将反映现实场景的图像帧播放,使得播放的图像帧能够反映现实场景。获取识别图像帧中包括的人脸图像得到的人脸情感特征识别结果,就可以自动地确定现实场景中的人物的情感状况。获取到情感特征图像在当前播放的图像帧中的展示位置后,按照该展示位置,在当前播放的图像帧中渲染情感特征图像,就可以自动地将虚拟的情感特征图像与现实场景中人物相结合,反映现实场景中人物的情感状况。因避免了人工操作的繁琐步骤,极大地提高了图像处理效率。
在一个实施例中,步骤S1202具体包括:调整图像帧的尺寸至预设尺寸;将调整后的图像帧的方向旋转至符合情感特征识别条件的方向;发送旋转后的图像帧至服务器;接收服务器返回的针对发送的图像帧的人脸情感特征识别结果。
其中,预设尺寸是指预先设置的图像帧的尺寸。符合情感特征识别条件的方向是指图像帧可进行情感特征识别时的方向。
在一个实施例中,终端可从服务器拉取预设的包括人脸图像的图像帧的图像特征,该图像特征是指可进行表情识别的图像帧应当具备的特征。比如,图像帧的尺寸或者图像帧的方向等。
具体地,终端在获取从现实场景中采集的图像帧,并挑选出包括人脸图 像的图像帧后,可检测筛选出来的包括人脸图像的图像帧的尺寸是否符合预设尺寸。若检测筛选出来的包括人脸图像的图像帧的尺寸不符合预设尺寸,则对该图像帧进行尺寸调整。
终端可在检测筛选出来的包括人脸图像的图像帧的尺寸符合预设尺寸或者在对不符合的图像帧调整尺寸后,检测图像帧当前的方向。若图像帧当前的方向不符合情感特征识别条件,则旋转图像帧的方向至符合情感特征识别条件的方向。
终端可在图像帧当前的方向符合情感特征识别条件或者在对不符合的图像帧旋转方向后,将图像帧发送至服务器。服务器在接收到终端发送的图像帧后,提取图像帧中包括的表情特征数据,根据提取的表情特征数据,对接收到的图像帧中包括的人脸图像进行表情识别,得到人脸情感特征识别结果,再将识别得到的人脸情感特征识别结果反馈至终端。
在一个实施例中,终端在获取从现实场景中采集的图像帧,并挑选出包括人脸图像的图像帧后,可将图像帧进行缩小尺寸处理,并将缩小处理后的图像帧保存为JPEG(Joint Photographic Experts Group联合图像专家小组)格式。终端可再检测图像帧中包括的人脸图像的方向,并在图像帧中包括的人脸图像的方向不符合情感特征识别条件的方向时,旋转图像帧的方向。
其中,JPEG格式是指按照国际图像压缩标准压缩得到的图像格式。符合情感特征识别条件的方向具体可以是图像帧中人脸图像的中轴线与竖直方向的夹角不大于45度时的方向。
上述实施例中,在通过服务器对图像帧中人脸图像进行表情识别前,调整图像帧的尺寸和方向,使得图像帧符合进行表情识别的条件,可提高表情识别速度与准确性,还可减少硬件资源消耗。
在一个实施例中,该图像处理方法还包括:提取采集图像帧时录制的语音数据;获取识别语音数据得到的语音情感特征识别结果。该步骤具体可在S1204之前执行。步骤S1204具体包括:根据人脸情感特征识别结果和语音情感特征识别结果,查找相应的情感特征图像。
具体地,终端在从现实场景中采集图像帧时,可同时录制现实场景中的语音数据,并在播放采集的图像帧时,同步播放录制的语音数据。终端具体可调用声音采集装置采集环境声音形成的语音数据,将语音数据对应于采集时间存入缓存区。
终端可在对采集的图像帧中包括的人脸图像进行表情识别时,提取当前进行表情识别的图像帧所对应的采集时间,从缓存区的语音数据中截取预设时间长度的语音数据片段,且提取的语音数据片段对应的采集时间区间覆盖获取的采集时间。提取的语音数据片段即为采集该图像帧时录制的语音数据。其中,预设时间长度是预先设置的截取语音数据片段的时间长度,预设时间长度具体可以是5秒或者10秒等。
在一个实施例中,终端可从缓存区的语音数据中以获取的采集时间为中点,截取预设时间长度的语音数据片段。比如,当前进行表情识别的图像帧所对应的采集时间为2016年10月1日18时30分15秒,预设时间长度为5秒,那么可以2016年10月1日18时30分15秒为中点,截取采集时间区间为2016年10月1日18时30分13秒至2016年10月1日18时30分17秒的语音数据片段。
在一个实施例中,终端在接收另一终端发送的从现实场景中采集的图像帧时,也可接收另一终端发送的在采集图像帧时录制的语音数据。终端可将接收的语音数据存入缓存区,在按采集的时序播放图像帧时,将语音数据取出同步播放。
终端可在对接收到的图像帧中包括的人脸图像进行表情识别时,提取当前进行表情识别的图像帧所对应的采集时间,从缓存区的语音数据中截取预设时间长度的语音数据片段,且提取的语音数据片段对应的采集时间区间覆盖获取的采集时间。提取的语音数据片段即为采集该图像帧时录制的语音数据
终端在获取采集当前进行表情识别的图像帧时录制的语音数据后,对获取的该语音数据进行识别,得到语音情感特征识别结果。
在一个实施例中,图像处理方法中获取识别语音数据得到的语音情感特征识别结果的步骤具体包括:将提取的语音数据识别为文本;查找文本所包括的情感特征关键字;根据查找到的情感特征关键字,获取与语音数据相对应的语音情感特征识别结果。
具体地,终端可对语音数据进行特征提取,获得待识别的语音特征数据,然后基于声学模型对待识别的语音特征数据进行语音分帧处理得到多个音素,根据候选字库中候选字与音素的对应关系,将处理得到的多个音素转化为字符序列,再利用语言模型调整转化得到的字符序列,从而得到符合自然语言模式的文本。
其中,文本是语音数据的字符表示形式。声学模型如GMM(Gaussian Mixture Model高斯混合模型)或DNN(Deep Neural Network深度神经网络)等。候选字库包括候选字和与候选字对应的音素。语言模型用于按照自然语言模式调整声学模型所识别出的字符序列,比如N-Gram模型(CLM,Chinese Language Model汉语语言模型)等。
终端可事先设置情感特征关键字库,情感特征关键字库包括若干情感特征关键字,并将情感特征关键字库中反映相同情感特征的情感特征关键字映射至相同的情感特征。情感特征关键字库可存储在文件、数据库或者缓存中,在需要时从文件、数据库或者缓存中获取。终端在将提取的语音数据识别为文本后,将识别得到的文本中包括的字符与情感特征关键字库中各情感特征关键字比较。当文本中存在字符与情感特征关键字库中情感特征关键字匹配时,获取匹配的情感特征关键字,获取该情感特征关键字对应的情感特征为语音情感特征识别结果。
举例说明,假设终端识别语音数据得到的文本为“我今天很开心”,其中包括情感特征关键字“开心”,“开心”映射至的情感特征为“开心”,那么语音情感特征识别结果“开心”。假设终端识别语音数据得到的文本为“我非常高兴”,其中包括情感特征关键字“高兴”,“高兴”映射至的情感特征为“开心”,那么语音情感特征识别结果也为“开心”。
上述实施例中,通过对录制的语音数据进行文本识别,根据文本中包括的表示情感特征的字符来得到语音情感特征识别结果,提高了语音情感特征识别结果的准确性。
在一个实施例中,终端还可以根据语音数据对应的声学特征得到的语音情感特征识别结果。终端具体可对语音数据进行声学特征提取,根据事先建立的声学特征与情感特征的对应关系,获取相应的情感特征,得到语音情感特征识别结果。
在一个实施例中,声学特征包括音色与韵律特征。音色是指发声体发出声音的特色,不同的发声体由于材料、结构不同,发出声音的音色也就不同。在物理学上通过频谱参数来表征音色。韵律特征是指发声体发出声音的基础音调与节奏,在物理学上通过基频参数、时长分布以及信号强度来表征韵律特征。
举例说明,人们在感觉到开心的时候,说话时韵律会表现为欢快,若终端在语音数据提取出的韵律特征中基础音调较高且节奏较快时,可表示该语音数据反映的情感特征为开心。
在本实施例中,通过对录制的语音数据进行声学特征提取,根据声学特征中表示情感特征的参数来得到语音情感特征识别结果,提高了语音情感特征识别结果的准确性。
在一个实施例中,图像处理方法中根据人脸情感特征识别结果和语音情感特征识别结果,查找相应的情感特征图像的步骤可具体包括:当人脸情感特征识别结果与语音情感特征识别结果匹配时,按照人脸情感特征识别结果查找相应的情感特征图像。
具体地,终端在获取根据图像帧中包括的人脸图像的表情识别得到的人脸情感特征识别结果,以及根据采集图像帧时录制的语音数据识别得到的语音情感特征识别结果后,将人脸情感特征识别结果与语音情感特征识别结果进行对比,当人脸情感特征识别结果与语音情感特征识别结果匹配时,按照人脸情感特征识别结果查找相应的情感特征图像。
在一个实施例中,图像处理方法中按照人脸情感特征识别结果查找相应的情感特征图像,包括:提取人脸情感特征识别结果包括的情感特征类型和识别结果置信度;查找与情感特征类型对应的情感特征图像集合;从情感特征图像集合中,挑选出与识别结果置信度相对应的情感特征图像。
其中,情感特征类型是指人脸所反映情感特征的类型。比如“开心”、“伤心”或者“愤怒”等。识别结果置信度表示人脸情感特征识别结果是人脸真实的情感特征的可信程度,识别结果置信度越高,表示人脸情感特征识别结果是人脸真实的情感特征的可能性越高。
具体地,终端事先建立的情感特征图像库可以包括多个情感特征图像集合,每个情感特征图像集合反映一种情感特征类型。终端可对应于人脸情感特征识别结果置信度一一映射一张情感特征图像。终端在获取到人脸情感特征识别结果后,查找情感特征图像库中反映的情感特征与人脸情感特征识别结果包括的情感特征类型一致的情感特征图像集合,从查找到的情感特征图像集合中选取与人脸情感特征识别结果包括的识别结果置信度相对应的情感特征图像。
上述实施例中,对不同的人脸情感特征识别结果包括的识别结果置信度分别设置相对应的情感特征图像,通过情感特征图像来可视化反映人脸情感特征识别结果的可信度,使得图像处理结果更准确。
在一个实施例中,当人脸情感特征识别结果与语音情感特征识别结果匹配时,终端也可在查找到的情感特征图像库中反映的情感特征与人脸情感特征识别结果包括的情感特征类型一致的情感特征图像集合中,随机选取一张情感特征图像。
在本实施例中,在人脸情感特征识别结果与语音情感特征识别结果匹配时,按照人脸情感特征识别结果查找相应的情感特征图像,这样在语音情感特征识别结果的保障下,按照人脸情感特征识别结果来进行图像处理,使得图像处理结果更准确。
在一个实施例中,图像处理方法中根据人脸情感特征识别结果和语音情 感特征识别结果,查找相应的情感特征图像的步骤可具体包括:当人脸情感特征识别结果与语音情感特征识别结果不匹配时,按照语音情感特征识别结果查找相应的情感特征图像。
具体地,终端在获取根据图像帧中包括的人脸图像的表情识别得到的人脸情感特征识别结果,以及根据采集图像帧时录制的语音数据识别得到的语音情感特征识别结果后,将人脸情感特征识别结果与语音情感特征识别结果进行对比,当人脸情感特征识别结果与语音情感特征识别结果不匹配时,按照语音情感特征识别结果查找相应的情感特征图像。
在一个实施例中,终端还可以获取语音数据识别得到的文本中包括的程度副词。程度副词用于表示情感的强烈程度,比如:“很”、“非常”或者“及其”等。终端对语音数据识别得到的语音情感特征识别结果具体可包括情感特征类型和情感强烈程度。
具体地,终端事先建立的情感特征图像库可以包括多个情感特征图像集合,每个情感特征图像集合反映一种情感特征类型。终端可对应于情感强烈程度一一映射一张情感特征图像。终端在获取到语音情感特征识别结果后,查找情感特征图像库中反映的情感特征与语音情感特征识别结果包括的情感特征类型一致的情感特征图像集合,从查找到的情感特征图像集合中选取与语音情感特征识别结果包括的情感强烈程度相对应的情感特征图像。
在本实施例中,在人脸情感特征识别结果与语音情感特征识别结果不匹配时,按照语音情感特征识别结果查找相应的情感特征图像,这种以真实的语音数据表达的情感特征识别结果来进行图像处理,使得图像处理结果更准确。
上述实施例中,综合考虑人脸情感特征识别结果与语音情感特征识别结果,查找反映图像帧中所以表现的情感特征的情感特征图像,使得图像处理结果更准确。
在一个实施例中,步骤S1206具体包括确定人脸图像在当前播放的图像帧中的显示位置;查询情感特征图像与人脸图像的相对位置;根据显示位置 和相对位置,确定情感特征图像在当前播放的图像帧中的展示位置。
在本实施例中,情感特征图像在当前播放的图像帧中的展示位置是指情感特征图像在当前播放的图像帧中进行展示的物理位置。终端可在查找情感特征图像时,获取查找到的情感特征图像绘制时的参照物。参照物具体可以是图像帧中包括的人脸图像。
具体地,终端可获取参照物在当前播放的图像帧中的显示位置和情感特征图像与参照物的相对位置,终端再根据参照物在当前播放的图像帧中的显示位置和情感特征图像与参照物的相对位置确定情感特征图像在当前播放的图像帧中的展示位置。情感特征图像在当前播放的图像帧中的展示位置具体可以是像素坐标区间或者其他预设定位方式的坐标区间。像素是指计算机屏幕上所能显示的最小单位。在本实施例中,像素可以是逻辑像素或者物理像素。
上述实施例中,通过设置情感特征图像与人脸图像的相对位置,使情感特征图像相对于人脸图像的位置进行显示,从而使得情感特征图像的显示位置更加合理。
在一个实施例中,该图像处理方法还包括在播放的图像帧中,追踪人脸图像的运动轨迹;根据追踪的运动轨迹,将情感特征图像跟随播放的图像帧中的人脸图像移动。这些步骤具体可在S1208之后执行。
其中,人脸图像的运动轨迹是指连续播放的图像帧中包括的人脸图像形成的轨迹。具体地,情感特征图像的展示位置可以是情感特征图像相对于当前播放的图像帧中人脸图像的位置;终端可在播放的图像帧中追踪当前播放的图像帧中的该人脸图像,从而按照该展示位置和追踪到的人脸图像,确定当前播放的图像帧中情感特征图像相对于追踪到的人脸图像的位置,从而按照确定的位置渲染情感特征图像。
上述实施例中,情感特征图像跟随人脸图像进行显示,从而智能地将情感特征图像与现实场景中的人脸相联系,提供新的互动方式。
如图13所示,在一个具体的实施例中,用户生成内容处理方法包括:
S1302,从现实世界采集图像帧。
S1303,将采集的图像帧按照采集的时序逐帧播放。
S1304,从采集的图像帧中选取图像帧。
S1305,判断选取的图像帧中是否包括人脸图像;若是,则跳转到步骤S1306;若否,则跳转到步骤S1314。
S1306,调整图像帧的尺寸至预设尺寸;将调整后的图像帧的方向旋转至符合情感特征识别条件的方向;发送旋转后的图像帧至服务器;接收服务器返回的人脸情感特征识别结果。
S1307,提取采集图像帧时录制的语音数据;获取识别语音数据得到的语音情感特征识别结果。
S1308,判断人脸情感特征识别结果与语音情感特征识别结果是否匹配;若是,则跳转到步骤S1309;若否,则跳转到步骤S1310。
S1309,提取人脸情感特征识别结果包括的情感特征类型和识别结果置信度;查找与情感特征类型对应的情感特征图像集合;从情感特征图像集合中,挑选出与识别结果置信度相对应的情感特征图像。
S1310,按照语音情感特征识别结果查找相应的情感特征图像。
S1311,确定人脸图像在当前播放的图像帧中的显示位置;查询情感特征图像与人脸图像的相对位置;根据显示位置和相对位置,确定情感特征图像在当前播放的图像帧中的展示位置。
S1312,按照展示位置,在当前播放的图像帧中渲染情感特征图像。
S1313,在播放的图像帧中,追踪人脸图像的运动轨迹;根据追踪的运动轨迹,将情感特征图像跟随播放的图像帧中的人脸图像移动。
S1314,获取与选取的图像帧匹配的模板图像所关联的用户生成内容。
S1315,获取用户生成内容在匹配的模板图像中的展示位置。
S1316,按照展示位置,在播放的图像帧中渲染用户生成内容。
在本实施例中,从现实场景中采集图像帧并按照采集的时序播放,当图像帧中包括人脸图像时,通过对采集的图像帧中包括的人脸图像的人脸情感 特征识别结果,就能够确定反映人脸图像中人物情感特征的情感特征图像,并进行展示。这样直接根据现实场景中采集的图像帧即时进行情感特征图像的展示,可避免人工手动选取情感特征图像以及手动调整情感特征图像进行展示而引入的工作量,提高了图像处理效率,且图像处理实时性强。
而且,在图像帧中不包括人脸图像时,确定该图像帧所匹配的模板图像所关联的用户生成内容,并进行展示。能够通过现实世界中拍摄的图像帧定位到用户生成内容并展示,可以不必依赖社交关系,扩展了用户生成内容的传播方式。而且,按照用户生成内容在匹配的模板图像中的展示位置,在播放的图像帧中追踪渲染用户生成内容,将虚拟世界中的用户生成内容与播放的视频帧所反映的现实世界融合,提供了用户生成内容的新互动方式。
在一个实施例中,终端在对语音数据识别得到文本后,还可在当前播放的图像帧中显示识别得到的文本。终端具体可在当前播放的图像帧中绘制用于进行显示文本内容的组件,在组件中显示识别得到文本。在本实施例中,通过在当前播放的图像帧中显示识别得到的文本可克服聋哑人间交互的障碍,提高了图像处理的实用性。
应该理解的是,虽然本申请各实施例中的各个步骤并不是必然按照步骤标号指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图14示出了一个实施例中绘制情感特征图像前后界面的对比示意图。参考图14左为绘制情感特征图像前的界面示意图,该界面示意图包括人脸图像1410,参考图14右绘制情感特征图像后的界面示意图,该界面示意图包括人脸图像1410和情感特征图像1420,情感特征图像1420包括表示情感特征为开心的情感特征图像1421和表示情感特征为伤心的情感特征图像1422。
终端在根据对绘制情感特征图像前的界面中的人脸图像1410进行表情识别得到的人脸情感特征识别结果,以及对录制的语音数据识别得到的语音情感特征识别结果查找到相应的情感特征图像后。若终端确定的图14左包括人脸图像1410反映的情感特征为开心,则在当前播放的图像帧中追踪该人脸图像1410,并在相应的位置绘制表示情感特征为开心的情感特征图像1421。若终端确定的图14左包括人脸图像1410反映的情感特征为伤心,则在当前播放的图像帧中追踪该人脸图像1410,并在相应的位置绘制表示情感特征为伤心的情感特征图像1422。
图15示出了一个实施例中显示根据语音数据识别得到的文本前后界面的对比示意图。参考图15左为显示根据语音数据识别得到的文本前的界面示意图,该界面示意图包括人脸图像1510,参考图15右为显示根据语音数据识别得到的文本后的界面示意图,该界面示意图包括人脸图像1510、情感特征图像1520和文本1530。其中,文本1530由终端根据采集该图像帧时录制的语音数据识别得到,具体可以是“我今天好难过”,反映的情感特征为伤心,则可在当前播放的图像帧中追踪该人脸图像1510,并在相应的位置显示识别得到的文本1530,还可在相应的位置绘制表示情感特征为伤心的情感特征图像1520。
图16为一个实施例中终端1600的结构框图。该终端1600的内部结构可参照如图2所示的结构。下述的每个模块可全部或部分通过软件、硬件或其组合来实现。参照图16,该终端1600包括:采集模块1601、播放模块1602、选取模块1603、数据获取模块1604和渲染模块1605。
采集模块1601,用于从现实世界采集图像帧。
播放模块1602,用于将采集的图像帧按照采集的时序逐帧播放。
选取模块1603,用于从采集的图像帧中选取图像帧。
数据获取模块1604,用于获取与选取的图像帧匹配的模板图像所关联的用户生成内容;获取用户生成内容在匹配的模板图像中的展示位置。
渲染模块1605,用于按照展示位置,在播放的图像帧中渲染用户生成内 容。
在一个实施例中,选取模块1603还用于判断选取的图像帧的特征是否符合预设的模板图像特征;当选取的图像帧的特征符合模板图像特征时,通知获取模块,使获取模块工作;当选取的图像帧的特征不符合模板图像特征时,继续从采集的图像帧中选取图像帧。
在一个实施例中,数据获取模块1604还用于将选取的图像帧上传至服务器;接收服务器反馈的表示查询到与上传的图像帧匹配的模板图像的第一通知;根据第一通知,获取与模板图像关联的用户生成内容。
在一个实施例中,数据获取模块1604还用于将选取的图像帧上传至服务器;接收服务器反馈的表示未查询到与上传的图像帧匹配的模板图像的第二通知;根据第二通知展示内容创建入口;根据对内容创建入口的操作创建用户生成内容;将创建的用户生成内容上传至服务器,使得服务器将上传的用户生成内容与由上传的图像帧注册而成的模板图像关联存储。
在一个实施例中,数据获取模块1604还用于获取在创建用户生成内容时配置的立体旋转参数。渲染模块1605还用于按照展示位置,在播放的图像帧中渲染按照立体旋转参数旋转后的用户生成内容。
在一个实施例中,渲染模块1605还用于在播放的图像帧中追踪模板图像中的物体区域;检测追踪到的物体区域相对于模板图像中的物体区域的形态变化;根据形态变化确定表示观察方向的参数;根据展示位置,在播放的图像帧中渲染按照表示观察方向的参数变形后的用户生成内容。
在一个实施例中,数据获取模块1604还用于获取与选取的图像帧匹配的模板图像所关联的多个内容创建者信息及相对应的用户生成内容。渲染模块1605还用于展示多个内容创建者信息;选中多个内容创建者信息中的一个;按照选中的一个内容创建者信息相对应的展示位置,在播放的图像帧中渲染相对应的用户生成内容。
上述终端1600,从现实世界采集图像帧并按照采集的时序播放,通过从采集的图像帧中选取的图像帧,就能够确定该图像帧所匹配的模板图像所关 联的用户生成内容,并进行展示。能够通过现实世界中拍摄的图像帧定位到用户生成内容并展示,可以不必依赖社交关系,扩展了用户生成内容的传播方式。而且,按照用户生成内容在匹配的模板图像中的展示位置,在播放的图像帧中追踪渲染用户生成内容,将虚拟世界中的用户生成内容与播放的视频帧所反映的现实世界融合,提供了用户生成内容的新互动方式。
如图17所示,在一个实施例中,终端1600还包括:识别结果获取模块1703、查找模块1704和展示位置获取模块1705。
识别结果获取模块1703,用于在选取的图像帧中包括人脸图像时,获取识别图像帧中包括的人脸图像得到的人脸情感特征识别结果。
查找模块1704,用于根据人脸情感特征识别结果,查找相应的情感特征图像。
展示位置获取模块1705,用于获取情感特征图像在当前播放的图像帧中的展示位置。
渲染模块1605还用于按照展示位置,在当前播放的图像帧中渲染情感特征图像。
上述终端1600,将反映现实场景的图像帧播放,使得播放的图像帧能够反映现实场景。获取识别图像帧中包括的人脸图像得到的人脸情感特征识别结果,就可以自动地确定现实场景中的人物的情感状况。获取到情感特征图像在当前播放的图像帧中的展示位置后,按照该展示位置,在当前播放的图像帧中渲染情感特征图像,就可以自动地将虚拟的情感特征图像与现实场景中人物相结合,反映现实场景中人物的情感状况。因避免了人工操作的繁琐步骤,极大地提高了图像处理效率。
在一个实施例中,识别结果获取模块1703还用于调整图像帧的尺寸至预设尺寸;将调整后的图像帧的方向旋转至符合情感特征识别条件的方向;发送旋转后的图像帧至服务器;接收服务器返回的针对发送的图像帧的人脸情感特征识别结果。
在本实施例中,在通过服务器对图像帧中人脸图像进行表情识别前,调 整图像帧的尺寸和方向,使得图像帧符合进行表情识别的条件,可提高表情识别速度与准确性,还可减少硬件资源消耗。
在一个实施例中,识别结果获取模块1703还用于提取采集图像帧时录制的语音数据;获取识别语音数据得到的语音情感特征识别结果。查找模块1704还用于根据人脸情感特征识别结果和语音情感特征识别结果,查找相应的情感特征图像。
在本实施例中,综合考虑人脸情感特征识别结果与语音情感特征识别结果,查找反映图像帧中所以表现的情感特征的情感特征图像,使得图像处理结果更准确。
在一个实施例中,识别结果获取模块1703还用于将提取的语音数据识别为文本;查找文本所包括的情感特征关键字;根据查找到的情感特征关键字,获取与语音数据相对应的语音情感特征识别结果。
在本实施例中,通过对录制的语音数据进行文本识别,根据文本中包括的表示情感特征的字符来得到语音情感特征识别结果,提高了语音情感特征识别结果的准确性。
在一个实施例中,查找模块1704还用于当人脸情感特征识别结果与语音情感特征识别结果匹配时,按照人脸情感特征识别结果查找相应的情感特征图像。
在本实施例中,对不同的人脸情感特征识别结果包括的识别结果置信度分别设置相对应的情感特征图像,通过情感特征图像来可视化反映人脸情感特征识别结果的可信度,使得图像处理结果更准确。
在一个实施例中,查找模块1704还用于提取人脸情感特征识别结果包括的情感特征类型和识别结果置信度;查找与情感特征类型对应的情感特征图像集合;从情感特征图像集合中,挑选出与识别结果置信度相对应的情感特征图像。
在本实施例中,对不同的人脸情感特征识别结果包括的识别结果置信度分别设置相对应的情感特征图像,通过情感特征图像来可视化反映人脸情感 特征识别结果的可信度,使得图像处理结果更准确。
在一个实施例中,查找模块1704还用于当人脸情感特征识别结果与语音情感特征识别结果不匹配时,按照语音情感特征识别结果查找相应的情感特征图像。
在本实施例中,在人脸情感特征识别结果与语音情感特征识别结果不匹配时,按照语音情感特征识别结果查找相应的情感特征图像,这种以真实的语音数据表达的情感特征识别结果来进行图像处理,使得图像处理结果更准确。
在一个实施例中,展示位置获取模块1705还用于确定人脸图像在当前播放的图像帧中的显示位置;查询情感特征图像与人脸图像的相对位置;根据显示位置和相对位置,确定情感特征图像在当前播放的图像帧中的展示位置。
在本实施例中,通过设置情感特征图像与人脸图像的相对位置,使情感特征图像相对于人脸图像的位置进行显示,从而使得情感特征图像的显示位置更加合理。
如图18所示,在一个实施例中,终端1600还包括渲染跟随模块1707。
渲染跟随模块1707,用于在播放的图像帧中,追踪人脸图像的运动轨迹;根据追踪的运动轨迹,将情感特征图像跟随播放的图像帧中的人脸图像移动。
在本实施例中,情感特征图像跟随人脸图像进行显示,从而智能地将情感特征图像与现实场景中的人脸相联系,提供新的互动方式。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而 非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (31)

  1. 一种用户生成内容处理方法,包括:
    终端从现实世界采集图像帧;
    所述终端将采集的图像帧按照采集的时序逐帧播放;
    所述终端从采集的图像帧中选取图像帧;
    所述终端获取与选取的图像帧匹配的模板图像所关联的用户生成内容;
    所述终端获取所述用户生成内容在所述匹配的模板图像中的展示位置;及
    所述终端按照所述展示位置,在播放的图像帧中渲染所述用户生成内容。
  2. 根据权利要求1所述的方法,其特征在于,还包括:
    所述终端判断选取的图像帧的特征是否符合预设的模板图像特征;
    当选取的图像帧的特征符合所述模板图像特征时,所述终端执行获取与选取的图像帧匹配的模板图像所关联的用户生成内容的步骤;及
    当选取的图像帧的特征不符合所述模板图像特征时,返回至从采集的图像帧中选取图像帧的步骤。
  3. 根据权利要求2所述的方法,其特征在于,所述终端判断选取的图像帧的特征是否符合预设的模板图像特征,包括:
    所述终端提取选取的图像帧的特征点,判断提取的特征点的数量是否达到预设的模板图像特征点数量阈值;和/或,
    所述终端获取选取的图像帧的分辨率,判断所述分辨率是否达到预设的模板图像分辨率阈值;和/或,
    所述终端获取选取的图像帧的清晰度,判断所述清晰度是否达到预设的模板图像清晰度阈值;和/或,
    所述终端获取选取的图像帧中的物体区域占所述选取的图像帧的占比,判断所述占比是否达到预设的模板图像物体占比。
  4. 根据权利要求1所述的方法,其特征在于,所述终端获取与选取的图像帧匹配的模板图像所关联的用户生成内容,包括:
    所述终端将选取的图像帧上传至服务器;
    所述终端接收所述服务器反馈的表示查询到与上传的图像帧匹配的模板图像的第一通知;及
    所述终端根据所述第一通知,获取与所述模板图像关联的用户生成内容。
  5. 根据权利要求1所述的方法,其特征在于,所述获取与选取的图像帧匹配的模板图像所关联的用户生成内容,包括:
    所述终端将选取的图像帧上传至服务器;
    所述终端接收所述服务器反馈的表示未查询到与上传的图像帧匹配的模板图像的第二通知;
    所述终端根据所述第二通知展示内容创建入口;
    所述终端根据对所述内容创建入口的操作创建用户生成内容;及
    所述终端将创建的用户生成内容上传至所述服务器,使得所述服务器将上传的所述用户生成内容与由上传的图像帧注册而成的模板图像关联存储。
  6. 根据权利要求1所述的方法,其特征在于,还包括:
    所述终端获取在创建所述用户生成内容时配置的立体旋转参数;
    所述终端按照所述展示位置,在播放的图像帧中渲染所述用户生成内容,包括:
    所述终端按照所述展示位置,在播放的图像帧中渲染按照所述立体旋转参数旋转后的所述用户生成内容。
  7. 根据权利要求1所述的方法,其特征在于,所述终端按照所述展示位置,在播放的图像帧中渲染所述用户生成内容,包括:
    所述终端在播放的图像帧中追踪所述模板图像中的物体区域;
    所述终端根据所述展示位置和追踪到的物体区域确定追踪渲染位置;及所述终端在播放的图像帧中按照所述追踪渲染位置渲染所述用户生成内容。
  8. 根据权利要求1所述的方法,其特征在于,所述终端获取与选取的图像帧匹配的模板图像所关联的用户生成内容,包括:
    所述终端获取与选取的图像帧匹配的模板图像所关联的多个内容创建者信息及相对应的用户生成内容;
    所述终端按照所述展示位置,在播放的图像帧中渲染所述用户生成内容,包括:
    所述终端展示所述多个内容创建者信息;
    所述终端选中所述多个内容创建者信息中的一个;及
    所述终端按照选中的一个内容创建者信息相对应的展示位置,在播放的图像帧中渲染相对应的用户生成内容。
  9. 根据权利要求1所述的方法,其特征在于,还包括:
    当选取的图像帧中包括人脸图像时,所述终端获取识别所述图像帧中包括的人脸图像得到的人脸情感特征识别结果;
    所述终端根据所述人脸情感特征识别结果,查找相应的情感特征图像;
    所述终端获取所述情感特征图像在当前播放的图像帧中的展示位置;及
    所述终端按照所述展示位置,在当前播放的图像帧中渲染所述情感特征图像。
  10. 根据权利要求9所述的方法,其特征在于,所述终端获取识别所述图像帧中包括的人脸图像得到的人脸情感特征识别结果,包括:
    所述终端调整所述图像帧的尺寸至预设尺寸;
    所述终端将调整后的所述图像帧的方向旋转至符合情感特征识别条件的方向;
    所述终端发送旋转后的所述图像帧至服务器;及
    所述终端接收所述服务器返回的针对发送的所述图像帧的人脸情感特征识别结果。
  11. 根据权利要求9所述的方法,其特征在于,还包括:
    所述终端提取采集所述图像帧时录制的语音数据;及
    所述终端获取识别所述语音数据得到的语音情感特征识别结果;
    所述终端根据所述人脸情感特征识别结果,查找相应的情感特征图像, 包括:
    所述终端根据所述人脸情感特征识别结果和所述语音情感特征识别结果,查找相应的情感特征图像。
  12. 根据权利要求11所述的方法,其特征在于,所述终端获取识别所述语音数据得到的语音情感特征识别结果,包括:
    所述终端将提取的所述语音数据识别为文本;
    所述终端查找所述文本所包括的情感特征关键字;及
    所述终端根据查找到的所述情感特征关键字,获取与所述语音数据相对应的语音情感特征识别结果。
  13. 根据权利要求11所述的方法,其特征在于,所述终端根据所述人脸情感特征识别结果和所述语音情感特征识别结果,查找相应的情感特征图像,包括:
    当所述人脸情感特征识别结果与所述语音情感特征识别结果匹配时,所述终端按照所述人脸情感特征识别结果查找相应的情感特征图像。
  14. 根据权利要求13所述的方法,其特征在于,所述终端按照所述人脸情感特征识别结果查找相应的情感特征图像,包括:
    所述终端提取所述人脸情感特征识别结果包括的情感特征类型和识别结果置信度;
    所述终端查找与所述情感特征类型对应的情感特征图像集合;及
    所述终端从所述情感特征图像集合中,挑选出与所述识别结果置信度相对应的情感特征图像。
  15. 根据权利要求11所述的方法,其特征在于,所述终端根据所述人脸情感特征识别结果和所述语音情感特征识别结果,查找相应的情感特征图像,包括:
    当所述人脸情感特征识别结果与所述语音情感特征识别结果不匹配时,所述终端按照所述语音情感特征识别结果查找相应的情感特征图像。
  16. 根据权利要求9所述的方法,其特征在于,所述终端获取所述情感 特征图像在当前播放的图像帧中的展示位置,包括:
    所述终端确定所述人脸图像在当前播放的图像帧中的显示位置;
    所述终端查询所述情感特征图像与所述人脸图像的相对位置;及
    所述终端根据所述显示位置和所述相对位置,确定所述情感特征图像在当前播放的图像帧中的展示位置。
  17. 根据权利要求16所述的方法,其特征在于,还包括:
    所述终端在播放的图像帧中,追踪人脸图像的运动轨迹;及
    所述终端根据追踪的运动轨迹,将所述情感特征图像跟随播放的图像帧中的人脸图像移动。
  18. 一个或多个存储有计算机可读指令的非易失性存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
    从现实世界采集图像帧;
    将采集的图像帧按照采集的时序逐帧播放;
    从采集的图像帧中选取图像帧;
    获取与选取的图像帧匹配的模板图像所关联的用户生成内容;
    获取所述用户生成内容在所述匹配的模板图像中的展示位置;及
    按照所述展示位置,在播放的图像帧中渲染所述用户生成内容。
  19. 根据权利要求18所述的存储介质,其特征在于,所述计算机可读指令还使得一个或多个处理器执行以下步骤:
    判断选取的图像帧的特征是否符合预设的模板图像特征;
    当选取的图像帧的特征符合所述模板图像特征时,执行所述获取与选取的图像帧匹配的模板图像所关联的用户生成内容的步骤;及
    当选取的图像帧的特征不符合所述模板图像特征时,返回至所述从采集的图像帧中选取图像帧的步骤。
  20. 根据权利要求18所述的存储介质,其特征在于,所述获取与选取的图像帧匹配的模板图像所关联的用户生成内容,包括:
    获取在创建所述用户生成内容时配置的立体旋转参数;
    所述按照所述展示位置,在播放的图像帧中渲染所述用户生成内容,包括:
    按照所述展示位置,在播放的图像帧中渲染按照所述立体旋转参数旋转后的所述用户生成内容。
  21. 根据权利要求18所述的存储介质,其特征在于,所述按照所述展示位置,在播放的图像帧中渲染所述用户生成内容,包括:
    在播放的图像帧中追踪所述模板图像中的物体区域;
    根据所述展示位置和追踪到的物体区域确定追踪渲染位置;及
    在播放的图像帧中按照所述追踪渲染位置渲染所述用户生成内容。
  22. 根据权利要求18所述的存储介质,其特征在于,所述计算机可读指令还使得一个或多个处理器执行以下步骤:
    当选取的所述图像帧中包括人脸图像时,获取识别所述图像帧中包括的人脸图像得到的人脸情感特征识别结果;
    根据所述人脸情感特征识别结果,查找相应的情感特征图像;
    获取所述情感特征图像在当前播放的图像帧中的展示位置;及
    按照所述展示位置,在当前播放的图像帧中渲染所述情感特征图像。
  23. 根据权利要求22所述的存储介质,其特征在于,所述计算机可读指令还使得一个或多个处理器执行以下步骤:
    提取采集所述图像帧时录制的语音数据;及
    获取识别所述语音数据得到的语音情感特征识别结果;
    所述根据所述人脸情感特征识别结果,查找相应的情感特征图像,包括:
    根据所述人脸情感特征识别结果和所述语音情感特征识别结果,查找相应的情感特征图像。
  24. 根据权利要求22所述的存储介质,其特征在于,所述获取所述情感特征图像在当前播放的图像帧中的展示位置,包括:
    确定所述人脸图像在当前播放的图像帧中的显示位置;
    查询所述情感特征图像与所述人脸图像的相对位置;及
    根据所述显示位置和所述相对位置,确定所述情感特征图像在当前播放的图像帧中的展示位置。
  25. 一种终端,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行以下步骤:
    从现实世界采集图像帧;
    将采集的图像帧按照采集的时序逐帧播放;
    从采集的图像帧中选取图像帧;
    获取与选取的图像帧匹配的模板图像所关联的用户生成内容;
    获取所述用户生成内容在所述匹配的模板图像中的展示位置;及
    按照所述展示位置,在播放的图像帧中渲染所述用户生成内容。
  26. 根据权利要求25所述的终端,其特征在于,所述计算机可读指令还使得处理器执行以下步骤:
    判断选取的图像帧的特征是否符合预设的模板图像特征;
    当选取的图像帧的特征符合所述模板图像特征时,执行所述获取与选取的图像帧匹配的模板图像所关联的用户生成内容的步骤;及
    当选取的图像帧的特征不符合所述模板图像特征时,返回至所述从采集的图像帧中选取图像帧的步骤。
  27. 根据权利要求25所述的终端,其特征在于,所述获取与选取的图像帧匹配的模板图像所关联的用户生成内容,包括:
    获取在创建所述用户生成内容时配置的立体旋转参数;
    所述按照所述展示位置,在播放的图像帧中渲染所述用户生成内容,包括:
    按照所述展示位置,在播放的图像帧中渲染按照所述立体旋转参数旋转后的所述用户生成内容。
  28. 根据权利要求25所述的终端,其特征在于,所述按照所述展示位置, 在播放的图像帧中渲染所述用户生成内容,包括:
    在播放的图像帧中追踪所述模板图像中的物体区域;
    根据所述展示位置和追踪到的物体区域确定追踪渲染位置;及
    在播放的图像帧中按照所述追踪渲染位置渲染所述用户生成内容。
  29. 根据权利要求25所述的终端,其特征在于,所述计算机可读指令还使得处理器执行以下步骤:
    当选取的所述图像帧中包括人脸图像时,获取识别所述图像帧中包括的人脸图像得到的人脸情感特征识别结果;
    根据所述人脸情感特征识别结果,查找相应的情感特征图像;
    获取所述情感特征图像在当前播放的图像帧中的展示位置;及
    按照所述展示位置,在当前播放的图像帧中渲染所述情感特征图像。
  30. 根据权利要求29所述的终端,其特征在于,所述计算机可读指令还使得处理器执行以下步骤:
    提取采集所述图像帧时录制的语音数据;及
    获取识别所述语音数据得到的语音情感特征识别结果;
    所述根据所述人脸情感特征识别结果,查找相应的情感特征图像,包括:
    根据所述人脸情感特征识别结果和所述语音情感特征识别结果,查找相应的情感特征图像。
  31. 根据权利要求29所述的终端,其特征在于,所述获取所述情感特征图像在当前播放的图像帧中的展示位置,包括:
    确定所述人脸图像在当前播放的图像帧中的显示位置;
    查询所述情感特征图像与所述人脸图像的相对位置;及
    根据所述显示位置和所述相对位置,确定所述情感特征图像在当前播放的图像帧中的展示位置。
PCT/CN2018/079228 2017-03-29 2018-03-16 用户生成内容处理方法、存储介质和终端 Ceased WO2018177134A1 (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201710199078.4A CN107168619B (zh) 2017-03-29 2017-03-29 用户生成内容处理方法和装置
CN201710199078.4 2017-03-29
CN201710282661.1A CN108334806B (zh) 2017-04-26 2017-04-26 图像处理方法、装置和电子设备
CN201710282661.1 2017-04-26

Publications (1)

Publication Number Publication Date
WO2018177134A1 true WO2018177134A1 (zh) 2018-10-04

Family

ID=63674198

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/079228 Ceased WO2018177134A1 (zh) 2017-03-29 2018-03-16 用户生成内容处理方法、存储介质和终端

Country Status (1)

Country Link
WO (1) WO2018177134A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522799A (zh) * 2018-10-16 2019-03-26 深圳壹账通智能科技有限公司 信息提示方法、装置、计算机设备和存储介质
CN109670285A (zh) * 2018-11-13 2019-04-23 平安科技(深圳)有限公司 面部识别登陆方法、装置、计算机设备及存储介质
CN109840491A (zh) * 2019-01-25 2019-06-04 平安科技(深圳)有限公司 视频流播放方法、系统、计算机装置及可读存储介质
US11379683B2 (en) 2019-02-28 2022-07-05 Stats Llc System and method for generating trackable video frames from broadcast video
US12165645B1 (en) * 2020-05-28 2024-12-10 Amazon Technologies, Inc. Stylized text transcription for messaging

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110321082A1 (en) * 2010-06-29 2011-12-29 At&T Intellectual Property I, L.P. User-Defined Modification of Video Content
CN103426003A (zh) * 2012-05-22 2013-12-04 腾讯科技(深圳)有限公司 增强现实交互的实现方法和系统
CN104219559A (zh) * 2013-05-31 2014-12-17 奥多比公司 在视频内容中投放不明显叠加
CN107168619A (zh) * 2017-03-29 2017-09-15 腾讯科技(深圳)有限公司 用户生成内容处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110321082A1 (en) * 2010-06-29 2011-12-29 At&T Intellectual Property I, L.P. User-Defined Modification of Video Content
CN103426003A (zh) * 2012-05-22 2013-12-04 腾讯科技(深圳)有限公司 增强现实交互的实现方法和系统
CN104219559A (zh) * 2013-05-31 2014-12-17 奥多比公司 在视频内容中投放不明显叠加
CN107168619A (zh) * 2017-03-29 2017-09-15 腾讯科技(深圳)有限公司 用户生成内容处理方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522799A (zh) * 2018-10-16 2019-03-26 深圳壹账通智能科技有限公司 信息提示方法、装置、计算机设备和存储介质
CN109670285A (zh) * 2018-11-13 2019-04-23 平安科技(深圳)有限公司 面部识别登陆方法、装置、计算机设备及存储介质
CN109840491A (zh) * 2019-01-25 2019-06-04 平安科技(深圳)有限公司 视频流播放方法、系统、计算机装置及可读存储介质
US11379683B2 (en) 2019-02-28 2022-07-05 Stats Llc System and method for generating trackable video frames from broadcast video
US11586840B2 (en) 2019-02-28 2023-02-21 Stats Llc System and method for player reidentification in broadcast video
US11830202B2 (en) 2019-02-28 2023-11-28 Stats Llc System and method for generating player tracking data from broadcast video
US11861848B2 (en) 2019-02-28 2024-01-02 Stats Llc System and method for generating trackable video frames from broadcast video
US11861850B2 (en) 2019-02-28 2024-01-02 Stats Llc System and method for player reidentification in broadcast video
US11935247B2 (en) 2019-02-28 2024-03-19 Stats Llc System and method for calibrating moving cameras capturing broadcast video
US12288342B2 (en) 2019-02-28 2025-04-29 Stats Llc System and method for player reidentification in broadcast video
US12165645B1 (en) * 2020-05-28 2024-12-10 Amazon Technologies, Inc. Stylized text transcription for messaging

Similar Documents

Publication Publication Date Title
US12271586B2 (en) Combining first user interface content into second user interface
US20240361881A1 (en) Updating avatar clothing for a user of a messaging system
US12292299B2 (en) Augmented reality-based translations associated with travel
US11094131B2 (en) Augmented reality apparatus and method
US12142278B2 (en) Augmented reality-based translation of speech in association with travel
CN105808782B (zh) 一种图片标签的添加方法及装置
US20240303944A1 (en) Facial synthesis in augmented reality content for third party applications
WO2017157272A1 (zh) 一种信息处理方法及终端
WO2021109678A1 (zh) 视频生成方法、装置、电子设备及存储介质
US20250095361A1 (en) Displaying object names in association with augmented reality content
US12148244B2 (en) Interactive augmented reality content including facial synthesis
WO2018177134A1 (zh) 用户生成内容处理方法、存储介质和终端
CN107168619B (zh) 用户生成内容处理方法和装置
US20250182524A1 (en) Facial synthesis in augmented reality content for online communities
US12148064B2 (en) Facial synthesis in augmented reality content for advertisements
CN113709545A (zh) 视频的处理方法、装置、计算机设备和存储介质
CN108334806B (zh) 图像处理方法、装置和电子设备
CN115579023A (zh) 视频处理方法、视频处理装置和电子设备
US20230326094A1 (en) Integrating overlaid content into displayed data via graphics processing circuitry and processing circuitry using a computing memory and an operating system memory

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18775573

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18775573

Country of ref document: EP

Kind code of ref document: A1