[go: up one dir, main page]

CN118803300A - 视频处理方法、系统、设备、存储介质及产品 - Google Patents

视频处理方法、系统、设备、存储介质及产品 Download PDF

Info

Publication number
CN118803300A
CN118803300A CN202410610715.2A CN202410610715A CN118803300A CN 118803300 A CN118803300 A CN 118803300A CN 202410610715 A CN202410610715 A CN 202410610715A CN 118803300 A CN118803300 A CN 118803300A
Authority
CN
China
Prior art keywords
video
information
played
replacement
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410610715.2A
Other languages
English (en)
Inventor
高山
李琳
李斌
周冰
桂祖宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
MIGU Culture Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, MIGU Culture Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202410610715.2A priority Critical patent/CN118803300A/zh
Publication of CN118803300A publication Critical patent/CN118803300A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23412Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs for generating or manipulating the scene composition of objects, e.g. MPEG-4 objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234309Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4 or from Quicktime to Realvideo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44012Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving rendering scenes according to scene graphs, e.g. MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440218Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开一种视频处理方法、系统、设备、存储介质及产品,首先,获取包括待播放视频信息和替换元素的视频画面信息,其中,待播放视频信息包括保留元素图层,然后分别对替换元素、待播放视频信息中保留元素图层进行解码,并渲染融合得到待播放视频画面,无需在服务端进行画面内容替换和画面整体编码,适用于不同用户需要替换的画面内容存在差异的场景,降低了服务端的视频编码算力消耗,缩短了视频处理时长。

Description

视频处理方法、系统、设备、存储介质及产品
技术领域
本发明涉及视频技术领域,具体的说,涉及的是一种视频处理方法、系统、设备、存储介质及产品。
背景技术
在播放视频播放场景中,常常有替换视频画面中部分内容的需求,现有的视频处理方式是在服务端对视频画面中的部分内容进行覆盖替换,然后对覆盖替换得到的视频画面进行重编码后发送给客户端进行解码播放。但是对于不同用户需要替换的画面内容存在差异的情况,这种视频处理方式需要造成服务端大量的视频编码算力消耗且会引入较长的时延。
发明内容
基于此,本发明提供了一种视频处理方法、系统、设备、存储介质及产品,以解决现有技术中视频内容替换所耗的算力资源过多且时延较长的缺陷。
为实现上述目的,本发明实施例提供了一种视频处理方法,包括:
获取视频画面信息;其中,所述视频画面信息包括待播放视频信息和替换元素;其中,所述待播放视频信息包括保留元素图层;
对所述替换元素进行解码并渲染得到替换元素画面;
对所述待播放视频信息中的保留元素图层进行解码并渲染,得到视频帧画面;
将所述替换元素画面和所述视频帧画面进行融合,得到待播放视频画面。
为实现上述目的,本发明实施例还提供了另一种视频处理方法,包括:
对获取的源视频进行元素分割,得到多个原始元素图层;
对所述原始元素图层进行独立编码并将多个独立编码后的原始元素图层封装得到待播放视频信息;
接收客户端发起的视频播放请求,将所述待播放视频信息和获取的替换元素发送给所述客户端,以使所述客户端根据所述待播放视频信息中的保留元素图层和所述替换元素生成目标视频画面;其中,所述待播放视频信息中的原始元素图层包括所述保留元素图层。
为实现上述目的,本发明实施例还提供了一种视频处理系统,包括服务端和客户端;
所述服务端,用于:
对获取的源视频进行元素分割,得到多个原始元素图层;
对所述原始元素图层进行独立编码并将多个独立编码后的原始元素图层封装得到待播放视频信息;
接收所述客户端发起的视频播放请求,将视频画面信息发送给所述客户端;其中,所述视频画面信息包括所述待播放视频信息和获取的替换元素,所述原始元素图层包括保留元素图层;
所述客户端,用于:
向所述服务端发起视频播放请求,接收视频画面信息;其中,所述视频画面信息包括待播放视频信息和替换元素;
对所述替换元素进行解码并渲染得到替换元素画面;
对所述保留元素图层进行解码并渲染,得到视频帧画面;
将所述替换元素画面和所述视频帧画面进行融合,得到待播放视频画面。
为实现上述目的,本发明实施例还提供了一种视频处理系统,包括:
为实现上述目的,本发明实施例还提供了一种视频处理设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一实施例所述的视频处理方法。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的视频处理方法。
为实现上述目的,本发明实施例还提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上述任一实施例所述的视频处理方法。
与现有技术相比,本发明实施例公开的视频处理方法、系统、设备、存储介质及产品,首先,获取包括待播放视频信息和替换元素的视频画面信息,其中,待播放视频信息包括保留元素图层,然后分别对替换元素、待播放视频信息中保留元素图层进行解码,并渲染融合得到待播放视频画面,无需在服务端进行画面内容替换和画面整体编码,适用于不同用户需要替换的画面内容存在差异的场景,降低了服务端的视频编码算力消耗,缩短了视频处理时长。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种现有视频处理方法的流程示意图;
图2是本发明一实施例提供的一种视频画面示意图;
图3是本发明一实施例提供的一种视频处理方法的流程示意图;
图4是本发明一实施例提供的一种视频处理的整体流程示意图;
图5是本发明一实施例提供的一种准备素材的流程示意图;
图6是本发明一实施例提供的一种源视频处理的流程示意图;
图7是本发明一实施例提供的一种视频处理设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,在用户播放视频的场景中,常常有替换画面内容的需求,例如:(1)、广告插入需求,在视频中动态插入矩形区域广告,(2)、内容个性化,(3)、内容审核与版权屏蔽,对于内容审核与版权信息进行替换或屏蔽需求。参见图1,为了在画面中插入广告,目前的视频处理流程是:客户端发起视频流请求给服务器端广告插入(Server-side adinsertion,SSAI)平台。SSAI平台从原始服务器或者内容分发网络(Content DeliveryNetwork,CDN)获取视频流的清单文件,分析视频内容,确定插入广告的位置,从广告服务器选择广告内容。SSAI平台从原始的视频中提取或创建替换片段,将广告内容叠加到视频画面中,将更改后的视频画面进行整体的重编码,修改清单文件,指向替换片段而不是原始片段,将修改后的清单文件发送给客户端。客户端根据清单文件播放视频流,显示叠加了广告内容的视频画面并生成广告跟踪信息报送给广告服务器。值得说明的是,现有技术的视频编码是对视频进行整体编码,比如高级音视频编码标准(Audio Video Coding Standard,AVS)。参见图2,假设视频画面中存在人物1、猫2和灯泡3这三种元素,且这三种元素都可以被替换,每一种元素都有一个备选元素,那么:更换一个元素:C(3,1)=3,更换两个元素:C(3,2)=3,更换三个元素:C(3,3)=1,使用传统的视频处理方式需要生成7个视频画面,每个视频画面都需由服务端进行元素替换并生成编码信息以应对不同用户的不同需求,如果画面中可以被替换的元素不止三个,或者画面中的每个元素都不止一个备选的元素,则组合方式将爆炸性增长,会造成服务端大量的算力消耗且会引入较长的时延,大大加重了服务端算力负担,且会破坏家庭内容分发网络(Home Content delivery network,HCDN)等分流技术。
基于此,本发明一实施例提供一种视频处理方法,参见图3所示的视频处理方法的流程示意图。具体地,所述视频处理方法,包括步骤S1~S4:
S1、获取视频画面信息;其中,所述视频画面信息包括待播放视频信息和替换元素;其中,所述待播放视频信息包括保留元素图层;
S2、对所述替换元素进行解码并渲染得到替换元素画面;
S3、对所述待播放视频信息中的保留元素图层进行解码并渲染,得到视频帧画面;
S4、将所述替换元素画面和所述视频帧画面进行融合,得到待播放视频画面。
值得说明的是,本发明实施例所提供的方法适用于客户端,可应用于从其他地区引入的视频处理(比如考虑到各地文化不同,一些具备地方特色的元素需要被替换),也可应用于为用户提供个性化的视频处理(比如根据用户偏好替换视频画面中的广告内容)或者应用于与版权相关的视频处理(比如从视频画面中替换掉需要授予版权才能播放的内容)等等,其具体应用场景覆盖范围广,可根据实际需求进行设置。
具体地,视频由服务端进行预先处理,将源视频进行元素分割得到多个图层,每个图层单独编码,对于不同用户需要替换的画面内容存在差异的情况,可根据用户需要选择需要的图层进行解码并融合得到待播放视频画面,无需在服务端将替换元素添加到源视频后进行编码,即避免了相同元素的重复编码,对于存在多种元素替换的情况,降低了服务端编码算力资源的浪费,减轻了服务端的计算压力,降低了时延,提高用户体验。
示例性的,参见图4,图4是本发明实施例提供的一种视频处理的整体流程示意图,视频处理的整体流程包括6个阶段,5.2、5.4、5.5为关键步骤,5.1是替换元素准备;5.2是源视频处理,主要是对源视频进行画面分析,提取可分割元素的位置并重编码;5.3是收集用户画像信息(此处以根据用户偏好进行视频部分内容的替换为例);5.4客户端拉取播放内容,主要是根据用户的大数据画像,匹配满足对应用户偏好的替换元素,并同步推送到用户播放端;5.5是客户端实时融合播放,主要是客户端播放器同时解码源视频和替换元素视频,在图形处理器(Graphics Processing Unit,GPU)中叠加渲染;5.6是客户端实时播放数据上报,其中,5.4和5.5对应步骤S1~S4。
5.1、替换元素准备:
这个步骤是长期积累步骤,其作用主要是积累替换元素的素材,进入媒资库存储,后续用作真正播放视频元素的替换。主要流程参见图5:
5.1.1视频生产源进行素材准备,素材来源可以是采集、制作、人工智能生成内容(AI Generated Content,AIGC)方式等。素材种类可分为静态图片、3D模型、动态视频。这些素材都需要进行背景透明化操作,便于后续整体融入被播放视频。
5.1.2素材准备完成后,注入CDN中,便于后续视频播放行为发生时,同步下放到客户端。注意元素素材注入后,不再需要进行转码,这将节省服务端算力资源。
5.1.3元素策略模块进行素材配置,主要通过对素材使用图像分析、非结构化推理与理解、知识计算等方式,提取素材内容的特征,将素材的元信息转换为结构化信息进行存储。这为后续的视频播放与元素替换做准备。
5.3、收集用户画像信息:
这个步骤是长期积累步骤。其作用是系统长期汇聚用户信息,对每个用户进行精准用户画像,这对后面的元素替换至关重要。
5.3.1客户端收集用户数据,生成用户画像反馈给服务端。
5.3.2服务端的元素策略模块接收与用户画像相关的信息,为后续的替换元素的推荐做准备。
在执行完5.1、5.2和5.3之后,元素策略模块已获取到所有进行元素替换的内容准备工作,有经过分割的源视频内容,有可以用作替换的元素素材,有用户侧画像信息。这些信息经过元素策略模块后就可以产生实际的元素替换,这为后面真实播放做好了准备。
5.6客户端实时播放数据上报:
客户端播放视频的过程中,再实时反馈信息,用于后续决策优化。
5.6.1客户端在播放过程中实时上传行为数据、用户偏好。
5.6.2元素策略模块接收实时信息汇总存储,用于后续替换元素的匹配和推荐。
进一步地,服务端针对获取的源视频元素分割成多份外置文件保存,如果采用当前AVS3多元素方案(AVS的第三代版本),视频需要一次性携带所有元素,对于元素多样性组合以及下载带宽都是较大挑战,本实施方式可采用替换元素外置配置的方案,解决元素组合多样性及下载带宽尺寸问题。
与现有技术相比,本发明实施例公开的视频处理方法,首先,获取包括待播放视频信息和替换元素的视频画面信息,其中,待播放视频信息包括保留元素图层,然后分别对替换元素、待播放视频信息中保留元素图层进行解码,并渲染融合得到待播放视频画面,无需在服务端进行画面内容替换和画面整体编码,适用于不同用户需要替换的画面内容存在差异的场景,降低了服务端的视频编码算力消耗,缩短了视频处理时长。
在一种优选的实施方式中,所述视频画面信息还包括替换信息,用于指示所述待播放视频信息中的被替换元素图层;
所述对所述待播放视频信息中的保留元素图层进行解码并渲染,得到视频帧画面之前,还包括:
根据所述替换信息确定所述待播放视频信息中的保留元素图层和被替换元素图层。
具体地,需要指明替换元素取代的是待播放视频信息中的被替换元素图层,才能够确定播放视频信息中哪一些图层是保留元素图层,哪一些是被替换元素图层,以便后续客户端对保留元素图层进行解码。
示例性的,结合图4,图4中的步骤5.4是客户端拉取播放内容的具体过程,内容包括:
5.4.1客户端发起视频播放请求,请求从服务端拉取视频画面信息。请求中包含源视频的视频标识符,进一步地,还可以包括当前用户的用户标识符,这用于在元素策略模块中查询到用户的详细信息。此外客户端也可能上传额外信息,例如当前的地理位置坐标信息等,体现用户当前播放场景,以获取与当前播放场景匹配的替换元素,提高用户体验感。
5.4.2服务端接收到客户端的视频播放请求后,实时去元素策略模块请求元素匹配与替换。主要是携带根据视频标识符找到的视频的相关信息与用户标识符等客户端发送的信息进行查询,找到符合用户偏好的替换素材。进一步地,对于直播视频,如果来不及做每一帧画面的内容理解和分解,可由人工介入进行位置标记,基于用户的位置标记操作,进行源视频的元素分割,确定被替换元素图层和保留元素图层,以满足快速低延迟直播需求。
5.4.3元素策略模块,对源视频每一个原始元素图层的信息、用户画像、媒资库中的元素素材(存储了可供选择的替换元素)三者进行统一分析,实时决策确认画面中哪些元素需要进行替换,替换为哪一个元素;哪些元素需要隐藏等。这些信息实时反馈给CDN。5.4.3也直接由客户端发起查询请求,这样可以减轻CDN的接口负荷。
5.4.4CDN汇总需要被替换的元素信息(被替换元素图层)和替换后的元素信息(替换元素),动态修改直播协议的清单文件(例如基于HTTP的流媒体网络传输协议(HTTP LiveStreaming,HLS)的直播协议的多媒体播放列表格式(MP3URL with UTF-8encoding,m3u8)),告知客户端除了源视频之外,还需拉取哪些额外的替换元素资源。一个样例m3u8文件如下:
#EXTM3U
#EXT-X-VERSION:3
#EXT-X-MEDIA-SEQUENCE:0
#EXT-X-TARGETDURATION:10
#EXT-X-PLAYLIST-TYPE:EVENT
#EXTINF:10.0,
#EXT-X-ELEMENT-REPLACEMENT:uuid=12345678(此处指定了源视频中其中一个被替换元素图层的标识符为12345678),url=http://example.com/cat.mp4(素材)
segment0.ts
#EXTINF:10.0,
#EXT-X-ELEMENT-REPLACEMENT:uuid=87654321(此处指定了源视频中其中一个被替换元素图层的标识符为87654321),url=http://example.com/person.jpg(此处指定了另一个替换素材)
segment1.ts
#EXTINF:10.0,
segment2.ts
#EXT-X-ENDLIST
5.4.5客户端根据m3u8等协议,拉取完成元素分割后的原始画面流(待播放视频信息)和替换元素资源到本地。无论是直播或是点播场景,客户端都需要先预先缓存一些帧在本地解码,供播放器使用。
在一种优选的实施方式中,所述视频画面信息还包括替换信息,用于指示被替换元素图层的位置关联信息和用于取代所述被替换元素图层的替换元素;
所述将所述替换元素画面和所述视频帧画面进行融合,得到待播放视频画面,包括:
根据所述替换信息确定所述被替换元素图层在所述视频帧画面中的位置关联信息,以作为所述替换元素的覆盖位置信息;
利用渐变融合技术和/或AI修复技术,根据所述覆盖位置信息将所述替换元素画面融合在所述视频帧画面中,得到待播放视频画面。
具体地,结合图4,图4的步骤5.5是客户端实时融合播放,客户端对待播放视频信息(以视频流形式下发)和替换元素进行实时解码与融合播放。
5.5.1客户端同时对待播放视频信息和替换元素进行解码。替换元素如果是静态图片或3D模型,则直接渲染出来放入GPU,等待和待播放视频信息进行融合显示。替换素材如果是视频文件,则按照时间戳对齐方式,等量进行帧解码。对于待播放视频信息,需要保留的元素,对其所在图层进行解码渲染。而对于被替换的元素,则不解码对应图层,空位由替换元素融合使用。
5.5.2播放器拿到视频帧画面,拿到替换元素画面。将两者在GPU中进行融合,根据获取的被替换元素图层中的被替换元素在源视频中的位置坐标,将替换元素画面覆盖在视频帧画面中。图像融合过程中,采用多像素权重配比混合,引入渐变效果以平滑处理。若用户端性能配置充足,还可以采用实时对抗网络+注意力机制来进行AI修复,通过引入视频画面AI修正技术,解决画面重叠,阴影光照等细节问题,进一步提升显示效果,极大降低了客户端重编码的情况发生,做到了最小的延迟。
可选的,对于视频处理方法,可以客户端增设一个开关,控制视频处理方式的启停,比如咪咕视频应用中可以新增个性化视角,让用户在原始视频和替换元素视频之间切换。甚至可以做到实时对比替换前和替换后的样式,若是用户关闭视频处理功能,则待播放视频信息中的保留元素图层和被替换元素图层进行解码并渲染,播放未经元素替换的视频。
在一种优选的实施方式中,还包括:当所述替换元素的播放时长与所述待播放视频信息中的被替换元素图层的播放时长不一致时,采用抽帧、补帧或重播的方式进行播放时长的对齐。
具体地,对于替换元素的素材时长与被替换元素图层中的被替换元素出现时间段不匹配时,采用抽帧或AI补帧或重播等方式进行对齐操作,使得替换元素后的视频的显示效果更佳。
在一种优选的实施方式中,所述待播放视频信息所述待播放视频信息通过以下方式生成:对源视频进行元素分割,得到多个原始元素图层,分别对每一所述原始元素图层进行重编码,在重编码完成后统一封装成待播放视频信息;其中,所述原始元素图层包括所述保留元素图层和被替换元素图层。
示例性的,参见图4,图4中的5.2是服务端对源视频进行处理的步骤,源视频处理主要是对用户后续可能观看的主视频进行处理,使其满足元素可剥离、可组合、可替换的需求,实现产品业务的多样化与精细化运营。其整体流程如图6所示:
5.2.1视频拍摄或引入。这里的视频可以是真实世界视频,也可以是虚拟世界的画面录屏。视频可以是点播视频,也可以是直播视频流。
5.2.2对视频进行元素分割与重编码。
(1)首先使用分割一切模型(Segment Anything Model,SAM)或快速分割一切模型Fast SAM进行画面元素分解标记,以便步骤5.5.2中替换元素的融合,进一步地,这里对视频画面的主体背景予以保留,记作BaseLayer0。画面中可识别和抓取的元素依次标记为Layer X,如图6中的Layer1、Layer2和Layer3。这个步骤主要使用AI能力进行画面的识别、提取。
(2)依次对所有层进行重编码。背景层BaseLayer0保留背景,采用轮廓结合掩码方式对从背景移除的其他元素进行位置标记,使用AI能力对被移除元素的空位进行补全修复。使用音视频编码能力对分割后的元素进行重编码。
(3)各层元素编码完成后,统一封装到同一个视频文件(媒体容器),形成待播放视频信息。其中多层元素可以采用分层编码形式(如可伸缩视频编解码(Scalable VideoCODEC,SVC)、可伸缩的高效视频编码SHVC等),或者采用多视频轨方式,做好时间戳对齐后装入。
5.2.3将待播放视频信息注入CDN。由于整个视频文件个数不变,各分层信息均封装到同一个视频文件中,因此不会增加CDN维护的额外负担。
5.2.4元素策略模块,对源视频中进行内容理解,记录源视频各层元素的标识信息、内容特征、各个元素图层在源视频中的位置信息、各个元素图层的尺寸、各个元素图层中的元素在三维空间中旋转参数等,将这些信息存储入库,用来作为后续匹配替换。
在本实施方式中,利用AI模型SAM,对视频进行元素分割,标记出所有画面中的独立元素并进行分层编码,而元素替换就可能发生在画面中每一个元素上,增加了元素替换的可组合型,能够真正做到千人千面的个性化元素替换。在将待播放视频信息发送给客户端后,客户端仅对保留元素图层进行解码渲染;而对于要替换的元素,服务端仅仅只做元素标记与信息下发,不在服务端对视频进行整体的重编码,这极大节省了服务端的算力资源,同时可以极大增加并发数。
与现有技术相比,本发明实施例所提供的视频处理方法,通过SAM AI模型,对画面元素进行识别、分割、匹配,并在服务端匹配对应观看用户的千人千面元素信息,播放时将待播放视频信息和对应用户偏好的替换元素同时推送给客户端,客户端实时解码待播放视频信息和替换元素,在GPU中直接叠加渲染出来,达到应对千人千面的不同元素组合需求;在服务端和客户端均无需实现视频整体的重编码,极大节省了算力消耗与降低了延时的发生,解决了业界现在只能简单替换个别元素以及大量转码带来的算力消耗,提升了用户观看体验。
本发明实施例还提供一种视频处理方法,包括:
对获取的源视频进行元素分割,得到多个原始元素图层;
对所述原始元素图层进行独立编码并将多个独立编码后的原始元素图层封装得到待播放视频信息;
接收客户端发起的视频播放请求,将所述待播放视频信息和获取的替换元素发送给所述客户端,以使所述客户端根据所述待播放视频信息中的保留元素图层和所述替换元素生成目标视频画面;其中,所述待播放视频信息中的原始元素图层包括所述保留元素图层。
具体地,该方法适用于服务端。
在一种优选的实施方式中,所述视频播放请求携带有用户标识符和视频标识符;
所述接收客户端发起的视频播放请求,将所述待播放视频信息和获取的替换元素发送所述客户端,包括:
根据所述视频标识符确定待播放视频信息;
基于预存的用户画像信息,根据所述用户标识符确定用户偏好,以从预存的替换素材中选出符合所述用户偏好的替换元素;
将所述待播放视频信息和所述替换元素发送所述客户端。
在一种优选的实施方式中,所述保留元素图层包括背景层;所述方法还包括:在完成所述源视频的元素分割之后,对所述背景层进行修复补全。
在一种优选的实施方式中,所述对获取的源视频进行元素分割,得到多个原始元素图层,包括:
基于用户的位置标记操作,对获取的源视频进行元素分割,得到被替换元素图层和保留元素图层。
值得说明的是,上述实施例所提供的适用于服务端的方法的工作原理可参见上述任一实施例所提供的适用于客户端的方法中关于服务端的工作流程,在此不作赘述。
与现有技术相比,本发明实施例提供的方法通过对视频进行元素分割并对单个元素进行单独编码,无需在服务端进行画面内容替换和画面整体编码,适用于不同用户需要替换的画面内容存在差异的场景,降低了服务端的视频编码算力消耗,缩短了视频处理时长。
本发明实施例还提供一种视频处理系统,包括服务端和客户端;
所述服务端,用于:
对获取的源视频进行元素分割,得到多个原始元素图层;
对所述原始元素图层进行独立编码并将多个独立编码后的原始元素图层封装得到待播放视频信息;
接收所述客户端发起的视频播放请求,将视频画面信息发送给所述客户端;其中,所述视频画面信息包括所述待播放视频信息和获取的替换元素,所述原始元素图层包括保留元素图层;
所述客户端,用于:
向所述服务端发起视频播放请求,接收所述视频画面信息;其中,所述视频画面信息包括待播放视频信息和替换元素;
对所述替换元素进行解码并渲染得到替换元素画面;
对所述保留元素图层进行解码并渲染,得到视频帧画面;
将所述替换元素画面和所述视频帧画面进行融合,得到待播放视频画面。
在一种实施方式中,所述视频画面信息还包括替换信息,用于指示所述待播放视频信息中的被替换元素图层;
所述对对所述保留元素图层进行解码并渲染,得到视频帧画面之前,还包括:
根据所述替换信息确定所述待播放视频信息中的保留元素图层和被替换元素图层。
在一种实施方式中,所述视频画面信息还包括替换信息,用于指示被替换元素图层的位置关联信息和用于取代所述被替换元素图层的替换元素;
所述将所述替换元素画面和所述视频帧画面进行融合,得到待播放视频画面,包括:
根据所述替换信息确定所述被替换元素图层在所述视频帧画面中的位置关联信息,以作为所述替换元素的覆盖位置信息;
利用渐变融合技术和/或AI修复技术,根据所述覆盖位置信息将所述替换元素画面融合在所述视频帧画面中,得到待播放视频画面。
在一种实施方式中,所述客户端还用于:当所述替换元素的播放时长与所述待播放视频信息中的被替换元素图层的播放时长不一致时,采用抽帧、补帧或重播的方式进行播放时长的对齐。
在一种实施方式中,所述视频播放请求携带有用户标识符和视频标识符;
所述接收所述客户端发起的视频播放请求,将视频画面信息发送给所述客户端,包括:
根据所述视频标识符确定待播放视频信息;
基于预存的用户画像信息,根据所述用户标识符确定用户偏好,以从预存的替换素材中选出符合所述用户偏好的替换元素;
将所述待播放视频信息和所述替换元素发送所述客户端。
在一种实施方式中,所述保留元素图层包括背景层;所述方法还包括:在完成所述源视频的元素分割之后,对所述背景层进行修复补全。
在一种实施方式中,所述对获取的源视频进行元素分割,得到多个原始元素图层,包括:
基于用户的位置标记操作,对获取的源视频进行元素分割,得到被替换元素图层和保留元素图层。
与现有技术相比,本发明实施例提供的系统,首先,通过由服务端进行视频元素分割,对各个元素图层进行重编码,将重编码后的元素图层和替换元素发送给客户端,客户端对元素图层中的保留元素图层和替换元素进行解码,然后进行渲染融合,得到待播放视频画面以在客户端进行播放,无需在服务端进行画面内容替换和画面整体编码,适用于不同用户需要替换的画面内容存在差异的场景,降低了服务端的视频编码算力消耗,缩短了视频处理时长。
参见图7,本发明实施例还提供一种视频处理设备,包括处理器31、存储器32以及存储在所述存储器32中且被配置为由所述处理器31执行的计算机程序,所述处理器31执行所述计算机程序时实现如上述视频处理方法实施例中的步骤,例如图3中的S1~S4;或者,所述处理器31执行所述计算机程序时实现上述各装置实施例中各模块的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器32中,并由所述处理器31执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述视频处理设备中的执行过程。例如,所述计算机程序可以被分割成多个模块,各模块用于执行上述任一实施例所述的方法中的具体步骤。
所述视频处理设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述视频处理设备可包括,但不仅限于,处理器31、存储器32。本领域技术人员可以理解,所述视频处理设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器31可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器31是所述视频处理设备的控制中心,利用各种接口和线路连接整个视频处理设备的各个部分。
所述存储器32可用于存储所述计算机程序和/或模块,所述处理器31通过运行或执行存储在所述存储器32内的计算机程序和/或模块,以及调用存储在存储器32内的数据,实现所述视频处理设备的各种功能。所述存储器32可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述视频处理设备集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器31执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
本发明实施例还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上述任一实施例所述的视频处理方法。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种视频处理方法,其特征在于,包括:
获取视频画面信息;其中,所述视频画面信息包括待播放视频信息和替换元素;其中,所述待播放视频信息包括保留元素图层;
对所述替换元素进行解码并渲染得到替换元素画面;
对所述待播放视频信息中的保留元素图层进行解码并渲染,得到视频帧画面;
将所述替换元素画面和所述视频帧画面进行融合,得到待播放视频画面。
2.如权利要求1所述的视频处理方法,其特征在于,所述视频画面信息还包括替换信息,用于指示所述待播放视频信息中的被替换元素图层;
所述对所述待播放视频信息中的保留元素图层进行解码并渲染,得到视频帧画面之前,还包括:
根据所述替换信息确定所述待播放视频信息中的保留元素图层和被替换元素图层。
3.如权利要求1所述的视频处理方法,其特征在于,所述视频画面信息还包括替换信息,用于指示被替换元素图层的位置关联信息和用于取代所述被替换元素图层的替换元素;
所述将所述替换元素画面和所述视频帧画面进行融合,得到待播放视频画面,包括:
根据所述替换信息确定所述被替换元素图层在所述视频帧画面中的位置关联信息,以作为所述替换元素的覆盖位置信息;
利用渐变融合技术和/或AI修复技术,根据所述覆盖位置信息将所述替换元素画面融合在所述视频帧画面中,得到待播放视频画面。
4.如权利要求1所述的视频处理方法,其特征在于,还包括:当所述替换元素的播放时长与所述待播放视频信息中的被替换元素图层的播放时长不一致时,采用抽帧、补帧或重播的方式进行播放时长的对齐。
5.一种视频处理方法,其特征在于,包括:
对获取的源视频进行元素分割,得到多个原始元素图层;
对所述原始元素图层进行独立编码并将多个独立编码后的原始元素图层封装得到待播放视频信息;
接收客户端发起的视频播放请求,将所述待播放视频信息和获取的替换元素发送给所述客户端,以使所述客户端根据所述待播放视频信息中的保留元素图层和所述替换元素生成目标视频画面;其中,所述待播放视频信息中的原始元素图层包括所述保留元素图层。
6.如权利要求5所述的视频处理方法,其特征在于,所述视频播放请求携带有用户标识符和视频标识符;
所述接收客户端发起的视频播放请求,将所述待播放视频信息和获取的替换元素发送所述客户端,包括:
根据所述视频标识符确定待播放视频信息;
基于预存的用户画像信息,根据所述用户标识符确定用户偏好,以从预存的替换素材中选出符合所述用户偏好的替换元素;
将所述待播放视频信息和所述替换元素发送所述客户端。
7.一种视频处理系统,其特征在于,包括服务端和客户端;
所述服务端,用于:
对获取的源视频进行元素分割,得到多个原始元素图层;
对所述原始元素图层进行独立编码并将多个独立编码后的原始元素图层封装得到待播放视频信息;
接收所述客户端发起的视频播放请求,将视频画面信息发送给所述客户端;其中,所述视频画面信息包括所述待播放视频信息和获取的替换元素,所述原始元素图层包括保留元素图层;
所述客户端,用于:
向所述服务端发起视频播放请求,接收视频画面信息;其中,所述视频画面信息包括待播放视频信息和替换元素;
对所述替换元素进行解码并渲染得到替换元素画面;
对所述保留元素图层进行解码并渲染,得到视频帧画面;
将所述替换元素画面和所述视频帧画面进行融合,得到待播放视频画面。
8.一种视频处理设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的视频处理方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的视频处理方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现如权利要求1至6中任意一项所述的视频处理方法。
CN202410610715.2A 2024-05-16 2024-05-16 视频处理方法、系统、设备、存储介质及产品 Pending CN118803300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410610715.2A CN118803300A (zh) 2024-05-16 2024-05-16 视频处理方法、系统、设备、存储介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410610715.2A CN118803300A (zh) 2024-05-16 2024-05-16 视频处理方法、系统、设备、存储介质及产品

Publications (1)

Publication Number Publication Date
CN118803300A true CN118803300A (zh) 2024-10-18

Family

ID=93021132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410610715.2A Pending CN118803300A (zh) 2024-05-16 2024-05-16 视频处理方法、系统、设备、存储介质及产品

Country Status (1)

Country Link
CN (1) CN118803300A (zh)

Similar Documents

Publication Publication Date Title
US9277198B2 (en) Systems and methods for media personalization using templates
CN105765990B (zh) 通过分布式网络分布视频内容的方法、系统及计算机介质
US8363716B2 (en) Systems and methods for video/multimedia rendering, composition, and user interactivity
US8868465B2 (en) Method and system for publishing media content
CN103959271B (zh) 用户自适应http流管理器和使用其的方法
CN102007486B (zh) 程序设计的原版动画以及用于制作该原版动画的方法
WO2018045927A1 (zh) 一种基于三维虚拟技术的网络实时互动直播方法及装置
WO2011163422A2 (en) System and method for distributed media personalization
CN110099288A (zh) 处理连续的多周期内容
KR20170015912A (ko) 매니페스트 속성을 이용하여 미디어 자산을 필터링하는 시스템
US12382136B2 (en) Methods for generating videos, and related systems and servers
US20190199763A1 (en) Systems and methods for previewing content
CN115967824A (zh) 视频预览方法、装置、介质、设备和计算机程序产品
KR102069897B1 (ko) 사용자 영상 생성 방법 및 이를 위한 장치
CN106162297A (zh) 一种视频文件播放时的交互方法和系统
CN118803300A (zh) 视频处理方法、系统、设备、存储介质及产品
US20250113077A1 (en) Methods and systems for displaying content during a pause event
US20220368876A1 (en) Multi-track based immersive media playout
KR101823767B1 (ko) 사용자 요구 및 환경 맞춤형 콘텐츠 제공을 위한 메타 정보를 포함하는 멀티미디어 파일 구조 및 그 시스템
EP4423635A1 (en) Method for tracking distribution of a shared digital media file
US20240244299A1 (en) Content providing method and apparatus, and content playback method
CN114979704A (zh) 视频数据生成方法和系统、视频播放系统
KR20230034509A (ko) 동영상 공유 웹사이트에서 협업 컨텐츠로 인해 발생된 광고수익 분배 시스템 및 방법
CN116156216B (zh) 视频处理方法、装置、电子设备及存储介质
US12501086B2 (en) Server-generated mosaic video stream for live-stream media items

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination