CN116205200A - 视频封面的生成方法、装置、设备、介质及程序产品 - Google Patents
视频封面的生成方法、装置、设备、介质及程序产品 Download PDFInfo
- Publication number
- CN116205200A CN116205200A CN202111443257.0A CN202111443257A CN116205200A CN 116205200 A CN116205200 A CN 116205200A CN 202111443257 A CN202111443257 A CN 202111443257A CN 116205200 A CN116205200 A CN 116205200A
- Authority
- CN
- China
- Prior art keywords
- text
- video
- highlight
- candidate
- cover
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8146—Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
- H04N21/8153—Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics comprising still images, e.g. texture, background image
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/74—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/60—Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/27—Server based end-user applications
- H04N21/274—Storing end-user multimedia data in response to end-user request, e.g. network recorder
- H04N21/2743—Video hosting of uploaded data from client
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Library & Information Science (AREA)
- Computer Graphics (AREA)
- Computer Security & Cryptography (AREA)
- User Interface Of Digital Computer (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请公开了一种视频封面的生成方法、装置、设备、介质及程序产品,属于多媒体制作领域。所述方法包括:获取目标视频的视频标题和候选视频封面;确定视频标题的亮点文字;基于亮点文字以及候选视频封面的封面参数,确定亮点文字的排版参数;基于排版参数将亮点文字渲染至候选视频封面,生成目标视频的目标视频封面。该方案不仅大大提高了亮点文字的渲染效率,还进一步调节了亮点文字的制作效率与亮点文字的质量之间的矛盾。
Description
技术领域
本申请实施例涉及多媒体制作领域,特别涉及一种视频封面的生成方法、装置、设备、介质及程序产品。
背景技术
视频内容平台上容纳有海量的视频资源,为突出各个视频资源涉及的主题、核心观点和主要人物等,往往会在视频封面上添加亮点文字方便观看者快速定位至目标视频。
相关技术中,视频封面上的亮点文字是视频上传者精心设计的,十分引人入胜。比如,亮点文字设置有各式各样的艺术字体,亮点文字颜色与封面的背景颜色相互衬托等等。
上述亮点文字的制作非常消耗时间,在需要快速为大量的视频封面添加亮点文字的情况下,通过相关技术的方式无法调节亮点文字的制作效率和亮点文字的质量之间的矛盾。
发明内容
本申请提供了一种视频封面的生成方法、装置、设备、介质及程序产品,提高了视频封面上亮点文字的制作效率。所述技术方案如下:
根据本申请的一方面,提供了一种视频封面的生成方法,所述方法包括:
获取目标视频的视频标题和候选视频封面;
确定视频标题的亮点文字;
基于亮点文字以及候选视频封面的封面参数,确定亮点文字的排版参数;
基于排版参数将亮点文字渲染至候选视频封面,生成目标视频的目标视频封面。
根据本申请的另一方面,提供了一种视频封面的生成装置,所述装置包括:
获取模块,用于获取目标视频的视频标题和候选视频封面;
确定模块,用于确定视频标题的亮点文字;
确定模块,还用于基于亮点文字以及候选视频封面的封面参数,确定亮点文字的排版参数;
生成模块,用于基于排版参数将亮点文字渲染至候选视频封面,生成目标视频的目标视频封面。
根据本申请的一个方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上所述的视频封面的生成方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上所述的视频封面的生成方法。
根据本申请的另一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面提供的视频封面的生成方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过确定视频标题的亮点文字,以及亮点文字的排版参数,将亮点文字渲染至候选视频封面,提供了视频封面的生成方法。该方法不需要用户逐一设计亮点文字,仅根据视频标题和候选视频封面即可确定出亮点文字的内容和排版参数,大大提高了亮点文字的渲染效率,在需要快速为大量的视频添加亮点文字的情况下,调节了亮点文字的制作效率与亮点文字的质量之间的矛盾。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了一个示例性实施例提供的计算机系统的结构框图;
图2示出了一个示例性实施例提供的视频封面的生成方法的流程图;
图3示出了一个示例性实施例提供的基于第一种可能的亮点文字确定方式得到的目标视频封面的示意图;
图4示出了一个示例性实施例提供的基于第二种可能的亮点文字确定方式得到的目标视频封面的示意图;
图5示出了一个示例性实施例提供的基于第三种可能的亮点文字确定方式得到的目标视频封面的示意图;
图6示出了一个示例性实施例提供的基于第四种可能的亮点文字确定方式得到的目标视频封面的示意图;
图7示出了一个示例性实施例提供的基于第一种可能的排版参数确定方式得到的目标视频封面的示意图;
图8示出了一个示例性实施例提供的在两个候选位置上计算亮点文字的文本框与人脸框的重叠面积的示意图;
图9示出了一个示例性实施例提供的在两个候选位置上计算亮点文字的文本框的第一重叠面积和第二重叠面积的和值的示意图;
图10示出了一个示例性实施例提供的基于第二种可能的排版参数确定方式得到的目标视频封面的示意图;
图11示出了另一个示例性实施例提供的基于第二种可能的排版参数确定方式得到的目标视频封面的示意图;
图12示出了一个示例性实施例提供的基于第三种可能的排版参数确定方式得到的目标视频封面的示意图;
图13示出了一个示例性实施例提供的视频封面的生成方法的流程图;
图14示出了一个示例性实施例提供的视频封面的生成装置的结构框图;
图15示出了一个示例性实施例提供的计算机设备的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
应当理解的是,在本文中提及的“若干个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
首先,对本申请实施例中涉及的名词进行简单介绍:
视频封面:指用于代表视频的图像。在一个实施例中,视频封面指在视频处于待播放状态时显示的画面。例如,在视频网站上,视频网站首页显示出若干个视频的视频封面,响应于用户触控目标视频封面,即进入目标视频的播放界面。可选的,视频封面通过重新绘制得到,示意性的,用户在制作完视频之后,基于视频的主题、氛围和拍摄手法等制作视频封面;可选的,视频封面通过挑选视频中的某帧得到,示意性的,用户在制作完视频之后,从视频中挑选色彩最鲜丽的图像帧作为视频封面。
用户原创内容:用户原创内容(User Generated Content,UGC)也称为用户生成内容,用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户。例如,用户在视频网站的帐号上分享自己二次创作的视频,用户在社交平台上分享自己的日常动态等。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV):计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
语音技术(Speech Technology)的关键技术有ASR(Automatic Speech Recognition,自动语音识别技术)和TTS(Text To Speech,语音合成技术)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
图1示出了本申请一个示例性实施例提供的计算机系统的结构框图,计算机系统100包括终端120和服务器140。
终端120安装或运行有支持生成视频封面的应用程序。可选的,该应用程序包括客户端、网页、小程序和h5页面等,可选的,该应用程序可提供视频播放的功能,如常见的视频播放客户端;可选的,该应用程序可提供图像处理的功能,该应用程序可提供对图像进行编辑的工具(裁剪、调节亮度、调节饱和度等);可选的,该应用程序可提供音视频处理的功能,该应用程序可提供对视频进行编辑的工具(插帧、去帧、添加背景音效等)。在本申请中,终端120能实现在候选视频封面上添加亮点文字。
终端120通过无线网络或有线网络与服务器140相连。
服务器140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。示例性的,服务器140包括处理器144和存储器142,存储器142又包括接收模块1421、控制模块1422和发送模块1423,接收模块1421用于接收应用程序发送的请求,如处理视频标题的请求;控制模块1422用于控制视频标题的处理,以及将视频标题渲染至候选视频封面上;发送模块1423用于向应用程序发送响应,如向应用程序发送生成的目标视频封面。服务器140用于为支持生成视频封面的应用程序提供后台服务。可选地,服务器140承担主要计算工作,终端120承担次要计算工作;或者,服务器140承担次要计算工作,终端120承担主要计算工作。值得说明的是,上述对视频封面生成的工作量划分仅起到示例性作用,并不构成对本申请执行主体的实际工作的限定。
可选地,上述终端120上的应用程序可应用于不同操作系统平台(安卓或IOS)上。可选的,终端120的设备类型包括:智能手机、智能手表、车载终端、可穿戴设备、智能电视、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。
为提高视频封面上亮点文字的渲染效率,图2示出了本申请一个示例性实施例提供的视频封面的生成方法的流程图,以该方法应用于图1所示的计算机设备执行(可能是终端120单独执行,或,服务器140单独执行,或,终端120和服务器140协同执行)进行举例说明,该方法包括:
步骤220,获取目标视频的视频标题和候选视频封面;
目标视频:在本申请中指用于生成视频封面的视频。
在一个实施例中,目标视频是用户上传至平台的创作视频,比如,用户通过记录日常生活拍摄得到的视频日志,并将该视频日志上传至社交平台或视频内容平台;用户拍摄电影、电视剧、综艺等形式的视频之后上传至视频平台;用户通过二次创作,将原先视频进行处理得到的视频。在一个实施例中,目标视频是视频平台提供的视频,比如,视频内容平台上显示有各式各样的视频,比如电影版块-悬疑电影-历史评分排行榜-《盗梦空间》。在一个实施例中,目标视频是直播平台保存的直播视频,该直播视频可能是直播过程中已直播完成的视频片段,也可能是直播完成后的完整视频。
在一个实施例中,目标视频可以理解为视频片段,即在视频传输过程中的已完成传输的视频帧,本申请即为在视频传输过程中为目标视频生成目标视频封面。在一个实施例中,目标视频可以理解为完整视频,即在已获取完整视频的基础上,为目标视频生成目标视频封面。
视频标题:指用于生成亮点文字的原始标题。视频标题可以是上传视频前输入的标题,比如,用户上传创作视频至视频平台时输入的标题(也可能称为简介、内容说明等);视频标题也可以是视频平台基于目标视频生成的标题,比如,目标视频是用户二次创作得到的视频,视频平台基于二次创作前的视频的相关信息生成原始标题。值得说明的一点是,视频标题在本申请中仅作为生成亮点文字的原始标题,本申请对原始标题的来源并不加以限定。
候选视频封面:在本申请中指用于添加亮点文字的视频帧。候选视频封面可以是目标视频中的某帧,也可以是与目标视频相关的图像,比如,目标视频是对电影二次创作得到的视频,候选视频封面是电影的宣传海报(电影中未出现该海报图像)。
在一个实施例中,计算机设备从目标视频中抽出某帧作为候选视频封面,过程如下:计算机设备获取目标视频,之后计算机设备通过人脸检测模型获取目标视频中携带有人脸的视频帧,最后将该带有人脸的视频帧作为候选视频封面。其中,人脸检测模型是用于预测目标视频的视频帧中携带有人脸的概率的机器学习模型。可选的,人脸检测模型是基于携带有人脸的样本图像的图像集训练得到的。可选的,图像集包括第一样本图像和第二样本图像,第一样本图像是携带有人脸的样本图像,第二样本图像是不携带有人脸的样本图像。可选地,图像集还包括第三样本图像,第三样本图像是携带有部分人脸的样本图像(示意性的,第三样本图像仅携带有人脸的部分器官,如下巴、耳朵和眼睛),上述三种样本图像对应有人工标定的人脸概率标签。
可选的,人脸检测模型为MTCNN(Multi-task Convolutional Neural Network,多任务卷积神经网络)。可选的,人脸检测模型为FaceNet(一种用于人脸检测的神经网络)。可选的,计算机设备获取带有人脸的视频帧之后,还进行瑕疵处理(如去黑边、毛玻璃边等)。
步骤240,确定视频标题的亮点文字;
在获取目标视频的视频标题和候选视频封面之后,计算机设备确定视频标题的亮点文字。
亮点文字:在本申请中指添加在候选视频封面上,用于提高候选视频封面携带的信息量的文字。并且,亮点文字突出了目标视频的主题。
在一个实施例中,计算机设备可以通过以下四种方式中的任意一种确定视频标题的亮点文字。
·基于视频标题的句法结构,将视频标题的至少一个短语截取为亮点文字;
·基于视频标题和目标视频的文字识别结果和/或音频识别结果进行匹配,得到亮点文字;
·基于视频标题输入至文本生成模型,输出得到亮点文字;
·基于视频标题与视频标签进行匹配,得到亮点文字。
上述四种方式详细请参考下述第一种可能的亮点文字确定方式,至,第四种可能的亮点文字确定方式,本实施例不再赘述。
步骤260,基于亮点文字以及候选视频封面的封面参数,确定亮点文字的排版参数;
在确定亮点文字之后,基于亮点文字以及候选视频封面的封面参数,计算机设备确定亮点文字的排版参数。其中,封面参数指候选视频封面携带的参数信息,比如,候选视频封面的高度、宽度、候选视频封面上的人脸框、候选视频封面上自带文字的文本框、候选视频封面的亮度、候选视频封面的风格标签等。
亮点文字的排版参数:指亮点文字渲染在候选视频封面上的与排版相关的参数,比如,亮点文字的字号、渲染位置、颜色和字体等。
在一个实施例中,亮点文字的排版参数中的全部或部分参数是预设的。
在一个实施例中,计算机设备基于亮点文字以及候选视频封面的封面参数,确定亮点文字的排版参数,可以包括以下四种方式中的至少一种:
·基于亮点文字中容纳字数最多的行,以及候选视频封面的宽度,确定亮点文字的字号;
·基于亮点文字的文本框和候选视频封面上的人脸框之间的重叠程度,确定亮点文字的渲染位置;
·基于亮点文字的渲染位置上的亮度,确定亮点文字的颜色;
·基于候选视频封面的风格,确定亮点文字的字体。
上述四种方式详细请参考下述第一种可能的排版参数确定方式,至,第四种可能的排版参数确定方式,本实施例不再赘述。
步骤280,基于排版参数将亮点文字渲染至候选视频封面,生成目标视频的目标视频封面。
在一个实施例中,基于排版参数,计算机设备将亮点文字渲染至候选视频封面,生成目标视频的目标视频封面。
综上所述,通过确定视频标题的亮点文字,以及亮点文字的排版参数,将亮点文字渲染至候选视频封面,提供了视频封面的生成方法。该方法不需要用户逐一设计亮点文字,仅根据视频标题和候选视频封面即可确定出亮点文字的内容和排版参数,大大提高了亮点文字的渲染效率,在需要快速为大量的视频添加亮点文字的情况下,调节了亮点文字的制作效率与亮点文字的质量之间的矛盾。
下面将详细介绍步骤240中提及的四种可能的亮点文字确定方式。
第一种可能的亮点文字确定方式:基于视频标题的句法结构,将视频标题的至少一个短语截取为亮点文字。
句法结构:句法结构指示视频标题包括至少一个语句,每个语句内包括至少一个短语,短语是基于标点符号划分的。
在一个实施例中,基于视频标题中的句号、感叹号和问号中的任意一种可将视频标题划分为至少一个语句。基于视频标题中的逗号和分号中的任意一种可将视频标题中的任意一句话划分为至少两个短语。例如,视频标题为“A,B,C;D。E,F?G!”,即可确定该视频标题包括三个语句“A,B,C;D。”、“E,F?”和“G!”。第一个语句中包括四个短语A、B、C和D,第二个语句中包括两个短语E、F,第三个语句中包括一个短语G。
示意性的,视频标题为“出门看见人家的小狗,就走不动道了,爸爸给买了俩会叫的小狗,可把宝宝开心坏了,喜欢得不得了,摸起来也蛮舒服的呢!”。
在一个可选的实施例中,计算机设备选取视频标题的第一个语句;在第一个语句内的短语数量m不大于第一阈值n的情况下,计算机设备将第一个语句内的m个短语按序输出为亮点文字的m行文本;在第一个语句内的短语数量m大于第一阈值n的情况下,计算机设备将第一个语句内的n个短语按序输出为亮点文字的n行文本,其中,m、n为正整数。
可选的,第一阈值n的值为3。可选的,n个短语是第一个语句内的前n个短语、后n个短语或中间n个短语。可选的,n个短语是经由人工智能模型的注意力机制从第一个语句内挑选得到重要程度较高的n个短语。
示意性的,在上述视频标题中,仅具有一个语句,且第一个语句内包含6个短语,选取第一个语句内的前3个短语“出门看见人家的小狗”、“就走不动道了”和“爸爸给买了俩会叫的小狗”,按序输出为亮点文字的3行文本。
示意性的,图3(a)示出了将上述视频标题直接渲染至候选视频封面,可见,此时亮点文字十分臃肿且无法起到突出目标视频的重点的作用。图3(b)示出了将上述视频标题经过截取再渲染至候选视频封面,此时亮点文字更贴近观者的阅读习惯,且体现了目标视频的主题。
综上所述,通过截取视频标题内的第一个语句的短语,提供了一种亮点文字的确定方法,降低了确定亮点文字的难度,以及提高了亮点文字的渲染效率。
第二种可能的亮点文字确定方式:基于视频标题和目标视频的文字识别结果和/或音频识别结果进行匹配,得到亮点文字。
在一个实施例中,计算机设备将视频标题与目标视频的文字识别结果和/或音频识别结果进行匹配,得到匹配短语;在匹配短语的数量p不大于第二阈值q的情况下,计算机设备将p个匹配短语分别按序输出为亮点文字的p行文本;在匹配短语的数量p大于第二阈值q的情况下,计算机设备将p个匹配短语内的q个短语分别按序输出为亮点文字的q行文本,其中,p、q为正整数。
可选的,第二阈值q的值为3。可选的,q个短语是p个短语内的前q个短语、后q个短语或中间q个短语。可选的,q个短语是经由人工智能模型的注意力机制从匹配结果内挑选得到重要程度较高的q个短语。
可选的,文字识别结果基于光学字符识别(Optical Character Recognition,OCR)得到,音频识别结果基于自动语音识别(Automatic Speech Recognition,ASR)得到。
在一个实施例中,计算机设备将视频标题与目标视频的文字识别结果和/或音频识别结果进行匹配的方式可以包括:
基于视频标题的句法结构,计算机设备截取得到视频标题中的至少一个短语;之后,计算机设备将至少一个短语与目标视频的文字识别结果和/或音频识别结果进行匹配;之后,计算机设备确定至少一个短语在文字识别结果和/或音频识别结果中出现次数超过次数阈值的匹配短语。
示意性的,同上述第一种可能的亮点文字确定方式中的句法结构,计算机设备截取得到视频标题的至少一个短语(示意性的,至少一个短语为视频标题的全部短语)“出门看见人家的小狗”、“就走不动道了”、“爸爸给买了俩会叫的小狗”、“可把宝宝开心坏了”、“喜欢得不得了”和“摸起来也蛮舒服的呢”。计算机设备确定“爸爸给买了俩会叫的小狗”在目标视频的文字识别结果和/或音频识别结果出现了4次,“可把宝宝开心坏了”出现了3次,均达到次数阈值3,则在候选视频封面上渲染该两个短语。示意性的,图4示出了将上述标题与文字识别结果和/或音频识别结果匹配后,渲染至候选视频封面得到的目标视频封面。
综上所述,通过将视频标题匹配目标视频的文字识别结果和/或音频识别结果,提供了一种亮点文字的确定方法,加强了亮点文字与目标视频的内容的关联程度,使得亮点文字更能体现目标视频的主题,并且,提高了亮点文字的渲染效率。
第三种可能的亮点文字确定方式:基于视频标题输入至文本生成模型,输出得到的亮点文字。
在一个实施例中,计算机设备将视频标题输入至文本生成模型,输出候选亮点文字,之后,在候选亮点文字内的短语数量k不大于第三阈值j的情况下,计算机设备将k个短语分别按序输出为亮点文字的k行文本;在候选亮点文字内的短语数量k大于第三阈值j的情况下,计算机设备将候选亮点文字内的j个短语分别按序输出为亮点文字的j行文本,其中,k、j为正整数。
可选的,j的值为3。可选的,j个短语是候选亮点文字内的前j个短语、后j个短语或中间j个短语。可选的,j个短语是经由人工智能模型的注意力机制从候选亮点文字内挑选得到重要程度较高的j个短语。
可选的,文本生成模型通过概括视频标题的中心思想,输出与中心思想匹配的候选亮点文字;例如,上述视频标题“出门看见人家的小狗,就走不动道了,爸爸给买了俩会叫的小狗,可把宝宝开心坏了,喜欢得不得了,摸起来也蛮舒服的呢!”,文本生成模型确定该标题的关键词“小狗”、“宝宝”、“喜欢”,文本生成模型从基础语料库中选择关键词相匹配的语句集合,再从语句集合中筛选出与视频标题相似度最高的语句作为候选亮点文字,如“爸爸给宝宝带回来小狗,宝宝喜欢得不得了”。
可选的,上述输出候选亮点文字之后,计算机设备通过分词工具对候选亮点文字进行分词,得到候选亮点文字的k个短语。例如,通过分词工具分词得到候选亮点文字的2个短语“爸爸给宝宝带回来小狗”和“宝宝喜欢得不得了”。示例性的,图5示出了将上述2个短语渲染至候选视频封面得到的目标视频封面的示意图。
综上所述,通过文本生成模型输出亮点文字,提供了一种亮点文字的确定方法,通过概括视频标题的中心思想,使得亮点文字用更加简练的文字表达了视频标题,并且,提高了亮点文字的渲染效率。
第四种可能的亮点文字确定方式:基于视频标题与视频标签进行匹配,得到亮点文字。
视频标签:指与目标视频相对应的标签。比如,目标视频是与小狗相关的视频,则标签可能为“动物-狗”;目标视频是《盗梦空间》,则标签可能是“电影版块-悬疑电影-历史评分排行榜”;目标视频是《火影忍者》,则标签可能是“动漫-热血”。
在一个实施例中,基于视频标题的短语中出现了视频标签的相关文字,则选择包含该相关文字的至少一个短语作为亮点文字。如,选取视频标题“出门看见人家的小狗,就走不动道了,爸爸给买了俩会叫的小狗,可把宝宝开心坏了,喜欢得不得了,摸起来也蛮舒服的呢!”中的“出门看见人家的小狗”、“爸爸给买了俩会叫的小狗”作为亮点文字,该视频标题的标签为“动物”“狗”。示意性的,图6示出了将上述短语渲染至候选视频封面得到的目标视频封面的示意图。
综上所述,通过视频标题与视频标签的匹配,得到亮点文字,提供了一种亮点文字的确定方式,加强了亮点文字与视频标签的关联程度,并且,提高了亮点文字的渲染效率。
综上所述,上述第一种可能的亮点文字确定方式,至,第四种可能的亮点文字确定方式,不仅提供了四种亮点文字的确定方式,还提供了提高亮点文字的渲染速率的方式。
下面将详细介绍步骤260中提及的四种可能的排版参数确定方式。
第一种可能的排版参数的确定方式:基于亮点文字中容纳字数最多的行,以及候选视频封面的宽度,确定亮点文字的字号。
在一个实施例中,计算机设备首先确定亮点文字中容纳字数最多的行;之后,基于候选视频封面的宽度,计算机设备确定容纳字数最多的行中的各个文字的总宽度,以及单个文字的宽度;最后,计算机设备基于单个文字的宽度确定亮点文字的字号。
其中,步骤240已经确定了亮点文字,即可确定得到亮点文字的行数以及每行字数。
示例性的,计算机设备确定亮点文字分为a行,每行字数分别为l1、l2、l3、l4…la,确定容纳字数最多的行为第二行,候选视频封面的宽度为w,根据预设比例b,确定第二行中各个文字的总宽度为w*b,则第二行单个文字的宽度为(w*b)/l2。
可选的,若候选视频封面为横图,预设比例b的取值为40%,若候选视频封面为竖图,预设比例b的取值为80%。
示意性的,图7示出了亮点文字在候选视频封面上渲染得到的目标视频封面,候选视频封面宽度为720px,亮点文字共两行分别为5和4个字,则字号为(720*80%)/5=115px。
综上所述,通过亮点文字和候选视频封面的宽度,确定亮点文字的字号,提供了一种确定亮点文字的字号的方法,使得亮点文字在候选视频封面上显得更加匀称得体,进一步提高了亮点文字的渲染效率。
第二种可能的排版参数的确定方式:基于亮点文字的文本框和候选视频封面上的人脸框之间的重叠程度,确定亮点文字的渲染位置。
在一个实施例中,计算机设备基于亮点文字和亮点文字的字号,确定亮点文字的文本框;之后,计算机设备确定候选视频封面上的人脸框;计算机设备通过划窗计算亮点文字的文本框在候选视频封面上的至少两个候选位置分别与人脸框的重叠面积;最后,计算机设备将重叠面积最小时亮点文字的文本框所在的候选位置,作为亮点文字在候选视频封面的渲染位置。
示意性的,亮点文字共a行,容纳字数最多的行字数为c,字号为d,则可确定亮点文字的文本框高为a*d,宽为c*d。
示意性的,候选视频封面的宽w,候选视频封面的高h,可选的,设置划窗的方式为从左往右划窗,大小为0.1w,从上往下划窗,大小为0.1h。示意性的,初始亮点文字的文本框的左上角坐标为(0,h),若一次向右划窗后则亮点文字的文本框的左上角坐标为(0.1w,h),若一次向下划窗后则亮点文字的文本框的左上角坐标为(0,0.9h)。
示意性的,图8示出了通过划窗计算亮点文字的文本框与人脸框的重叠面积的示意图。图8(a)示出了在第一个候选位置亮点文字的文本框,图8(b)示出了在第二个候选位置亮点文字的文本框。通过划窗即可计算亮点文字的文本框在候选视频封面上的至少两个候选位置分别与人脸框的重叠面积。
在一个实施例中,在存在至少两个最小重叠面积相等的情况下,计算机设备确定与最小重叠面积对应的至少两个亮点文字的文本框覆盖的至少两个区域;之后,计算机设备将至少两个区域中红绿蓝(RGB)方差最小的区域(文字框覆盖区域中变化范围最小的区域)所在的候选位置,作为亮点文字在候选视频封面的渲染位置。
在一个实施例中,计算机设备基于亮点文字和亮点文字的字号,确定亮点文字的文本框;之后,计算机设备候选视频封面上的人脸框和自带文字的文本框;计算机设备通过划窗计算亮点文字的文本框分别在候选视频封面的至少两个候选位置上第一重叠面积和第二重叠面积的和值,计算机设备将和值最小时亮点文字的文本框所在的候选位置,作为亮点文字在候选视频封面的渲染位置。
其中,第一重叠面积是亮点文字的文本框和自带的文本框的重叠面积,第二重叠面积是亮点文字的文本框和人脸框的重叠面积。
可选的,通过光学字符识别(Optical Character Recognition,OCR)检测候选视频封面上的自带文字。
示意性的,图9示出了通过划窗计算亮点文字的文本框的第一重叠面积和第二重叠面积的和值的示意图。图9(a)示出了在第一个候选位置亮点文字的文本框,图9(b)示出了在第二个候选位置亮点文字的文本框。通过划窗即可计算亮点文字的文本框在候选视频封面上的至少两个候选位置上第一重叠面积和第二重叠面积的和值。
图10示出了基于亮点文字的渲染位置,将亮点文字渲染至候选视频封面得到的目标视频封面。其中“才发现这个车头的右前方受损了”为候选视频封面的自带文字。
可选的,在候选视频封面为横图的情况下,亮点文字常常设置于候选视频封面的下1/3到底部区域,在候选视频封面为竖图的情况下,亮点文字常常设置于候选视频封面的中央且居中对齐。
在一个实施例中,若检测得到的候选视频封面的自带文字包含了亮点文本的内容,则不再执行生成目标视频封面的方法。示意性的,图11示出了此时若再渲染亮点文字至候选视频封面的示意图,图11中右边区域的文字为自带文字,靠近下方区域的文字为亮点文字,可以看出图11上具有的文字信息重复,显得十分臃肿。
综上所述,通过亮点文字的文本框和候选视频封面上的人脸框之间的重叠程度,确定亮点文字的渲染位置,提供了一种确定亮点文字的渲染位置的方法,降低了亮点文字与人脸框的重叠面积,使得显示出的亮点文字更加清楚美观,进一步提高了亮点文字的渲染效率。
第三种可能的排版参数的确定方式:基于亮点文字的渲染位置上的亮度,确定亮点文字的颜色。
在一个实施例中,计算机设备获取亮点文字的渲染位置在候选视频封面上指示的第一区域;在第一区域的亮度大于第四阈值的情况下,计算机设备确定亮点文字采用第一颜色;在第一区域的亮度不大于第四阈值的情况下,计算机设备确定亮点文字采用第一颜色,以及在亮点文字的每个文字上添加第二颜色的外边框。
可选的,计算机设备还通过以下步骤计算第一区域的亮度。
S1:计算第一区域从红绿蓝(RGB)空间转换至亮度色度(YUV)空间;
S2:计算第一区域的亮度比例;亮度比例是第一区域内在亮度(Y)空间的像素值大于第五阈值的像素点,与,第一区域内所有像素点的数量的比例;
S3:基于亮度比例,确定第一区域的亮度。
可选的,第一颜色为黄色,RGB值为243,236,42。可选的,第一颜色是预设的。可选的,第一颜色是通过检测第一区域上的色调、色相、饱和度、对比度和亮度中的至少一种确定的,比如,检测得到候选视频封面的亮度较高,则选取第一颜色。
可选的,第二颜色为黑色。第一颜色和第二颜色是不同的两种颜色。可选的,第二颜色是预设的。可选的,第二颜色是通过检测第一区域上的色调、色相、饱和度、对比度和亮度中的至少一种确定的,比如,检测得到候选视频封面的亮度较高,则选取第二颜色(第二颜色相比于第一颜色,更能降低第一区域的亮度对亮点文字的清晰度造成的影响)。
可选的,外边框的大小为1px。
可选的,第四阈值为99%,第五阈值为90%。
示意性的,候选视频封面的宽为w、高为h,则共计w*h个像素点。
则第一区域的亮度大于第四阈值的情况,即,满足公式:
np.sum(Y[i,j]>255*0.9)>0.99*w*h;
则第一区域的亮度不大于第四阈值的情况,即,满足公式:
np.sum(Y[i,j]>255*0.9)≤0.99*w*h;
其中,np.sum()表示统计到的像素点个数。
示意性的,图12(a)示出了亮点文字采用第一颜色渲染至候选视频封面的示意图。图12(b)示出了亮点文字采用第一颜色,以及在亮点文字的每个文字上添加第二颜色的外边框,之后渲染至候选视频封面的示意图。
综上所述,通过亮点文字的渲染位置上的亮度,确定亮点文字的颜色,提供了一种确定亮点文字的颜色的方法,避免亮点文字在候选视频封面上模糊不清,进一步提高了亮点文字的渲染效率。
第四种可能的排版参数的确定方式:基于候选视频封面的风格,确定亮点文字的字体。
在一个实施例中,计算机设备通过封面检测模型确定候选视频封面的风格;之后,计算机设备确定与候选视频封面的风格匹配的第一字体;最后,计算机设备将第一字体确定为亮点文字的字体。
可选的,第一字体为方方正正的字体,如楷体、黑体、宋体、仿宋体和隶书等。可选的,第一字体为艺术字体,如立体字、投影字、金属字、木纹字、水晶字、火焰字、浮雕字、流光字和鼠绘字等。
其中,封面检测模型是基于候选视频封面的图像参数和/或内容,预测候选视频封面的风格的机器学习模型。
可选的,封面检测模型根据候选视频封面的图像参数确定候选视频封面的风格,可选的,图像参数包括亮度、对比度、饱和度中的至少一种。
可选的,封面检测模型还根据候选视频封面的内容确定候选视频封面的风格,比如,封面检测模型识别得到候选视频封面包含花草、动物和太阳,再结合候选视频封面的高亮度、高饱和度,确定候选视频封面的风格为清新明亮;封面检测模型识别得到候选视频封面包含时尚穿搭、高挑模特和惊艳造型,再结合候选视频封面的高亮度、高对比度,确定候选视频封面的风格为商业时尚。
可选的,封面检测模型为级联神经网络,首先输入候选视频封面,经过图像检测模型得到候选视频封面的图像参数(亮度、对比度、饱和度等),再经过图像识别模型得到候选视频封面的内容(动物、植物等),最后进行风格匹配,输出候选视频封面的风格。
可选的,封面检测模型是基于样本图像集训练得到的,可选的,该样本图像集包括设置有风格标签的样本图像。
可选的,图像识别模型为CNN(Convolutional Neural Network,卷积神经网络),CNN可以是alexNet网络、VGG-16网络等等。另外,对CNN进行训练并得到图像识别模型所采用的算法可以是采用faster RCNN算法、RCNN算法等等。本申请实施例对CNN,以及训练CNN的算法不作具体限定。
示意性的,下表1示出了候选视频封面的风格和亮点文字的字体的对应关系。
表1
| 候选视频封面的风格 | 字体 |
| 清新明亮 | 立体字 |
| 严肃恐怖 | 黑体 |
| 搞怪动漫 | 火焰字 |
| 商业时尚 | 宋体 |
可选的,候选视频封面为清新明亮的风格,确定采用立体字。
可选的,候选视频封面为严肃恐怖的风格,确定采用黑体。
可选的,候选视频封面为搞怪动漫的风格,确定采用火焰字。
可选的,候选视频封面为商业时尚的风格,确定采用宋体。
综上所述,通过候选视频封面的风格,确定亮点文字的字体,提供了一种确定亮点文字的字体的方法,加强了亮点文字与候选视频封面之间的关联程度,进一步提高了亮点文字的渲染效率。
综上所述,第一种可能的排版参数的确定方式,至,第四种可能的排版参数的确定方式,不仅提供了四种亮点文字的排版参数的确定方式,还加快了确定排版参数的速率,进而保证了亮点文字的渲染速率。
图13示出了本申请一个示例性实施例提供的视频封面的生成方法的流程图。
步骤1301,视频平台获取目标视频;
视频平台获取用户上传的目标视频,比如,用户通过记录日常生活拍摄得到的视频日志,并将该视频日志上传至社交平台。又比如,用户上传教育资源类的目标视频至云存储平台(可能被称为网盘)。又比如,用户上传评测电子产品的视频至科技论坛;又比如,用户上传微电影至视频内容平台。
在一个实施例中,用户在上传视频时输入视频标题(也可能称为简介、内容说明等)。
步骤1302,响应于接收到同意增添亮点文字的操作,视频平台确认执行增添亮点文字的操作;
在用户上传目标视频至视频平台时,视频平台提供亮点文字的增添选项,用户选择同意增添亮点文字,即用户同意视频平台基于视频标题确定亮点文字,并将亮点文字渲染至候选视频封面。
响应于视频平台接收到用户同意增添亮点文字的操作,视频平台确认执行增添亮点文字的操作。
步骤1303,视频平台确定目标视频通过审核;
视频平台审核目标视频的内容,若目标视频的内容符合规范,则进行后续步骤。
步骤1304,亮点文字生成;
在一个实施例中,视频平台基于视频标题、候选视频封面,热门文案、文案模板和关键词助手,确定得到亮点文字和亮点文字的排版参数。
步骤1305,亮点文字渲染至候选视频封面;
视频平台根据亮点文字和亮点文字的排版参数,将亮点文字渲染至候选视频封面。在一个实施例中,候选视频封面是根据目标视频抽帧,之后通过图片模板助手进行人脸检测和瑕疵检测得到的。
步骤1306,目标视频标准化;
视频平台对目标视频进行标准化处理。
步骤1307,视频平台确定目标视频以及目标视频封面达到推荐要求;
可选的,视频平台通过人工确定目标视频以及目标视频封面达到推荐要求。
步骤1308,在视频网站首页显示目标视频封面。
视频平台确定在视频网站首页显示目标视频封面。
图14示出了本申请一个示例性实施例提供的视频封面的生成装置的结构框图,该装置包括:
获取模块1401,用于获取目标视频的视频标题和候选视频封面;
确定模块1402,用于确定视频标题的亮点文字;
确定模块1402,还用于基于亮点文字以及候选视频封面的封面参数,确定亮点文字的排版参数;
生成模块1403,用于基于排版参数将亮点文字渲染至候选视频封面,生成目标视频的目标视频封面。
在一个可选的实施例中,确定模块1402还用于基于视频标题的句法结构,将视频标题的至少一个短语截取为亮点文字。
在一个可选的实施例中,确定模块1402还用于选取视频标题的第一个语句。
在一个可选的实施例中,确定模块1402还用于在第一个语句内的短语数量m不大于第一阈值n的情况下,将第一个语句内的m个短语按序输出为亮点文字的m行文本。
在一个可选的实施例中,确定模块1402还用于在第一个语句内的短语数量m大于第一阈值n的情况下,将第一个语句内的n个短语按序输出为亮点文字的n行文本;其中,m、n为正整数。
在一个可选的实施例中,确定模块1402还用于将视频标题与目标视频的文字识别结果和/或音频识别结果进行匹配,得到匹配短语。
在一个可选的实施例中,确定模块1402还用于在匹配短语的数量p不大于第二阈值q的情况下,将p个匹配短语分别按序输出为亮点文字的p行文本。
在一个可选的实施例中,确定模块1402还用于在匹配短语的数量p大于第二阈值q的情况下,将p个短语内的q个匹配短语分别按序输出为亮点文字的q行文本;其中,p、q为正整数。
在一个可选的实施例中,确定模块1402还用于基于视频标题的句法结构,截取得到视频标题中的至少一个短语。
在一个可选的实施例中,确定模块1402还用于将至少一个短语逐一与目标视频的文字识别结果和/或音频识别结果进行匹配。
在一个可选的实施例中,确定模块1402还用于确定至少一个短语在文字识别结果和/或音频识别结果中出现次数超过次数阈值的匹配短语。
在一个可选的实施例中,确定模块1402还用于将视频标题输入至文本生成模型,输出候选亮点文字,文本生成模型通过概括视频标题的中心思想,输出与中心思想匹配的候选亮点文字。
在一个可选的实施例中,确定模块1402还用于在候选亮点文字内的短语数量k不大于第三阈值j的情况下,将k个短语分别按序输出为亮点文字的k行文本。
在一个可选的实施例中,确定模块1402还用于在候选亮点文字内的短语数量k大于第三阈值j的情况下,将候选亮点文字内的j个短语分别按序输出为亮点文字的j行文本;其中,k、j为正整数。
在一个可选的实施例中,确定模块1402还用于通过分词工具对候选亮点文字进行分词,得到候选亮点文字的k个短语。
在一个可选的实施例中,亮点文字的排版参数包括亮点文字的字号,确定模块1402还用于基于亮点文字中容纳字数最多的行,以及候选视频封面的宽度,确定亮点文字的字号。
在一个可选的实施例中,确定模块1402还用于确定亮点文字中容纳字数最多的行。
在一个可选的实施例中,确定模块1402还用于基于候选视频封面的宽度,确定容纳字数最多的行中的各个文字的总宽度,以及单个文字的宽度。
在一个可选的实施例中,确定模块1402还用于基于单个文字的宽度确定亮点文字的字号。
在一个可选的实施例中,亮点文字的排版参数包括亮点文字的渲染位置,确定模块1402还用于基于亮点文字的文本框和候选视频封面上的人脸框之间的重叠程度,确定亮点文字的渲染位置。
在一个可选的实施例中,确定模块1402还用于基于亮点文字和亮点文字的字号,确定亮点文字的文本框。
在一个可选的实施例中,确定模块1402还用于确定候选视频封面上的人脸框。
在一个可选的实施例中,确定模块1402还用于通过划窗计算亮点文字的文本框在候选视频封面上的至少两个候选位置分别与人脸框的重叠面积。
在一个可选的实施例中,确定模块1402还用于将重叠面积最小时亮点文字的文本框所在的候选位置,作为亮点文字在候选视频封面的渲染位置。
在一个可选的实施例中,确定模块1402还用于在存在至少两个最小重叠面积相等的情况下,确定与最小重叠面积对应的至少两个亮点文字的文本框覆盖的至少两个区域。
在一个可选的实施例中,确定模块1402还用于将至少两个区域中红绿蓝方差最小的区域所在的候选位置,作为亮点文字在候选视频封面的渲染位置。
在一个可选的实施例中,确定模块1402还用于确定候选视频封面上自带文字的文本框。
在一个可选的实施例中,确定模块1402还用于通过划窗计算亮点文字的文本框分别在候选视频封面的至少两个候选位置上第一重叠面积和第二重叠面积的和值,第一重叠面积是亮点文字的文本框和自带的文本框的重叠面积,第二重叠面积是亮点文字的文本框和人脸框的重叠面积。
在一个可选的实施例中,确定模块1402还用于将和值最小时亮点文字的文本框所在的候选位置,作为亮点文字在候选视频封面的渲染位置。
在一个可选的实施例中,亮点文字的排版参数包括亮点文字的颜色,确定模块1402还用于获取亮点文字的渲染位置在候选视频封面上指示的第一区域。
在一个可选的实施例中,确定模块1402还用于在第一区域的亮度大于第四阈值的情况下,确定亮点文字采用第一颜色。
在一个可选的实施例中,确定模块1402还用于在第一区域的亮度不大于第四阈值的情况下,确定亮点文字采用第一颜色,以及在亮点文字的每个文字上添加第二颜色的外边框。
在一个可选的实施例中,确定模块1402还用于将第一区域从红绿蓝(RGB)空间转换至亮度色度(YUV)空间。
在一个可选的实施例中,确定模块1402还用于计算第一区域的亮度比例;亮度比例是第一区域内在亮度(Y)空间的像素值大于第五阈值的像素点,与,第一区域内所有像素点的数量的比例。
在一个可选的实施例中,确定模块1402还用于基于亮度比例,确定第一区域的亮度。
在一个可选的实施例中,亮点文字的排版参数包括亮点文字的字体,确定模块1402还用于通过封面检测模型确定候选视频封面的风格,封面检测模型是基于候选视频封面的图像参数和/或内容,预测候选视频封面的风格的机器学习模型。
在一个可选的实施例中,确定模块1402还用于确定与候选视频封面的风格匹配的第一字体。
在一个可选的实施例中,确定模块1402还用于将第一字体确定为亮点文字的字体。
在一个可选的实施例中,获取模块1401还用于获取目标视频。
在一个可选的实施例中,获取模块1401还用于通过人脸检测模型获取目标视频中携带有人脸的视频帧,人脸检测模型是用于预测目标视频的视频帧中携带有人脸的概率的机器学习模型。
在一个可选的实施例中,确定模块1402还用于将视频帧作为候选视频封面。
综上所述,上述装置通过确定视频标题的亮点文字,以及亮点文字的排版参数,将亮点文字渲染至候选视频封面,最终生成了目标视频封面。该装置不需要用户逐一手动设计亮点文字,仅根据视频标题和候选视频封面即可确定出亮点文字的内容和排版参数,大大提高了亮点文字的渲染效率,在需要快速为大量的视频添加亮点文字的情况下,调节了亮点文字的制作效率与亮点文字的质量之间的矛盾。
图15示出了本申请一个示例性实施例提供的计算机设备1500的结构框图。该计算机设备1500可以是终端或服务器。
通常,计算机设备1500包括有:处理器1501和存储器1502。
处理器1501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1501可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1501可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1501还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1502中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1501所执行以实现本申请中方法实施例提供的视频封面的生成方法。
在一些实施例中,计算机设备1500还可选包括有:外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。示例地,外围设备可以包括:射频电路1504、显示屏1505、摄像头组件1506、音频电路1507、定位组件1508和电源1509中的至少一种。
外围设备接口1503可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1501和存储器1502。在一些实施例中,处理器1501、存储器1502和外围设备接口1503被集成在同一芯片或电路板上;在一些其他实施例中,处理器1501、存储器1502和外围设备接口1503中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1504用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1504将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1504包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及15G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1504还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1505用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1505是触摸显示屏时,显示屏1505还具有采集在显示屏1505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1501进行处理。此时,显示屏1505还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1505可以为一个,设置在计算机设备1500的前面板;在另一些实施例中,显示屏1505可以为至少两个,分别设置在计算机设备1500的不同表面或呈折叠设计;在另一些实施例中,显示屏1505可以是柔性显示屏,设置在计算机设备1500的弯曲表面上或折叠面上。甚至,显示屏1505还可以设置成非矩形的不规则图形,也即异形屏。显示屏1505可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(OrganicLight-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1506用于采集图像或视频。可选地,摄像头组件1506包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1506还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1501进行处理,或者输入至射频电路1504以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在计算机设备1500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1501或射频电路1504的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1507还可以包括耳机插孔。
定位组件1508用于定位计算机设备1500的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。定位组件1508可以是基于美国的GPS(Global Positioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源1509用于为计算机设备1500中的各个组件进行供电。电源1509可以是交流电、直流电、一次性电池或可充电电池。当电源1509包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,计算机设备1500还包括有一个或多个传感器1510。该一个或多个传感器1510包括但不限于:加速度传感器1511、陀螺仪传感器1512、压力传感器1513、指纹传感器1514、光学传感器1515以及接近传感器1516。
加速度传感器1511可以检测以计算机设备1500建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1511可以用于检测重力加速度在三个坐标轴上的分量。处理器1501可以根据加速度传感器1511采集的重力加速度信号,控制显示屏1505以横向视图或纵向视图进行用户界面的显示。加速度传感器1511还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1512可以检测计算机设备1500的机体方向及转动角度,陀螺仪传感器1512可以与加速度传感器1511协同采集用户对计算机设备1500的3D动作。处理器1501根据陀螺仪传感器1512采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1513以设置在计算机设备1500的侧边框和/或显示屏1505的下层。当压力传感器1513设置在计算机设备1500的侧边框时,可以检测用户对计算机设备1500的握持信号,由处理器1501根据压力传感器1513采集的握持信号进行左右手识别或快捷操作。当压力传感器1513设置在显示屏1505的下层时,由处理器1501根据用户对显示屏1505的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1514用于采集用户的指纹,由处理器1501根据指纹传感器1514采集到的指纹识别用户的身份,或者,由指纹传感器1514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1501授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1514可以被设置在计算机设备1500的正面、背面或侧面。当计算机设备1500上设置有物理按键或厂商Logo时,指纹传感器1514可以与物理按键或厂商Logo集成在一起。
光学传感器1515用于采集环境光强度。在一个实施例中,处理器1501可以根据光学传感器1515采集的环境光强度,控制显示屏1505的显示亮度。示例地,当环境光强度较高时,调高显示屏1505的显示亮度;当环境光强度较低时,调低显示屏1505的显示亮度。在另一个实施例中,处理器1501还可以根据光学传感器1515采集的环境光强度,动态调整摄像头组件1506的拍摄参数。
接近传感器1516,也称距离传感器,通常设置在计算机设备1500的前面板。接近传感器1516用于采集用户与计算机设备1500的正面之间的距离。在一个实施例中,当接近传感器1516检测到用户与计算机设备1500的正面之间的距离逐渐变小时,由处理器1501控制显示屏1505从亮屏状态切换为息屏状态;当接近传感器1516检测到用户与计算机设备1500的正面之间的距离逐渐变大时,由处理器1501控制显示屏1505从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图15中示出的结构并不构成对计算机设备1500的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本申请还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方法实施例提供的视频封面的生成方法。
本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例提供的视频封面的生成方法。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (20)
1.一种视频封面的生成方法,其特征在于,所述方法包括:
获取目标视频的视频标题和候选视频封面;
确定所述视频标题的亮点文字;
基于所述亮点文字以及所述候选视频封面的封面参数,确定所述亮点文字的排版参数;
基于所述排版参数将所述亮点文字渲染至所述候选视频封面,生成所述目标视频的目标视频封面。
2.根据权利要求1所述的方法,其特征在于,所述确定所述视频标题的亮点文字,包括:
基于所述视频标题的句法结构,将所述视频标题的至少一个短语截取为所述亮点文字。
3.根据权利要求2所述的方法,其特征在于,所述基于所述视频标题的句法结构,将所述视频标题的至少一个短语截取为所述亮点文字,包括:
选取所述视频标题的第一个语句;
在所述第一个语句内的短语数量m不大于第一阈值n的情况下,将所述第一个语句内的m个短语按序输出为所述亮点文字的m行文本;
在所述第一个语句内的短语数量m大于所述第一阈值n的情况下,将所述第一个语句内的n个短语按序输出为所述亮点文字的n行文本;
其中,m、n为正整数。
4.根据权利要求1所述的方法,其特征在于,所述确定所述视频标题的亮点文字,包括:
将所述视频标题与所述目标视频的文字识别结果和/或音频识别结果进行匹配,得到匹配短语;
在所述匹配短语的数量p不大于第二阈值q的情况下,将p个所述匹配短语分别按序输出为所述亮点文字的p行文本;
在所述匹配短语的数量p大于所述第二阈值q的情况下,将p个所述匹配短语内的q个短语分别按序输出为所述亮点文字的q行文本;
其中,p、q为正整数。
5.根据权利要求4所述的方法,其特征在于,所述将所述视频标题与所述目标视频的文字识别结果和/或音频识别结果进行匹配,得到匹配短语,包括:
基于所述视频标题的句法结构,截取得到所述视频标题中的至少一个短语;
将所述至少一个短语与所述目标视频的文字识别结果和/或音频识别结果进行匹配;
确定所述至少一个短语在所述文字识别结果和/或音频识别结果中出现次数超过次数阈值的匹配短语。
6.根据权利要求1所述的方法,其特征在于,所述确定所述视频标题的亮点文字,包括:
将所述视频标题输入至文本生成模型,输出候选亮点文字,所述文本生成模型通过概括所述视频标题的中心思想,输出与所述中心思想匹配的所述候选亮点文字;
在所述候选亮点文字内的短语数量k不大于第三阈值j的情况下,将所述k个短语分别按序输出为所述亮点文字的k行文本;
在所述候选亮点文字内的短语数量k大于所述第三阈值j的情况下,将所述候选亮点文字内的j个短语分别按序输出为所述亮点文字的j行文本;
其中,k、j为正整数。
7.根据权利要求1至6任一所述的方法,其特征在于,所述亮点文字的排版参数包括所述亮点文字的字号;
所述基于所述亮点文字以及所述候选视频封面的封面参数,确定所述亮点文字的排版参数,包括:
基于所述亮点文字中容纳字数最多的行,以及所述候选视频封面的宽度,确定所述亮点文字的字号。
8.根据权利要求7所述的方法,其特征在于,所述基于所述亮点文字中容纳字数最多的行,以及所述候选视频封面的宽度,确定所述亮点文字的字号,包括:
确定所述亮点文字中容纳字数最多的行;
基于所述候选视频封面的宽度,确定所述容纳字数最多的行中的各个文字的总宽度,以及单个文字的宽度;
基于所述单个文字的宽度确定所述亮点文字的字号。
9.根据权利要求1至6任一所述的方法,其特征在于,所述亮点文字的排版参数包括所述亮点文字的渲染位置;
所述基于所述亮点文字以及所述候选视频封面的封面参数,确定所述亮点文字的排版参数,包括:
基于所述亮点文字的文本框和所述候选视频封面上的人脸框之间的重叠程度,确定所述亮点文字的渲染位置。
10.根据权利要求9所述的方法,其特征在于,所述基于所述亮点文字的文本框和所述候选视频封面上的人脸框之间的重叠程度,确定所述亮点文字的渲染位置,包括:
基于所述亮点文字和所述亮点文字的字号,确定所述亮点文字的文本框;
确定所述候选视频封面上的人脸框;
通过划窗计算所述亮点文字的文本框在所述候选视频封面上的至少两个候选位置分别与所述人脸框的重叠面积;
将所述重叠面积最小时所述亮点文字的文本框所在的候选位置,作为所述亮点文字在所述候选视频封面的渲染位置。
11.根据权利要求10所述的方法,其特征在于,所述将所述重叠面积最小时所述亮点文字的文本框所在的候选位置,作为所述亮点文字在所述候选视频封面的渲染位置,包括:
在存在至少两个最小重叠面积相等的情况下,确定与所述最小重叠面积对应的至少两个所述亮点文字的文本框覆盖的至少两个区域;
将所述至少两个区域中红绿蓝RGB方差最小的区域所在的候选位置,作为所述亮点文字在所述候选视频封面的渲染位置。
12.根据权利要求10所述的方法,其特征在于,所述方法还包括:确定所述候选视频封面上自带文字的文本框;
所述通过划窗计算所述亮点文字的文本框在所述候选视频封面上的至少两个候选位置分别与所述人脸框的重叠面积,包括:
通过划窗计算所述亮点文字的文本框分别在所述候选视频封面的至少两个候选位置上第一重叠面积和第二重叠面积的和值,所述第一重叠面积是所述亮点文字的文本框和所述自带的文本框的重叠面积,所述第二重叠面积是所述亮点文字的文本框和所述人脸框的重叠面积;
所述将所述重叠面积最小时所述亮点文字的文本框所在的候选位置,作为所述亮点文字在所述候选视频封面的渲染位置,包括:
将所述和值最小时所述亮点文字的文本框所在的候选位置,作为所述亮点文字在所述候选视频封面的渲染位置。
13.根据权利要求1至6任一所述的方法,其特征在于,所述亮点文字的排版参数包括所述亮点文字的颜色;
所述基于所述亮点文字以及所述候选视频封面的封面参数,确定所述亮点文字的排版参数,包括:
获取所述亮点文字的渲染位置在所述候选视频封面上指示的第一区域;
在所述第一区域的亮度大于第四阈值的情况下,确定所述亮点文字采用第一颜色;
在所述第一区域的亮度不大于第四阈值的情况下,确定所述亮点文字采用所述第一颜色,以及在所述亮点文字的每个文字上添加第二颜色的外边框。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
将所述第一区域从红绿蓝RGB空间转换至亮度色度YUV空间;
计算所述第一区域的亮度比例;所述亮度比例是所述第一区域内在亮度Y空间的像素值大于第五阈值的像素点,与,所述第一区域内所有像素点的数量的比例;
基于所述亮度比例,确定所述第一区域的亮度。
15.根据权利要求1至6任一所述的方法,其特征在于,所述亮点文字的排版参数包括所述亮点文字的字体,所述基于所述亮点文字以及所述候选视频封面的封面参数,确定所述亮点文字的排版参数,包括:
通过封面检测模型确定所述候选视频封面的风格,所述封面检测模型是基于所述候选视频封面的图像参数和/或内容,预测所述候选视频封面的风格的机器学习模型;
确定与所述候选视频封面的风格匹配的第一字体;
将所述第一字体确定为所述亮点文字的字体。
16.根据权利要求1至6任一所述的方法,其特征在于,所述方法还包括:
获取所述目标视频;
通过人脸检测模型获取所述目标视频中携带有人脸的视频帧,所述人脸检测模型是用于预测所述目标视频的视频帧中携带有人脸的概率的机器学习模型;
将所述视频帧作为所述候选视频封面。
17.一种视频封面的生成装置,其特征在于,所述装置包括:
获取模块,用于获取目标视频的视频标题和候选视频封面;
确定模块,用于确定所述视频标题的亮点文字;
所述确定模块,还用于基于所述亮点文字以及所述候选视频封面的封面参数,确定所述亮点文字的排版参数;
生成模块,用于基于所述排版参数将所述亮点文字渲染至所述候选视频封面,生成所述目标视频的目标视频封面。
18.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至16任一所述的视频封面的生成方法。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至16任一所述的视频封面的生成方法。
20.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行以实现如权利要求1至16任一所述的视频封面的生成方法。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111443257.0A CN116205200A (zh) | 2021-11-30 | 2021-11-30 | 视频封面的生成方法、装置、设备、介质及程序产品 |
| PCT/CN2022/126007 WO2023098326A1 (zh) | 2021-11-30 | 2022-10-18 | 视频封面的生成方法、装置、设备、介质及程序产品 |
| US18/339,320 US12328486B2 (en) | 2021-11-30 | 2023-06-22 | Method, computer device, and storage medium for generating video cover |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202111443257.0A CN116205200A (zh) | 2021-11-30 | 2021-11-30 | 视频封面的生成方法、装置、设备、介质及程序产品 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN116205200A true CN116205200A (zh) | 2023-06-02 |
Family
ID=86516057
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202111443257.0A Pending CN116205200A (zh) | 2021-11-30 | 2021-11-30 | 视频封面的生成方法、装置、设备、介质及程序产品 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US12328486B2 (zh) |
| CN (1) | CN116205200A (zh) |
| WO (1) | WO2023098326A1 (zh) |
Family Cites Families (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4377737B2 (ja) * | 2004-04-07 | 2009-12-02 | オリンパス株式会社 | デジタルカメラ、アルバム管理方法、およびアルバム管理プログラム |
| US20090258700A1 (en) * | 2008-04-15 | 2009-10-15 | Brian Bright | Music video game with configurable instruments and recording functions |
| US8521315B2 (en) * | 2008-11-26 | 2013-08-27 | Mckesson Financial Holdings | Apparatuses, methods and computer-readable storage mediums for browsing and selecting a multimedia object |
| JP6112801B2 (ja) | 2012-08-22 | 2017-04-12 | キヤノン株式会社 | 画像認識装置及び画像認識方法 |
| US11140450B2 (en) * | 2017-11-28 | 2021-10-05 | Rovi Guides, Inc. | Methods and systems for recommending content in context of a conversation |
| CN109905782B (zh) * | 2019-03-31 | 2021-05-18 | 联想(北京)有限公司 | 一种控制方法及装置 |
| CN110490954B (zh) * | 2019-08-07 | 2024-01-02 | 北京达佳互联信息技术有限公司 | 一种封面生成方法、装置、电子设备及存储介质 |
| US11170270B2 (en) * | 2019-10-17 | 2021-11-09 | International Business Machines Corporation | Automatic generation of content using multimedia |
| CN113132753A (zh) * | 2019-12-30 | 2021-07-16 | 阿里巴巴集团控股有限公司 | 数据处理方法及装置、视频封面生成方法及装置 |
| CN112100501B (zh) * | 2020-09-24 | 2025-02-07 | 腾讯科技(深圳)有限公司 | 信息流的处理方法、装置及电子设备 |
| CN113157973A (zh) * | 2021-03-29 | 2021-07-23 | 广州市百果园信息技术有限公司 | 一种封面的生成方法、装置、设备及介质 |
-
2021
- 2021-11-30 CN CN202111443257.0A patent/CN116205200A/zh active Pending
-
2022
- 2022-10-18 WO PCT/CN2022/126007 patent/WO2023098326A1/zh not_active Ceased
-
2023
- 2023-06-22 US US18/339,320 patent/US12328486B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| US20230336839A1 (en) | 2023-10-19 |
| US12328486B2 (en) | 2025-06-10 |
| WO2023098326A1 (zh) | 2023-06-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111652678B (zh) | 物品信息显示方法、装置、终端、服务器及可读存储介质 | |
| US12148250B2 (en) | AI-based face recognition method and apparatus, device, and medium | |
| CN113822136B (zh) | 视频素材图像的选择方法、装置、设备及存储介质 | |
| CN111726536A (zh) | 视频生成方法、装置、存储介质及计算机设备 | |
| CN111541907B (zh) | 物品显示方法、装置、设备及存储介质 | |
| CN108270794B (zh) | 内容发布方法、装置及可读介质 | |
| CN113395542A (zh) | 基于人工智能的视频生成方法、装置、计算机设备及介质 | |
| CN110246110B (zh) | 图像评估方法、装置及存储介质 | |
| CN113192072B (zh) | 图像分割方法、装置、设备及存储介质 | |
| CN117351115A (zh) | 图像生成模型的训练方法、图像生成方法、装置及设备 | |
| CN111539795A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
| CN117392254A (zh) | 图像生成方法、装置、终端及存储介质 | |
| WO2022057435A1 (zh) | 基于搜索的问答方法及存储介质 | |
| CN110555102A (zh) | 媒体标题识别方法、装置及存储介质 | |
| CN112907702A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
| CN114996515B (zh) | 视频特征提取模型的训练方法、文本生成方法及装置 | |
| CN114296627A (zh) | 内容显示方法、装置、设备及存储介质 | |
| CN110853124B (zh) | 生成gif动态图的方法、装置、电子设备及介质 | |
| CN111753813B (zh) | 图像处理方法、装置、设备及存储介质 | |
| CN110675473B (zh) | 生成gif动态图的方法、装置、电子设备及介质 | |
| CN110222567A (zh) | 一种图像处理方法及设备 | |
| CN111597468B (zh) | 社交内容的生成方法、装置、设备及可读存储介质 | |
| CN110795660B (zh) | 数据分析方法、装置、电子设备及介质 | |
| CN111797754A (zh) | 图像检测的方法、装置、电子设备及介质 | |
| CN114780181B (zh) | 资源显示方法、装置、计算机设备及介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40087307 Country of ref document: HK |
|
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |