[go: up one dir, main page]

CN117336525A - 视频处理方法、装置、计算机设备及存储介质 - Google Patents

视频处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN117336525A
CN117336525A CN202311257597.3A CN202311257597A CN117336525A CN 117336525 A CN117336525 A CN 117336525A CN 202311257597 A CN202311257597 A CN 202311257597A CN 117336525 A CN117336525 A CN 117336525A
Authority
CN
China
Prior art keywords
video
frames
processed
frame
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311257597.3A
Other languages
English (en)
Inventor
陈昌儒
李标
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202311257597.3A priority Critical patent/CN117336525A/zh
Publication of CN117336525A publication Critical patent/CN117336525A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种视频处理方法、装置、计算机设备及存储介质,该视频处理方法包括:对待处理视频进行关键帧识别,得到所述待处理视频中的关键帧;将所述待处理视频划分为多个视频片段;基于所述关键帧,从所述多个视频片段的每个视频片段中提取部分视频帧;基于目标提示信息以及所述部分视频帧,生成用于输入大语言模型的第一输入信息,所述目标提示信息用于提示所述大语言模型进行视频理解;将所述第一输入信息输入至所述大语言模型,得到所述待处理视频对应的视频理解结果。本方法可以提升长时视频的理解的准确性。

Description

视频处理方法、装置、计算机设备及存储介质
技术领域
本申请涉及视频处理技术领域,更具体地,涉及一种视频处理方法、装置、计算机设备及存储介质。
背景技术
随着互联网和数字技术的快速发展,大量的视频数据在各种应用场景中产生,如安全监控、智能交通、医疗健康等。视频理解技术是问答、对话、推荐等一系列上层多模态人工智能任务的必备基础,然而,相关技术中在对视频时长较长的视频进行视频理解时的准确性不佳。
发明内容
本申请提出了一种视频处理方法、装置、计算机设备及存储介质,可以提升长时视频的理解的准确性。
第一方面,本申请实施例提供了一种视频处理方法,所述方法包括:对待处理视频进行关键帧识别,得到所述待处理视频中的关键帧;将所述待处理视频划分为多个视频片段;基于所述关键帧,从所述多个视频片段的每个视频片段中提取部分视频帧;基于目标提示信息以及所述部分视频帧,生成用于输入大语言模型的第一输入信息,所述目标提示信息用于提示所述大语言模型进行视频理解;将所述第一输入信息输入至所述大语言模型,得到所述待处理视频对应的视频理解结果。
第二方面,本申请实施例提供了一种视频处理装置,所述装置包括:关键帧识别模块、视频划分模块、视频帧提取模块、信息生成模块以及视频理解模块,其中,所述关键帧识别模块用于对待处理视频进行关键帧识别,得到所述待处理视频中的关键帧;所述视频划分模块用于将所述待处理视频划分为多个视频片段;所述视频帧提取模块用于基于所述关键帧,从所述多个视频片段的每个视频片段中提取部分视频帧;所述信息生成模块用于基于目标提示信息以及所述部分视频帧,生成用于输入大语言模型的第一输入信息,所述目标提示信息用于提示所述大语言模型进行视频理解;所述视频理解模块用于将所述第一输入信息输入至所述大语言模型,得到所述待处理视频对应的视频理解结果。
第三方面,本申请实施例提供了一种计算机设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述第一方面提供的视频处理方法。
第四方面,本申请实施例提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述第一方面提供的视频处理方法。
本申请提供的方案,通过对待处理视频进行关键帧识别,得到待处理视频中的关键帧,将待处理视频划分为多个视频片段,基于关键帧,从多个视频片段的每个视频片段中提取部分视频帧,基于获取到的部分视频帧以及用于提示大语言模型进行视频理解的目标提示信息,生成用于输入大语言模型的第一输入信息,然后将第一输入信息输入至大语言模型,得到待处理视频对应的视频理解结果。由此,由于在通过大语言模型对待处理视频进行视频理解时,是根据识别的关键帧以及划分的视频片段提取的部分视频帧之后,再根据提取的部分视频帧确定用于输入大语言模型的输入信息,因此在对长时视频进行理解时,无需对视频分段后多次输入大语言模型,从而能够使大语言模型更好地对长时视频进行视频理解,提升对长时视频的理解的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本申请一个实施例的视频处理方法的流程示意图。
图2示出了根据本申请另一个实施例的视频处理方法的流程示意图。
图3示出了根据本申请又一个实施例的视频处理方法的流程示意图。
图4示出了根据本申请再一个实施例的视频处理方法的流程示意图。
图5示出了根据本申请又另一个实施例的视频处理方法的流程示意图。
图6示出了根据本申请又再一个实施例的视频处理方法的流程示意图。
图7示出了根据本申请一个实施例的视频处理装置的一种框图。
图8是本申请实施例的用于执行根据本申请实施例的视频处理方法的计算机设备的框图。
图9是本申请实施例的用于保存或者携带实现根据本申请实施例的视频处理方法的程序代码的存储单元。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
视频理解是一个涵盖了多个领域的技术,包括计算机视觉、自然语言处理、语音识别等。在视频理解中,通常需要处理视频数据以识别和理解视频中的内容,例如识别和分类视频中的物体、场景、事件等。在视频理解的早期技术中,通过可以通过视频数据处理技术进行视频理解,视频数据处理技术是指将原始视频转化为可分析的格式,例如将视频中的图像帧提取出来并进行预处理,以便进行后续的图像识别和目标检测等任务,在视频理解中,这种技术可以帮助计算机准确地识别和理解视频中的各种元素,例如人物、场景、动作等。
随着近年来人工智能(Artificial Intelligence,AI)技术的兴起,出现了通过深度学习来实现视频理解,可以通过训练神经网络模型,以从大量数据中提取有用的特征,在视频理解中,这种技术可以帮助计算机准确地识别和理解视频中的内容。并且,随着人工智能的发展,可以通过大语言模型(Large Language Model,LLM)进行视频理解,大语言模型是指基于大量数据和计算资源训练出的复杂的人工神经网络,能够学习到丰富的语言模式和知识,从而对自然语言输入产生准确的响应。
相关技术中,通过大语言模型进行视频理解时,可以通过针对原始视频,对原始视频的视频帧进行特征提取后,将提取到的视频帧的图像特征转换到大语言模型的特征空间,再输入到大语言模型中,从而由大语言模型针对输入的内容输出视频理解的结果。但是在原始视频的时长较长时,原始视频中的视频帧的数量较多,而大语言模型对每次输入的内容是有限制的,因此对实际输入的原始视频进行处理时,会将原始视频分成多段视频,然后针对每段视频的视频帧进行特征提取后,转换到大语言模型的特征空间,再输入到大语言模型中,从而得到每段视频对应的视频理解结果。在这样的方式中,由于视频被分为多段分别确定输入信息后,再输入到大语言模型,就会导致大语言模型进行视频理解时,会丢失原始视频的整体性的信息,进而对长时间的视频感知和理解有限,以及对于视频内容理解的颗粒度较粗,不能精细化理解视频里的内容。
针对上述问题,发明人提出了本申请实施例提供的视频处理方法、装置、计算机设备以及存储介质,可以实现在通过大语言模型对待处理视频进行视频理解时,是根据识别的关键帧以及划分的视频片段提取的部分视频帧之后,再根据提取的部分视频帧确定用于输入大语言模型的输入信息,因此在对长时视频进行理解时,无需对视频分段后多次输入大语言模型,从而能够使大语言模型更好地对长时视频进行视频理解,提升对长时视频的理解的准确性。其中,具体的视频处理方法在后续的实施例中进行详细的说明。
下面再结合附图对本申请实施例提供的视频处理方法进行详细介绍。
请参阅图1,图1示出了本申请一个实施例提供的视频处理方法的流程示意图。在具体的实施例中,所述视频处理方法应用于如图7所示的视频处理装置700以及配置有所述视频处理装置700的计算机设备100(图8)。下面将以计算机设备为例,说明本实施例的具体流程,当然,可以理解的,本实施例所应用的计算机设备可以为服务器、智能手机、平板电脑、智能手表、笔记本电脑等,在此不做限定。下面将针对图1所示的流程进行详细的阐述,所述视频处理方法具体可以包括以下步骤:
步骤S110:对待处理视频进行关键帧识别,得到所述待处理视频中的关键帧。
在本申请实施例中,计算机设备在对待处理视频进行视频理解时,考虑到待处理视频的时长较长时,需要将待处理视频分为多段视频,然后针对多段视频转换为用于输入大语言模型的信息后,再输入到大语言模型中得到每段视频对应的视频理解结果,从而会导致大语言模型进行视频理解时,会丢失原始视频的整体性的信息,进而使得对待处理视频进行视频理解的准确性不足,因此计算机设备可以针对需要进行视频理解的待处理视频,进行关键帧的识别,以便根据识别到的待处理视频中的关键帧,对待处理视频进行压缩,从而减少待处理视频中的视频帧,进而无需对视频分段后多次输入大语言模型。其中,关键帧是指待处理视频中的视频内容的变化度大于目标阈值的视频帧,可以理解地,待处理视频中的视频内容的变化度较大时,通常是视频中的角色、物体等运动变化中的关键动作所处视频帧,或者是场景内容发生切换时所处的视频帧,因此关键帧在其邻近的视频帧中能够具有较好的代表性。
在一些实施方式中,计算机设备可以通过帧间差分算法,识别待处理视频中的关键帧。其中,帧间差分算法是一种通过对视频图像序列的连续两帧图像,做差分运算获取运动目标轮廓的方法,具体而言,这种算法首先需要获取视频序列中的连续两帧图像,然后通过计算这两帧图像之间的差异来获取运动目标的轮廓,如果两帧图像之间出现明显的差别,那么这个差别就会被记录下来,这种差别可以通过计算图像对应位置的像素值之差的绝对值来得到。
在以上方式中,在通过帧间差分算法识别待处理视频中的关键帧时,可以针对每相邻的两帧视频帧,获取相邻两帧视频帧之间的变化度;若后一帧视频帧相对前一帧视频帧的变化度大于目标阈值,则可以将后一帧视频帧确定为关键帧;若后一帧视频帧相对前一帧视频帧的变化度不大于目标阈值,则该后一帧视频帧不是关键帧。
在一些实施方式中,也可以通过预先训练的关键帧识别模型,对待处理视频进行关键帧识别,从而得到待处理视频中的关键帧。在针对待处理视频识别关键帧时,可以将待处理视频的每帧视频帧输入到关键帧识别模型中,以得到关键帧识别模型对每帧视频帧的识别结果;根据每帧视频帧的识别结果,可以确定出待处理视频中的关键帧。其中,关键帧识别模型的具体类型可以不做限定,例如,关键帧识别模型可以是深度神经网络(DeepNeural Network,DNN)、长短期记忆神经网络(Long Short-Term Memory,LSTM)、Transformer网络等。
在一种可能的实施方式中,关键帧识别模型针对每帧视频帧的识别结果可以包括视频帧是否为关键帧,例如,识别结果可以包括1和0,若识别结果为1,则表示视频帧为关键帧,若识别结果为0,则表示视频帧不是关键帧。如此,根据关键帧识别模型针对每帧视频帧的识别结果,可以确定出待处理视频中哪些视频帧为关键帧。
在一种可能的实施方式中,关键帧识别模型针对每帧视频帧的识别结果可以包括关键帧概率,该关键帧概率用于表征该视频帧为关键帧的概率,关键帧概率越大,则该视频帧为关键帧的可能性越大。在该方式中,可以将每帧视频帧对应的关键帧概率与关键帧阈值进行比较;根据比较结果,若关键帧概率大于关键帧阈值,则可以确定该视频帧为关键帧;若关键帧概率不大于关键帧阈值,则可以确定该视频帧不为关键帧。如此,可以通过对每帧视频帧对应的识别结果,进行进一步的判断后,确定出待处理视频中存在的关键帧。
在一种可能的实施方式中,以上关键帧识别模型可以通过以下方式训练得到:获取样本视频,样本视频中每帧视频帧可以被标注关键帧标签,该关键帧标签用于表征该视频帧是否为关键帧;在基于样本视频训练得到关键帧识别模型时,可以将样本视频的每帧样本视频帧输入到初始识别模型中,得到初始识别模型针对样本视频帧的识别结果,然后根据每帧样本视频帧的识别结果以及每帧样本视频帧所标注的关键帧标签,确定出初始识别模型对应的损失值;在确定出初始识别模型对应的损失值之后,则可以根据损失值对初始识别模型进行迭代训练,得到最终的关键帧识别模型。其中,确定初始识别模型对应的损失值时,可以根据每帧样本视频帧对应的识别结果与标注的关键帧标签之间的差异确定损失值。
可选地,在根据确定出的损失值对初始识别模型进行迭代训练时,可以根据计算得到的损失值,调整初始识别模型的模型参数;重复将样本视频的样本视频帧输入至初始识别模型,得到初始识别模型对输入的样本视频帧输出的识别结果,基于样本视频帧的识别结果以及标注的关键帧标签,确定初始设备模型对应的损失值,以及根据损失值,调整初始识别模型的模型参数,直至满足训练结束条件,得到训练后的关键帧识别模型。迭代训练的训练结束条件可以包括:迭代训练的次数达到目标次数;或者初始识别模型的总损失值满足设定条件。
当然,对待处理视频进行关键帧识别的具体方式在本申请实施例中可以不做限定。
在一些实施方式中,执行本申请实施例提供的视频处理方法的执行主体为服务器时,该待处理视频可以是由电子设备上传的视频,或者根据电子设备发送的选择指令,从服务器存储的视频中选择的目标视频;执行本申请实施例提供的视频处理方法的执行主体为电子设备时,例如智能手机、平板电脑、笔记本电脑等,该待处理视频可以是电子设备本地存储的视频,也可以是从服务器下载的视频。
步骤S120:将所述待处理视频划分为多个视频片段。
在本申请实施例中,计算机设备针对待处理视频进行视频理解时,还可以将待处理视频划分为多个视频片段,以便根据划分的视频片段,以及以上识别到的关键帧,对待处理视频进行压缩,从而减少待处理视频中的视频帧。
在一些实施方式中,计算机设备对待处理视频划分视频片段时,可以根据视频片段中的不同场景、不同人物、不同物体等,对待处理视频进行划分,例如,在待处理视频中的场景发生变化时,则确定出下一个视频片段的起点,在待处理视频的场景再次发生变化时,确定出该下一个视频片段的终点,从而划分出一个视频片段。
在一些实施方式中,计算机设备也可以按照目标时间长度,对待处理视频划分为多个视频片段,例如,可以将待处理视频划分为多个时间长度为10秒的视频片段。
当然,对待处理视频进行视频片段的划分的具体方式在本申请实施例中可以不做限定。
步骤S130:基于所述关键帧,从所述多个视频片段的每个视频片段中提取部分视频帧。
在本申请实施例中,在识别得到待处理视频中的关键帧,并将待处理视频划分为多个视频片段之后,则可以根据划分的视频片段以及以上识别到的关键帧,对待处理视频进行压缩,从而减少待处理视频中的视频帧。其中,可以基于关键帧,从划分得到的多个视频片段的每个视频片段中提取部分视频帧,以减少每个视频片段中的视频帧的数量,从而减少用于确定输入大语言模型的输入信息的视频帧的数量。可以理解地,由于关键帧在其相邻的多个视频帧中具有代表性,因此可以以此为依据,在每个视频片段中提取部分视频帧,从而使视频帧的数量减少的同时,能够保证后续视频理解时能够有效提取待处理视频中的信息。
在一些实施方式中,可以针对以上多个视频片段中的每个视频片段,确定视频片段中是否包括关键帧;若视频片段中包括关键帧,则可以从该视频片段中获取该关键帧以及该关键帧邻近的第一目标数量的视频帧,作为该视频片段中的部分视频帧;若视频片段中不包括关键帧,则可以根据指定提取规则,从该视频片段中提取第二目标数量的视频帧。其中,第一目标数量与第二目标数量的具体数值可以不做限定,例如,可以为5帧,也可以为10帧,20帧等。
在一种可能的实施方式中,第二目标数量可以小于第一目标数量,也就是说,对于包括关键帧的视频片段,在提取部分视频帧时,提取的部分视频帧的数量可以多于不包括关键帧的视频片段中提取的部分视频帧的数量。可以理解地,由于不包括关键帧的视频片段是画面变化不大的片段,因此其视频帧包括的信息是较为接近的,故可以提取更少的视频帧,以进一步减少后续视频理解时所使用的视频帧的数量。
在一种可能的实施方式中,在任一视频片段中不包括关键帧的情况下,根据指定提取规则,从该视频片段中提取第二目标数量的视频帧时,可以从该视频片段中随机提取第二目标数量的视频帧。
在一种可能的实施方式中,在任一视频片段中不包括关键帧的情况下,根据指定提取规则,从该视频片段中提取第二目标数量的视频帧时,也可以提取满足目标分布条件的第二目标数量的视频帧,作为该视频片段中的部分视频帧。其中,目标分布条件可以是均匀分布于视频片段中,从而保证后续视频理解时对于该视频片段能够有效提取信息。
当然,在本申请实施例中,基于关键帧,从多个视频片段的每个视频片段中提取部分视频帧的具体方式可以不做限定,仅需保证基于关键帧从待处理视频中保留必要的视频帧,以便有效提取待处理视频中的信息即可。
步骤S140:基于目标提示信息以及所述部分视频帧,生成用于输入大语言模型的第一输入信息,所述目标提示信息用于提示所述大语言模型进行视频理解。
在本申请实施例中,在针对以上每个视频片段提取部分视频帧后,则可以根据提取到的所有视频帧,确定用于输入大语言模型的输入信息。其中,可以根据目标提示信息,以及以上提取到的所有视频帧,生成用于输入大语言模型的输入信息,并将其作为输入信息。其中,目标提示信息可以是用于提示大语言模型进行视频理解的提示词,即prompt,目标提示信息可以提供用户的意图,大语言模型后续对目标提示信息进行理解后,能够知晓用户意图,并根据用户意图进行相应的处理。可以理解地,由于是针对待处理视频,通过识别的关键帧对划分的每个视频片段提取部分视频帧后,再来生成用于输入大语言模型的输入信息,因此能够减少需要用来生成输入信息的视频帧的数量,且能保证这些剩下的视频帧能够提供视频理解的必要信息,从而对于待处理视频,仅需一次生成用于输入大语言模型的输入信息,进而输入信息中会保留待处理视频的整体性的信息,使大语言模型输出的视频理解结果更加准确。
在一些实施方式中,可以针对以上得到的部分视频帧,进行特征提取,然后将提取到的特征转换到大语言模型的特征空间,即将其转换为通常输入大语言模型的文本tokens,从而可以与以上目标提示信息(也是文本tokens)拼接后,得到用于输入大语言模型的第一输入信息。
步骤S150:将所述第一输入信息输入至所述大语言模型,得到所述待处理视频对应的视频理解结果。
在本申请实施例中,在获得以上第一输入信息后,则可以将第一输入信息输入至大语言模型中,从而得到针对待处理视频对应的视频理解结果。其中,视频理解结果可以包括对视频的描述、针对以上目标提示信息进行视频理解后的回答等,视频理解结果中的具体内容可以不做限定。以上大语言模型可以是预先训练的能够进行视频理解的模型,该大语言模型可以是基于AIGC的生成式大语言模型,且该大语言模型可以根据以上输入信息生成视频理解结果。大语言模型根据以上第一输入信息,对第一输入信息中的以上目标提示信息进行理解,获得用户意图后,可以针对以上第一输入信息中根据以上部分视频帧提取的信息,输出视频理解结果。
在一些实施方式中,考虑到大语言模型的能力较为宽泛,且视频理解的场景可能众多,因此还可以针对大语言模型,增加低秩自适应(Low-Rank Adaptation,LoRA)模型,并采用相应场景下的样本视频,对LoRA模型进行训练,使大语言模型能够在这些场景下能够更好地进行视频理解。其中,LoRA模型通过微调大语言模型中的UNet模块中的交叉注意力层得到的;LoRA模型应用于大语言模型中的交叉注意力层,通过在冻结大语言模型的参数的情况下,采用相应场景下的样本视频进行训练,从而可以得到能够在该场景下能够更好地进行视频理解的LoRA模型,使用时,将该LoRA模型的参数注入(inject)大语言模型,从而使大语言模型输出在该场景下的视频理解结果。
在一些实施方式中,行本申请实施例提供的视频处理方法的执行主体为电子设备时,则以上步骤S110至步骤S150中,可以部分步骤在电子设备本地执行,部分由电子设备提交相应请求至服务器,由服务器执行后并返回结果。例如,对待处理视频帧进行关键帧识别,可以由电子设备向相应服务器提交关键帧识别请求,并将待处理视频上传至该服务器,以便服务器对待处理视频进行关键帧识别,并将识别结果反馈至电子设备;电子设备本地对待处理视频划分为多个视频片段,然后基于关键帧,从多个视频片段的每个视频片段中提取部分视频帧;再将提取的部分视频帧以及目标提示信息上传至服务器,服务器基于目标提示信息以及部分视频帧,生成的用于输入大语言模型的第一输入信息后,将第一输入信息输入至所述大语言模型,得到待处理视频对应的视频理解结果,并将视频理解结果返回至电子设备。
本申请实施例提供的视频处理方法,在通过大语言模型对待处理视频进行视频理解时,根据识别的关键帧以及划分的视频片段提取的部分视频帧之后,再根据提取的部分视频帧确定用于输入大语言模型的输入信息,因此在对长时视频进行理解时,无需对视频分段后多次输入大语言模型,从而能够使大语言模型更好地对长时视频进行视频理解,提升对长时视频的理解的准确性。
请参阅图2,图2示出了本申请另一个实施例提供的视频处理方法的流程示意图。该视频处理方法应用于上述计算机设备,下面将针对图2所示的流程进行详细的阐述,所述视频处理方法具体可以包括以下步骤:
步骤S210:对待处理视频进行关键帧识别,得到所述待处理视频中的关键帧。
在本申请实施例中,步骤S210可以参阅前述实施例的内容,在此不再赘述。
步骤S220:将所述待处理视频划分为多个视频片段。
在一些实施方式中,在将待处理视频划分为多个视频片段时,可以基于关键帧,将待处理视频划分为多个视频片段,其中,多个视频片段的每个视频片段中包括至少一帧所述关键帧。也就是说,在针对待处理视频划分视频片段时,是参考了识别得到的关键帧进行的,并且使划分的每个视频片段中都包括有至少一帧关键帧,使每个视频片段都包括了至少一个变化度大于目标阈值的视频帧。
在一种可能的实施方式中,在基于关键帧,将待处理视频划分为多个视频片段时,可以基于以上关键帧,对待处理视频标注多个目标时间戳,其中,相邻的两个目标时间戳之间的视频构成一个视频片段,目标时间戳位于相邻的两个关键帧之间。也就是说,可以通过标注时间戳,对待处理视频进行分割,使相邻两个目标时间戳分割出一个视频片段,从而划分得到多个视频片段,后续针对待处理视频进一步处理时,可以根据标注的时间戳,从每相邻的两个时间戳构成的视频片段中提取部分视频帧。
可选地,以上目标关键帧可以位于两个关键帧之间,且视频画面的变化度小于目标阈值的时间点;以上划分的每个视频片段的持续时长大于或等于指定时长,例如10秒,20秒,30秒,60秒等。
可选地,以上识别到的关键帧中可以包括主关键帧以及次关键帧,主关键帧是相对前一帧视频帧的变化度大于第一阈值的视频帧,次关键帧是相对前一帧视频帧的变化度大于第二阈值的视频帧,且第一阈值大于第二阈值,也就是说,主关键帧相对前一帧视频帧的变化度与次关键帧相对前一帧视频帧的变化度都大于一定阈值,但是主关键帧相对前一帧的变化度更大。由于主关键帧相对前一帧的变化度,比次关键帧相对前一帧的变化度更大,因此主关键帧更具有代表性,故在基于以上关键帧,对待处理视频标注多个目标时间戳时,可以根据主关键帧,选取位于两个主关键帧之间,且视频画面的变化度小于目标阈值的目标时间点,并在目标时间点处标注目标时间戳。
步骤S230:基于所述关键帧,针对所述多个视频片段的每个视频片段进行采样,得到所述每个视频片段中的部分视频帧。
在本申请实施例中,在识别得到待处理视频中的关键帧,并将待处理视频划分为多个视频片段之后,则可以基于以上关键帧,针对多个视频片段的每个视频片段进行采样,从而得到每个视频片段中的部分视频帧。也就是说,从每个视频片段中采样一定数量的视频帧,从而得到每个视频片段中的部分视频帧。
在一些实施方式中,以上视频片段可以是基于关键帧划分出的,且每个视频片段都包括至少一个关键帧。在基于关键帧,针对多个视频片段的每个视频片段进行采样时,可以基于每个视频片段中的关键帧,对每个视频片段进行划分,得到每个视频片段对应的多个视频子片段;对每个视频片段对应的多个视频子片段中的每个视频子片段进行采样,得到每个视频片段中的部分视频帧,其中,关键帧所在视频子片段对应的采样率高于其他视频子片段对应的采样率,其他视频子片段为所述多个视频子片段中除关键帧所在视频子片段以外的视频子片段。
在以上实施方式中,可以基于每个视频片段中的关键帧,从每个视频片段中划分出包含关键帧的视频子片段,以及不包含关键帧的视频子片段。也就是说,对于每个视频片段,还可以根据关键帧在视频片段中所处位置,对视频片段再进行划分,并得到多个视频子片段,使部分视频子片段中包括关键帧,部分视频子片段中不包括关键帧,然后按照关键帧所在视频子片段对应的采样率,对关键帧所在视频子片段进行采样,按照不包括关键帧的视频子片段对应的采样率,对不包括关键帧的视频子片段进行采样。并且,由于不包括关键帧的视频片段是画面变化不大的片段,因此其各个视频帧包括的信息是较为接近的,故可以采用相对较低的采样率,从而提取相对较少的视频帧,而对于包括关键帧的视频片段,则可以采用相对更高的采样率,从而能保留必要的视频帧,以便有效提取待处理视频中的信息。
在一种可能的实施方式中,在基于每个视频片段中的关键帧,从每个视频片段中划分出包含关键帧的视频子片段,以及不包含关键帧的视频子片段之后,若包含关键帧的视频子片段是相邻的两个视频子片段,则可以确定两个视频子片段中的关键帧之间相距的时长,若相距的时长小于时长阈值,则可以将该两个视频子片段合并为一个视频子片段,以便进行采样后,能够更好地保留用于视频理解的有效信息。
在一种可能的实施方式中,以上识别到的关键帧中可以包括主关键帧以及次关键帧,主关键帧是相对前一帧视频帧的变化度大于第一阈值的视频帧,次关键帧是相对前一帧视频帧的变化度大于第二阈值的视频帧,且第一阈值大于第二阈值,也就是说,主关键帧相对前一帧视频帧的变化度与次关键帧相对前一帧视频帧的变化度都大于一定阈值,但是主关键帧相对前一帧的变化度更大。在以上的实施方式中,包括主关键帧的视频子片段的采样率,可以大于包括次关键帧的视频子片段的采样率,从而能够更好地保留用于视频理解的有效信息。
在一些实施方式中,以上划分的多个视频片段中,可以部分视频片段中包括关键帧,部分视频片段中不包括关键帧。
对于包括关键帧的每个视频片段,可以按照前一实施方式,基于视频片段中的关键帧,对视频片段进行划分,得到视频片段对应的多个视频子片段,然后对视频片段对应的多个视频子片段中的每个视频子片段进行采样,得到该视频片段中的部分视频帧,其中,关键帧所在视频子片段对应的采样率高于其他视频子片段对应的采样率,其他视频子片段为多个视频子片段中除关键帧所在视频子片段以外的视频子片段。
对于不包括关键帧的每个视频片段,可以划分为多个时长相同的视频子片段,然后确定每个视频子片段与位置上最近的关键帧之间相距的时长,再根据该时长确定每个视频子片段对应的采样率,该采样率与该时长呈负相关,也就是说,与位置上最近的关键帧相距越远,则采样率越低,如此,可以进一步减少保留的视频帧的数量的同时,更好地保留用于视频理解的有效信息。例如,在任一不包括关键帧的视频片段中,包括视频子片段1、视频子片段2和视频子片段3,视频子片段1与其最近的关键帧之间相距10秒,视频子片段2与其最近的关键帧之间相距8秒,视频子片段3与其最近的关键帧之间相距15秒,则视频子片段2对应的采样率最高,视频片段1对应的采样率次之,视频片段3对应的采样率最低。
在一些实施方式中,考虑到每次需要进行视频理解的待处理视频的视频时长不是固定的,为了保证根据提取的所有部分视频帧,能一次性生成用于输入大语言模型的输入信息,在针对多个视频片段的每个视频片段进行采样后,得到的视频帧的总数可以是固定值,例如400帧、500帧、700帧等。在针对多个视频片段的每个视频片段进行采样时,则可以根据待处理视频的具体时长,动态调整采样率,以保证各个视频片段对应的部分视频帧的总数为以上固定值。
步骤S240:基于目标提示信息以及所述部分视频帧,生成用于输入大语言模型的第一输入信息,所述目标提示信息用于提示所述大语言模型进行视频理解。
步骤S250:将所述第一输入信息输入至所述大语言模型,得到所述待处理视频对应的视频理解结果。
在本申请实施例中,步骤S240以及步骤S250可以参阅前述实施例的内容,在此不再赘述。
本申请实施例提供的视频处理方法,在通过大语言模型对待处理视频进行视频理解时,根据识别的关键帧,对划分的视频片段进行采样,得到部分视频帧之后,再根据得到的部分视频帧确定用于输入大语言模型的输入信息,因此在对长时视频进行理解时,无需对视频分段后多次输入大语言模型,从而能够使大语言模型更好地对长时视频进行视频理解,提升对长时视频的理解的准确性;并且,由于部分视频帧是根据关键帧采样得到的,因此可以保留必要的视频帧,从而基于部分视频帧确定的输入信息在输入大语言模型后,大语言模型能够有效提取待处理视频中的信息,进而保证了视频理解的准确性。
请参阅图3,图3示出了本申请又一个实施例提供的视频处理方法的流程示意图。该视频处理方法应用于上述计算机设备,下面将针对图3所示的流程进行详细的阐述,所述视频处理方法具体可以包括以下步骤:
步骤S310:对待处理视频进行关键帧识别,得到所述待处理视频中的关键帧。
步骤S320:将所述待处理视频划分为多个视频片段,所述每个视频片段中包括至少一帧所述关键帧。
在本申请实施例中,步骤S310以及步骤S320可以参阅其他实施例的内容,在此不再赘述。
步骤S330:针对所述多个视频片段中的每个视频片段,获取与所述关键帧邻近的第一数量的视频帧,并从其他视频帧中获取第二数量的视频帧,得到所述每个视频片段对应的所述第一数量的视频帧以及所述第二数量的视频帧,其中,所述其他视频帧为所述每个视频片段中除所述关键帧以及所述关键帧邻近的第一数量的视频帧以外的视频帧。
在本申请实施例中,在识别得到待处理视频中的关键帧,并将待处理视频划分为多个视频片段之后,在基于关键帧从每个视频片段中提取部分视频帧时,可以针对每个视频片段,获取与关键帧邻近的第一数量的视频帧,并从其他视频帧中获取第二数量的视频帧。也就是说,是提取包含关键帧的第一数量的连续视频帧,以及从除提取出的视频帧中以外的其他视频帧中提取第二数量的视频帧,从而不仅可以减少视频帧的数量,还可以保留必要的视频帧。
在一些实施方式中,从以上其他视频帧中获取第二数量的视频帧时,可以在其他视频帧中进行采样,得到第二数量的视频帧。其中,进行采样的采样率可以根据第二数量以及其他视频帧的数量确定。通过采样的方式提取第二数量的视频帧,能够保证从其他视频帧中提取的视频帧分布均匀,从而保证后续视频理解时对于该视频片段能够有效提取信息。
步骤S340:将所述每个视频片段对应的所述关键帧、所述第一数量的视频帧以及所述第二数量的视频帧,确定为所述每个视频片段对应的部分视频帧。
在本申请实施例中,在针对每个视频片段,提取以上第一数量的视频帧以及第二数量的视频帧之后,则可以将每个视频片段中的关键帧、以上第一数量的视频帧以及第二数量的视频帧,确定为每个视频片段对应的部分视频帧。
步骤S350:基于目标提示信息以及所述部分视频帧,生成用于输入大语言模型的第一输入信息,所述目标提示信息用于提示所述大语言模型进行视频理解。
步骤S360:将所述第一输入信息输入至所述大语言模型,得到所述待处理视频对应的视频理解结果。
在本申请实施例中,步骤S350以及步骤S360可以参阅其他实施例的内容,在此不再赘述。
本申请实施例提供的视频处理方法,在通过大语言模型对待处理视频进行视频理解时,根据识别的关键帧,从每个视频片段中获取与关键帧邻近的第一数量的视频帧,并从每个视频片段的其他视频帧中获取第二数量的视频帧,得到每个视频片段对应的部分视频帧之后,再根据得到的部分视频帧确定用于输入大语言模型的输入信息,因此在对长时视频进行理解时,无需对视频分段后多次输入大语言模型,从而能够使大语言模型更好地对长时视频进行视频理解,提升对长时视频的理解的准确性;并且,由于部分视频帧至少包含了关键帧及其邻近的视频帧,因此保留了视频片段中的有效信息,从而基于部分视频帧确定的输入信息在输入大语言模型后,大语言模型能够有效提取待处理视频中的信息,进而保证了视频理解的准确性。
请参阅图4,图4示出了本申请再一个实施例提供的视频处理方法的流程示意图。该视频处理方法应用于上述计算机设备,下面将针对图4所示的流程进行详细的阐述,所述视频处理方法具体可以包括以下步骤:
步骤S410:对待处理视频进行关键帧识别,得到所述待处理视频中的关键帧。
步骤S420:将所述待处理视频划分为多个视频片段。
步骤S430:基于所述关键帧,从所述多个视频片段的每个视频片段中提取部分视频帧。
在本申请实施例中,步骤S410至步骤S430可以参阅其他实施例的内容,在此不再赘述。
步骤S440:对所述部分视频帧进行特征提取,得到所述部分视频帧对应的图像特征。
在本申请实施例中,在基于识别的关键帧,针对每个视频片段提取取部分视频帧之后,基于目标提示信息以及所有视频片段对应的以上部分视频帧,生成用于输入大语言模型的第一输入信息时,可以对提取的所有视频帧(即以上所有视频片段对应的以上部分视频帧)进行特征提取,得到这些视频帧对应的图像特征,以便后续将这些图像特征转换为用于输入大语言模型的信息,即转换到大语言模型的特征空间,从而能够输入到大语言模型中。其中,对于每个视频帧提取的图像特征可以包括全局特征以及多个图像块的块特征(patch特征)。全局特征通常指的是在整个图像中提取的特征,例如颜色、纹理和形状等,这些特征可以描述整个图像的内容和上下文信息,常用于图像分类、目标检测和场景识别等任务;patch特征是从图像中提取出的局部小块或补丁的特征,通常用于表达图像的局部细节信息,这些特征可以是颜色、纹理或形状等。
在一些实施方式中,可以将所有视频片段对应的部分视频帧输入到预先训练的特征提取模型,从而得到这些视频帧中每个视频帧对应的图像特征。其中,用于图像特征提取的特征提取模型的具体类型可以不做限定,例如可以是视觉编码器,比如视觉分类器的低分辨率变体(Vision Transformer for Low Resolution Classification,ViT-L)。
步骤S450:对所述部分视频帧对应的图像特征进行池化,并将池化后的图像特征进行拼接,得到待输入特征。
在本申请实施例中,在针对提取到以上视频帧对应的图像特征后,则可以针对视频帧对应的图像特征进行池化,以减少数据量,降低后续计算量和内存消耗,然后将池化后的图像特征进行拼接,得到待输入特征。
在一些实施方式中,以上视频帧对应的图像特征可以包括全局特征以及多个图像块对应的块特征,在对以上视频帧对应的图像特征进行池化,并将池化后的图像特征进行拼接,得到待输入特征时,可以对图像特征输入空间池和时间池中,从而通过空间池对以上视频帧对应的图像特征进行空间池化,通过时间池对以上视频帧对应的图像特征进行时间池化,然后对空间池和时间池得到的池化后的图像特征进行拼接,从而得到以上待输入特征。
在该方式中,在时间池中,可以根据以上视频帧中的视频帧的顺序,对以上所有视频片段的部分视频帧对应的全局特征进行拼接,得到第一特征;在空间池中,可以对以上所有视频片段的部分视频帧对应的块特征进行平均池化,得到第二特征;然后将第一特征以及第二特征进行拼接,得到待输入特征。如此,由于时间池中,是按照保留的所有视频帧的时间顺序,即视频帧在待处理视频中的先后顺序进行的,因此能够保留时间信息,确保视频理解时的准确性。
在以上方式中,对以上所有视频片段的部分视频帧对应的块特征进行平均池化时,可以将每一时间段内的所有视频帧的多个块特征进行平均池化,从得到与每个时间段的所有视频帧对应的第二特征。其中,该时间段可以是基于以上视频片段确定的,具体可以是每个视频片段提取到的部分视频帧中的最早的视频帧的时间戳至最晚的视频帧的时间戳所构成的时间段。
步骤S460:将所述待输入特征与目标提示信息进行拼接,得到用于输入大语言模型的第一输入信息,所述目标提示信息用于提示所述大语言模型进行视频理解。
步骤S470:将所述第一输入信息输入至所述大语言模型,得到所述待处理视频对应的视频理解结果。
在本申请实施例中,步骤S460以及步骤S470可以参阅其他实施例的内容,在此不再赘述。
本申请实施例提供的视频处理方法,在通过大语言模型对待处理视频进行视频理解时,根据识别的关键帧以及划分的视频片段提取的部分视频帧之后,再对提取的部分视频帧提取图像特征后,对图像特征进行池化,再与提示词进行拼接,得到用于输入大语言模型的输入信息,因此在对长时视频进行理解时,可以一次性针对待输入视频确定用于输入大语言模型的输入信息,从而能够使大语言模型更好地对长时视频进行视频理解,提升对长时视频的理解的准确性。
请参阅图5,图5示出了本申请又另一个实施例提供的视频处理方法的流程示意图。该视频处理方法应用于上述计算机设备,下面将针对图5所示的流程进行详细的阐述,所述视频处理方法具体可以包括以下步骤:
步骤S510:获取待处理视频对应的视频时长。
在本申请实施例中,在对待处理视频进行视频理解时,可以确定待处理视频对应的视频时长,以便确定本次需要进行视频理解的待处理视频是否为长时视频。
步骤S520:若所述视频时长小于或等于目标时长,则基于所述待处理视频中的视频帧以及所述目标提示信息,生成用于输入大语言模型的第二输入信息。
在本申请实施例中,在获取待处理视频的视频时长后,可以将视频时长与目标时长进行比较;根据比较结果,若视频时长小于或等于目标时长,则表示本次需要进行视频理解的待处理视频不是长时视频,因此按照常规的处理方式,可以针对待处理视频确定的输入信息,可以一次就能输入至大语言模型中,而不需要对待处理视频分段后,多次输入大语言模型,故可以直接基于待处理视频中的视频帧以及目标提示信息,生成用于输入大语言模型的第二输入信息。
其中,可以针对待处理视频中的视频帧进行特征提取,得到待处理视频中的视频帧对应的图像特征;对待处理视频中的视频帧进行池化,并将池化后的图像特征进行拼接,得到待输入特征;将待输入特征与目标提示信息进行拼接,得到用于输入大语言模型的第二输入信息。其中,针对视频帧的图像特征的池化方式可以参阅前一实施例的内容,在此不再赘述。
步骤S530:将所述第二输入信息输入至所述大语言模型,得到所述待处理视频对应的视频理解结果。
在本申请实施例中,在获得以上第二输入信息后,则可以将第二输入信息输入至大语言模型中,从而得到针对待处理视频对应的视频理解结果。如此,可以实现一次将输入信息输入大语言模型,就能完成对待处理视频的视频理解。
步骤S540:若所述视频时长大于目标时长,对待处理视频进行关键帧识别,得到所述待处理视频中的关键帧。
在本申请实施例中,在获取待处理视频的视频时长后,将视频时长与目标时长进行比较;根据比较结果,若视频时长大于目标时长,则表示本次需要进行视频理解的待处理视频是长时视频,因此可以对待处理视频进行关键帧识别,得到待处理视频中的关键帧,并执行后续步骤,从而实现提升长时视频的视频理解的准确性。
步骤S550:将所述待处理视频划分为多个视频片段。
步骤S560:基于所述关键帧,从所述多个视频片段的每个视频片段中提取部分视频帧。
步骤S570:基于目标提示信息以及所述部分视频帧,生成用于输入大语言模型的第一输入信息,所述目标提示信息用于提示所述大语言模型进行视频理解。
步骤S580:将所述第一输入信息输入至所述大语言模型,得到所述待处理视频对应的视频理解结果。
在本申请实施例中,步骤S550至步骤S580可以参阅其他实施例的内容,在此不再赘述。
本申请实施例提供的视频处理方法,在通过大语言模型对待处理视频进行视频理解时,根据待处理视频的视频时长,在视频时长大于目标时长的情况下,根据识别的关键帧以及划分的视频片段提取的部分视频帧之后,根据提取的部分视频帧确定用于输入大语言模型的输入信息,因此在对长时视频进行理解时,可以一次性针对待输入视频确定用于输入大语言模型的输入信息,从而能够使大语言模型更好地对长时视频进行视频理解,提升对长时视频的理解的准确性;而在视频时长不大于目标时长的情况下,则直接根据待处理视频的视频帧确定用于输入大语言模型的输入信息,从而不仅能够对长时视频进行准确地理解,也能对短视频进行准确地理解。
下面再通过举例对前述实施例提供的视频处理方法进行说明。
请参阅图6,在对待处理视频进行视频理解时,可以对待处理视频进行关键帧视频以及视频片段划分,使待处理视频被标注用于划分视频片段的时间戳,以及关键帧;然后再基于标注的时间戳以及关键帧,对每个视频片段提取部分视频帧;再将提取的视频帧输入视觉编码器,得到各个视频帧对应的图像特征;再将提取的图像特征输入空间池和时间池中,在空间池中,按照视频帧的时间顺序,对所有视频帧对应的图像特征中的全局特征进行拼接,在时间池中,针对所有视频帧对应的图像特征中的patch特征进行平均池化;然后将空间池以及时间池得到的特征进行拼接,并映射到大语言模型的特征空间,与目标提示信息拼接后,输入到大语言模型,从而大语言模型根据输入信息,输出视频理解结果,例如,在3S-5.6S,有两个人在愉快的交流;5min30秒-8min15秒,有4个人在飙车混战,经历了街道、桥梁、河流的场景。
请参阅图7,其示出了本申请实施例提供的一种视频处理装置700的结构框图。该视频处理装置700应用上述的计算机设备,该视频处理装置700包括:关键帧识别模块710、视频划分模块720、视频帧提取模块730、信息生成模块740以及视频理解模块750。其中,所述关键帧识别模块710用于对待处理视频进行关键帧识别,得到所述待处理视频中的关键帧;所述视频划分模块720用于将所述待处理视频划分为多个视频片段;所述视频帧提取模块730用于基于所述关键帧,从所述多个视频片段的每个视频片段中提取部分视频帧;所述信息生成模块740用于基于目标提示信息以及所述部分视频帧,生成用于输入大语言模型的第一输入信息,所述目标提示信息用于提示所述大语言模型进行视频理解;所述视频理解模块750用于将所述第一输入信息输入至所述大语言模型,得到所述待处理视频对应的视频理解结果。
在一些实施方式中,视频帧提取模块730可以具体用于基于所述关键帧,针对所述多个视频片段的每个视频片段进行采样,得到所述每个视频片段中的部分视频帧。
在一种可能的实施方式中,所述每个视频片段中包括至少一帧所述关键帧。视频帧提取模块730还可以具体用于基于所述每个视频片段中的所述关键帧,对所述每个视频片段进行划分,得到所述每个视频片段对应的多个视频子片段;对所述每个视频片段对应的多个视频子片段中的每个视频子片段进行采样,得到所述每个视频片段中的部分视频帧,其中,所述关键帧所在视频子片段对应的采样率高于其他视频子片段对应的采样率,所述其他视频子片段为所述多个视频子片段中除所述关键帧所在视频子片段以外的视频子片段。
可选地,视频帧提取模块730还可以具体用于基于所述每个视频片段中的所述关键帧,从所述每个视频片段中划分出包含所述关键帧的视频子片段,以及不包含所述关键帧的视频子片段。
在一些实施方式中,所述每个视频片段中包括至少一帧所述关键帧,视频帧提取模块730可以具体用于针对所述多个视频片段中的每个视频片段,获取与所述关键帧邻近的第一数量的视频帧,并从其他视频帧中获取第二数量的视频帧,得到所述每个视频片段对应的所述第一数量的视频帧以及所述第二数量的视频帧,其中,所述其他视频帧为所述每个视频片段中除所述关键帧以及所述关键帧邻近的第一数量的视频帧以外的视频帧;将所述每个视频片段对应的所述关键帧、所述第一数量的视频帧以及所述第二数量的视频帧,确定为所述每个视频片段对应的部分视频帧。
在一些实施方式中,视频划分模块720可以具体用于基于所述关键帧,将所述待处理视频划分为多个视频片段,其中,所述多个视频片段的每个视频片段中包括至少一帧所述关键帧。
在一种可能的实施方式中,视频划分模块720还可以具体用于基于所述关键帧,对所述待处理视频标注多个目标时间戳,其中,相邻的两个所述目标时间戳之间的视频构成一个视频片段,所述目标时间戳位于相邻的两个关键帧之间。
在一些实施方式中,信息生成模块740可以具体用于对所述部分视频帧进行特征提取,得到所述部分视频帧对应的图像特征;对所述部分视频帧对应的图像特征进行池化,并将池化后的图像特征进行拼接,得到待输入特征;将所述待输入特征与所述目标提示信息进行拼接,得到用于输入大语言模型的第一输入信息。
在一种可能的实施方式中,所述部分视频帧中每帧视频帧对应的图像特征包括全局特征以及多个图像块对应的块特征,信息生成模块740还可以具体用于根据所述部分视频帧中的视频帧的顺序,对所述部分视频帧对应的所述全局特征进行拼接,得到第一特征;对所述部分视频帧对应的块特征进行平均池化,得到第二特征;将所述第一特征以及所述第二特征进行拼接,得到所述待输入特征。
在一些实施方式中,该视频处理装置还可以包括时长获取模块,时长获取模块可以用于在所述对待处理视频进行关键帧识别,得到所述待处理视频中的关键帧之前,获取所述待处理视频对应的视频时长;关键帧识别模块可以具体用于若所述视频时长大于目标时长,则对待处理视频进行关键帧识别,得到所述待处理视频中的关键帧。
在一种可能的实施方式中,信息生成模块还可以用于在所述获取所述待处理视频对应的视频时长之后,若所述视频时长小于或等于目标时长,则基于所述待处理视频中的视频帧以及所述目标提示信息,生成用于输入大语言模型的第二输入信息;视频理解模块还可以用于将所述第二输入信息输入至所述大语言模型,得到所述待处理视频对应的视频理解结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
综上所述,本申请提供的方案,通过对待处理视频进行关键帧识别,得到待处理视频中的关键帧,将待处理视频划分为多个视频片段,基于关键帧,从多个视频片段的每个视频片段中提取部分视频帧,基于获取到的部分视频帧以及用于提示大语言模型进行视频理解的目标提示信息,生成用于输入大语言模型的第一输入信息,然后将第一输入信息输入至大语言模型,得到待处理视频对应的视频理解结果。由此,由于在通过大语言模型对待处理视频进行视频理解时,是根据识别的关键帧以及划分的视频片段提取的部分视频帧之后,再根据提取的部分视频帧确定用于输入大语言模型的输入信息,因此在对长时视频进行理解时,无需对视频分段后多次输入大语言模型,从而能够使大语言模型更好地对长时视频进行视频理解,提升对长时视频的理解的准确性。
请参考图8,其示出了本申请实施例提供的一种计算机设备的结构框图。该计算机设备100可以是智能手机、平板电脑、智能手表、电子书等能够运行应用程序的设备。本申请中的计算机设备100可以包括一个或多个如下部件:处理器110、存储器120、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行,一个或多个应用程序配置用于执行如前述方法实施例所描述的方法。
处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个计算机设备100内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行计算机设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储计算机设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参考图9,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (14)

1.一种视频处理方法,其特征在于,所述方法包括:
对待处理视频进行关键帧识别,得到所述待处理视频中的关键帧;
将所述待处理视频划分为多个视频片段;
基于所述关键帧,从所述多个视频片段的每个视频片段中提取部分视频帧;
基于目标提示信息以及所述部分视频帧,生成用于输入大语言模型的第一输入信息,所述目标提示信息用于提示所述大语言模型进行视频理解;
将所述第一输入信息输入至所述大语言模型,得到所述待处理视频对应的视频理解结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述关键帧,从所述多个视频片段的每个视频片段中提取部分视频帧,包括:
基于所述关键帧,针对所述多个视频片段的每个视频片段进行采样,得到所述每个视频片段中的部分视频帧。
3.根据权利要求2所述的方法,其特征在于,所述每个视频片段中包括至少一帧所述关键帧,所述基于所述关键帧,针对所述多个视频片段的每个视频片段进行采样,得到所述每个视频片段中的部分视频帧,包括:
基于所述每个视频片段中的所述关键帧,对所述每个视频片段进行划分,得到所述每个视频片段对应的多个视频子片段;
对所述每个视频片段对应的多个视频子片段中的每个视频子片段进行采样,得到所述每个视频片段中的部分视频帧,其中,所述关键帧所在视频子片段对应的采样率高于其他视频子片段对应的采样率,所述其他视频子片段为所述多个视频子片段中除所述关键帧所在视频子片段以外的视频子片段。
4.根据权利要求3所述的方法,其特征在于,所述基于所述每个视频片段中的所述关键帧,对所述每个视频片段进行划分,得到所述每个视频片段对应的多个视频子片段,包括:
基于所述每个视频片段中的所述关键帧,从所述每个视频片段中划分出包含所述关键帧的视频子片段,以及不包含所述关键帧的视频子片段。
5.根据权利要求1所述的方法,其特征在于,所述每个视频片段中包括至少一帧所述关键帧,所述基于所述关键帧,从所述多个视频片段的每个视频片段中提取部分视频帧,包括:
针对所述多个视频片段中的每个视频片段,获取与所述关键帧邻近的第一数量的视频帧,并从其他视频帧中获取第二数量的视频帧,得到所述每个视频片段对应的所述第一数量的视频帧以及所述第二数量的视频帧,其中,所述其他视频帧为所述每个视频片段中除所述关键帧以及所述关键帧邻近的第一数量的视频帧以外的视频帧;
将所述每个视频片段对应的所述关键帧、所述第一数量的视频帧以及所述第二数量的视频帧,确定为所述每个视频片段对应的部分视频帧。
6.根据权利要求1所述的方法,其特征在于,所述将所述待处理视频划分为多个视频片段,包括:
基于所述关键帧,将所述待处理视频划分为多个视频片段,其中,所述多个视频片段的每个视频片段中包括至少一帧所述关键帧。
7.根据权利要求6所述的方法,其特征在于,所述基于所述关键帧,将所述待处理视频划分为多个视频片段,包括:
基于所述关键帧,对所述待处理视频标注多个目标时间戳,其中,相邻的两个所述目标时间戳之间的视频构成一个视频片段,所述目标时间戳位于相邻的两个关键帧之间。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述基于目标提示信息以及所述部分视频帧,生成用于输入大语言模型的第一输入信息,包括:
对所述部分视频帧进行特征提取,得到所述部分视频帧对应的图像特征;
对所述部分视频帧对应的图像特征进行池化,并将池化后的图像特征进行拼接,得到待输入特征;
将所述待输入特征与所述目标提示信息进行拼接,得到用于输入大语言模型的第一输入信息。
9.根据权利要求8所述的方法,其特征在于,所述部分视频帧中每帧视频帧对应的图像特征包括全局特征以及多个图像块对应的块特征,所述对所述部分视频帧对应的图像特征进行池化,并将池化后的图像特征进行拼接,得到待输入特征,包括:
根据所述部分视频帧中的视频帧的顺序,对所述部分视频帧对应的所述全局特征进行拼接,得到第一特征;
对所述部分视频帧对应的块特征进行平均池化,得到第二特征;
将所述第一特征以及所述第二特征进行拼接,得到所述待输入特征。
10.根据权利要求1-7任一项所述的方法,其特征在于,在所述对待处理视频进行关键帧识别,得到所述待处理视频中的关键帧之前,所述方法还包括:
获取所述待处理视频对应的视频时长;
若所述视频时长大于目标时长,则执行所述对待处理视频进行关键帧识别,得到所述待处理视频中的关键帧的步骤。
11.根据权利要求10所述的方法,其特征在于,在所述获取所述待处理视频对应的视频时长之后,所述方法还包括:
若所述视频时长小于或等于目标时长,则基于所述待处理视频中的视频帧以及所述目标提示信息,生成用于输入大语言模型的第二输入信息;
将所述第二输入信息输入至所述大语言模型,得到所述待处理视频对应的视频理解结果。
12.一种视频处理装置,其特征在于,所述装置包括:关键帧识别模块、视频划分模块、视频帧提取模块、信息生成模块以及视频理解模块,其中,
所述关键帧识别模块用于对待处理视频进行关键帧识别,得到所述待处理视频中的关键帧;
所述视频划分模块用于将所述待处理视频划分为多个视频片段;
所述视频帧提取模块用于基于所述关键帧,从所述多个视频片段的每个视频片段中提取部分视频帧;
所述信息生成模块用于基于目标提示信息以及所述部分视频帧,生成用于输入大语言模型的第一输入信息,所述目标提示信息用于提示所述大语言模型进行视频理解;
所述视频理解模块用于将所述第一输入信息输入至所述大语言模型,得到所述待处理视频对应的视频理解结果。
13.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-11任一项所述的方法。
14.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-11任一项所述的方法。
CN202311257597.3A 2023-09-26 2023-09-26 视频处理方法、装置、计算机设备及存储介质 Pending CN117336525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311257597.3A CN117336525A (zh) 2023-09-26 2023-09-26 视频处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311257597.3A CN117336525A (zh) 2023-09-26 2023-09-26 视频处理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN117336525A true CN117336525A (zh) 2024-01-02

Family

ID=89294619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311257597.3A Pending CN117336525A (zh) 2023-09-26 2023-09-26 视频处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN117336525A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118096067A (zh) * 2024-02-28 2024-05-28 佛山职业技术学院 一种陶艺课程的交互式学习方法及相关装置
CN118366075A (zh) * 2024-04-02 2024-07-19 北京邮电大学 视频识别方法、装置、设备及存储介质
CN118590714A (zh) * 2024-08-02 2024-09-03 荣耀终端有限公司 视觉媒体数据处理方法、程序产品、存储介质及电子设备
CN118840697A (zh) * 2024-09-20 2024-10-25 北京卓视智通科技有限责任公司 一种基于大模型的长视频理解方法、装置、设备及介质
CN119089003A (zh) * 2024-08-21 2024-12-06 成都光厂创意科技有限公司 素材视频查重方法、装置、电子设备和计算机可读介质
CN119810707A (zh) * 2024-12-12 2025-04-11 北京百度网讯科技有限公司 视频处理方法、装置、电子设备和存储介质
CN119835500A (zh) * 2025-01-15 2025-04-15 上海哔哩哔哩科技有限公司 视频剪辑方法和装置
CN120088695A (zh) * 2024-12-26 2025-06-03 北京师范大学珠海校区 引入外部知识特征的弱监督时间动作定位方法及装置
CN120388323A (zh) * 2025-06-27 2025-07-29 复旦大学 一种面向长视频理解的采样方法及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118096067A (zh) * 2024-02-28 2024-05-28 佛山职业技术学院 一种陶艺课程的交互式学习方法及相关装置
CN118366075A (zh) * 2024-04-02 2024-07-19 北京邮电大学 视频识别方法、装置、设备及存储介质
CN118590714A (zh) * 2024-08-02 2024-09-03 荣耀终端有限公司 视觉媒体数据处理方法、程序产品、存储介质及电子设备
CN119089003A (zh) * 2024-08-21 2024-12-06 成都光厂创意科技有限公司 素材视频查重方法、装置、电子设备和计算机可读介质
CN118840697A (zh) * 2024-09-20 2024-10-25 北京卓视智通科技有限责任公司 一种基于大模型的长视频理解方法、装置、设备及介质
CN118840697B (zh) * 2024-09-20 2024-11-26 北京卓视智通科技有限责任公司 一种基于大模型的长视频理解方法、装置、设备及介质
CN119810707A (zh) * 2024-12-12 2025-04-11 北京百度网讯科技有限公司 视频处理方法、装置、电子设备和存储介质
CN120088695A (zh) * 2024-12-26 2025-06-03 北京师范大学珠海校区 引入外部知识特征的弱监督时间动作定位方法及装置
CN120088695B (zh) * 2024-12-26 2025-10-21 北京师范大学珠海校区 引入外部知识特征的弱监督时间动作定位方法及装置
CN119835500A (zh) * 2025-01-15 2025-04-15 上海哔哩哔哩科技有限公司 视频剪辑方法和装置
CN120388323A (zh) * 2025-06-27 2025-07-29 复旦大学 一种面向长视频理解的采样方法及系统
CN120388323B (zh) * 2025-06-27 2025-08-26 复旦大学 一种面向长视频理解的采样方法及系统

Similar Documents

Publication Publication Date Title
CN117336525A (zh) 视频处理方法、装置、计算机设备及存储介质
CN111294646B (zh) 一种视频处理方法、装置、设备及存储介质
CN110929622B (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN110163079B (zh) 视频检测方法及装置、计算机可读介质和电子设备
CN109145152B (zh) 一种基于查询词的自适应智能生成图文视频缩略图方法
CN113204659B (zh) 多媒体资源的标签分类方法、装置、电子设备及存储介质
CN113435330B (zh) 基于视频的微表情识别方法、装置、设备及存储介质
CN112861575A (zh) 一种行人结构化方法、装置、设备和存储介质
CN111741330A (zh) 一种视频内容评估方法、装置、存储介质及计算机设备
CN113205047B (zh) 药名识别方法、装置、计算机设备和存储介质
US12111866B2 (en) Term weight generation method, apparatus, device and medium
CN113392689B (zh) 视频文字跟踪方法、视频处理方法、装置、设备及介质
JP2022088304A (ja) ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN112804558B (zh) 视频拆分方法、装置及设备
CN117079671A (zh) 音频处理方法、装置、计算机设备及存储介质
CN118467778B (zh) 视频信息摘要生成方法、装置、电子装置和存储介质
CN114722893A (zh) 模型生成方法、图像标注方法、装置以及电子设备
CN117523200A (zh) 应用界面的图像分割方法、装置、电子设备及存储介质
CN117475340A (zh) 视频数据处理方法、装置、计算机设备和存储介质
CN114973115B (zh) 图像识别对象的数量估计方法、装置及存储介质
CN118172713B (zh) 视频标签的识别方法、装置、计算机设备和存储介质
CN119342307A (zh) 基于关键帧的动画视频生成方法、装置、设备及存储介质
CN119478763A (zh) 基于多模态特征的视频分段方法、装置、设备和存储介质
CN115115975B (zh) 视频处理方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination