[go: up one dir, main page]

CN111052752A - 媒体感知导航元数据 - Google Patents

媒体感知导航元数据 Download PDF

Info

Publication number
CN111052752A
CN111052752A CN201880054983.3A CN201880054983A CN111052752A CN 111052752 A CN111052752 A CN 111052752A CN 201880054983 A CN201880054983 A CN 201880054983A CN 111052752 A CN111052752 A CN 111052752A
Authority
CN
China
Prior art keywords
content
navigation
metadata
media content
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880054983.3A
Other languages
English (en)
Inventor
C·G·海因斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN111052752A publication Critical patent/CN111052752A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/2387Stream processing in response to a playback request from an end-user, e.g. for trick-play
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4333Processing operations in response to a pause request
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4621Controlling the complexity of the content stream or additional data, e.g. lowering the resolution or bit-rate of the video stream for a mobile client with a small screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本公开涉及用于处理具有视频内容和相关联音频内容的媒体内容的方法和设备。一种处理具有视频内容和相关联音频内容的媒体内容的方法包括,所述方法包含:接收所述视频内容和所述相关联音频内容,分析所述相关联音频内容,基于所述分析确定用于实现所述媒体内容的导航的一或多个导航点(其中所述一或多个导航点指示所述相关联音频内容中用于短期倒回和/或快进),将所述一或多个导航点嵌入所述媒体内容的元数据中,并输出所述视频内容、所述相关联音频内容和所述元数据。

Description

媒体感知导航元数据
相关申请的交叉引用
本申请要求2017年8月28日提交的美国临时专利申请第62/550,747号和2017年8月28日提交的欧洲专利申请第17188118.8号的优先权,其全部公开内容通过引用整体并入本文。
技术领域
本公开涉及处理包括视频内容和相关联音频内容的媒体内容的方法。本公开进一步涉及生成媒体内容的媒体感知导航元数据(例如,用于在媒体内容的回放期间增强用户体验的媒体感知导航元数据)的方法。本公开还涉及相应的设备,诸如例如编码器或解码器。本公开特别地但非排他地适用于AC-4编解码器。
背景技术
例如,当享用包含视频内容和相关联音频内容的媒体内容(例如,电影或电视节目)(例如,经由流服务)时,可能出现某一个用户(例如,观看者)错过内容的情况。例如,用户可能没有完全听到或以其它方式听错演员刚刚说过的话。在常规媒体播放器中,可以选择暂停、倒回和再次播放。对于Apple
Figure BDA0002390585510000011
用户可以要求Siri重放。对于
Figure BDA0002390585510000012
用户可以按下即时重放按钮。然而,用于重放错过的内容的常规方法并不会感知实际错过的内容。因此,媒体内容通常倒回得太远,或倒回到演员对话中间的一个点。对于享用媒体内容的用户而言,这种体验可能是令人沮丧的。
字幕时间码不适于解决本问题,因为其并不总是与音频内容同步出现(例如,较长的字幕往往会在演员实际开始讲话之前就很好地显示出来)。
因此,需要用于处理包含视频内容和相关联音频内容的媒体内容的改善的方法和设备。进一步需要实现内容感知媒体导航的此类方法和设备。
发明内容
根据本公开的一方面,描述了一种处理具有视频内容(例如,视频轨道或视频轨道的一部分)和相关联音频内容(例如,音频轨道,例如语音或对话轨道或音频轨道的一部分)的媒体内容的方法。所述方法也可以被称为一种生成媒体内容的元数据的方法。音频内容可以与视频内容对齐(时间对齐)。可以在比特流中或从媒体内容存储部分(存储单元)接收媒体内容。所述方法可以包含接收视频内容和相关联音频内容。所述方法可以进一步包含分析相关联音频内容。所述方法可以进一步包含基于分析确定用于实现媒体内容的导航的一或多个导航点。一或多个导航点可以指示相关联音频内容中用于短期倒回和/或快进的感兴趣点。导航点可以例如是跳转点。所述方法可以进一步包含将一或多个导航点嵌入媒体内容的元数据中。所述方法可以又进一步包含输出视频内容、相关联音频内容和元数据。元数据可以由应用(例如,媒体播放器应用)使用,以用于生成媒体内容的视听表示。元数据可以与相关联音频内容对齐(同样,元数据可以被称为与视频内容对齐)。此外,元数据可以实现媒体内容的内容感知导航(例如,视频内容的内容感知导航)。
如此配置,所提出的方法将有用的元数据添加到媒体内容(例如,添加到比特流,例如AC-4比特流),所述元数据允许回放端处的媒体内容的高分辨率内容感知导航。因此,用户能够直接跳到他们感兴趣的媒体内容中的点,例如他们可能听错了的对话话语的开头。这避免了在媒体内容导航时经常令人沮丧的不精确性,并且不存在在感兴趣点之前的媒体内容的不必要重放。由于多种编码器(例如,AC-4编码器)出于增强对话的目的而按标准进行对话检测,所以当在这种编码器处进行时,所提出的方法不需要显著增加计算复杂性。此外,如果可以使用单独的对话轨迹(通常是这种情况),则导航点的定位可以高度精确。
在一些实施例中,媒体内容可以包含相关联元数据。相关联元数据可以是可以与相关联音频内容对齐(例如,时间对齐)的对话增强元数据。在这种情况下,所述方法可以进一步包含分析相关联音频内容和相关联元数据。
在一些实施例中,分析音频内容可以涉及对音频内容应用语音检测。如上所述,在对话检测/增强的情况下,语音检测可以按标准在多种编码器中进行,使得前述分析几乎不需要额外的计算复杂性。
在一些实施例中,一或多个导航点可以置于相关联音频内容中包含的语音话语(对话话语)的相应起点处。例如,导航点可以置于相关联音频内容中的语音句子的相应起点处。因此,导航点可能不均匀地间隔开。换句话说,在第一对相邻导航点之间可以存在第一偏移(例如,时间偏移或样本偏移),并且在第二对相邻导航点之间可以存在第二偏移,其中第一偏移不同于第二偏移。这实现了对可能被用户听错或用户出于某种原因希望再次收听的对话话语的针对性导航。
在一些实施例中,一或多个导航点可以指示相对于相应当前帧的起点的相应偏移。由此,可以以特别简单和有效的方式来表示导航点。
在一些实施例中,所述方法可以进一步包含对相关联音频内容应用对话检测。然后,分析相关联音频内容可以至少部分地基于对话检测的结果。可以在对话增强或生成对话增强的元数据的情况下或出于此目的而进行所述对话检测。对话增强是多种现代编码器中的标准特点。所提出的方法可以有利地重新使用对话增强处理的结果,以用于生成实现媒体内容的内容感知导航的元数据的目的。
在一些实施例中,所述方法可以在用于对媒体内容进行编码的编码器处进行。然后,所述方法可以进一步包含接收一或多个另外的导航点的输入。一或多个另外的导航点可以由操作者生成。例如,一或多个另外的导航点可以涉及视频内容和/或相关联音频内容中的感兴趣点。如果所述方法在编码器处进行,则可以从媒体内容存储部分接收媒体内容。以离线方式进行用于嵌入到元数据中的一或多个导航点的生成可以产生导航点的非常精确的放置,这可以显著改善用户体验。
在一些实施例中,所述方法可以进一步包含基于视频内容、相关联音频内容和元数据生成媒体内容的视听表示。如果所述方法在回放环境下进行,则可能尤其如此。
在一些实施例中,所述方法可以进一步包含响应于指示从一或多个导航点中的一个导航点开始的重放的用户指令,以改善的清晰度和/或连贯性修改和重放媒体内容(例如,进行对话增强,增加节目回放音量,使非对话音频轨道静音,启用字幕)。这些措施可以是时间措施。例如,对话增强可以是时间对话增强。在一些实施例中,对话增强可以随时间淡出。特别地,对话增强的水平可以在下一个(即随后的)导航点或一旦到达已经进行倒回的位置便开始归零。本程序基于以下事实提出:打算跳回到对话或语音的某一部分的用户通常是没有听到对话或语音的所述某一部分的至少一部分。所提出的方法实现了此种对话或语音的针对性对话增强,从而增加用户体验。另一方面,对话增强是时间相关的,即其选择性地应用于用户特别感兴趣的对话部分。
在一些实施例中,所述方法可以进一步包含在由一或多个导航点指示的时刻从视频内容提取静止图像。所述方法可以又进一步包含提供一系列所提取的静止图像的视觉表示,以用于指导媒体内容的用户导航。可替代地或另外地,所述方法可以进一步包含至少部分地基于一或多个导航点的随时间变化的密度设置用于扫描媒体内容的扫描速率。可替代地或另外地,所述方法可以进一步包含至少部分地基于一或多个导航点的随时间变化的密度设置扫描条的视觉表示上的点和视频内容中的时间点之间的对应关系。由此,扫描或浏览媒体内容可以提供更高的分辨率,并且可以实现对媒体内容中用户特别感兴趣的点的针对性导航。
在一些实施例中,所述方法可以进一步包含提供快进重放模式,其中媒体内容的相应部分从一或多个导航点中的相应一个导航点开始重放。这是用于增加扫描或浏览媒体内容中的分辨率的另一种方法,其可以实现对媒体内容中用户特别感兴趣的点的针对性导航。
在一些实施例中,所述方法可以进一步包含在重放暂停后,在由一或多个导航点中的最近一个导航点指示的时刻恢复回放。由此,改善了用户体验,尤其是在暂停媒体内容的重放后经过很长一段时间的情况下。
另一方面涉及一种编码器。所述编码器可以包含处理器和存储用于使处理器进行本公开中概述的操作(例如,方法步骤)的指令的存储器。
另一方面涉及一种解码器。所述解码器可以包含处理器和存储用于使处理器进行本公开中概述的操作的指令的存储器。
另一方面涉及一种程序(软件程序)。所述软件程序可以适于在处理器上执行并且适于在计算装置上执行时进行本公开中概述的方法步骤。
另一方面涉及一种计算机可读存储媒体。所述存储媒体可以包含程序(软件程序),所述程序适于在处理器上执行并且适于在计算装置上执行时进行本公开中概述的方法步骤。
又一方面涉及一种计算机程序产品。所述计算机程序可以包含用于在计算机上执行时进行本公开中概述的操作的可执行指令。
应当注意的是,包含本公开中概述的其优选实施例的方法和设备可以单独使用或与本公开中公开的其它方法和系统结合使用。此外,本公开中概述的方法和设备的所有方面可以任意地组合。特别地,权利要求的特征可以以任意方式彼此组合。
附图说明
下面参考附图解释本公开的示范性实施例,其中相同的附图标记指示相似或类似的元件,并且其中:
图1示意性地示出了本公开的实施例可以应用于的音频轨道的一个实例,
图2是示出了根据本公开的实施例的处理媒体内容的方法的一个实例的流程图,
图3是示意性地示出了可以进行根据本公开的实施例的方法的环境的一个实例的框图,并且
图4是示意性地示出了用于进行根据本公开的实施例的方法的设备的一个实例的框图。
具体实施方式
图1示意性地示出了本公开的实施例可以应用于的音频轨道100的一个实例。在本实例中,音频轨道100是语音或对话轨道(或至少包含语音或对话的音频轨道)并且包含听错的对话120的一部分。媒体播放器在音频轨道内的当前位置由垂直线110指示。在常规媒体播放器应用中,用于倒回(例如,用于即时重放)的标记(例如,跳转点)通常以预定偏移(例如,在时间或样本方面)间隔开,诸如例如10秒。从当前位置110倒回的最接近的标记(例如,跳转点)由垂直线130指示。由本最接近的标记130指示的位置可能恰好位于对话中间的一个点,如本实例中所示,或者其可能是用户(例如,观看者)实际感兴趣的点(例如,错过的对话)之前几秒钟。为了解决本问题,本公开提供了用于生成媒体内容的导航点(例如,跳转点)的方法和设备。此些导航点的实例由垂直线140、150、160指示。以此方式生成这些导航点140、150、160,使得它们指示重放的特别感兴趣的点。例如,这些导航点140、150、160可以指示对话话语的各个开始。所生成的导航点可以被嵌入到元数据(例如,比特流中的元数据)中。也就是说,导航点可以被嵌入到比特流中。尽管本公开适用于几种不同的编解码器,但是导航点可以是嵌入到AC-4比特流中的跳转点。
有了这些导航点后,情况将如下变化。当用户点击倒回(或要求Siri,或例如点击其即时重放按钮)时,媒体播放器应用可以倒回并快速移动到对话的最近部分的开头。本倒回可以即时生效,用户不再需要在重放到达对话的相关部分之前等待几秒钟。由于返回到最近导航点的功能已存在于常规媒体播放器应用中,因此流提供程序可以根据其特定用户界面的需求调整倒回行为。本公开通过生成具有适当且精确定位的导航点的元数据提供了优于常规技术的优点。
图2中示出了根据本公开的实施例的处理包含视频内容和相关联音频内容的媒体内容的方法200的一个实例。本方法也可以被称为生成媒体内容的元数据(包含导航点)的方法。所述方法可以在解码器(例如,AC-4解码器)或编码器(例如,AC-4编码器)处进行。
步骤S210,接收视频内容和相关联音频内容。视频内容可以包括视频轨道或视频轨道的一部分。音频内容和视频内容可以彼此对齐(例如,时间对齐)。音频内容可以包括音频轨道(例如,频道)或音频轨道的一部分。音频轨道可以例如涉及语音或对话轨道(例如,频道)。例如,如果所述方法在解码器处进行,则视频内容和相关联音频内容可以作为比特流或在比特流中接收。可替代地,例如,如果所述方法在编码器处进行,则可以从存储部分(存储单元)或相应存储部分(存储单元)接收视频内容和音频内容。
步骤S220,分析相关联音频内容。分析音频内容可以涉及对音频内容应用语音检测(例如,对话检测)。所述分析尤其可以产生音频内容中包含的语音话语(例如,对话话语、对话部分、语音句子)的起点的指示。
在某些实施方案中,所述方法可以进一步包括对相关联音频内容应用对话检测的步骤。在这种情况下,分析相关联音频内容可以至少部分地基于对话检测的结果。例如,相关联音频内容的分析可以标识相应对话(对话话语)部分开始的位置。可以在对话增强或确定用于实现对话增强的参数(例如,元数据)的情况下或出于此目的而进行对话检测。例如,此些参数可以涉及标志(例如,对话标志),所述标志指示对话是否存在于音频内容中。
如果所述方法在解码器处进行,则步骤S220可以进一步包括分析所接收的比特流中存在的任何元数据。这种元数据可以被称为相关联元数据。例如,相关联元数据可以是可能与对话严格对齐的现有对话增强器元数据。分析相关联元数据可以有助于确定一或多个导航点。值得注意的是,如上所述,音频元数据(例如,字幕)与音频对齐得不够紧密,使得这种情况下不可用。
步骤S230,基于分析(例如,基于分析的结果)确定(例如,生成)用于实现媒体内容的导航的一或多个导航点(例如,跳转点,例如AC-4比特流的跳转点)。导航点可以是指示媒体内容中的媒体播放器应用可以跳到(例如,当被指示倒回、快进、进行即时重放等时)的点(实例点(instance))的跳转点。跳转点可以是AC-4兼容媒体播放器应用的跳转点。一或多个导航点可以置于音频内容中包含的语音话语(例如,对话话语、对话部分)的相应起点处。例如,导航点可以置于音频内容中的语音句子的相应起点处。可以根据在步骤S220确定的起点的相应指示进行本放置。一或多个导航点可以由相对于包含相应导航点的帧的起点的相应偏移(例如,以时间或样本为单位的偏移)表示。
广义上讲,步骤S230产生了比场景转换或章节转换更精细粒化的导航点。特别地,导航点足够频繁地存在,使得可以预期每个对话片段有一个导航点。换句话说,在步骤S230确定的导航点可以存在于场景期间,并且不一定(仅)在场景边界上。与常规使用的任意时间点相比,在被导航时,在步骤S230确定的导航点的定位获得了内容回放的改善的清晰度和连贯性。另一方面,在步骤S230确定的导航点对于全局导航而言可能太多,为此,在场景边界和/或章节边界处具有跳转点更有意义。
步骤S240,将一或多个导航点嵌入到媒体内容(例如,视频内容和相关联音频内容)的元数据中。元数据可以由能够生成媒体内容的视听表示(例如,呈现)的媒体播放器应用使用。元数据可以通过媒体播放器应用实现媒体内容(例如,视频内容)的内容感知媒体导航。为此,优选的是,元数据与音频内容(并且同样与视频内容)对齐(例如,时间对齐)。
步骤S250,输出视频内容、相关联音频内容和元数据。换句话说,在本步骤输出媒体内容和媒体内容的元数据。
如上所述,所述方法200可以在编码器(例如,AC-4编码器)处进行。在这种情况下,所述方法可以接收母版(master)内容(母版媒体内容)。例如,可以从存储部分或从相应存储部分接收媒体内容(例如,视频内容和相关联音频内容)。在编码器处进行所述方法可以被称为涵盖媒体内容(例如,音频内容)的离线分析,以由编码器确定一或多个导航点(例如,跳转点)。
如果在编码器处进行,则所述方法可以进一步包括接收一或多个另外的导航点(例如,由人类操作者(例如,创建者或编辑者)手动确定或生成)的输入的步骤。一或多个另外的导航点可以涉及视频内容或相关联音频内容中的感兴趣点。例如,这些感兴趣点可以涉及有趣的瞬间、视觉幽默,连续动作的开头等。由此,视频内容和/或音频内容中的感兴趣点可以由元数据指示,并且可以作为预定跳转点提供给用户的媒体播放器应用。
如上所述,方法200也可以在解码器(例如,AC-4解码器)处或更一般地在回放环境中进行。在这种情况下,媒体内容(例如,视频内容和相关联音频内容)可以例如从兼容的编码器、兼容的存储媒体、兼容的媒体流等作为比特流或在比特流中接收。在解码器处进行所述方法可以被称为涵盖媒体内容(例如,音频内容)的在线分析,以在回放媒体内容(例如,视频内容)的同时由解码器确定一或多个导航点(例如,跳转点)。
如果所述方法200在解码器处进行,则可以提供一定量的前瞻(look-ahead)来生成一或多个导航点。这意味着,尽管一或多个导航点的生成确实是在线的,但是解码器可以保留一定量的尚未播放的音频内容(或通常是媒体内容)用于分析目的。这种前瞻还可以确保不会将导航点生成得彼此过近。因此,所述方法200可以进一步包括缓冲一定量(例如,预定量)的媒体内容(或至少相关联音频内容)。然后,在步骤S220,可以分析所缓冲的相关联音频内容。
在这种情况下,所述方法可以进一步包括基于视频内容、相关联音频内容和元数据生成媒体内容的视听表示(例如,呈现)的步骤。此外,所述方法200可以包括以下附加步骤中的任何、一些或全部。
例如,在时间上跳回(即倒回)到一或多个导航点中的一个导航点后,可以以改善的清晰度和/或连贯性修改和重放媒体内容。作为一个实例,可以进行对话增强、增加节目回放音量、使非对话音频轨道静音、启用字幕中的至少一项。也就是说,可以响应于指示从一或多个导航点中的一个导航点开始的重放的用户指令来进行这些措施。例如,进行对话增强可以涉及启用AC-4的对话增强器功能以增强和澄清(听错的)对话。一旦内容从中断处恢复,或者到达一或多个导航点(或一或多个另外的导航点)中的下一个导航点,对话增强就可以淡出(例如,逐渐淡出)。换句话说,对话增强可以是随时间淡出的时间对话增强。这可以产生更顺畅的体验,其减少了用户倒回媒体内容时所需的精力。
此外,所述方法可以实施以下媒体感知导航(内容感知导航)实施方案中的一或多种。
自家用视频系统(VHS)诞生以来,媒体内容的常规导航界面基本上未更新。本公开基于以下认识:在他们使用导航操作(例如,倒回、快进、暂停和播放)时,可以使用标记对话的位置、重要的瞬间或场景变化的元数据来改善用户体验。
例如,所述方法可以包括取决于存在多少动作/内容来改变分辨率的拖动(例如,调整由媒体播放器应用呈现的视频的全局进度条)。例如,当沿着进度条移动时,所述方法可以快速拖动通过安静的部分,并且以更高的分辨率缓慢拖动通过令人兴奋的场景。换句话说,所述方法可以包括至少部分地基于一或多个导航点的随时间变化的密度设置用于扫描媒体内容(例如,视频内容)的扫描速率。这假设导航点的随时间变化的高密度指示更有趣的场景,而导航点的随时间变化的低密度指示不太有趣的场景。可替代地或另外地,所述方法可以包括至少部分地基于一或多个导航点的随时间变化的密度设置扫描条(例如,视频的全局进度条)的视觉表示上的点和视频内容中的时间点之间的对应关系。也就是说,取决于一或多个导航点随时间变化的密度,扫描条(例如,全局进度条)的相同长度可以对应于视频内容的不同时间长度。
所述方法还可以包括例如针对有趣的瞬间、视觉幽默和动作的即时重放。
所述方法还可以包括提供快进重放模式,其中媒体内容(例如,视频内容)的相应部分从一或多个导航点中的相应一个导航点开始重放。例如,可以从一或多个导航点中的每一个导航点开始重放预定量的视频(例如,以预定数量的时间或样本单位给出)。例如,此快进重放模式可以从对话话语的一个时刻跳到下一时刻,而不是在时间上线性地进行。
所述方法还可以包括在重放暂停后,在由一或多个导航点中的最近一个导航点指示的时刻恢复媒体内容(例如,视频内容)的回放。因此,即使在对话话语中间暂停了重放,重放也可能在当前对话话语的开头处重新开始。由此,进一步增加了用户体验,尤其是在暂停重放后经过很长一段时间并且用户可能已忘记当前对话内容的情况下。
所述方法还可以包括在由一或多个导航点指示的时刻从视频内容提取静止图像(例如,每个导航点一个静止图像)。在这种情况下,所述方法可以进一步包括提供一系列所提取的静止图像的视觉表示,以用于指导媒体内容的用户导航。值得注意的是,静止图像可以沿着时间方向不均匀地间隔开。这实现了媒体内容的更高分辨率的导航。
图3是示意性示出了可以进行根据本公开的实施例的方法的环境300的一个实例的框图。所述环境可以包括编码器10(例如,AC-4编码器)和回放环境40。回放环境又可以包括解码器20(例如,AC-4解码器)和播放器应用(媒体播放器应用)30。编码器10可以从媒体存储部分11A接收媒体内容11(例如,作为母版内容)。任选地,编码器10可以从相应存储部分12A接收单独的对话词干12。值得注意的是,存储部分11A、12A可以由单个存储部分实施。任选地,编码器10可以接收已经由例如操作者13A(例如,创建者或编辑者)创建的手动贡献的事件元数据13。手动贡献的事件元数据可以对应于或包括一或多个另外的导航点。一或多个另外的导航点可以指示有趣的瞬间、场景变化等。
编码器10可以进行用于生成嵌入一或多个导航点的元数据的前述方法,并且可以输出比特流15,所述比特流15可能以编码形式包括视频内容、相关联音频内容和元数据。本比特流15可以在回放环境40下接收。例如,所述比特流可以被解码器20接收。解码器20可以对比特流进行解码,并且将视频内容、相关联音频内容和元数据输出到媒体播放器应用30。
可替代地,编码器10可以输出仅包含视频内容和相关联音频内容(以及可能的没有一或多个导航点的元数据)的比特流15。在这种情况下,可以通过解码器20进行用于生成嵌入一或多个导航点的元数据的上述方法。同样,在这种情况下,解码器20可以将视频内容、相关联音频内容和元数据输出到媒体播放器应用30。
解码器20可以将视频内容和相关联音频内容提供给媒体播放器应用30。解码器20可以进一步将元数据25提供给媒体播放器应用30的播放器逻辑35。播放器逻辑35可以进一步从用户41A接收导航输入(导航指令)41。导航输入41可以包含例如命令(例如,暂停、播放、倒回等)。播放器逻辑35可以参考元数据25中包含的一或多个导航点来进行前述的内容感知(媒体感知)导航。换句话说,播放器逻辑35能够通过参考元数据25以智能方式处理导航输入41。包含重放位置和/或重放状态的播放器状态(例如,播放、暂停、快进等)可以存储在媒体播放器应用30的播放器状态存储部分36A中。播放器状态更新36可以由播放器逻辑35生成。媒体播放器应用30还可以将对元数据25的请求31输出到解码器20。
应当理解,所提出的处理媒体内容的方法可以由相应适当设备(例如,编码器或解码器)来实施。此些设备(例如,编码器、解码器)可以包括适于执行上述相应步骤的相应单元。在图4中以框图形式示意性地示出了用于进行方法200的此设备的一个实例。设备400可以包括:接收单元(输入单元)401,其适于进行上述步骤S210,即适于接收媒体内容430(包含视频内容和相关联音频内容);分析单元402,其适于进行前述步骤S220;导航点确定单元403,其适于进行上述步骤S230;元数据处理单元404,其适于进行前述步骤S240;和输出单元405,其适于进行前述步骤S250,即适于输出视频内容、相关联音频内容和元数据。接收单元401可以将音频内容提供给分析单元402。接收单元401可以进一步将视频内容和相关联音频内容提供给输出单元405。分析单元402可以将分析的结果提供给导航点确定单元403。导航点确定单元403可以将一或多个导航点提供给元数据处理单元404。元数据处理单元404可以将嵌入一或多个导航点的元数据提供给输出单元405。
进一步应理解,此设备400的相应单元(例如,编码器、解码器)可以由处理器410来体现,所述处理器410适于进行由所述相应单元中的每个单元执行的处理,即其适于执行上述步骤中每一个步骤。本处理器410可以耦合到存储处理器410的相应指令的存储器420。
应当注意的是,说明书和附图仅示出了所提出的方法和设备的原理。因此,将理解,尽管未在本文中明确描述或示出,但本领域的技术人员将能够设计出体现本发明的原理并且包含在其精神和范围内的各种布置。此外,本文中叙述的所有实例主要旨在明确地仅用于教学目的以有助于读者理解所提出的方法和设备的原理以及发明人为进一步发展本领域所贡献的理念,并且应被解释为不限于这些具体叙述的实例和条件。此外,本文中叙述本发明的原理、方面和实施例及其具体实例的所有陈述旨在涵盖其等同。
本公开中描述的方法和设备可以被实施为软件、固件和/或硬件。某些组件可以例如被实施为在数字信号处理器或微处理器上运行的软件。其它组件可以例如被实施为硬件和/或专用集成电路。所描述的方法和设备中遇到的信号可以存储在媒体(例如,随机存取存储器或光学存储媒体)上。它们可以经由网络(例如,无线电网络、卫星网络、无线网络或有线网络,例如互联网)来传送。
一些列举示范性实施例(EEE)如下:
1、一种使用与之相关联元数据来控制媒体内容的回放的方法,所述元数据指示所述媒体内容中的多个场景内内容感知时间位置(例如,导航点),所述方法包括:
在所述媒体内容的回放期间,接收导航指令;和
响应于所接收的导航指令,选择由所述元数据指示的所述时间位置中的一个时间位置,并且从所述媒体内容中的当前时间位置跳到所述时间位置中的所选择的一个时间位置,
其中由所述元数据指示的所述时间位置中的每一个时间位置是所述媒体内容中基本上没有对话的不同时间位置。
2、根据EEE 1所述的方法,其中所述导航指令是向后跳指令,并且因此,所述时间位置中的所选择的一个时间位置是由所述元数据指示的所述时间位置中的最近的较前一个时间位置,或者其中所述导航指令是向前跳指令,并且因此,所述时间位置中的所选择的一个时间位置是由所述元数据指示的所述时间位置中的最近的较后一个时间位置。
3、根据EEE 1或2所述的方法,其中所述一或多个时间位置位于所述相关联音频内容中包含的语音话语的相应起点处。
4、根据任一前述EEE所述的方法,其中所述一或多个时间位置被表示为相对于所述媒体内容的相应当前帧的起点的相应偏移。
5、根据任一前述EEE所述的方法,其中所述元数据与所述媒体内容的音频内容对齐。
6、根据任一前述EEE所述的方法,其进一步包括:
响应于指示从由所述元数据指示的所述时间位置中的一个时间位置开始的重放的用户指令,以改善的清晰度和/或连贯性修改和重放所述媒体内容。
7、根据任一前述EEE所述的方法,其进一步包括:
至少部分地基于由所述元数据指示的所述时间位置的随时间变化的密度设置用于扫描所述媒体内容的扫描速率。
8、根据任一前述EEE所述的方法,其进一步包括:
至少部分地基于由所述元数据指示的所述一或多个时间位置的随时间变化的密度设置扫描条的视觉表示上的点和所述视频内容中的时间点之间的对应关系。
9、根据任一前述EEE所述的方法,其进一步包括:
提供快进重放模式,其中所述媒体内容的相应部分从所述一或多个时间位置中的相应一个时间位置开始重放。
10、根据任一前述EEE所述的方法,其进一步包括:
在暂停后,在由所述元数据指示的所述时间位置中的最近的较前一个时间位置恢复回放。
11、一种处理包括视频内容和相关联音频内容的媒体内容的方法,所述方法包括:
接收所述视频内容和所述相关联音频内容;
分析所述相关联音频内容;
基于所述分析确定用于实现所述媒体内容的导航的一或多个导航点,所述一或多个导航点指示所述相关联音频内容中用于短期倒回和/或快进的目标点;
将所述一或多个导航点嵌入所述媒体内容的元数据中;和
输出所述视频内容、所述相关联音频内容和所述元数据。
12、根据EEE 11所述的方法,其中所述媒体内容包括相关联元数据;并且
所述方法进一步包括分析所述相关联音频内容和所述相关联元数据。
13、根据EEE 11或12所述的方法,其中分析所述音频内容涉及对所述音频内容应用语音检测。
14、根据EEE 11到13中任一项所述的方法,其中所述一或多个导航点置于所述相关联音频内容中包含的语音话语的相应起点处;和/或
其中所述一或多个导航点指示相对于相应当前帧的起点的相应偏移。
15、根据EEE 11到14中任一项所述的方法,其中所述元数据与所述相关联音频内容对齐;和/或
其中所述元数据实现所述媒体内容的内容感知导航。
16、根据EEE 11到15中任一项所述的方法,其中所述方法在用于对所述媒体内容进行编码的编码器处进行;并且
所述方法进一步包括接收一或多个另外的导航点的输入。
17、根据EEE 11到16中任一项所述的方法,其进一步包括:
基于所述视频内容、所述相关联音频内容和所述元数据生成所述媒体内容的视听表示。
18、根据EEE 17所述的方法,其进一步包括:
响应于指示从所述一或多个导航点中的一个导航点开始的重放的用户指令,以改善的清晰度和/或连贯性修改和重放所述媒体内容。
19、根据EEE 17或18所述的方法,其进一步包括:
至少部分地基于所述一或多个导航点的随时间变化的密度设置用于扫描所述媒体内容的扫描速率;和/或
至少部分地基于所述一或多个导航点的随时间变化的密度设置扫描条的视觉表示上的点和所述视频内容中的时间点之间的对应关系。
20、根据EEE 17到19中任一项所述的方法,其进一步包括:
提供快进重放模式,其中所述媒体内容的相应部分从所述一或多个导航点中的相应一个导航点开始重放。
21、根据EEE 17到20中任一项所述的方法,其进一步包括:
在所述重放暂停后,在由所述一或多个导航点中的最近一个导航点指示的时刻恢复回放。
22、一种编码器,其包括处理器和存储用于使所述处理器进行根据EEE 11到21中任一项所述的操作的指令的存储器。
23、一种解码器,其包括处理器和存储用于使所述处理器进行根据任一前述EEE所述的操作的指令的存储器。
24、一种用于在计算机上进行时使所述计算机进行根据任一前述EEE所述的操作的程序。
25、一种计算机可读存储媒体,其存储用于在计算机上进行时使所述计算机进行根据任一前述EEE所述的操作的程序。

Claims (15)

1.一种处理包括视频内容和相关联音频内容的媒体内容的方法,所述方法包括:
接收所述视频内容和所述相关联音频内容;
分析所述相关联音频内容;
基于所述分析确定用于实现所述媒体内容的导航的一或多个导航点,所述一或多个导航点指示所述相关联音频内容中用于短期倒回的感兴趣点;
将所述一或多个导航点嵌入所述媒体内容的元数据中;和
输出所述视频内容、所述相关联音频内容和所述元数据;
其中分析所述音频内容涉及对所述音频内容应用语音检测;
其中所述一或多个导航点置于所述相关联音频内容中包含的语音话语的相应起点处。
2.根据权利要求1所述的方法,其中所述一或多个导航点指示相对于相应当前帧的起点的相应偏移。
3.根据权利要求1或2所述的方法,其中所述元数据与所述相关联音频内容对齐。
4.根据权利要求1到3中任一权利要求所述的方法,其中所述元数据实现所述媒体内容的内容感知导航。
5.根据权利要求1到4中任一权利要求所述的方法,其中所述方法在用于对所述媒体内容进行编码的编码器处进行;并且
所述方法进一步包括接收一或多个另外的导航点的输入。
6.根据权利要求1到5中任一权利要求所述的方法,其进一步包括:
基于所述视频内容、所述相关联音频内容和所述元数据生成所述媒体内容的视听表示。
7.根据权利要求6所述的方法,其进一步包括:
响应于指示从所述一或多个导航点中的一个导航点开始的重放的用户指令,以改善的清晰度和/或连贯性修改和重放所述媒体内容。
8.根据权利要求6或7所述的方法,其进一步包括:
至少部分地基于所述一或多个导航点的随时间变化的密度设置用于扫描所述媒体内容的扫描速率。
9.根据权利要求6到8中任一权利要求所述的方法,其进一步包括:
至少部分地基于所述一或多个导航点的随时间变化的密度设置扫描条的视觉表示上的点和所述视频内容中的时间点之间的对应关系。
10.根据权利要求6到9中任一权利要求所述的方法,其进一步包括:
提供快进重放模式,其中所述媒体内容的相应部分从所述一或多个导航点中的相应一个导航点开始重放。
11.根据权利要求6到10中任一权利要求所述的方法,其进一步包括:
在所述重放暂停后,在由所述一或多个导航点中的最近一个导航点指示的时刻恢复回放。
12.一种编码器,其包括处理器和存储用于使所述处理器进行根据权利要求1到11中任一权利要求所述的操作的指令的存储器。
13.一种解码器,其包括处理器和存储用于使所述处理器进行根据权利要求1到11中任一权利要求所述的操作的指令的存储器。
14.一种用于在计算机上进行时使所述计算机进行根据权利要求1到11中任一权利要求所述的操作的程序。
15.一种计算机可读存储媒体,其存储用于在计算机上进行时使所述计算机进行根据权利要求1到11中任一权利要求所述的操作的程序。
CN201880054983.3A 2017-08-28 2018-08-22 媒体感知导航元数据 Pending CN111052752A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762550747P 2017-08-28 2017-08-28
US62/550,747 2017-08-28
EP17188118.8 2017-08-28
EP17188118 2017-08-28
PCT/US2018/047532 WO2019046065A1 (en) 2017-08-28 2018-08-22 NAVIGATION METADATA WITH MULTIMEDIA CONTENT AWARENESS

Publications (1)

Publication Number Publication Date
CN111052752A true CN111052752A (zh) 2020-04-21

Family

ID=63312467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880054983.3A Pending CN111052752A (zh) 2017-08-28 2018-08-22 媒体感知导航元数据

Country Status (4)

Country Link
US (1) US11895369B2 (zh)
EP (1) EP3677037A1 (zh)
CN (1) CN111052752A (zh)
WO (1) WO2019046065A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4553831A3 (en) 2019-12-09 2025-05-21 Dolby Laboratories Licensing Corporation Adjusting audio and non-audio features based on noise metrics and speech intelligibility metrics

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1445989A (zh) * 2002-03-14 2003-10-01 松下电器产业株式会社 再生装置
CN1922690A (zh) * 2004-01-26 2007-02-28 皇家飞利浦电子股份有限公司 媒体流从先前变化位置的重放
CN102215367A (zh) * 2010-04-05 2011-10-12 索尼公司 图像处理装置、图像处理方法和图像处理程序
US20150120648A1 (en) * 2013-10-26 2015-04-30 Zoom International S.R.O Context-aware augmented media
CN104717571A (zh) * 2013-12-13 2015-06-17 中国移动通信集团公司 关键播放时间点确定方法、视频播放方法及相关装置
CN104902331A (zh) * 2014-03-07 2015-09-09 联想(北京)有限公司 一种播放进度调节方法及电子设备

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2327632C (en) * 2000-12-05 2008-10-07 Mitchell J. Shnier Methods for creating and playing a customized program of a variety of sources
KR20070007788A (ko) * 2004-01-30 2007-01-16 마츠시타 덴끼 산교 가부시키가이샤 콘텐츠 재생장치
US8566879B2 (en) 2004-09-28 2013-10-22 Sony Corporation Method and apparatus for navigating video content
US9042703B2 (en) * 2005-10-31 2015-05-26 At&T Intellectual Property Ii, L.P. System and method for content-based navigation of live and recorded TV and video programs
US8731914B2 (en) * 2005-11-15 2014-05-20 Nokia Corporation System and method for winding audio content using a voice activity detection algorithm
CN101518098B (zh) 2006-09-14 2013-10-23 Lg电子株式会社 用于对话增强技术的控制器和用户界面
US7640272B2 (en) 2006-12-07 2009-12-29 Microsoft Corporation Using automated content analysis for audio/video content consumption
US8428443B2 (en) * 2007-03-12 2013-04-23 At&T Intellectual Property I, L.P. Systems and methods of providing modified media content
US8312492B2 (en) * 2007-03-19 2012-11-13 At&T Intellectual Property I, L.P. Systems and methods of providing modified media content
EP1975938A1 (en) 2007-03-31 2008-10-01 Sony Deutschland Gmbh Method for determining a point in time within an audio signal
JPWO2009025155A1 (ja) 2007-08-21 2010-11-18 ボックスモル エルエルシー 音声再生方法、音声再生装置およびコンピュータ・プログラム
JP2009063714A (ja) 2007-09-05 2009-03-26 Sony Computer Entertainment Inc オーディオ再生装置およびオーディオ早送り再生方法
US20090132924A1 (en) 2007-11-15 2009-05-21 Yojak Harshad Vasa System and method to create highlight portions of media content
US20090150159A1 (en) 2007-12-06 2009-06-11 Sony Ericsson Mobile Communications Ab Voice Searching for Media Files
US8051081B2 (en) 2008-08-15 2011-11-01 At&T Intellectual Property I, L.P. System and method for generating media bookmarks
JP5771618B2 (ja) * 2009-10-19 2015-09-02 ドルビー・インターナショナル・アーベー 音声オブジェクトの区分を示すメタデータ時間標識情報
US20110142428A1 (en) * 2009-12-10 2011-06-16 Sony Ericsson Mobile Communications Ab Media control arrangement
US8797380B2 (en) * 2010-04-30 2014-08-05 Microsoft Corporation Accelerated instant replay for co-present and distributed meetings
CN102884786B (zh) 2010-05-07 2016-08-17 汤姆森特许公司 数字内容中最佳回放定位的方法和设备
WO2013061053A1 (en) 2011-10-24 2013-05-02 Omnifone Ltd Method, system and computer program product for navigating digital media content
US20130283143A1 (en) * 2012-04-24 2013-10-24 Eric David Petajan System for Annotating Media Content for Automatic Content Understanding
US8819759B2 (en) * 2012-06-27 2014-08-26 Google Technology Holdings LLC Determining the location of a point of interest in a media stream that includes caption data
EP3244406B1 (en) 2013-01-21 2020-12-09 Dolby Laboratories Licensing Corporation Decoding of encoded audio bitstream with metadata container located in reserved data space
US8913189B1 (en) * 2013-03-08 2014-12-16 Amazon Technologies, Inc. Audio and video processing associated with visual events
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
US9693030B2 (en) * 2013-09-09 2017-06-27 Arris Enterprises Llc Generating alerts based upon detector outputs
US9578436B2 (en) * 2014-02-20 2017-02-21 Bose Corporation Content-aware audio modes
US20150245103A1 (en) * 2014-02-24 2015-08-27 HotdotTV, Inc. Systems and methods for identifying, interacting with, and purchasing items of interest in a video
US9654076B2 (en) 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control
JP6371416B2 (ja) 2014-05-28 2018-08-08 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ・デコーダ及びレンダラーのためのユーザー制御データのデータ処理装置及びトランスポート
US9626103B2 (en) * 2014-06-19 2017-04-18 BrightSky Labs, Inc. Systems and methods for identifying media portions of interest
EP2996269A1 (en) * 2014-09-09 2016-03-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio splicing concept
WO2016134415A1 (en) * 2015-02-23 2016-09-01 Zuma Beach Ip Pty Ltd Generation of combined videos
US9564177B1 (en) 2015-03-24 2017-02-07 Amazon Technologies, Inc. Intelligent video navigation techniques
US9596429B2 (en) * 2015-05-08 2017-03-14 Echostar Technologies L.L.C. Apparatus, systems and methods for providing content when loud background noise is present
CN106713986B (zh) * 2015-07-21 2020-09-01 腾讯科技(深圳)有限公司 音视频跳转播放的方法和装置
US9721611B2 (en) * 2015-10-20 2017-08-01 Gopro, Inc. System and method of generating video from video clips based on moments of interest within the video clips
US20170244959A1 (en) * 2016-02-19 2017-08-24 Adobe Systems Incorporated Selecting a View of a Multi-View Video
US11146865B2 (en) * 2016-03-03 2021-10-12 Comcast Cable Communications, Llc Determining points of interest in a content item
US10983688B2 (en) * 2016-06-12 2021-04-20 Apple Inc. Content scrubber bar with real-world time indications
US10764643B2 (en) * 2016-06-15 2020-09-01 Opentv, Inc. Context driven content rewind
US20170374423A1 (en) * 2016-06-24 2017-12-28 Glen J. Anderson Crowd-sourced media playback adjustment
US11206461B2 (en) * 2016-07-05 2021-12-21 Sharp Kabushiki Kaisha Systems and methods for communicating user settings in conjunction with execution of an application
WO2018125590A1 (en) * 2016-12-30 2018-07-05 Tivo Solutions Inc. Advanced trick-play modes for streaming video
US11070862B2 (en) * 2017-06-23 2021-07-20 At&T Intellectual Property I, L.P. System and method for dynamically providing personalized television shows
CN108965980B (zh) * 2018-07-20 2021-08-10 腾讯科技(深圳)有限公司 推荐内容显示方法、装置、终端及存储介质
US20200219614A1 (en) * 2018-08-22 2020-07-09 Sweet Tech, As Device and method of treating loss of intimacy
US10924636B1 (en) * 2020-04-30 2021-02-16 Gopro, Inc. Systems and methods for synchronizing information for videos

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1445989A (zh) * 2002-03-14 2003-10-01 松下电器产业株式会社 再生装置
CN1922690A (zh) * 2004-01-26 2007-02-28 皇家飞利浦电子股份有限公司 媒体流从先前变化位置的重放
CN102215367A (zh) * 2010-04-05 2011-10-12 索尼公司 图像处理装置、图像处理方法和图像处理程序
US20150120648A1 (en) * 2013-10-26 2015-04-30 Zoom International S.R.O Context-aware augmented media
CN104717571A (zh) * 2013-12-13 2015-06-17 中国移动通信集团公司 关键播放时间点确定方法、视频播放方法及相关装置
CN104902331A (zh) * 2014-03-07 2015-09-09 联想(北京)有限公司 一种播放进度调节方法及电子设备

Also Published As

Publication number Publication date
EP3677037A1 (en) 2020-07-08
US11895369B2 (en) 2024-02-06
WO2019046065A1 (en) 2019-03-07
US20200236440A1 (en) 2020-07-23

Similar Documents

Publication Publication Date Title
US20210247883A1 (en) Digital Media Player Behavioral Parameter Modification
US7860996B2 (en) Media streaming with seamless ad insertion
WO2007029479A1 (ja) 記録再生装置、記録再生方法、記録再生プログラムおよびコンピュータに読み取り可能な記録媒体
US11922968B2 (en) Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
US9569167B2 (en) Automatic rate control for improved audio time scaling
JP2007522722A (ja) 先行変更位置からのメディア・ストリームの再生
US8010363B2 (en) Commercial detection apparatus and video playback apparatus
TW201515453A (zh) 數位視訊串流中的特技播放
US20140277653A1 (en) Automatic Rate Control Based On User Identities
US12425681B2 (en) Apparatus, systems and methods for trick function viewing of media content
US20170041355A1 (en) Contextual information for audio-only streams in adaptive bitrate streaming
US20090103901A1 (en) Content tag attachment support device and content tag attachment support method
EP3382706A1 (en) System and method for audio/video trick modes
CN111052752A (zh) 媒体感知导航元数据
US20240380941A1 (en) Supplemental audio generation system in an audio-only mode
JP4086886B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP7314102B2 (ja) 制御信号生成回路、受信装置、システム、生成方法、およびプログラム
JP4509188B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
CN100444632C (zh) 用于记录信号的方法和设备
US20230064035A1 (en) Text-Based Video Re-take System and Methods
Lewis et al. Improving Livestreaming Latency Using Metadata
CN110324700A (zh) 应用于显示设备的电路及相关的控制方法
TW201939961A (zh) 應用於顯示裝置的電路及相關的控制方法
CN101199018A (zh) 内容标记附加支持装置及内容标记附加支持方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination