[go: up one dir, main page]

WO2012032953A1 - 動画像処理装置、動画像処理方法およびプログラム - Google Patents

動画像処理装置、動画像処理方法およびプログラム Download PDF

Info

Publication number
WO2012032953A1
WO2012032953A1 PCT/JP2011/069395 JP2011069395W WO2012032953A1 WO 2012032953 A1 WO2012032953 A1 WO 2012032953A1 JP 2011069395 W JP2011069395 W JP 2011069395W WO 2012032953 A1 WO2012032953 A1 WO 2012032953A1
Authority
WO
WIPO (PCT)
Prior art keywords
cut
pair
cuts
pairs
moving image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2011/069395
Other languages
English (en)
French (fr)
Inventor
芳徳 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to US13/819,931 priority Critical patent/US20130156406A1/en
Priority to BR112013004781A priority patent/BR112013004781A2/pt
Priority to CN2011800415625A priority patent/CN103081460A/zh
Priority to RU2013109056/08A priority patent/RU2013109056A/ru
Priority to EP11823429.3A priority patent/EP2615829A1/en
Publication of WO2012032953A1 publication Critical patent/WO2012032953A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/87Regeneration of colour television signals
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 

Definitions

  • the present disclosure relates to a moving image processing apparatus, a moving image processing method, and a program.
  • Video (or moving image) is generally composed of many cuts.
  • the image representation according to the intention of the author repeats the series of different cuts (also referred to as turning-back of the cut.) Or the like, which may congeal devised to cut structure.
  • How the video is perceived in other words, how the video is expressed in terms of the temporal context of the video. It may be important to know whether or not
  • the cut composition image may become larger than the display area where the cut composition image is displayed.
  • the representative image is reduced and displayed at a high rate, and the visibility of the cut composition image is reduced. There is.
  • the cut composition image is to be partially displayed in order to ensure the visibility of the cut composition image, the cut composition image is divided and displayed, and the list of the cut composition may be deteriorated. is there. Therefore, in any case, the user cannot easily grasp the cut configuration of the moving image through the cut configuration image.
  • the present disclosure is capable of generating cut structure image can easily grasp the cut structure of a moving image
  • the moving image processing apparatus is intended to provide a moving image processing method, and a program.
  • a cut transition detection unit that detects transition between cuts from a moving image including a plurality of cuts, and a plurality of cuts are divided into a plurality of cut groups having different feature amounts, and are different from each other.
  • Each cut pair is a cut pair consisting of two or more consecutive cuts belonging to a cut group, and a combination of a cut pair specifying unit for specifying a plurality of cut pairs repeated in a moving image and at least a part of the plurality of cuts.
  • a moving image processing apparatus including a pair generation unit and a cut composition image generation unit that generates a cut composition image including the generated cut pairs is provided. It is.
  • the cut pair generation unit divides a plurality of cut pairs into a predetermined number of pair groups, and for each pair group, combines at least a part of the cuts included in each pair group to form each cut pair 2
  • One cut pair may be generated from the cut pairs included in each pair group so that the above cuts belong to different cut groups and satisfy the context of cut transitions in the moving image.
  • the cut pair generation unit may divide a plurality of cut pairs into a predetermined number of pair groups based on the cut feature amount.
  • the cut pair generation unit may divide a plurality of cut pairs into a predetermined number of pair groups based on the feature amounts of the cut pairs.
  • the cut pair generation unit may generate one cut pair by combining a plurality of cuts based on the cut feature amount.
  • the cut pair generation unit may generate one cut pair by combining a plurality of cuts based on the feature amount of the cut pair.
  • the cut pair generation unit may select cuts based on cut feature values for each cut group, and generate one cut pair by combining a plurality of selected cuts.
  • the cut pair generation unit selects a cut based on a cut feature amount for the first cut group, and generates one cut pair by combining a plurality of cuts belonging to the same cut pair as the selected cut Good.
  • the cut pair may be generated based on the inner product of the similarity matrix indicating the similarity between the cut pairs.
  • the cut pair that maximizes the sum of the inner products of the similarity matrix may be generated as a representative cut pair that represents a plurality of cut pairs.
  • a cut pair having a low similarity to the representative cut pair may be generated.
  • the cut pair may be generated based on the scalar value of the similarity matrix indicating the similarity between the cut pairs.
  • the cut pair with the largest scalar value in the similarity matrix may be generated as a representative cut pair representing a plurality of cut pairs.
  • a cut pair having a low similarity to the representative cut pair may be generated.
  • the predetermined number may be set according to the display condition of the cut composition image.
  • transitions between cuts are detected from a moving image including a plurality of cuts, the plurality of cuts are divided into a plurality of cut groups having different feature amounts, and 2 belonging to different cut groups
  • a cut pair consisting of the above continuous cuts, a plurality of cut pairs repeated in a moving image is identified, and at least a part of the plurality of cuts is combined, and two or more cuts forming each cut pair are different.
  • a moving image processing method including generating an image is provided.
  • a program for causing a computer to execute the moving image processing method is provided.
  • the program may be provided using a computer-readable recording medium, or may be provided via a communication unit or the like.
  • FIG. 1 shows a procedure of a moving image processing method according to an embodiment of the present disclosure.
  • a transition between cuts is detected from a moving image MP including a plurality of cuts (step S1).
  • a plurality of cuts are divided into a plurality of cut groups having different feature amounts S (generic name of cut group feature amounts), and are cut pairs composed of two or more consecutive cuts belonging to different cut groups, A plurality of cut pairs repeated in the moving image MP are specified (step S3).
  • step S5 A predetermined number N of cut pairs are generated (step S5).
  • the number N of cut pairs is set in advance according to the display conditions (display range, display size, etc.) of the cut composition image CI (generic name for the cut composition image). Further, a cut composition image CI composed of the generated cut pairs is generated (step S7).
  • a predetermined number N of cut pairs are generated by combining at least a part of a plurality of cuts so as to satisfy a predetermined condition, and a cut composition image CI including the generated cut pairs is generated. It is possible to generate the cut composition image CI that can ensure the listability and the visibility of the cut composition image CI. And the user can grasp
  • FIG. 2 shows a main functional configuration of the moving image processing apparatus 1.
  • the moving image processing apparatus 1 includes a data acquisition unit 11, a cut transition detection unit 13, a cut pair identification unit 15, a display optimization unit 17, a cut pair generation unit 19, a meta information generation unit 21, a cut A configuration image generation unit 23, a cut configuration image output unit 25, a cut configuration information output unit 27, and a data storage unit 29 are included.
  • the data acquisition unit 11 acquires moving image data MP including a plurality of cuts, a cut transition detection unit 13, a cut pair identification unit 15, a cut pair generation unit 19, a meta information generation unit 21, and a cut composition image generation unit 23.
  • the moving image data MP is generally frame format data, and may be only image data or a combination with audio data.
  • the moving image data MP may be acquired from the data storage unit 29 or may be acquired from an external device (not shown).
  • the cut transition detection unit 13 detects a cut transition in the moving image MP based on the moving image data MP, and supplies the detection result to the cut pair identification unit 15 and the cut configuration information output unit 27.
  • the cut transition means a cut transition in the moving image MP.
  • the cut transition is detected based on the similarity between the feature amounts of images and / or sounds in successive frames.
  • As the image and / or audio feature amount a color histogram, face image detection, correlation between images, and / or audio amount, tone, rhythm, and the like can be used. Note that the feature amount obtained at the time of detecting the cut transition may be stored in the data storage unit 29 or the like and used for other processing.
  • the cut pair identification unit 15 classifies a plurality of cuts into cut groups based on the feature amount S ′ of each cut, and identifies the cut pairs.
  • the cut pair identification result is supplied to the display optimization unit 17, the cut pair generation unit 19, and the cut configuration information output unit 27 together with the detection result of the cut transition.
  • the cut feature amount S ′ a color histogram of the image included in the cut, face image detection, correlation between images, and / or a sound amount, tone / rhythm, or a combination thereof can be used.
  • the feature amount S ′ obtained when the cut pair is specified may be stored in the data storage unit 29 or the like and used for other processing.
  • the cut group means a combination of cuts having similar feature quantities S ′.
  • a cut pair means a combination of a series of different cuts repeated in a cut configuration, and consists of two or more cuts that are continuous in time.
  • Cut pair specifying unit 15 based on the specification result of the cut pair, imparting the attribute information (described later group ID, pair ID, etc.) representing the cut group or cuts pair to each cut.
  • the attribute information may be supplied to the cut configuration information output unit 27, the data storage unit 29, an external device, and the like.
  • the display optimization unit 17 optimizes the display of the cut composition image CI according to the display conditions (display range, display size, etc.) of the cut composition image CI. Specifically, in order to ensure the visibility of the cut configuration image CI as well as the list of cut configurations, the number N of cut pairs displayed as the cut configuration image CI is optimized to the optimal display number Nopt. The optimization result is supplied to the cut pair generation unit 19.
  • Cut pair generation unit 19 which will be described in detail later, depending on the particular result and displays the optimization results of the cutting pair and generates a cut pair to be displayed as cut structure image CI. Specifically, according to the cut pair generation conditions, cut pairs are generated based on the cut feature amount S ′ so as to satisfy the optimum number of cut pairs Nopt. The result of the cut pair generation is supplied to the cut configuration image generation unit 23, but may be supplied to the cut configuration information output unit 27, the data storage unit 29, an external device, and the like.
  • the meta information generation unit 21 generates meta information MI (generic name of meta information) indicating the characteristics of audio and images included in each cut.
  • the meta information generation unit 21 extracts voice and image features from the moving image data MP based on the moving image data MP and the cut transition detection result. Then, meta information MI indicating the sound and image characteristics of each cut is generated and supplied to the cut composition image generation unit 23.
  • the cut composition image generation unit 23 generates the cut composition image CI based on the moving image data MP and the result of the cut pair generation.
  • the cut composition image CI is an image in which the boundary between cut pairs is clearly shown and the representative images I of cuts included in the generated cut pair are arranged according to the order of cut transitions.
  • the representative image I is extracted from images included in the cut of the generated cut pair according to a predetermined standard.
  • the cut composition image CI may include meta information MI supplied from the meta information generation unit 21.
  • the representative image I is an image representing each cut, and is extracted as an image corresponding to the central frame of the cut, for example.
  • the cut composition image CI is supplied to the cut composition image output unit 25.
  • the cut composition image output unit 25 outputs the cut composition image CI supplied from the cut composition image generation unit 23 so that the user can grasp the cut composition of the moving image MP.
  • the cut composition image CI may be output to a display device, a printing device, a storage device, or an external device (all not shown) connected to the moving image processing device 1.
  • the cut configuration information output unit 27 outputs the cut transition detection result, the cut classification result, and the cut pair identification result as cut configuration information so that the user can use it for grasping the cut configuration.
  • the cut configuration information may be output to a display device, a printing device, a storage device, or an external device (all not shown) connected to the moving image processing apparatus 1.
  • Cut configuration information can be used, for example, as data for realizing a moving image search considering the cut configuration. For example, it is possible to search for a cut that forms a cut pair with a reference cut using a certain cut as a reference cut, or to search for a cut pair having the same configuration as the reference cut pair using a certain cut pair as a reference cut pair. It is also possible to search for a moving image MP that includes many cut pairs and a moving image MP that includes many cut cutbacks.
  • the data storage unit 29 stores moving image data MP and data attached to the moving image data MP.
  • the data storage unit 29 stores cut composition information in association with the moving image data MP.
  • the data storage unit 29 may store the cut composition image CI.
  • FIG. 2 the display of the connection relationship between the data storage unit 29 and other components is partially omitted.
  • the cut composition image output unit 25 and the cut composition information output unit 27 are configured by an arithmetic processing device such as a CPU or a DSP (digital signal processing device).
  • the data storage unit 29 includes an internal storage device such as a flash memory, and an external storage device such as a hard disk drive and a Blu-ray disk drive.
  • the CPU implements a moving image processing method by developing a program read from a ROM or the like on the RAM and executing the program. Note that at least a part of the functional configuration may be configured as hardware such as dedicated logic.
  • FIG. 3 shows an overall operation procedure of the moving image processing apparatus 1.
  • the data acquisition unit 11 acquires the moving image data MP (step S11) and supplies it to the cut transition detection unit 13 and the like.
  • the cut transition detection unit 13 detects a cut transition in the moving image MP based on the moving image data MP (step S13), and supplies the detection result to the cut pair identification unit 15.
  • the cut transition is detected based on the similarity of the feature amount of the image and / or sound in successive frames.
  • a serial number indicating the order of cut transition is assigned to each cut as a cut ID.
  • FIG. 4 shows an example of the cut configuration obtained from the detection result of the cut transition.
  • the cut configuration is shown using the representative images I1 to I15 of the cuts 1 to 15.
  • cuts 1, 3, 6, 8, 11, and 13 are similar to each other
  • cuts 2, 4, 7, 9, 12, and 14 are similar to each other
  • cuts 5, 10, and 15 are similar to each other. is doing.
  • FIG. 5 shows a cut pair identification process.
  • an initialization process is first performed (step S31).
  • Cut group that is specified from the moving image data MP represents the number of.
  • the group ID and pair ID are assigned to each cut to indicate the cut group and cut pair to which each cut belongs.
  • the feature amount S ′ of the cut 1 is calculated and stored in the data storage unit 29 or the like as the feature amount S1 of the cut group 1 (step S33).
  • the feature amount S ′ of cut 2 is calculated and stored in the data storage unit 29 or the like as the feature amount S2 of cut group 2 (step S35).
  • the cut group feature amount S (a generic term for cut group feature amounts) is calculated as a color histogram, face image detection, correlation between images, and / or voice volume, tone / rhythm, or a combination thereof.
  • step S37 the presence of the subsequent cut to be processed is confirmed (step S37). If the subsequent cut exists (“Yes” in step S37), the feature quantity S ′ of the subsequent cut is calculated (step S39), and the feature quantity S ′ of the subsequent cut and the feature quantities S1 to Sm of the cut groups 1 to m are calculated. Similarity is determined between them (step S41).
  • the similarity of the feature amount S may be preferentially determined with a cut group having a larger group ID than the previous cut. This is because, when belonging to the same cut pair, the group ID of the cut group to which the subsequent cut belongs is larger than the previous cut.
  • step S43 If it is determined that the similarity between the feature amount S1 and the cut group 1 to m is greater than or equal to a predetermined threshold between the feature amount S ′ of the subsequent cut and the cut group 1 to m (“Yes” in step S41). ), The group ID of the cut group x (1 ⁇ x ⁇ m) having the highest similarity is assigned to the subsequent cut (step S43).
  • the group ID of the subsequent cut is compared with the group ID of the immediately preceding cut (step S45), the pair ID is incremented by one if the former is smaller (step S47).
  • the immediately preceding cut and the subsequent cut belong to different cut pairs, and there is a boundary (cut turning point) between the cut pairs between the two cuts.
  • the subsequent cut is given the previous pair ID or the incremented pair ID (step S49).
  • the feature quantity S ′ of the subsequent cut may be stored and used as a part of the feature quantity Sx of the cut group x, or may be rejected (step S51).
  • step S53 when it is determined that the similarity between the feature quantity S ′ of the subsequent cut and the feature quantities S1 to Sm of the cut groups 1 to m is less than the predetermined threshold (“No” in step S41), a new In order to generate a simple cut group, the group number m is incremented by 1 (step S53). Subsequent cuts are given a group ID corresponding to the number m of groups as a new cut group (step S55). Further, the previous pair ID is given to the subsequent cut (step S57). The feature value S ′ of the subsequent cut is stored and used as the feature value Sm of the new cut group m (step S59).
  • steps S37 to S59 are repeated until there is no subsequent cut (“No” in step S37). Then, if there is no subsequent cut, the cut pair identification process ends, and the process of step S17 is continued as shown in FIG.
  • FIG. 6 shows the cut pair identification result for the cut configuration shown in FIG.
  • cut structure array M 0 is optimized (step S17).
  • the cut composition array M 0 is information for arranging the cuts in a matrix based on the appearance order of the cut pairs in the moving image MP and the appearance order of the cuts in each cut pair.
  • FIG. 7 shows a cut composition array M 0 generated from the cut pair identification result shown in FIG.
  • cut ID is shown in the cut structure array M 0.
  • the cuts 1 and 2 are arranged side by side
  • the cuts 3 to 5 are arranged side by side under the cuts 1 and 2, and similarly, the cuts 6 and 7 and the cuts 8 to 10 are arranged.
  • Cuts 11 and 12 and cuts 13 to 15 are arranged.
  • the appearance order (pair ID) of cut pairs in the moving image MP is in the first direction (vertical direction), and the appearance order of cuts in each cut pair (group ID) is in the second direction. They are arranged in a matrix form (horizontal direction).
  • the combination of the first direction and the second direction may be a combination of the horizontal direction and the vertical direction instead of the combination of the vertical direction and the horizontal direction.
  • Ra x 0 / y 0 .
  • the maximum display width xmax of the representative image I is calculated from the display width X of the display area Ad (step S63).
  • the maximum display width xmax of the representative image I is greater than the original size width x 0 of the representative image I, the maximum display width xmax may be set to scale the width x 0.
  • the display number N 1 of the cut pair when displaying a representative image I at the maximum display width xmax is calculated (step S65).
  • the display number N 1 is calculated as a value obtained by truncating decimals.
  • the first partial array M 1 is generated from the cut configuration array M 0 based on the display number N 1 of cut pairs (step S 67).
  • the partial sequence a sequence that has been partially extracted from the cut structure array M 0.
  • the first partial array M 1 is generated as an array including all the cuts in the cut pairs 1 to N 1 , and the total number of cuts included in the array is the total number of cuts n 1 in the first partial array M 1. .
  • the display occupation ratio Ro 1 of the first cut composition image CI with respect to the display area Ad is calculated (step S69).
  • processing counter i is incremented by one (step S71), the display number N i is incremented by one (step S73).
  • the i-th partial array M i is generated from the cut composition array M 0 based on the display number N i of the cut pairs (step S75).
  • the i-th partial sequence M i is generated as a sequence including all the cuts in the cut pairs 1 to N i .
  • the representative image size a i in the case of displaying the representative image I on the display number N i is calculated (step S77).
  • the display occupation ratio Ro i of the i-th cut composition image CI with respect to the display area Ad is calculated (step S79).
  • step S81 Next, or small is determined than calculated display occupancy Ro i is the immediately preceding processing (processing counter i-1 treatment) display occupancy Ro i-1 calculated in (step S81). If the determination result is affirmative (“Yes” in step S81), the display number N i ⁇ 1 becomes the optimum display number Nopt (step S83). As a result, the i-1th partial sequence M i-1 is determined as the optimized cut constituent sequence.
  • step S81 if the determination result is negative (“No” in step S81), the process returns to step S71. Then, the display number N i + 1 corresponding to the next processing counter i + 1 is set, and the processes in steps S71 to S81 are repeated until the determination result in step S81 becomes affirmative.
  • the display size a i of the representative image I decreases as the display number N i increases. Therefore, the representative image set in advance the minimum display height ymin of I, or display height y i of the representative image I is calculated from the display speed N i is the minimum display height less than ymin may be determined. If the determination result is affirmative, the optimization process may be terminated, and the display number N 1 of the first partial array M 1 that maximizes the display occupation ratio Ro i may be set as the optimal display number Nopt.
  • the representative images I1 to I10 of the cut groups 1 to 3 fill the display width X of the display area Ad. Will be displayed.
  • the cut composition image CI as shown in FIG. 9B, the representative images I1 to I12 of the cut pairs 1 to 5 are displayed at the full display height Y of the display area Ad.
  • the cut composition image CI as shown in FIG. 9C, the representative images I1 to I15 of the cut pairs 1 to 6 are displayed at the full display height Y of the display area Ad.
  • the number N of cut pairs is adjusted so as to maximize the display occupancy ratio Ro for the display area Ad, and the adjusted number N of cut pairs. the by generating a cut structure image CI satisfying, it is possible to generate a possible cut structure image CI ensuring the visibility of the list property and cut structure image CI of the cut structure.
  • the optimized arrangement may not necessarily include all cut configurations in the moving image MP due to display condition restrictions. Therefore, if the cut composition image CI is generated according to the optimized arrangement, the cut composition of the moving image MP may not be appropriately represented. Therefore, as described below, in terms of generating the cut pair were selected cut from cut structure array M 0 to meet an optimized sequence (optimum display number Nopt), the cut structure image CI is generated Is done.
  • the cut pair generating unit 19 When the display optimization process is completed, as shown in FIG. 3, the cut pair generating unit 19 generates a cut pair having the optimum display number Nopt from a plurality of cut pairs (step S19).
  • a cut pair is generated by combining at least a part of a plurality of cuts so that two or more cuts constituting each cut pair belong to different cut groups and satisfy the context of cut transitions in the moving image MP. .
  • FIG. 10 shows a cut pair generation procedure.
  • cut transition detection and cut pair identification are performed in advance.
  • detection of cut transition transition between cuts is detected from the moving image MP including a plurality of cuts (step S91).
  • a plurality of cuts are divided into a plurality of cut groups having different feature amounts S, and are cut pairs composed of two or more consecutive cuts belonging to different cut groups, and are included in the moving image MP.
  • a plurality of cut pairs repeated in step S93 are specified (step S93).
  • the cut pairs may be generated from each pair group (first generation procedure) after the cut pairs in the cut configuration array M 0 are divided into pair groups. to without classification may be directly generated (second generation procedure) from the cut structure array M 0. For this reason, in the generation of the cut pair, it is first determined whether to select the first generation procedure (step S95).
  • step S95 the cut pairs in the cut composition array M 0 are classified into pair groups of the optimal display number Nopt based on the feature quantities of the cuts or cut pairs. (Step S97). Next, for each pair group, at least some of the cuts included in each pair group are combined, and one cut pair is generated from the cut pairs included in each pair group (step S98). Here, the cuts are combined so that two or more cuts forming each cut pair belong to different cut groups and satisfy the context of the cut transition in the moving image.
  • step S95 the cut pair of the optimal display number Nopt from the plurality of cut pairs by combining at least a part of the plurality of cuts without considering the pair group. Is generated (step S99). Again, cuts, two or more cuts which form each cut pair are combined so as to satisfy the context of cut transition in the moving picture in MP with belong to different cut group.
  • FIG. 11 shows a generation example of the cut composition image CI by two generation procedures.
  • first generation procedure first, cut pairs 1 to 7 in the cut configuration array M 0 are pair group 1 (cut pairs 1 to 3), pair group 2 (cut pairs 4 and 5), and pair group 3 (cut Pairs are divided into 6 and 7).
  • the cuts 3 and 4 are selected from the pair group 1
  • the cuts 8 and 9 are selected from the pair group 2
  • the cuts 11 and 14 are selected from the pair group 3.
  • the selected cuts are hatched.
  • cut 3,4,8,9,11,14 are sorted directly from the cut structure array M 0.
  • FIG. 12 shows an example of cut pair generation conditions. Cut pair is generated from the cut structure array M 0 according to the generated condition of the cut pair shown in FIG. 12.
  • the features of the cut include the number of frames of the cut image, the volume of the cut audio, the brightness / color of the cut image, the amount of movement in the cut image, and the like.
  • Examples of the feature amount include total value, average value, maximum / minimum value, median value, mode value, variance, variation coefficient, change value (difference), histogram, matrix value, and the like.
  • the processing unit of the feature amount includes a cut unit, a cut pair unit, a difference in the cut pair, a corresponding interval between cuts, and the like.
  • the evaluation criteria for the feature amount include descending / ascending order of the feature amount, fluctuation from the reference value, difference between successive feature amounts, inner product / outer product of matrix values, and the like.
  • the cut pair generation conditions are, for example, the cut feature is “number of frames”, the feature amount is “total value”, the processing unit is “cut pair unit”, and the evaluation criterion is “ascending order of feature amount”. It is formed by appropriately combining features, feature amounts, processing units, and evaluation criteria.
  • the cut features, feature amounts, processing units, and evaluation criteria described above are merely examples, and do not necessarily mean that all combinations are possible. In the following, cut pair generation processing will be described by taking several generation conditions as examples.
  • FIG. 13 shows an example in which a cut pair is generated based on the number of frames of the cut pair.
  • the cut pairs 1 to 7 are divided into pair groups 1 to 3 based on the number of frames of the cut pairs 1 to 7 (see the pair group section).
  • the cut pairs 1 to 7 are divided so that the total number of frames of the cut pairs included in each pair group is substantially equal.
  • the cut pairs 1 to 7 are divided so that the total number of frames of the cut pairs included in the pair groups 1, 2, and 3 is 120, 80, and 100 (see the section on totals).
  • the cut pair having the maximum number of frames is selected from the cut pairs included in each pair group.
  • the cut pairs 3, 4, and 7 are selected for the pair groups 1, 2, and 3 (see the section on the number of pair frames). Therefore, in order to generate the cut composition image CI, three cut pairs including the cut pairs 3, 4, and 7 are generated.
  • the cut pairs 1 to 7 may be classified based on the number of cut pairs.
  • the cut pairs 1 to 7 are divided into, for example, cut pairs 1 and 2, cut pairs 3 and 4, and cut pairs 5 to 7 so that the number of cut pairs included in each pair group is substantially equal. Also good.
  • a cut pair with the maximum number of frames instead of the cut pair with the maximum number of frames, a cut pair with the minimum number of frames, a cut pair with a median value, or the like may be selected.
  • FIG. 14 shows an example in which a cut pair is generated based on the number of cut frames.
  • the cut pairs 1 to 7 are pair groups 1 to 3. It is divided into.
  • two main cuts having the second highest frame number are selected from all main cuts.
  • main cuts 5 and 9 having 20 and 25 frames are selected (refer to the section on the number of frames per group).
  • the cut pairs 1 to 7 are divided into pair groups 1 to 3 with the selected main cut position as a delimiter.
  • the cut pairs 1 to 3, the cut pairs 4, 5, and the cut pairs 6 and 7 are divided into pair groups 1, 2, and 3, respectively, with the positions of the main cuts 5 and 9 as a delimiter. (See Pair Groups section).
  • the main cut having the maximum number of frames is selected from the main cuts belonging to the cut group 1.
  • the main cuts 5, 9, and 11 are selected for the pair groups 1, 2, and 3 (see the section on the number of frames per group).
  • the sub cut having the maximum number of frames is selected from the sub cuts (cuts 2, 4, 6, 8, 10, 12, 14) belonging to the cut group 2.
  • the sub-cuts 2, 10, and 14 are selected for each of the pair groups 1, 2, and 3 (see the section on the number of frames in group 2). Therefore, in order to generate the cut composition image CI, a cut pair composed of cuts 2 and 5, a cut pair composed of cuts 9 and 10, and a cut pair composed of cuts 11 and 14 are generated.
  • the sub-cut 6 may be selected so that is in the normal order (cut ID of the main cut ⁇ cut ID of the sub-cut).
  • the main cut is selected based on the number of frames, and then the sub cut belonging to the same cut pair as the selected main cut is selected. May be. In this case, for example, when the main cuts 5, 9, and 11 are selected, the sub cuts 6, 10, and 12 are automatically selected.
  • the cut pairs 1 to 7 may be classified based on the number of sub-cut frames, or the cut pairs 1 to 7 may be classified based on the number of frames of the cut pair. Further, instead of the two main cuts having the second highest number of frames, the positions of the two main cuts having the second lowest number of frames may be used as a delimiter. Further, instead of selecting the main cut and the sub cut having the maximum number of frames for each pair group, the main cut and the sub cut belonging to the cut pair having the maximum number of frames may be selected.
  • FIG. 15 shows an example in which cut pairs are generated based on volume fluctuations between cuts.
  • the cut pairs are divided into pair groups 1 to 3 based on the number of frames of the cut pairs 1 to 7.
  • the main cut with the largest volume fluctuation is selected from the main cuts (cuts 1, 3, 5, 7, 9, 11, 13) belonging to the cut group 1.
  • the volume fluctuation is calculated as a ratio of the volume of each main cut to the average volume in the main cut included in each pair group.
  • the main cut 3 volume fluctuation ⁇ 6.7
  • main cut 7 5.0
  • main cut 11 -5.0
  • the sub cut with the largest volume fluctuation is selected from the sub cuts (cuts 2, 4, 6, 8, 10, 12, 14) belonging to the cut group 2.
  • the volume variation is calculated as a ratio of the volume of each sub cut to the average volume of the sub cuts included in each pair group.
  • the sub cut 6 Volume variation -6.7
  • sub-cut 8 sub-cut 8
  • sub-cut 12 2.5
  • a sub cut with a small cut ID is selected for convenience. Therefore, in order to generate a cut structure image CI, cut pair consisting of cut 3,6, cut pair consisting of cut 7,8, cut pair consisting of the cut 11 and 12 are generated.
  • the cut pairs 1 to 7 may be divided into pair groups by using the cut positions as a delimiter.
  • the volume fluctuation is calculated as the ratio of the volume of each cut to the average volume of all the cuts included in the cut pairs 1 to 7.
  • a cut with the largest volume fluctuation may be selected from all the cuts included in each pair group without distinguishing the main cut and the sub cut. For example, for pair group 1, after selecting cut 3 with the largest volume fluctuation from cuts 1 to 6 (volume fluctuation from average volume 18.3-6.7), the same cut as the selected cut 3 Cuts 4 belonging to pair 2 may be selected.
  • the main cut and the sub-cut belonging to the cut pair having the maximum volume fluctuation may be selected.
  • the volume fluctuation is calculated as a ratio of the volume of each cut pair to the average volume of all cut pairs included in each pair group.
  • FIG. 16 shows an example of generating a cut pair based on the number of frames of the cut pair. From the cut pairs 1 to 7, three cut pairs with the top three frames are selected. Then, the cuts included in the selected cut pair are selected. In the above example, the cut 5-8,13,14 corresponding to the cut pair 3, 4 and 7 of the pair frame number 60,60,60 are sorted (see section the number of pairs of frames). Therefore, in order to generate the cut composition image CI, three cut pairs including the cut pairs 3, 4, and 7 are generated.
  • three cut pairs with the highest number of frames may be selected, and one cut pair with the average number of frames and the number of frames You may select the two cut pairs that are the top two.
  • FIG. 17 shows an example in which a cut pair is generated based on the number of cut frames.
  • the three cuts with the top three frames are selected from all the cuts included in the cut pairs 1 to 7.
  • cuts belonging to the same cut pair as the selected cut are selected.
  • the corresponding cuts 1, 6, and 10 are selected. Therefore, in order to generate the cut composition image CI, three cut pairs including the cut pairs 1, 3, and 5 are generated.
  • three cuts with the top three frames may be selected from either the main cut or the sub cut.
  • one cut with an average number of frames may be selected from either the main cut or the sub cut, and two cuts with the second highest number of frames may be selected from the other.
  • FIG. 18 shows an example in which cut pairs are generated based on volume fluctuations between cuts.
  • three cuts having the highest volume fluctuation are selected.
  • the volume fluctuation is calculated as a ratio of the volume of each cut to the average volume in the cuts included in the cut pairs 1 to 7.
  • cuts belonging to the same cut pair as the selected cut are selected.
  • the corresponding cuts 4, 5, and 12 are selected (see the section on group 1, volume fluctuation). Therefore, in order to generate the cut composition image CI, three cut pairs including the cut pairs 2, 3, and 6 are generated.
  • three cuts whose volume fluctuation is in the top three may be selected from either the main cut or the sub cut.
  • the volume fluctuation is calculated as the ratio of the volume of each cut to the average volume of either the main cut or the sub-cut included in the cut pairs 1 to 7.
  • FIG. 19 shows an example in which a cut pair is generated based on variation in screen brightness between cuts.
  • a histogram representing the normalized screen luminance based on image processing is calculated.
  • an average histogram of seven cuts is calculated for each cut group. In the histogram, the frequency for each division when the luminance of the pixels included in the representative image is divided at a predetermined luminance interval is shown.
  • FIG. 19 shows the normalized histograms of the representative images I1 to I14 and the average histogram for each cut group, as well as the representative images I1 to I14 of the cuts 1 to 14.
  • the three cuts with the top three variations with respect to the average histogram are selected.
  • the fluctuation of the histogram is calculated as a difference between the normalized histogram of each cut and the average histogram of the cut group to which each cut belongs.
  • the cuts belonging to the same cut pair as the selected cut are selected.
  • the fluctuations of the cuts 1, 11, and 14 are the top three, and three cut pairs including the cut pairs 1, 6, and 7 are generated in order to generate the cut composition image CI.
  • FIG. 20 shows the result of calculating the similarity of the feature amount between the cuts 1 to 14.
  • cut 1-14 cut group 1 (cut 1,3,5,7,9,11,13), cut group 2 (cut 2, 4, 12 and 14) and cut pairs 1-7.
  • Figure 21 includes a first similarity matrix Ms1 indicating the similarity between the cut 1-2, there is shown a second similarity matrix Ms2 indicating the similarity between the cut 3-4.
  • the first and second similarity matrices Ms1 and Ms2 are matrices extracted from the calculation results shown in FIG. Then, the similarity between the cut pair 1 (cuts 1 and 2) and the cut pair 2 (cuts 3 and 4) can be calculated from the inner product of the first and second similarity matrices Ms1 and Ms2.
  • the larger the inner product of the first and second similarity matrices Ms1 and Ms2 the more similar the cut pairs are.
  • the first similarity matrix Ms1 is vectorized as (1.0, 0.2, 0.3, 1.0), and the second similarity matrix Ms2 is (0. 9, 0.1, 0.2, 0.8). Therefore, the inner product of the first and second similarity matrices Ms1 and Ms2 is calculated as 1.0 ⁇ 0.9 + 0.2 ⁇ 0.1 + 0.3 ⁇ 0.2 + 1.0 ⁇ 0.8 ⁇ 1.8. The In the same way, the similarity between the cut pairs 1 to 7 excluding the cut pair 1-2 is calculated.
  • FIG. 22 shows the sum of the similarities of the cut pairs 1 to 7 together with the similarities between the cut pairs 1 to 7.
  • the larger the sum of the similarities the higher the affinity of the cut pair, that is, the higher the probability that the cut pair is representative of the cut pairs 1 to 7.
  • the lowest cut pair 7 may be selected cut pair criterion that the degree of similarity is low in the second cut pair 3. Also, three cut pairs may be selected based on the criteria of a cut pair having the maximum sum of similarities, a cut pair having the lowest sum, and a cut pair closest to the average value.
  • Figure 23 includes a first similarity matrix Ms1 indicating the similarity between the cut 1-2, there is shown a second similarity matrix Ms2 indicating the similarity between the cut 3-4.
  • the first and second similarity matrices Ms1 and Ms2 are matrices extracted from the calculation results shown in FIG.
  • a cut pair can be selected based on the scalar value of the similarity matrix Ms indicating the similarity between the cuts 1 to 14.
  • the larger the scalar value of the similarity matrix Ms the higher the probability of being a cut pair representing the cut pairs 1 to 7.
  • the scalar value of the similarity matrix Ms is calculated between the cut pairs 1-7.
  • three cut pairs are selected by replacing the sum of the similarities with a scalar value and processing. Then, the cuts included in the selected cut pair are selected.
  • the meta information generation unit 21 When the cut pair generation process is completed, as shown in FIG. 3, the meta information generation unit 21 generates meta information MI for each cut (step S21). First, the meta information generation unit 21 extracts image and audio features included in each cut from the moving image data MP based on the moving image data MP and the detection result of the cut transition.
  • the cut includes speech (such as speech and sound effects)
  • the speech included in the cut is extracted, and character / image information corresponding to the extracted speech is generated through speech recognition processing or the like. Good.
  • character / image information indicating a silent cut may be generated.
  • the silence cut may be classified into a silence cut that does not include speech and a silence cut that does not include speech and sound effects.
  • Character / image information indicating the average value / variation value of the volume of the voice included in the cut, the ratio between the silent section and the voiced section, and the tone / rhythm or fluctuation of the voice may be generated.
  • the number of frames included in the cut or the time required to reproduce the cut may be calculated, and character / image information indicating the calculated value may be generated.
  • Character / image information indicating the average value / variation value of the brightness of the image included in the cut, the content of the image, or a change may be generated.
  • the cut composition image generation unit 23 generates a cut composition image CI based on the result of the cut pair generation process (step S23).
  • the representative image I is extracted from a series of images belonging to the selected cut according to a predetermined standard. Note that the representative image I of each cut may be extracted in advance when a cut transition is detected.
  • a cut composition image CI is generated in which representative images I of each cut are arranged according to the order of cut transitions while clearly indicating cut pairs.
  • the meta information MI of each cut is generated, it is displayed together with the representative image I of each cut.
  • FIG. 24 shows an example of the cut composition image CI generated from the result of the cut pair generation process shown in FIG.
  • the representative images I5 and I6 of the cuts 5 and 6 are arranged side by side, and the representative images I7 and I8 of the cuts 7 and 8 are below the representative images I5 and I6 of the cuts 5 and 6.
  • the representative images I13 and I14 of the cuts 13 and 14 are arranged side by side under the representative images I7 and I8 of the cuts 7 and 8, respectively.
  • Such a cut composition image CI makes it easy to grasp the cut composition.
  • the configuration of the cut configuration image CI is not limited to the configuration shown in FIG.
  • FIG. 25 shows a modification of the cut composition image CI.
  • the cut meta information MI is displayed so as to overlap the cut representative image I.
  • the cut meta information MI is information indicating the characteristics of an image or sound included in the cut.
  • the meta information MI indicating the voice feature is, for example, information indicating the contents of the voice (serif, sound effect, etc.) included in each cut, information indicating that the voice is not included in each cut (silent cut), etc. It is.
  • the meta information MI indicating the image features is, for example, information indicating the number of frames included in each cut, information indicating the time required to reproduce each cut, and the like.
  • the concealment rate by the meta information MI for the representative images I1, I7, and I11 of the cuts 1, 7, and 11, that is, the display occupancy rate of the meta information MI on the representative image I is calculated.
  • the concealment rate is relatively high in the representative image I7 of the cut 7, and the concealment rate is relatively low in the representative image I11 of the cut 11.
  • the meta information MI9 of the cut 9 on the representative image I7 of the cut 7 is moved onto the representative image I11 of the cut 11 based on the concealment rate by the meta information MI. ing.
  • the concealment rate is lower than that in the state A, and the visibility of the representative image I7 can be ensured.
  • a predetermined number of cut pairs are generated by combining at least a part of a plurality of cuts so as to satisfy a predetermined condition, and the generated cut pairs are generated.
  • the component images CI may be generated with different optimal display numbers Nopt according to the display conditions.
  • the optimal display numbers Nopt are the same, the representative images I are arranged with different numbers of rows and columns. It may be generated as an image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Circuits (AREA)

Abstract

【課題】動画像の構成を容易に把握できる構成画像を生成可能な、動画像処理装置、動画像処理方法およびプログラムを提供する。 【解決手段】複数のカットを含む動画像MPからカット間の遷移を検出し、複数のカットを相異なる特徴量Sを有する複数のカットグループに区分し、相異なるカットグループに属する2以上の連続するカットからなるカットペアであり、動画像中で繰返される複数のカットペアを特定し、複数のカットの少なくとも一部を組合せて、各カットペアをなす2以上のカットが相異なるカットグループに属するとともに動画像中でのカット遷移の前後関係を満たすように、複数のカットペアから複数のカットペアよりも少ない所定数Noptのカットペアを生成し、生成されたカットペアからなるカット構成画像CIを生成する。

Description

動画像処理装置、動画像処理方法およびプログラム
 本開示は、動画像処理装置、動画像処理方法およびプログラムに関する。
 映像(または動画像)は、一般に多数のカットから構成されている。映像表現では、制作者の意図に応じて、一連の相異なるカットを繰返す(カットの切返しとも称する。)等、カット構成に工夫を凝らす場合がある。ところで、映像を鑑賞する者または映像を他の映像等の素材として利用する者には、映像の対象がどのように捉えられているか、換言すれば映像の時間的コンテクストに関して映像がどのように表現されているか、という情報が重要となる場合がある。
 このため、動画像から一連の相異なるカットとして繰返されるカットペアを特定し、カットペア間の境界を明示しつつ各カットの代表画像をカット遷移の順序に従って並べたカット構成画像を生成することが提案される。
 しかし、カットの切返し頻度が高くなりカットペアの数が多くなると、カット構成画像が表示される表示領域に対してカット構成画像が大きくなってしまう場合がある。そして、カット構成の一覧性を確保するためにカット構成画像を一度に表示しようとすると、代表画像を高い率で縮小して表示することになり、カット構成画像の視認性が低下してしまう場合がある。また、カット構成画像の視認性を確保するためにカット構成画像を部分的に表示しようとすると、カット構成画像を分割して表示することになり、カット構成の一覧性が低下してしまう場合がある。よって、いずれの場合も、ユーザは、カット構成画像を通じて動画像のカット構成を容易に把握することができなくなる。
 そこで、本開示は、動画像のカット構成を容易に把握できるカット構成画像を生成可能な、動画像処理装置、動画像処理方法およびプログラムを提供しようとするものである。
 本開示のある観点によれば、複数のカットを含む動画像からカット間の遷移を検出するカット遷移検出部と、複数のカットを相異なる特徴量を有する複数のカットグループに区分し、相異なるカットグループに属する2以上の連続するカットからなるカットペアであり、動画像中で繰返される複数のカットペアを特定するカットペア特定部と、複数のカットの少なくとも一部を組合せて、各カットペアをなす2以上のカットが相異なるカットグループに属するとともに動画像中でのカット遷移の前後関係を満たすように、複数のカットペアから複数のカットペアよりも少ない所定数のカットペアを生成するカットペア生成部と、生成されたカットペアからなるカット構成画像を生成するカット構成画像生成部とを備える動画像処理装置が提供される。
 上記カットペア生成部は、複数のカットペアを所定数のペアグループに区分した上で、各ペアグループについて、各ペアグループに含まれるカットのうち少なくとも一部を組合せて、各カットペアをなす2以上のカットが相異なるカットグループに属するとともに動画像中でのカット遷移の前後関係を満たすように、各ペアグループに含まれるカットペアから1のカットペアを生成してもよい。
 上記カットペア生成部は、カットの特徴量に基づき、複数のカットペアを所定数のペアグループに区分してもよい。
 上記カットペア生成部は、カットペアの特徴量に基づき、複数のカットペアを所定数のペアグループに区分してもよい。
 上記カットペア生成部は、カットの特徴量に基づき、複数のカットを組合せて1のカットペアを生成してもよい。
 上記カットペア生成部は、カットペアの特徴量に基づき、複数のカットを組合せて1のカットペアを生成してもよい。
 上記カットペア生成部は、カットグループ毎にカットの特徴量に基づきカットを選別し、選別された複数のカットを組合せて1のカットペアを生成してもよい。
 上記カットペア生成部は、第1のカットグループについてカットの特徴量に基づきカットを選別し、選別されたカットと同一のカットペアに属する複数のカットを組合せて1のカットペアを生成してもよい。
 上記カットペア間の類似度を示す類似度行列の内積に基づきカットペアを生成してもよい。
 上記類似度行列の内積の総和が最大となるカットペアを、複数のカットペアを代表する代表カットペアとして生成してもよい。
 上記代表カットペアとともに、代表カットペアとの類似度が低いカットペアを生成してもよい。
 上記カットペア間の類似度を示す類似度行列のスカラー値に基づきカットペアを生成してもよい。
 上記類似度行列のスカラー値が最大となるカットペアを、複数のカットペアを代表する代表カットペアとして生成してもよい。
 上記代表カットペアとともに、代表カットペアとの類似度が低いカットペアを生成してもよい。
 上記所定数は、カット構成画像の表示条件に応じて設定されてもよい。
 本開示のある観点によれば、複数のカットを含む動画像からカット間の遷移を検出し、複数のカットを相異なる特徴量を有する複数のカットグループに区分し、相異なるカットグループに属する2以上の連続するカットからなるカットペアであり、動画像中で繰返される複数のカットペアを特定し、複数のカットの少なくとも一部を組合せて、各カットペアをなす2以上のカットが相異なるカットグループに属するとともに動画像中でのカット遷移の前後関係を満たすように、複数のカットペアから複数のカットペアよりも少ない所定数のカットペアを生成し、生成されたカットペアからなるカット構成画像を生成することを含む動画像処理方法が提供される。
 また、本開示の別の観点によれば、上記動画像処理方法をコンピュータに実行させるためのプログラムが提供される。ここで、プログラムは、コンピュータ読取り可能な記録媒体を用いて提供されてもよく、通信手段等を介して提供されてもよい。
 以上説明したように本開示によれば、動画像のカット構成を容易に把握できるカット構成画像を生成可能な、動画像処理装置、動画像処理方法およびプログラムを提供することができる。
本開示の実施形態に係る動画像処理方法の手順を示すフロー図である。 動画像処理装置の構成を示すブロック図である。 動画像処理装置の全体的な動作手順を示すフロー図である。 カット構成の一例を示す図である。 カットペアの特定手順を示すフロー図である。 カットペアの特定結果の一例を示す図である。 カット構成配列の一例を示す図である。 カット構成の表示最適化手順を示すフロー図である。 カット構成の表示最適化手順を示す図(1/3)である。 カット構成の表示最適化手順を示す図(2/3)である。 カット構成の表示最適化手順を示す図(3/3)である。 カットペアの生成手順を示すフロー図である。 カットペアの2つの生成手順を示す図である。 カットペアの生成条件の一例を示す図である。 第1の生成手順でカットペアのフレーム数に基づきカットペアを生成する手順の一例を示す図である。 第1の生成手順でカットのフレーム数に基づきカットペアを生成する手順の一例を示す図である。 第1の生成手順でカット間の音量変動に基づきカットペアを生成する手順の一例を示す図である。 第2の生成手順でカットペアのフレーム数に基づきカットペアを生成する手順の一例を示す図である。 第2の生成手順でカットのフレーム数に基づきカットペアを生成する手順の一例を示す図である。 第2の生成手順でカット間の音量変動に基づきカットペアを生成する手順の一例を示す図である。 第2の生成手順でカット間の画像輝度ヒストグラムに基づきカットペアを生成する手順の一例を示す図である。 カット間での特徴量の類似度の算出結果の一例を示す図である。 類似度行列の内積に基づくカットペアの生成手順の一例を示す図(1/2)である。 類似度行列の内積に基づくカットペアの生成手順の一例を示す図(2/2)である。 類似度行列のスカラー値に基づくカットペアの生成手順の一例を示す図である。 カット構成画像の一例を示す図である。 隠蔽率に基づくカット構成画像の修正を示す図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 [1.動画像処理方法の概要]
 まず、図1を参照して、本開示の実施形態に係る動画像処理方法の概要について説明する。図1には、本開示の実施形態に係る動画像処理方法の手順が示されている。
 図1に示すように、本開示の実施形態に係る動画像処理方法では、まず、複数のカットを含む動画像MPからカット間の遷移が検出される(ステップS1)。つぎに、複数のカットが相異なる特徴量S(カットグループの特徴量の総称)を有する複数のカットグループに区分され、相異なるカットグループに属する2以上の連続するカットからなるカットペアであり、動画像MP中で繰返される複数のカットペアが特定される(ステップS3)。
 そして、複数のカットの少なくとも一部を組合せて、各カットペアをなす2以上のカットが相異なるカットグループに属するとともに動画像MP中でのカット遷移の前後関係を満たすように、複数のカットペアから所定数Nのカットペアが生成される(ステップS5)。なお、カットペアの数Nは、カット構成画像CI(カット構成画像の総称)の表示条件(表示範囲、表示サイズ等)に応じて予め設定される。さらに、生成されたカットペアからなるカット構成画像CIが生成される(ステップS7)。
 これにより、複数のカットの少なくとも一部を所定の条件を満たすように組合せて所定数Nのカットペアを生成し、生成されたカットペアからなるカット構成画像CIを生成することで、カット構成の一覧性およびカット構成画像CIの視認性を確保可能なカット構成画像CIを生成することができる。そして、ユーザは、このように生成されたカット構成画像CIを通じて、動画像MPのカット構成を容易に把握することができる。
 [2.動画像処理装置1]
 つぎに、図2を参照して、本開示の実施形態に係る動画像処理装置1について説明する。図2には、動画像処理装置1の主要な機能構成が示されている。図2に示すように、動画像処理装置1は、データ取得部11、カット遷移検出部13、カットペア特定部15、表示最適化部17、カットペア生成部19、メタ情報生成部21、カット構成画像生成部23、カット構成画像出力部25、カット構成情報出力部27、データ記憶部29を含んで構成される。
 データ取得部11は、複数のカットを含む動画像データMPを取得し、カット遷移検出部13、カットペア特定部15、カットペア生成部19、メタ情報生成部21、およびカット構成画像生成部23に供給する。動画像データMPは、一般にフレーム形式のデータであり、画像データのみでもよく、音声データとの組合せでもよい。動画像データMPは、データ記憶部29から取得されてもよく、外部装置(不図示)から取得されてもよい。
 カット遷移検出部13は、動画像データMPに基づき動画像MP中のカット遷移を検出し、検出結果をカットペア特定部15、カット構成情報出力部27に供給する。カット遷移とは、動画像MP中におけるカットの移り変わりを意味する。カット遷移は、相前後するフレーム中の画像および/または音声の特徴量を求め、特徴量の類似度に基づき検出される。画像および/または音声の特徴量としては、色ヒストグラムや顔画像検出、画像間の相関、および/または音声の量や音調・リズム等を用いることができる。なお、カット遷移の検出時に求められた特徴量は、データ記憶部29等に格納され、他の処理に利用されてもよい。
 カットペア特定部15は、詳細は後述するが、各カットの特徴量S´に基づき、複数のカットをカットグループに区分し、カットペアを特定する。カットペアの特定結果は、カット遷移の検出結果とともに、表示最適化部17、カットペア生成部19、カット構成情報出力部27に供給される。カットの特徴量S´としては、カットに含まれる画像の色ヒストグラムや顔画像検出、画像間の相関、および/または音声の量や音調・リズム等あるいはこれらの組合せを用いることができる。なお、カットペアの特定時に求められた特徴量S´は、データ記憶部29等に格納され、他の処理に利用されてもよい。
 カットグループとは、特徴量S´が互いに類似するカットの組合せを意味する。カットペアとは、カット構成中で繰返される一連の相異なるカットの組合せを意味し、時間的に連続する2以上のカットからなる。カットペア特定部15は、カットペアの特定結果に基づき、カットグループやカットペアを表す属性情報(後述するグループID、ペアID等)を各カットに付与する。属性情報は、表示最適化部17およびカットペア生成部19の他に、カット構成情報出力部27、データ記憶部29や外部装置等に供給されてもよい。
 表示最適化部17は、詳細は後述するが、カット構成画像CIの表示条件(表示範囲、表示サイズ等)に応じて、カット構成画像CIの表示を最適化する。具体的には、カット構成の一覧性とともにカット構成画像CIの視認性を確保するために、カット構成画像CIとして表示されるカットペアの数Nが最適表示数Noptに最適化される。最適化の結果は、カットペア生成部19に供給される。
 カットペア生成部19は、詳細は後述するが、カットペアの特定結果および表示の最適化結果に応じて、カット構成画像CIとして表示されるカットペアを生成する。具体的には、カットペアの生成条件に従って、カットの特徴量S´に基づき、最適カットペア数Noptを満たすようにカットペアが生成される。カットペア生成の結果は、カット構成画像生成部23に供給されるが、カット構成情報出力部27、データ記憶部29や外部装置等に供給されてもよい。
 メタ情報生成部21は、各カットに含まれる音声や画像の特徴を示すメタ情報MI(メタ情報の総称)を生成する。メタ情報生成部21では、動画像データMPおよびカット遷移の検出結果に基づき、動画像データMPから音声や画像の特徴が抽出される。そして、各カットの音声や画像の特徴を示すメタ情報MIが生成され、カット構成画像生成部23に供給される。
 カット構成画像生成部23は、動画像データMPおよびカットペア生成の結果に基づき、カット構成画像CIを生成する。カット構成画像CIとは、カットペア間の境界を明示するとともに、生成されたカットペアに含まれるカットの代表画像Iをカット遷移の順序に従って並べた画像である。カット構成画像CIの生成では、生成されたカットペアのカットに含まれる画像から所定の基準に従って代表画像Iが抽出される。カット構成画像CIには、メタ情報生成部21から供給されるメタ情報MIが含まれてもよい。代表画像Iとは、各カットを代表する画像であり、例えば、カットの中央フレームに相当する画像として抽出される。カット構成画像CIは、カット構成画像出力部25に供給される。
 カット構成画像出力部25は、ユーザが動画像MPのカット構成を把握できるように、カット構成画像生成部23から供給されたカット構成画像CIを出力する。カット構成画像CIは、動画像処理装置1に接続された表示装置、印刷装置、記憶装置や外部装置(いずれも不図示)に出力されてもよい。
 カット構成情報出力部27は、ユーザがカット構成の把握に利用できるように、カット遷移の検出結果、カットの区分結果やカットペアの特定結果をカット構成情報として出力する。カット構成情報は、動画像処理装置1に接続された表示装置、印刷装置、記憶装置や外部装置(いずれも不図示)に出力されてもよい。
 カット構成情報は、例えば、カット構成を考慮した動画像検索を実現するためのデータとして利用することができる。例えば、あるカットを基準カットとして、基準カットとカットペアをなすカットを検索したり、あるカットペアを基準カットペアとして、基準カットペアと同じ構成のカットペアを検索したりすることができる。また、カットペアを多く含む動画像MPやカット切返しを多く含む動画像MPを検索することもできる。
 データ記憶部29は、動画像データMPおよび動画像データMPに付属するデータを記憶している。データ記憶部29には、カット構成情報が動画像データMPに関連付けて記憶されている。なお、データ記憶部29には、カット構成画像CIが記憶されてもよい。また、図2では、データ記憶部29と他の構成要素との接続関係の表示が一部省略されている。
 ここで、上記機能構成において、データ取得部11、カット遷移検出部13、カットペア特定部15、表示最適化部17、カットペア生成部19、メタ情報生成部21、カット構成画像生成部23、カット構成画像出力部25、カット構成情報出力部27は、CPU、DSP(デジタル信号処理装置)等の演算処理装置により構成される。データ記憶部29は、フラッシュメモリ等の内部記憶装置、ハードディスクドライブ、ブルーレイディスクドライブ等の外部記憶装置により構成される。そして、CPUは、ROM等から読み出されたプログラムをRAM上に展開して実行することで、動画像処理方法を実現する。なお、上記機能構成は、少なくとも一部が専用ロジック等のハードウェアとして構成されてもよい。
 [3.カット構成配列Mの生成手順]
 つぎに、図3から図7を参照して、カット構成配列Mの生成手順について説明する。図3には、動画像処理装置1の全体的な動作手順が示されている。
 図3に示すように、まず、データ取得部11では、動画像データMPが取得され(ステップS11)、カット遷移検出部13等に供給される。カット遷移検出部13では、動画像データMPに基づき動画像MP中のカット遷移が検出され(ステップS13)、検出結果がカットペア特定部15に供給される。カット遷移は、相前後するフレーム中の画像および/または音声の特徴量の類似度に基づき検出される。各カットには、カット遷移の順序を示す連番がカットIDとして付与される。
 図4には、カット遷移の検出結果から求められたカット構成の一例が示されている。ここでは、理解を容易にするために、カット1~15の代表画像I1~I15を用いてカット構成が示されている。図4に示すように、カット1、3、6、8、11、13が互いに類似し、カット2、4、7、9、12、14が互いに類似し、カット5、10、15が互いに類似している。
 つぎに、カットペア特定部15では、各カットをカットグループに区分し、カットペアを特定するカットペア特定処理が行われる。図5には、カットペア特定処理の手順が示されている。図5に示すように、カットペア特定処理では、まず、初期化処理が行われる(ステップS31)。初期化処理では、グループ数mおよびペアIDが初期化される(m=2、ペアID=1)。また、カット1、2にグループID=1、グループID=2が各々に付与され、カット1、2にペアID=1が付与される。
 ここで、グループ数mは、動画像データMPから特定されているカットグループ(初期化処理時では、カットグループ1、2が特定されていることになる。)の数を示している。グループIDおよびペアIDは、各カットが属するカットグループおよびカットペアを示すために、各カットに付与される。
 つぎに、カット1の特徴量S´が算出され、カットグループ1の特徴量S1としてデータ記憶部29等に格納される(ステップS33)。同様に、カット2の特徴量S´が算出され、カットグループ2の特徴量S2としてデータ記憶部29等に格納される(ステップS35)。カットグループの特徴量S(カットグループの特徴量の総称)は、色ヒストグラムや顔画像検出、画像間の相関、および/または音声の量や音調・リズム等、あるいはこれらの組合せとして算出される。
 つぎに、処理対象となる後続カットの存在が確認される(ステップS37)。後続カットが存在すれば(ステップS37で「Yes」)、後続カットの特徴量S´が算出され(ステップS39)、後続カットの特徴量S´とカットグループ1~mの特徴量S1~Smの間で類似が判定される(ステップS41)。ここで、判定に際しては、直前カットよりも大きなグループIDを伴うカットグループとの間で、特徴量Sの類似度が優先的に判定されてもよい。これは、同一カットペアに属する場合、直前カットよりも後続カットが属するカットグループのグループIDが大きくなるためである。
 そして、後続カットの特徴量S´とカットグループ1~mのいずれかの間で特徴量S1~Smの間で類似度が所定の閾値以上であると判定された場合(ステップS41で「Yes」)、後続カットには、最も類似度の高いカットグループx(1≦x≦m)のグループIDが付与される(ステップS43)。
 また、後続カットのグループIDが直前カットのグループIDと比較され(ステップS45)、前者の方が小さい場合にペアIDが1インクリメントされる(ステップS47)。この場合、直前カットと後続カットが相異なるカットペアに属し、両カットの間にカットペア間の境界(カットの切返し点)が存在することになる。後続カットには、従前のペアIDまたはインクリメントされたペアIDが付与される(ステップS49)。後続カットの特徴量S´は、カットグループxの特徴量Sxの一部として格納されて利用されてもよく、棄却されてもよい(ステップS51)。
 一方、後続カットの特徴量S´とカットグループ1~mの特徴量S1~Smの全ての間で類似度が所定の閾値未満であると判定された場合(ステップS41で「No」)、新たなカットグループを生成するためにグループ数mが1インクリメントされる(ステップS53)。後続カットには、新たなカットグループとして、グループ数mに相当するグループIDが付与される(ステップS55)。また、後続カットには、従前のペアIDが付与される(ステップS57)。後続カットの特徴量S´は、新たなカットグループmの特徴量Smとして格納されて利用される(ステップS59)。
 ステップS37~S59の処理は、後続カットが存在しなくなるまで(ステップS37で「No」)繰返される。そして、後続カットが存在しなければ、カットペア特定処理が終了し、図3に示すように、引き続きステップS17の処理が行われる。
 図6には、図4に示したカット構成に対するカットペアの特定結果が示されている。図6に示すように、各カットの特徴量S´の類似度に基づき、カット1、3、6、8、11、13にグループID=1が付与され、カット2、4、7、9、12、14にグループID=2が付与され、カット5、10、15にグループID=3が付与されている。また、カット遷移の順序に基づき、カット1~15にペアID=1~6が付与され、カット1、2、カット3~5、カット6、7、カット8~10、カット11、12、カット13~15が一連の相異なるカットとして繰返されるカットペア1~6として各々に特定されている。
 カットペアの特定が終了すると、表示最適化部17では、カットペアの特定結果に基づき、カット構成配列Mが最適化される(ステップS17)。表示最適化部17では、まず、カット構成配列Mが生成される。カット構成配列Mとは、動画像MP中でのカットペアの出現順序および各カットペア中でのカットの出現順序に基づき、各カットを行列状に配列するための情報である。
 図7には、図6に示したカットペアの特定結果から生成されたカット構成配列Mが示されている。図7では、カット構成配列M中にカットIDが示されている。図7に示すカット構成配列Mでは、カット1、2が横並びに配列され、カット1、2の下にカット3~5が横並びに配列され、同様に、カット6、7、カット8~10、カット11、12、カット13~15が配列されている。
 つまり、カット1~15は、動画像MP中でのカットペアの出現順序(ペアID)を第1方向(縦方向)、各カットペア中でのカットの出現順序(グループID)を第2方向(横方向)とする行列状に並べて配列されている。なお、第1方向と第2方向の組合せは、縦方向と横方向の組合せに代えて、横方向と縦方向の組合せでもよい。
 [4.カット構成配列Mの最適化手順]
 つぎに、図8および図9A~9Cを参照して、カット構成配列Mの最適化手順について説明する。図8には、カット構成配列Mの最適化手順が示されている。
 以下では、所定の表示領域Adに対して、図7に示したカット構成配列Mを最適化する場合について説明する。ここで、表示領域Adは、第1方向の表示高(画素数)Y、第2方向の表示幅(画素数)X、表示範囲サイズA(=X×Y)である場合を想定する。各カットの代表画像Iは、第1方向の原寸高(画素数)y、第2方向の原寸幅(画素数)x、代表画像サイズa(=x×y)、アスペクト比Ra=x/yである場合を想定する。
 図8に示すように、まず、処理カウンタiが初期化(i=1)される(ステップS61)。つぎに、表示領域Adの表示幅Xから代表画像Iの最大表示幅xmaxが算出される(ステップS63)。最大表示幅xmaxは、表示領域Adの表示幅Xをカット構成のグループ数mで除して算出される(xmax=X/m)。なお、代表画像Iの最大表示幅xmaxが代表画像Iの原寸幅xより大きい場合には、最大表示幅xmaxが原寸幅xに設定されてもよい。
 つぎに、最大表示幅xmaxで代表画像Iを表示する場合のカットペアの表示数Nが算出される(ステップS65)。ここで、表示数Nは、表示領域Adの表示高Yを代表画像Iの最大表示高ymaxで除して算出される(N=Y/ymax)。なお、最大表示高ymaxは、最大表示幅xmaxをアスペクト比Raで除して算出される(ymax=xmax/Ra)。また、表示数Nは、小数点以下を切り捨てた値として算出される。
 つぎに、カットペアの表示数Nに基づきカット構成配列Mから第1の部分配列Mが生成される(ステップS67)。ここで、部分配列とは、カット構成配列Mから部分的に抽出された配列である。第1の部分配列Mは、カットペア1~N中の全てのカットを含む配列として生成され、配列に含まれるカットの総数が第1の部分配列M中のカット総数nとなる。
 つぎに、表示領域Adに対する第1のカット構成画像CIの表示占有率Roが算出される(ステップS69)。ここで、第1のカット構成画像CIの表示占有率Roは、第1の部分配列M中のカット総数nに代表画像サイズ(a=xmax×ymax)を乗じた値を、表示範囲サイズAで除して算出される(Ro=a×n/A)。
 つぎに、処理カウンタiが1インクリメントされ(ステップS71)、表示数Nが1インクリメントされる(ステップS73)。つぎに、カットペアの表示数Nに基づきカット構成配列Mから第iの部分配列Mが生成される(ステップS75)。第iの部分配列Mは、カットペア1~N中の全てのカットを含む配列として生成される。
 つぎに、表示数Nで代表画像Iを表示する場合の代表画像サイズaが算出される(ステップS77)。ここで、代表画像サイズaは、表示数Nで代表画像Iを表示する場合の表示高yと表示幅xを乗じて算出される(a=x×y)。表示高yは、表示領域Adの表示高Yを表示数Nで除して算出され(y=Y/N)、表示幅xは、表示高yにアスペクト比Raを乗じて算出される(x=y×Ra)。
 つぎに、表示領域Adに対する第iのカット構成画像CIの表示占有率Roが算出される(ステップS79)。ここで、第iのカット構成画像CIの表示占有率Roは、第iの部分配列M中のカット総数nに代表画像サイズaを乗じた値を、表示範囲サイズAで除して算出される(Ro=a×n/A)。
 つぎに、算出された表示占有率Roが直前の処理(処理カウンタi-1の処理)で算出された表示占有率Roi-1よりも小さいかが判定される(ステップS81)。そして、判定結果が肯定的であれば(ステップS81で「Yes」)、表示数Ni-1が最適表示数Noptとなる(ステップS83)。結果として、第i-1の部分配列Mi-1が最適化されたカット構成配列として決定される。
 一方、判定結果が否定的であれば(ステップS81で「No」)、処理がステップS71に復帰する。そして、次の処理カウンタi+1に相当する表示数Ni+1が設定され、ステップS81の判定結果が肯定的となるまでステップS71~S81の処理が繰返される。
 ここで、上記手順によれば、表示数Nが大きくなるほど、代表画像Iの表示サイズaが小さくなる。このため、代表画像Iの最小表示高yminを予め設定しておき、表示数Nから算出される代表画像Iの表示高yが最小表示高ymin未満となるかが判定されてもよい。そして、判定結果が肯定的であれば、最適化処理を打ち切り、表示占有率Roが最大となる第1の部分配列Mの表示数Nを最適表示数Noptとしてもよい。
 図9A~9Cには、図4に示したカット構成に対する最適化処理の結果が示されている。図9Aに示すように、第1の部分配列Mは、表示数N=4であり、カットペア1~4に含まれるカット1~10からなる。この場合、カット構成のグループ数がm=3であるので、カット構成画像CIとしては、図9Aに示すように、表示領域Adの表示幅X一杯にカットグループ1~3の代表画像I1~I10が表示されることになる。そして、第1の部分配列Mの表示占有率がRo=0.74と算出されている。
 図9Bに示すように、第2の部分配列Mは、表示数N=5であり、カットペア1~5に含まれるカット1~12からなる。この場合、カット構成画像CIとしては、図9Bに示すように、表示領域Adの表示高Y一杯にカットペア1~5の代表画像I1~I12が表示されることになる。そして、第2の部分配列Mの表示占有率がRo=0.76と算出されている。ここで、Ro(=0.74)<Ro(=0.76)であるので、最適化処理が継続される。
 図9Cに示すように、第3の部分配列Mは、表示数N=6であり、カットペア1~6に含まれるカット1~15からなる。この場合、カット構成画像CIとしては、図9Cに示すように、表示領域Adの表示高Y一杯にカットペア1~6の代表画像I1~I15が表示されることになる。そして、第3の部分配列Mの表示占有率がRo=0.67と算出されている。ここで、Ro(=0.67)<Ro(=0.76)であるので、第2の部分配列Mが最適化されたカット構成配列となる。よって、最適表示数Noptは、表示数N=5となる。
 なお、図9A、9Bでは、カット構成配列M中の全てのカットペア1~6が表示されていないので、表示領域Adの下方には、表示されていないカットペアの存在を暗示するマークMが表示されている。
 以上説明したように、本実施形態に係る動画像処理方法によれば、表示領域Adに対する表示占有率Roを最大化するようにカットペアの数Nを調整し、調整されたカットペアの数Nを満たすカット構成画像CIを生成することで、カット構成の一覧性およびカット構成画像CIの視認性を確保可能なカット構成画像CIを生成することができる。
 ここで、図9A~9Cを参照して説明したように、最適化された配列は、表示条件の制約により必ずしも動画像MP中の全てのカット構成を含んでいない場合がある。よって、最適化された配列に従ってカット構成画像CIを生成すると、動画像MPのカット構成を適切に表すことができなくなってしまう場合がある。このため、以下で説明するように、最適化された配列(最適表示数Nopt)を満たすようにカット構成配列Mからカットを選別してカットペアを生成した上で、カット構成画像CIが生成される。
 表示最適化処理が終了すると、図3に示すように、カットペア生成部19により、複数のカットペアから最適表示数Noptのカットペアが生成される(ステップS19)。カットペアは、複数のカットの少なくとも一部を組合せて、各カットペアをなす2以上のカットが相異なるカットグループに属するとともに動画像MP中でのカット遷移の前後関係を満たすように生成される。
 [5.カットペアの生成手順]
 つぎに、図10から図25を参照して、カットペアの生成手順について説明する。図10には、カットペアの生成手順が示されている。
 カットペアの生成では、カット遷移の検出およびカットペアの特定が予め行われる。前述したように、カット遷移の検出では、複数のカットを含む動画像MPからカット間の遷移が検出される(ステップS91)。また、カットペアの特定では、複数のカットが相異なる特徴量Sを有する複数のカットグループに区分され、相異なるカットグループに属する2以上の連続するカットからなるカットペアであり、動画像MP中で繰返される複数のカットペアが特定される(ステップS93)。
 カットペアの生成では、カットペアは、カット構成配列M中のカットペアをペアグループに区分した上で、各ペアグループから生成(第1の生成手順)されてもよく、カットペアをペアグループに区分せずに、カット構成配列Mから直接生成(第2の生成手順)されてもよい。このため、カットペアの生成では、まず、第1の生成手順を選択するかが判定される(ステップS95)。
 そして、判定結果が肯定的である場合(ステップS95で「Yes」)、まず、カットまたはカットペアの特徴量に基づき、カット構成配列M中のカットペアが最適表示数Noptのペアグループに区分される(ステップS97)。つぎに、各ペアグループについて、各ペアグループに含まれるカットのうち少なくとも一部を組合せて、各ペアグループに含まれるカットペアから1のカットペアが生成される(ステップS98)。ここで、カットは、各カットペアをなす2以上のカットが相異なるカットグループに属するとともに動画中でのカット遷移の前後関係を満たすように組合される。
 一方、判定結果が否定的である場合(ステップS95で「No」)、ペアグループを考慮せずに、複数のカットの少なくとも一部を組合せて、複数のカットペアから最適表示数Noptのカットペアが生成される(ステップS99)。ここでも、カットは、各カットペアをなす2以上のカットが相異なるカットグループに属するとともに動画像MP中でのカット遷移の前後関係を満たすように組合される。
 以下では、図11から図25を参照して、カットペア1~7から最適表示数Nopt=3を満たすように、カットペアを生成する場合について説明する。なお、以下では、図4~図9で用いた動画像データMPとは異なる動画像データMPを用いて説明する。
 図11には、2つの生成手順によるカット構成画像CIの生成例が示されている。第1の生成手順では、まず、カット構成配列M中のカットペア1~7がペアグループ1(カットペア1~3)、ペアグループ2(カットペア4、5)、およびペアグループ3(カットペア6、7)に区分されている。つぎに、ペアグループ1からカット3、4が選別され、ペアグループ2からカット8、9が選別され、ペアグループ3からカット11、14が選別されている。なお、図中では、選別されたカットにハッチングが施されている。一方、第2の生成手順では、カットペア1~7をペアグループに区分せずに、カット3、4、8、9、11、14がカット構成配列Mから直接選別されている。
 図12には、カットペアの生成条件の一例が示されている。カットペアは、図12に示すカットペアの生成条件に従ってカット構成配列Mから生成される。ここで、カットの特徴としては、カットの画像のフレーム数、カットの音声の音量、カットの画像の輝度・色、カットの画像中の動き量等が挙げられる。特徴量としては、合計値、平均値、最大・最小値、中央値、最頻値、分散、変動係数、変化値(差分)、ヒストグラム、行列値等が挙げられる。特徴量の処理単位としては、カット単位、カットペア単位、カットペア中の差分、対応するカット間等が挙げられる。特徴量の評価基準としては、特徴量の降順・昇順、基準値からの変動、連続する特徴量間の差分、行列値の内積・外積等が挙げられる。
 カットペアの生成条件は、例えば、カットの特徴を「フレーム数」、特徴量を「合計値」、処理単位を「カットペア単位」、評価基準を「特徴量の昇順」というように、カットの特徴、特徴量、処理単位および評価基準を適当に組合せて形成される。なお、上記したカットの特徴、特徴量、処理単位および評価基準は、一例にすぎず、必ずしも全ての組合せが可能であることを意味するものではない。以下では、いくつかの生成条件を例としてカットペアの生成処理について説明する。
 まず、第1の生成手順に従って、カットペア1~7から最適表示数Nopt=3を満たすようにカットペアを生成する場合について説明する。なお、以下で挙げる処理条件およびカット構成は、カットペアの生成処理を説明するための一例である。
 図13には、カットペアのフレーム数に基づきカットペアを生成する例が示されている。まず、カットペア1~7のフレーム数に基づきカットペア1~7がペアグループ1~3に区分される(ペアグループの項参照)。カットペア1~7は、各ペアグループに含まれるカットペアのフレーム総数がほぼ等しくなるように区分される。上記例では、ペアグループ1、2、3に含まれるカットペアのフレーム総数が120、80、100となるように、カットペア1~7が区分されている(累計の項参照)。つぎに、ペアグループ1~3について、各ペアグループに含まれるカットペアからフレーム数が最大のカットペアが選別される。上記例では、ペアグループ1、2、3について、カットペア3、4、7が各々に選別されている(ペアフレーム数の項参照)。よって、カット構成画像CIを生成するために、カットペア3、4、7からなる3つのカットペアが生成される。
 なお、フレーム数に代えて、カットペア数に基づきカットペア1~7を区分してもよい。この場合、カットペア1~7は、各ペアグループに含まれるカットペアの数がほぼ等しくなるように、例えば、カットペア1、2とカットペア3、4とカットペア5~7に区分されてもよい。また、フレーム数が最大のカットペアに代えて、フレーム数が最小のカットペアや中央値のカットペア等を選別してもよい。
 図14には、カットのフレーム数に基づきカットペアを生成する例が示されている。まず、カットペア1~7に含まれ、カットグループ1に属する主カット(カット1、3、5、7、9、11、13)のフレーム数に基づきカットペア1~7がペアグループ1~3に区分される。
 具体的に、ペアグループの区分では、全ての主カットからフレーム数が上位2位となる2つの主カットが選択される。上記例では、フレーム数20、25の主カット5、9が選択されている(グループ1フレーム数の項参照)。そして、選択された主カットの位置を区切りとして、カットペア1~7がペアグループ1~3に区分される。この場合、上記例では、主カット5、9の位置を区切りとして、カットペア1~3、カットペア4、5、カットペア6、7がペアグループ1、2、3に各々に区分されている(ペアグループの項参照)。
 つぎに、ペアグループ1~3の各々について、カットグループ1に属する主カットからフレーム数が最大の主カットが選別される。上記例では、ペアグループ1、2、3について、主カット5、9、11が各々に選別されている(グループ1フレーム数の項参照)。
 つぎに、ペアグループ1~3の各々について、カットグループ2に属する副カット(カット2、4、6、8、10、12、14)からフレーム数が最大の副カットが選別される。上記例では、ペアグループ1、2、3について、副カット2、10、14が各々に選別されている(グループ2フレーム数の項参照)。よって、カット構成画像CIを生成するために、カット2、5からなるカットペア、カット9、10からなるカットペア、カット11、14からなるカットペアが生成される。
 この場合、主カット5と副カット2の間でカット遷移の順序が逆順(主カットのカットID>副カットのカットID)となっているので、主カットと副カットの間でカット遷移の順序が正順(主カットのカットID<副カットのカットID)となるように、副カット2に代えて、副カット6が選別されてもよい。
 なお、主カットと副カットを各々のフレーム数に基づき別々に選別する代わりに、主カットをフレーム数に基づき選別した上で、選別された主カットと同一のカットペアに属する副カットを選別してもよい。この場合、例えば、主カット5、9、11を選別すると、副カット6、10、12が自動的に選別される。
 また、主カットのフレーム数に代えて、副カットのフレーム数に基づきカットペア1~7を区分してもよく、カットペアのフレーム数に基づきカットペア1~7を区分してもよい。また、フレーム数が上位2位となる2つの主カットに代えて、フレーム数が下位2位となる2つの主カットの位置を区切りとしてもよい。また、各ペアグループについてフレーム数が最大の主カットおよび副カットを選別する代わりに、フレーム数が最大となるカットペアに属する主カットおよび副カットを選別してもよい。
 図15には、カット間の音量変動に基づきカットペアを生成する例が示されている。まず、図13に示した例と同様に、カットペア1~7のフレーム数に基づきカットペアがペアグループ1~3に区分される。
 つぎに、ペアグループ1~3の各々について、カットグループ1に属する主カット(カット1、3、5、7、9、11、13)から音量変動が最大の主カットが選別される。ここで、音量変動は、各ペアグループに含まれる主カットにおける平均音量に対する各主カットの音量の比率として算出される。上記例では、ペアグループ1、2、3に含まれる主カットの平均音量18.3、15.0、20.0に対して、音量変動の絶対値が最大となる主カット3(音量変動-6.7)、主カット7(同5.0)、主カット11(同-5.0)が選別されている(グループ1音量変動の項参照)。なお、同一ペアグループ内で絶対値の最大値が2以上存在する場合には、便宜的にカットIDが小さい主カットが選別されている。
 同様に、ペアグループ1~3の各々について、カットグループ2に属する副カット(カット2、4、6、8、10、12、14)から音量変動が最大の副カットが選別される。ここで、音量変動は、各ペアグループに含まれる副カットにおける平均音量に対する各副カットの音量の比率として算出される。この場合、上記例では、ペアグループ1、2、3に含まれる副カットの平均音量18.3、15.0、12.5に対して、音量変動の絶対値が最大となる副カット6(音量変動-6.7)、副カット8(同-5.0)、副カット12(同2.5)が選別されている(グループ2音量変動の項参照)。なお、同一ペアグループ内で絶対値の最大値が2以上存在する場合には、便宜的にカットIDが小さい副カットが選別されている。よって、カット構成画像CIを生成するために、カット3、6からなるカットペア、カット7、8からなるカットペア、カット11、12からなるカットペアが生成される。
 なお、カットペアのフレーム数に基づきカットペアをペアグループに区分する代わりに、図14に示した例のように、全てのカットから音量変動が上位2位となる2つのカットを選択し、選択したカットの位置を区切りとして、カットペア1~7をペアグループに区分してもよい。ここで、音量変動は、カットペア1~7に含まれる全てのカットにおける平均音量に対する各カットの音量の比率として算出される。
 また、ペアグループ1~3の各々について、主カットと副カットを区別せずに、各ペアグループに含まれる全てのカットから音量変動が最大のカットを選別してもよい。例えば、ペアグループ1については、カット1~6から音量変動が最大のカット3(平均音量18.3からの音量変動-6.7)を選別した上で、選別されたカット3と同一のカットペア2に属するカット4を選別してもよい。
 また、各ペアグループについて音量変動が最大となる主カットおよび副カットを各々に選別する代わりに、音量変動が最大となるカットペアに属する主カットおよび副カットを選別してもよい。ここで、音量変動は、各ペアグループに含まれる全てのカットペアにおける平均音量に対する各カットペアの音量の比率として算出される。
 つぎに、第2の生成手順に従って、カットペア1~7から最適表示数Nopt=3を満たすようにカットペアを生成する場合について説明する。なお、以下で挙げる処理条件およびカット構成は、カットペアの生成処理を説明するための一例である。
 図16には、カットペアのフレーム数に基づきカットペアを生成する例が示されている。カットペア1~7からフレーム数が上位3位となる3つのカットペアが選択される。そして、選択されたカットペアに含まれるカットが選別される。上記例では、ペアフレーム数60、60、60のカットペア3、4、7に対応するカット5~8、13、14が選別されている(ペアフレーム数の項参照)。よって、カット構成画像CIを生成するために、カットペア3、4、7からなる3つのカットペアが生成される。
 なお、フレーム数が上位3位となる3つのカットペアに代えて、フレーム数が平均的な3つのカットペアを選択してもよく、フレーム数が平均的な1つのカットペアと、フレーム数が上位2位となる2つのカットペアを選択してもよい。
 図17には、カットのフレーム数に基づきカットペアを生成する例が示されている。まず、カットペア1~7に含まれる全てのカットからフレーム数が上位3位となる3つのカットが選別される。つぎに、選別されたカットと同一のカットペアに属するカットが選別される。上記例では、フレーム数25、20、25のカット2、5、9が選別された後、対応するカット1、6、10が選別されている。よって、カット構成画像CIを生成するために、カットペア1、3、5からなる3つのカットペアが生成される。
 なお、全てのカットに代えて、主カットまたは副カットのいずれか一方からフレーム数が上位3位となる3つのカットを選別してもよい。また、主カットまたは副カットのいずれか一方からフレーム数が平均的な1つのカットを選別し、他方からフレーム数が上位2位となる2つのカットを選別してもよい。
 図18には、カット間の音量変動に基づきカットペアを生成する例が示されている。まず、カットペア1~7に含まれる全てのカットから音量変動が上位3位となる3つのカットが選別される。ここで、音量変動は、カットペア1~7に含まれるカットにおける平均音量に対する各カットの音量の比率として算出される。つぎに、選別されたカットと同一のカットペアに属するカットが選別される。上記例では、いずれも音量変動-8.2のカット3、6、11が選別された後、対応するカット4、5、12が選別されている(グループ1、2音量変動の項参照)。よって、カット構成画像CIを生成するために、カットペア2、3、6からなる3つのカットペアが生成される。
 なお、全てのカットに代えて、主カットまたは副カットのいずれか一方から音量変動が上位3位となる3つのカットを選別してもよい。ここで、音量変動は、カットペア1~7に含まれる主カットまたは副カットのいずれか一方における平均音量に対する各カットの音量の比率として算出される。
 図19には、カット間での画面輝度の変動に基づきカットペアを生成する例が示されている。まず、各カット1~14の代表画像について、画像処理に基づき画面輝度を正規化して表すヒストグラムが算出される。つぎに、カットグループ毎に7つのカットの平均ヒストグラムが算出される。ヒストグラムでは、代表画像に含まれる画素の輝度を所定の輝度間隔で区分した場合における区分毎の頻度が表されている。図19には、カット1~14の代表画像I1~I14とともに、各代表画像I1~I14の正規化ヒストグラムおよびカットグループ毎の平均ヒストグラムが示されている。
 つぎに、平均ヒストグラムに対する変動が上位3位となる3つのカットが選別される。ここでは、ヒストグラムの変動は、各カットの正規化ヒストグラムと、各カットが属するカットグループの平均ヒストグラムとの差分として算出される。そして、選別されたカットと同一のカットペアに属するカットが選別される。上記例では、カット1、11、14の変動が上位3位となり、カット構成画像CIを生成するために、カットペア1、6、7からなる3つのカットペアが生成される。
 つぎに、カット間での特徴量の類似度に基づきカットペアを生成する場合について説明する。以下では、カットペア1~7をなすカット1~14から最適表示数Nopt=3を満たすようにカットペアを生成する場合について説明する。
 図20には、カット1~14間で特徴量の類似度を算出した結果が示されている。図20に示す算出結果では、カット1~14は、カットグループ1(カット1、3、5、7、9、11、13)と、カットグループ2(カット2、4、6、8、10、12、14)に区分されるとともに、カットペア1~7に区分されている。
 図20では、カット1、2の特徴量に相当するカットグループ1、2の特徴量S1、S2を基準として、カット1~14間の特徴量の類似度が0~1の値として示されている。ここで、特徴量の類似度が1に近いほどカット間で特徴量が類似していることを意味している。例えば、同一のカットグループに属するカット1-3間では、特徴量の類似度が0.9と高く、異なるカットグループに属するカット1-4間では、特徴量の類似度が0.1と低くなっている。
 図21には、カット1-2間の類似度を示す第1の類似度行列Ms1と、カット3-4間の類似度を示す第2の類似度行列Ms2が示されている。第1および第2の類似度行列Ms1、Ms2は、図20に示した算出結果から抽出された行列である。そして、第1と第2の類似度行列Ms1、Ms2の内積により、カットペア1(カット1、2)とカットペア2(カット3、4)の間の類似度を算出することができる。ここで、第1と第2の類似度行列Ms1、Ms2の内積が大きいほどカットペア間が類似していることを意味している。
 図21に示すように、第1の類似度行列Ms1は、(1.0、0.2、0.3、1.0)とベクトル化され、第2の類似度行列Ms2は、(0.9、0.1、0.2、0.8)とベクトル化される。よって、第1と第2の類似度行列Ms1、Ms2の内積は、1.0×0.9+0.2×0.1+0.3×0.2+1.0×0.8≒1.8と算出される。同様の方法で、カットペア1-2間を除くカットペア1~7間の類似度が算出される。
 これにより、図22に示すように、カットペア1~7間の類似度が算出される。図22には、カットペア1~7間の類似度と併せて、カットペア1~7について、類似度の総和が各々に示されている。ここで、類似度の総和が大きいほどカットペアの親和度が高いこと、つまり、カットペア1~7を代表するカットペアである蓋然性が高いことを意味している。
 類似度行列Ms(類似度行列の総称)の内積に基づきカットペアを生成する場合、第1に、類似度の総和が最大(9.1)となるカットペア3が選択される。第2に、カットペア3との類似度が最低(1.1)となるカットペア7が選択される。第3に、カットペア7との類似度が最低(0.9)となるカットペア1が選択される。よって、カット構成画像CIを生成するために、カットペア1、3、7からなる3つのカットペアが生成される。
 なお、カットペア7との類似度が最低であるという基準に代えて、カットペア3との類似度が2番目に低いという基準でカットペアが選択されてもよい。また、類似度の総和が最大となるカットペア、最低となるカットペア、平均値に直近のカットペアという基準で3つのカットペアが選択されてもよい。
 これにより、全てのカットペアを代表する代表的なカットペアと、代表的なカットペアとは類似しない他のカットペアを生成することができる。
 図23には、カット1-2間の類似度を示す第1の類似度行列Ms1と、カット3-4間の類似度を示す第2の類似度行列Ms2が示されている。第1および第2の類似度行列Ms1、Ms2は、図20に示した算出結果から抽出された行列である。そして、カット1~14間の類似度を示す類似度行列Msのスカラー値により、カットペアを選択することができる。ここで、類似度行列Msのスカラー値が大きいほど、カットペア1~7を代表するカットペアである蓋然性が高いことを意味している。
 例えば、第1の類似度行列Ms1のスカラー値は、1.0+0.2+0.3+1.0=2.5と算出され、第2の類似度行列Ms2のスカラー値は、0.9+0.1+0.2+0.8=2.0と算出される。よって、カットペア1(カット1、2)とカットペア2(カット3、4)との間では、カットペア1の方が全てのカットペアを代表する代表的なカットペアである蓋然性が高いことになる。
 類似度行列Msのスカラー値に基づきカットペアを生成する場合、まず、カットペア1~7間で類似度行列Msのスカラー値が算出される。つぎに、図22に示した場合において、類似度の総和をスカラー値に置き換えて処理することで、3つのカットペアが選択される。そして、選択されたカットペアに含まれるカットが選別される。
 これにより、全てのカットペアを代表する代表的なカットペアと、代表的なカットペアとは類似しない他のカットペアを生成することができる。
 カットペア生成処理が終了すると、図3に示すように、メタ情報生成部21により各カットのメタ情報MIが生成される(ステップS21)。メタ情報生成部21では、まず、動画像データMPおよびカット遷移の検出結果に基づき、動画像データMPから各カットに含まれる画像や音声の特徴が抽出される。
 例えば、カットに音声(セリフ、音響効果等)が含まれている場合、カットに含まれる音声が抽出され、音声認識処理等を通じて、抽出された音声に対応する文字・画像情報が生成されてもよい。カットに音声が含まれていない場合、無音カットであることを示す文字・画像情報が生成されてもよい。なお、無音カットは、セリフが含まれていない無音カットと、セリフも音響効果も含まれていない無音カットに区別されてもよい。カットに含まれる音声の音量の平均値・変動値、無音区間と有音区間の比率、音声の音調・リズムまたは変動を示す文字・画像情報が生成されてもよい。
 また、カットに含まれるフレームの数またはカットの再生に要する時間が算出されて、算出値を示す文字・画像情報が生成されてもよい。カットに含まれる画像の明るさの平均値・変動値、画像の内容等または変化を示す文字・画像情報が生成されてもよい。
 カット構成画像生成部23では、カットペア生成処理の結果に基づき、カット構成画像CIが生成される(ステップS23)。カット構成画像生成部23では、まず、動画像データMPおよびカットペア生成処理の結果に基づき、選別されたカットに属する一連の画像から所定の基準に従って代表画像Iが抽出される。なお、各カットの代表画像Iは、カット遷移の検出時に予め抽出されていてもよい。つぎに、カットペアを明示しつつ各カットの代表画像Iをカット遷移の順序に従って並べたカット構成画像CIが生成される。ここで、各カットのメタ情報MIが生成されている場合には、各カットの代表画像Iとともに表示されることになる。
 図24には、図13に示したカットペア生成処理の結果から生成されたカット構成画像CIの一例が示されている。図24に示すカット構成画像CIでは、カット5、6の代表画像I5、I6が横並びに配置され、カット5、6の代表画像I5、I6の下にカット7、8の代表画像I7、I8が横並びに配置され、カット7、8の代表画像I7、I8の下にカット13、14の代表画像I13、I14が横並びに配置されている。このようなカット構成画像CIによりカット構成の把握が容易となる。なお、カット構成画像CIの構成は、図24に示した構成に限定されるものではない。
 図25には、カット構成画像CIの変形例が示されている。図25に示すカット構成画像CIでは、カットの代表画像Iに重ねてカットのメタ情報MIが表示されている。カットのメタ情報MIとは、カットに含まれる画像や音声の特徴を示す情報である。
 音声特徴を示すメタ情報MIは、例えば、各カットに含まれる音声(セリフ、音響効果等)の内容を示す情報、各カットに音声が含まれないこと(無音カットであること)を示す情報等である。画像特徴を示すメタ情報MIは、例えば、各カットに含まれるフレームの数を示す情報、各カットの再生に要する時間を示す情報等である。
 ここで、図25の状態Aに示すカット構成画像CIでは、例えば、カット1の代表画像I1、カット7の代表画像I7、カット11の代表画像I11に対して、カット1、3のメタ情報MI1、MI3、カット5、7、9のメタ情報MI5、MI7、MI9、カット11のメタ情報MI11が各々に重ねて表示されている。これにより、3つのカットのメタ情報MI5、MI7、MI9を重ねて表示されたカット7の代表画像I7では、代表画像I7の視認性が低下している。
 このため、カット1、7、11の代表画像I1、I7、I11についてメタ情報MIによる隠蔽率、つまり代表画像I上でのメタ情報MIの表示占有率が算出される。この場合、カット7の代表画像I7では隠蔽率が相対的に高く、カット11の代表画像I11では隠蔽率が相対的に低くなっている。
 よって、図25の状態Bに示すカット構成画像CI´では、メタ情報MIによる隠蔽率に基づき、カット7の代表画像I7上のカット9のメタ情報MI9がカット11の代表画像I11上に移動されている。これにより、カット7の代表画像I7では、状態Aの場合と比べて隠蔽率が低くなり、代表画像I7の視認性を確保することができる。
 以上説明したように、本実施形態に係る動画像処理方法によれば、複数のカットの少なくとも一部を所定の条件を満たすように組合せて所定数のカットペアを生成し、生成されたカットペアからなるカット構成画像CIを生成することで、カット構成の一覧性およびカット構成画像CIの視認性を確保可能なカット構成画像CIを生成することができる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上記実施形態では、構成画像CIが最適表示数Nopt=3のカットペアを3行に並べた画像として説明されている。しかし、構成画像CIは、その表示条件に応じて、異なる最適表示数Noptで生成されてもよく、また最適表示数Noptが同一の場合でも、異なる行数・列数で代表画像Iを並べた画像として生成されてもよい。
  1  動画像処理装置
  11  データ取得部
  13  カット遷移検出部
  15  カットペア特定部
  17  表示最適化部
  19  カットペア生成部
  21  メタ情報生成部
  23  カット構成画像生成部
  25  カット構成画像出力部
  27  カット構成情報出力部
  29  データ記憶部
  MP  動画像(データ)
  I  代表画像
  Nopt  最適表示数
  CI  カット構成画像
  Ad  表示領域
  Ro  表示占有率
 

Claims (17)

  1.  複数のカットを含む動画像から前記カット間の遷移を検出するカット遷移検出部と、
     前記複数のカットを相異なる特徴量を有する複数のカットグループに区分し、相異なるカットグループに属する2以上の連続するカットからなるカットペアであり、前記動画像中で繰返される複数の前記カットペアを特定するカットペア特定部と、
     前記複数のカットの少なくとも一部を組合せて、各カットペアをなす2以上のカットが相異なるカットグループに属するとともに前記動画像中でのカット遷移の前後関係を満たすように、前記複数のカットペアから前記複数のカットペアよりも少ない所定数のカットペアを生成するカットペア生成部と、
     前記生成されたカットペアからなるカット構成画像を生成するカット構成画像生成部と
     を備える動画像処理装置。
  2.  前記カットペア生成部は、前記複数のカットペアを前記所定数のペアグループに区分した上で、前記各ペアグループについて、前記各ペアグループに含まれるカットのうち少なくとも一部を組合せて、各カットペアをなす2以上のカットが相異なるカットグループに属するとともに前記動画像中でのカット遷移の前後関係を満たすように、前記各ペアグループに含まれるカットペアから1のカットペアを生成する、請求項1に記載の動画像処理装置。
  3.  前記カットペア生成部は、カットの特徴量に基づき、前記複数のカットペアを前記所定数のペアグループに区分する、請求項2に記載の動画像処理装置。
  4.  前記カットペア生成部は、カットペアの特徴量に基づき、前記複数のカットペアを前記所定数のペアグループに区分する、請求項2に記載の動画像処理装置。
  5.  前記カットペア生成部は、カットの特徴量に基づき、前記複数のカットを組合せて1のカットペアを生成する、請求項1に記載の動画像処理装置。
  6.  前記カットペア生成部は、カットペアの特徴量に基づき、前記複数のカットを組合せて1のカットペアを生成する、請求項1に記載の動画像処理装置。
  7.  前記カットペア生成部は、カットグループ毎にカットの特徴量に基づきカットを選別し、前記選別された複数のカットを組合せて1のカットペアを生成する、請求項1に記載の動画像処理装置。
  8.  前記カットペア生成部は、第1のカットグループについてカットの特徴量に基づきカットを選別し、前記選別されたカットと同一のカットペアに属する複数のカットを組合せて1のカットペアを生成する、請求項1に記載の動画像処理装置。
  9.  カットペア間の類似度を示す類似度行列の内積に基づきカットペアを生成する、請求項1に記載の動画像処理装置。
  10.  前記類似度行列の内積の総和が最大となるカットペアを、前記複数のカットペアを代表する代表カットペアとして生成する、請求項9に記載の動画像処理装置。
  11.  前記代表カットペアとともに、前記代表カットペアとの類似度が低いカットペアを生成する、請求項10に記載の動画像処理装置。
  12.  カットペア間の類似度を示す類似度行列のスカラー値に基づきカットペアを生成する、請求項1に記載の動画像処理装置。
  13.  前記類似度行列のスカラー値が最大となるカットペアを、前記複数のカットペアを代表する代表カットペアとして生成する、請求項12に記載の動画像処理装置。
  14.  前記代表カットペアとともに、前記代表カットペアとの類似度が低いカットペアを生成する、請求項13に記載の動画像処理装置。
  15.  前記所定数は、前記カット構成画像の表示条件に応じて設定される、請求項1に記載の動画像処理装置。
  16.  複数のカットを含む動画像から前記カット間の遷移を検出し、
     前記複数のカットを相異なる特徴量を有する複数のカットグループに区分し、相異なるカットグループに属する2以上の連続するカットからなるカットペアであり、前記動画像中で繰返される前記複数のカットペアを特定し、
     前記複数のカットの少なくとも一部を組合せて、各カットペアをなす2以上のカットが相異なるカットグループに属するとともに前記動画像中でのカット遷移の前後関係を満たすように、前記複数のカットペアから前記複数のカットペアよりも少ない所定数のカットペアを生成し、
     前記生成されたカットペアからなるカット構成画像を生成すること
     を含む動画像処理方法。
  17.  複数のカットを含む動画像から前記カット間の遷移を検出し、
     前記複数のカットを相異なる特徴量を有する複数のカットグループに区分し、相異なるカットグループに属する2以上の連続するカットからなるカットペアであり、前記動画像中で繰返される前記複数のカットペアを特定し、
     前記複数のカットの少なくとも一部を組合せて、各カットペアをなす2以上のカットが相異なるカットグループに属するとともに前記動画像中でのカット遷移の前後関係を満たすように、前記複数のカットペアから前記複数のカットペアよりも少ない所定数のカットペアを生成し、
     前記生成されたカットペアからなるカット構成画像を生成すること
     を含む動画像処理方法をコンピュータに実行させるためのプログラム。
     
PCT/JP2011/069395 2010-09-06 2011-08-29 動画像処理装置、動画像処理方法およびプログラム Ceased WO2012032953A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US13/819,931 US20130156406A1 (en) 2010-09-06 2011-08-29 Moving picture processing device, moving picture processing method and program
BR112013004781A BR112013004781A2 (pt) 2010-09-06 2011-08-29 dispositivo de processamento de imagem em movimento, método de processamento de imagem em movimento, e, programa
CN2011800415625A CN103081460A (zh) 2010-09-06 2011-08-29 运动图像处理装置以及运动图像处理方法和程序
RU2013109056/08A RU2013109056A (ru) 2010-09-06 2011-08-29 Устройство обработки движущегося изображения, способ обработки движущегося изображения и программа
EP11823429.3A EP2615829A1 (en) 2010-09-06 2011-08-29 Moving picture processing device, and moving picture processing method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-198984 2010-09-06
JP2010198984A JP2012060238A (ja) 2010-09-06 2010-09-06 動画像処理装置、動画像処理方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2012032953A1 true WO2012032953A1 (ja) 2012-03-15

Family

ID=45810555

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/069395 Ceased WO2012032953A1 (ja) 2010-09-06 2011-08-29 動画像処理装置、動画像処理方法およびプログラム

Country Status (7)

Country Link
US (1) US20130156406A1 (ja)
EP (1) EP2615829A1 (ja)
JP (1) JP2012060238A (ja)
CN (1) CN103081460A (ja)
BR (1) BR112013004781A2 (ja)
RU (1) RU2013109056A (ja)
WO (1) WO2012032953A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2966838B1 (en) * 2013-03-06 2019-09-18 Nec Corporation Electronic device, image data output processing method and program
JP6063971B2 (ja) * 2015-01-29 2017-01-18 京セラドキュメントソリューションズ株式会社 画像処理装置
CN107566756B (zh) * 2017-08-03 2020-03-24 广东小天才科技有限公司 一种视频转场的处理方法及终端设备
TWI622291B (zh) * 2017-08-03 2018-04-21 鴻海精密工業股份有限公司 電子設備及視訊框排列方法
WO2021240652A1 (ja) * 2020-05-26 2021-12-02 日本電気株式会社 情報処理装置、制御方法及び記憶媒体
CN111918146B (zh) * 2020-07-28 2021-06-01 广州筷子信息科技有限公司 一种视频合成方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176538A (ja) * 2007-01-18 2008-07-31 Toshiba Corp 映像属性情報出力装置、映像要約装置、プログラムおよび映像属性情報出力方法
WO2008143345A1 (ja) * 2007-05-23 2008-11-27 Nec Corporation コンテンツ分割位置判定装置、コンテンツ視聴制御装置及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6928233B1 (en) * 1999-01-29 2005-08-09 Sony Corporation Signal processing method and video signal processor for detecting and analyzing a pattern reflecting the semantics of the content of a signal
EP1073272B1 (en) * 1999-02-15 2011-09-07 Sony Corporation Signal processing method and video/audio processing device
JP2004336507A (ja) * 2003-05-09 2004-11-25 Sony Corp 映像処理装置および方法、記録媒体、並びにプログラム
US7680182B2 (en) * 2004-08-17 2010-03-16 Panasonic Corporation Image encoding device, and image decoding device
JP4172031B2 (ja) * 2004-10-15 2008-10-29 日本ビクター株式会社 記録再生装置
US7783106B2 (en) * 2004-11-12 2010-08-24 Fuji Xerox Co., Ltd. Video segmentation combining similarity analysis and classification
AR064274A1 (es) * 2006-12-14 2009-03-25 Panasonic Corp Metodo de codificacion de imagenes en movimiento, dispositivo de codificacion de imagenes en movimiento, metodo de grabacion de imagenes en movimiento, medio de grabacion, metodo de reproduccion de imagenes en movimiento, dispositivo de reproduccion de imagenes en movimiento, y sistema de reproducci

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176538A (ja) * 2007-01-18 2008-07-31 Toshiba Corp 映像属性情報出力装置、映像要約装置、プログラムおよび映像属性情報出力方法
WO2008143345A1 (ja) * 2007-05-23 2008-11-27 Nec Corporation コンテンツ分割位置判定装置、コンテンツ視聴制御装置及びプログラム

Also Published As

Publication number Publication date
US20130156406A1 (en) 2013-06-20
JP2012060238A (ja) 2012-03-22
RU2013109056A (ru) 2014-09-10
EP2615829A1 (en) 2013-07-17
CN103081460A (zh) 2013-05-01
BR112013004781A2 (pt) 2017-07-11

Similar Documents

Publication Publication Date Title
US8558952B2 (en) Image-sound segment corresponding apparatus, method and program
WO2012032953A1 (ja) 動画像処理装置、動画像処理方法およびプログラム
US9213747B2 (en) Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
JP6277818B2 (ja) 機械学習装置、機械学習方法、及びプログラム
US9892652B2 (en) Scoring device and scoring method
US20110050723A1 (en) Image processing apparatus and method, and program
CN101727476A (zh) 信息处理装置、程序和信息处理方法
JP2011215963A (ja) 電子機器、画像処理方法及びプログラム
US11445148B1 (en) Video teleconference curated user profile picture
CN104574453A (zh) 用图像表达音乐的软件
CN107464572A (zh) 多模式交互音乐感知系统及其控制方法
US20150189166A1 (en) Method, device and system for improving the quality of photographs
CN106611603A (zh) 一种音频处理方法及装置
CN104041063A (zh) 视频的关联信息库制作和视频播放的方法、平台及系统
CN101331522B (zh) 图册创建设备
CN117692677A (zh) 一种基于虚拟形象的视频处理方法
CN115605913A (zh) 图像处理装置、图像处理方法、学习装置、生成方法以及程序
CN116684528A (zh) 一种视频彩铃不同视角的推荐方法
JP2012039523A (ja) 動画像処理装置、動画像処理方法およびプログラム
JP2018206292A (ja) 要約映像生成装置及びプログラム
CN106649703B (zh) 音频数据可视化方法及装置
JP2012039522A (ja) 動画像処理装置、動画像処理方法およびプログラム
JP2012060237A (ja) 動画像処理装置、動画像処理方法およびプログラム
CN112507931A (zh) 一种基于深度学习的信息图表序列检测方法及系统
JP4067326B2 (ja) 動画像内容表示装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180041562.5

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11823429

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011823429

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13819931

Country of ref document: US

Ref document number: 2013109056

Country of ref document: RU

NENP Non-entry into the national phase

Ref country code: DE

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112013004781

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 112013004781

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20130227