JP7538574B1 - Video creation device, video creation method, video creation program, and video creation system - Google Patents
Video creation device, video creation method, video creation program, and video creation system Download PDFInfo
- Publication number
- JP7538574B1 JP7538574B1 JP2024068392A JP2024068392A JP7538574B1 JP 7538574 B1 JP7538574 B1 JP 7538574B1 JP 2024068392 A JP2024068392 A JP 2024068392A JP 2024068392 A JP2024068392 A JP 2024068392A JP 7538574 B1 JP7538574 B1 JP 7538574B1
- Authority
- JP
- Japan
- Prior art keywords
- video
- editing
- information
- plan
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/765—Interface circuits between an apparatus for recording and another apparatus
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
【課題】ユーザが望む態様の動画を生成する技術を提供する。
【解決手段】
動画生成装置であって、動画ファイルを取得する取得部と、動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析部と、時系列発話情報と、時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、対話型AIから編集計画を受信する編集計画部と、編集計画に沿って動画ファイルを編集し、編集動画を生成する動画編集部とを有することを特徴とする。
【選択図】図1
The present invention provides a technique for generating video in a format desired by a user.
SOLUTION
The video generation device comprises an acquisition unit that acquires a video file, an analysis unit that acquires an analysis result including time-series speech information, which is text information obtained by transcribing speech included in the video file in chronological order, an editing plan unit that transmits the time-series speech information and command information that instructs an editing plan to be output for editing the time-series speech information in accordance with desired editing policy information to an interactive AI using a language model and receives the editing plan from the interactive AI, and a video editing unit that edits the video file in accordance with the editing plan and generates an edited video.
[Selected Figure] Figure 1
Description
本発明は、動画生成装置、動画生成方法、動画生成プログラムおよび動画生成システムに関するものである。 The present invention relates to a video generation device, a video generation method, a video generation program, and a video generation system.
特許文献1には、「ユーザの要求に応じて、ユーザが所望する長さで、かつ、ユーザが視聴したい部分の内容を含む編集後の動画データを生成する編集動画生成部、を備える動画編集装置」が記載されている。
上記技術は、動画データを所定の長さで分割した各区間を識別するためのインデックス情報を入力することで、ユーザの視聴したい部分を特定し、その内容を含む編集後の動画データを生成するというものであるため、生成される動画の構成や見栄えについては、考慮されるとは限らない。 The above technology involves inputting index information to identify each section of video data divided into predetermined lengths, identifying the part the user wants to watch, and generating edited video data that includes that content, so the structure or appearance of the generated video is not necessarily taken into consideration.
本発明の目的は、ユーザが望む態様の動画を生成することにある。 The objective of the present invention is to generate videos in the format desired by the user.
本願は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。本発明の一態様に係る動画生成装置は、動画ファイルを取得する取得部と、前記動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析部と、前記時系列発話情報と、前記時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、前記対話型AIから前記編集計画を受信する編集計画部と、前記編集計画に沿って前記動画ファイルを編集し、編集動画を生成する動画編集部と、を有することを特徴とする。 The present application includes multiple means for solving at least part of the above problems, examples of which are as follows: A video generation device according to one aspect of the present invention is characterized by having an acquisition unit that acquires a video file, an analysis unit that acquires an analysis result including time-series speech information, which is text information obtained by transcribing speech included in the video file in a time series, an editing plan unit that transmits the time-series speech information and command information that instructs an editing plan to be output for editing the time-series speech information according to desired editing policy information to an interactive AI using a language model and receives the editing plan from the interactive AI, and a video editing unit that edits the video file according to the editing plan and generates an edited video.
また、上記の動画生成装置において、前記編集計画部は、前記命令情報に、前記編集計画により得られる前記編集動画についての制約条件を含めるものであってもよい。 In addition, in the above video generation device, the editing plan unit may include, in the command information, constraints on the edited video obtained by the editing plan.
また、上記の動画生成装置において、前記編集計画部は、前記命令情報に、前記編集計画により得られる前記編集動画についての構成情報を含めるものであってもよい。 In addition, in the video generation device described above, the editing plan unit may include, in the command information, configuration information about the edited video obtained by the editing plan.
また、上記の動画生成装置において、前記編集計画部は、前記命令情報に、前記編集計画により得られる前記編集動画に付加すべき動画、静止画または音声の指定を含めるものであってもよい。 In addition, in the video generation device described above, the editing plan unit may include in the command information a specification of a video, still image, or audio to be added to the edited video obtained by the editing plan.
また、上記の動画生成装置において、前記編集計画部は、前記命令情報に、前記編集計画により得られる前記編集動画において用いる視覚効果の指定を含めるものであってもよい。 In addition, in the video generation device described above, the editing plan unit may include in the command information a specification of visual effects to be used in the edited video obtained by the editing plan.
また、上記の動画生成装置において、前記編集計画には、前記動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて前記編集動画を構成する情報が含まれ、前記動画編集部は、前記部分的な動画を前記動画ファイルから切り出してつなぎ合わせることで前記編集動画を生成するものであってもよい。 In addition, in the above video generation device, the editing plan may include information for constructing the edited video by connecting together partial videos whose start and end positions on a time axis within the video file are specified, and the video editing unit may generate the edited video by extracting the partial videos from the video file and connecting them together.
また、上記の動画生成装置において、前記編集計画には、前記動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて前記編集動画を構成する情報、および前記部分的な動画の前後に付加すべき動画、静止画または音声の指定が含まれ、前記動画編集部は、前記部分的な動画を前記動画ファイルから切り出してつなぎ合わせ、付加すべき前記動画、静止画または音声を付加することで前記編集動画を生成するものであってもよい。 In the video generation device described above, the editing plan may include information for linking together partial videos, each of which has a specified start position and end position on a time axis within the video file, to create the edited video, and designation of video, still images, or audio to be added before and after the partial videos, and the video editing unit may generate the edited video by cutting out the partial videos from the video file, linking them together, and adding the video, still images, or audio to be added.
また、上記の動画生成装置において、前記編集計画には、前記動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて前記編集動画を構成する情報、および前記部分的な動画のつなぎ目に用いる視覚効果の指定が含まれ、前記動画編集部は、前記部分的な動画を前記動画ファイルから切り出してつなぎ合わせ、該つなぎ目に指定された前記視覚効果を適用することで前記編集動画を生成するものであってもよい。 In the video generation device described above, the editing plan may include information for stitching together partial videos, each of which has a specified start position and end position on a time axis within the video file, to create the edited video, and a specification of visual effects to be used at the seams of the partial videos, and the video editing unit may generate the edited video by cutting out the partial videos from the video file, stitching them together, and applying the specified visual effects to the seams.
また、上記の動画生成装置において、前記解析部は、前記動画ファイルに含まれる発話音声を時系列を維持しながら早送り編集し、所定の音声テキスト変換部に受け渡して前記時系列発話情報を得るものであってもよい。 In addition, in the above video generation device, the analysis unit may fast-forward edit the speech included in the video file while maintaining the time series, and pass it to a predetermined speech-to-text conversion unit to obtain the time series speech information.
また、上記の動画生成装置において、前記解析部は、前記動画ファイルに含まれる発話音声の話者を識別して前記話者ごとに時系列を維持しながら抽出し、所定の音声テキスト変換部に受け渡して得たテキスト情報を統合して前記時系列発話情報を得るものであってもよい。 In the video generation device described above, the analysis unit may identify the speaker of the speech sound included in the video file, extract the speech sound for each speaker while maintaining the time series, and transfer the text information obtained to a predetermined speech-to-text conversion unit to integrate the text information to obtain the time series speech information.
また、上記の動画生成装置において、前記編集計画は、所定のフォーマット言語により記述され、前記編集計画部は、前記命令情報に、前記編集計画を記述する前記フォーマット言語についての定義情報を含めるものであってもよい。 In the above video generation device, the editing plan may be described in a predetermined format language, and the editing plan unit may include definition information about the format language that describes the editing plan in the command information.
また、本発明の別の態様にかかる動画生成方法は、動画生成装置を用いた動画生成方法であって、前記動画生成装置は、プロセッサを備え、前記プロセッサは、動画ファイルを取得する取得ステップと、前記動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析ステップと、前記時系列発話情報と、前記時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、前記対話型AIから前記編集計画を受信する編集計画ステップと、前記編集計画に沿って前記動画ファイルを編集し、編集動画を生成する動画編集ステップと、を実施することを特徴とする。 In addition, a video generation method according to another aspect of the present invention is a video generation method using a video generation device, the video generation device having a processor, the processor is characterized by carrying out the following steps: an acquisition step of acquiring a video file; an analysis step of acquiring an analysis result including time-series speech information, which is text information obtained by transcribing speech included in the video file in a time series; an editing plan step of transmitting the time-series speech information and command information instructing an editing plan for editing the time-series speech information according to desired editing policy information to an interactive AI using a language model and receiving the editing plan from the interactive AI; and a video editing step of editing the video file according to the editing plan and generating an edited video.
また、本発明の別の態様にかかる動画生成プログラムは、情報処理装置に動画を生成させる動画生成プログラムであって、前記情報処理装置は、プロセッサを備え、前記プロセッサに、動画ファイルを取得する取得ステップと、前記動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析ステップと、前記時系列発話情報と、前記時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、前記対話型AIから前記編集計画を受信する編集計画ステップと、前記編集計画に沿って前記動画ファイルを編集し、編集動画を生成する動画編集ステップと、を実施させることを特徴とする。 In addition, a video generation program according to another aspect of the present invention is a video generation program that causes an information processing device to generate a video, the information processing device having a processor, and causes the processor to execute the following steps: an acquisition step of acquiring a video file; an analysis step of acquiring an analysis result including time-series speech information, which is text information obtained by transcribing speech included in the video file in a time series; an editing plan step of transmitting the time-series speech information and command information instructing the processor to output an editing plan for editing the time-series speech information according to desired editing policy information to an interactive AI using a language model and receiving the editing plan from the interactive AI; and a video editing step of editing the video file according to the editing plan and generating an edited video.
また、本発明の別の態様にかかる動画生成システムは、利用者端末と、該利用者端末と通信可能に接続される動画生成装置と、を備える動画生成システムであって、前記動画生成装置は、前記利用者端末から通信を介して動画ファイルを取得する取得部と、前記動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析部と、前記時系列発話情報と、前記時系列発話情報を所望の編集方針情報に従って編集する編集計画を記述して出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、前記対話型AIから前記編集計画を受信する編集計画部と、前記編集計画に沿って前記動画ファイルを編集し、編集動画を生成する動画編集部と、を有する、ことを特徴とする。 In addition, a video generation system according to another aspect of the present invention is a video generation system including a user terminal and a video generation device communicatively connected to the user terminal, the video generation device having an acquisition unit that acquires a video file from the user terminal via communication, an analysis unit that acquires an analysis result including time-series speech information, which is text information obtained by transcribing speech included in the video file in a time series, an editing plan unit that transmits the time-series speech information and command information that instructs the time-series speech information to be written and output as an editing plan for editing the time-series speech information according to desired editing policy information to an interactive AI using a language model and receives the editing plan from the interactive AI, and a video editing unit that edits the video file according to the editing plan and generates an edited video.
本発明によると、利用者が望む態様の動画を生成する技術を提供することができる。 The present invention provides technology that allows users to generate videos in the format they desire.
上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。 Problems, configurations and advantages other than those mentioned above will become clear from the description of the embodiments below.
以下に、本発明の一態様に係る実施形態を適用した動画生成システム1について、図面を参照して説明する。以下の実施の形態においては便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらはお互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。
A
また、以下の実施の形態において、要素の数等(個数、数値、量、範囲等を含む)に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。 In addition, in the following embodiments, when referring to the number of elements (including the number, numerical value, amount, range, etc.), unless otherwise specified or clearly limited in principle to a specific number, the number is not limited to that specific number and may be more than or less than the specific number.
さらに、以下の実施の形態において、その構成要素(要素ステップ等も含む)は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。 Furthermore, it goes without saying that in the following embodiments, the components (including element steps, etc.) are not necessarily essential unless specifically stated otherwise or considered to be clearly essential in principle.
同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは特に明示した場合および原理的に明らかにそうではないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数値および範囲についても同様である。 Similarly, in the following embodiments, when referring to the shapes, positional relationships, etc. of components, etc., it is intended to include shapes that are substantially similar or similar to those, unless otherwise specified or considered to be clearly different in principle. The same applies to the above numerical values and ranges.
また、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。 In addition, in all drawings used to explain the embodiments, the same components are generally given the same reference numerals, and repeated explanations will be omitted.
近年では、ネットワークや各種電子デバイス(パーソナルコンピュータ、タブレットデバイス、スマートフォン等)の普及により、いつでもどこでも動画を作成し公開する環境が構築されつつある。例えば、誰でも簡単にスマートフォン等により撮影し、誰でもアクセス可能なSNS(Social Networking Service)や動画共有サイト等に場所・時間を問わずに投稿できるようになりつつある。しかし、衆目を集めるような質の高い動画は、専門的知識を備える編集者が時間と労力をかけて作り出したものであることが多い。 In recent years, with the spread of networks and various electronic devices (personal computers, tablet devices, smartphones, etc.), an environment is being created in which videos can be created and published anywhere, anytime. For example, it is becoming possible for anyone to easily shoot videos using a smartphone or the like and post them anywhere, anytime to SNS (Social Networking Services) or video sharing sites that anyone can access. However, high-quality videos that attract attention are often the result of the time and effort of editors with specialized knowledge.
そこで、本発明に係る実施形態では、ユーザが望む動画編集方針を受け付けて該方針に沿った動画を自動生成する動画生成システム1を利用可能とする。動画生成システム1によれば、ユーザ自身に動画編集のスキルが無い場合や、動画生成のための設備環境がない場合であっても、ユーザが望む態様の動画を生成することができる。
Therefore, in an embodiment of the present invention, a
図1は、本実施形態に係る動画生成システムの概要を示す図である。動画生成システム1では、ユーザが、自身の利用するユーザ端末400と、通信路を介してユーザ端末400と通信可能に接続された装置群と、を利用する。装置群には、動画生成装置100と、対話型AIサービス200を提供する装置群と、音声解析サービス300を提供する装置群と、が含まれる。
Figure 1 is a diagram showing an overview of a video generation system according to this embodiment. In the
例えば、対話型AIサービス200を提供する装置群、音声解析サービス300を提供する装置群、動画生成装置100としては、インターネットを介して接続されるクラウドコンピュータや、動画生成装置100と、対話型AIサービス200を提供する装置群と、音声解析サービス300を提供する装置群の所有者が管理するサーバー装置等を用いるようにしてもよい。さらには、これに限られず、ユーザのスマートウォッチ等のウェアラブル装置をユーザ端末400として用いるようにしてもよい。
For example, the group of devices providing the
なお、ユーザ端末400と装置群(動画生成装置100と、対話型AIサービス200を提供する装置群と、音声解析サービス300を提供する装置群を含む)とが通信する際には、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、携帯電話網等、Bluetooth(登録商標)等の近距離無線通信あるいはこれらが複合した通信網である通信路を介して接続される。なお、当該通信路50は、携帯電話通信網等の無線通信網上のVPN(Virtual Private Network)等であってもよい。
When the
動画生成システム1を用いることで、ユーザが望む態様の動画を生成することができる。具体的には、ユーザは、ユーザ端末400を用いて動画生成システム1に発話および環境音が録画されている動画素材ファイルと動画編集方針を登録(1と2)した後、動画生成を申し込む。動画生成装置100は、素材動画から音声成分のみを抽出し、素材動画の音声ファイル(3)として音声解析サービス300に解析を依頼する。音声解析サービス300は、素材動画の音声ファイルを解析して、発話タイミングと発話した単語および文章を対応付けた解析済みテキストファイル(4)を動画生成装置100に返す。
By using the
動画生成装置100は、音声解析サービス300から得た解析済みテキストファイルと、動画編集方針を盛り込んだ命令情報(5)を対話型AIサービス200に送信して編集計画書の作成を依頼する。なお、この際、動画生成装置100は、実際の動画素材ファイルや音声ファイルを対話型AIサービス200に送信せず、解析済テキストファイルを送信する。対話型AIサービス200は、命令情報に指定された制約条件、編集計画により得られる編集動画についての制約条件、構成情報、付加すべき動画、静止画または音声の指定、視覚効果の指定等を満たす編集計画を作成し、編集計画書(6)として動画生成装置100に返す。
The
動画生成装置100は、対話型AIサービス200から編集計画書を受け取ると、編集計画に従って動画編集処理を行い、編集動画(7)を作成してユーザ端末400に提供する。これにより、ユーザは、提供された編集動画を利活用可能となる。
When the
図2は、実施形態に係る動画生成システムの構成図である。動画生成システム1には、動画生成装置100と、通信路50を介して動画生成装置100と通信可能な対話型AIサービス200と、音声解析サービス300と、ユーザ端末400と、が含まれる。
Figure 2 is a configuration diagram of a video generation system according to an embodiment. The
動画生成装置100は、記憶部110と、処理部120と、入出力部140と、通信部150と、が互いにバス等で通信可能に接続される。
The
記憶部110には、素材情報111と、時系列発話情報112と、編集方針情報113と、命令情報114と、編集計画書115と、編集動画116と、が含まれる。
The
図3は、素材情報のデータ構造例を示す図である。素材情報111は、動画生成に用いるための素材動画の情報を複数記憶する。素材情報111には、ユーザ111Aと、動画タイトル111Bと、動画ファイルパス111Cと、説明111Dと、解析済フラグ111Eと、解析結果111Fと、が含まれる。
Figure 3 is a diagram showing an example data structure of material information.
ユーザ111Aは、ユーザを、他のユーザから区別する情報である。動画タイトル111Bは、素材として登録する動画のタイトルである。動画ファイルパス111Cは、素材として登録する動画のファイルシステム上の格納場所、あるいはURI(Uniform Resource Identifier)である。説明111Dは、素材として登録する動画の内容を自然言語で説明する情報である。解析済フラグ111Eは、音声解析サービス300による解析を終えたか否かを示す情報である。解析結果111Fは、音声解析サービス300による解析の結果情報である解析済テキストである。
図4は、時系列発話情報のデータ構造例を示す図である。時系列発話情報112は、動画内での経過時間を時系列として、動画内でなされた発話のテキストを順に格納する情報である。時系列発話情報112には、発話開始時刻112Aと、発話終了時刻112Bと、発話テキスト(単語)112Cと、が含まれる。
Figure 4 is a diagram showing an example data structure of time-series speech information. Time-
発話開始時刻112Aと、発話終了時刻112Bとは、動画内でなされた発話の開始タイミングと、終了タイミングとをそれぞれ動画の開始時刻からの経過時間(動画内時刻)によって特定する情報である。発話テキスト(単語)112Cは、発話開始時刻112Aと、発話終了時刻112Bとの間に発話された単語である。ただし、単語に限られず、一定の長さの文や節であってもよい。
The speech start
図5は、編集方針情報のデータ構造例を示す図である。編集方針情報113は、生成したい動画の編集方針の情報である。編集方針情報113には、タイトル113Aと、コンテンツの目標113Bと、制約条件113Cと、コンテンツの構成113Dと、リソースファイル113Eと、編集計画書フォーマット113Fと、が含まれる。
Figure 5 is a diagram showing an example data structure of editing policy information. Editing
タイトル113Aは、編集方針のタイトルあるいは生成したい動画のタイトルである。コンテンツの目標113Bは、生成したい動画が目指すイメージや、視聴者の心理変化のねらい(見ると楽しくなる、あるいは落ち着ける)等の情報である。制約条件113Cは、生成動画の尺(再生時間)等の動画作成上の制約条件の情報である。コンテンツの構成113Dは、生成する動画の構成、例えば3つの連続動画を視覚効果のトランジションでつなぎ合わせる、等の構成に関する情報である。リソースファイル113Eは、生成する動画に用いる動画素材の情報である。編集計画書フォーマット113Fは、動画生成のための編集計画書のフォーマットを指定する情報である。編集計画書のフォーマットは、既知のフォーマットでもよいし、SGML(Standard Generalized Markup Language)等に準拠した拡張言語で定義するものであってもよい。
図6は、命令情報のデータ構造例を示す図である。命令情報114は、対話型AIサービス200に処理をさせるための命令(プロンプト)である。本実施形態に係る動画生成の命令は、例えば、編集方針情報113を指定して、該編集方針に従って編集計画書を作成するよう指示するものであり、自然言語にて記述される。
Figure 6 is a diagram showing an example of the data structure of command information.
図7は、編集計画書のデータ構造例を示す図である。編集計画書115は、生成する動画の動画内時刻に割り当てられる構成要素をタグ指定する等により、編集情報を所定のフォーマットにて記述して動画作成の計画情報とするものである。
Figure 7 shows an example of the data structure of an editing plan. The
本実施形態に係る編集計画書のフォーマットの概略を説明する。まず、編集計画書は、大きく“shot”、“view”、“attach”の3種類の要素を含めることができる。“shot”タグは、複数の“view”をまとめたものである。“view”は、素材ファイルと関連情報を規定する。素材ファイルには、動画(動画素材内で使用する箇所の開始時刻と終了時刻の指定を含む)と、画像(画像ファイルの拡大率や画面内配置)とがあり、関連情報には、カラー指定およびグラデーション指定がある。“attach”は、“view”で指定される素材に付加する形で表示する要素(画像であるならば、サイズ、配置、生成する動画内での開始時刻と終了時刻の指定を含む。音声であるならば、音声ボリューム、生成する動画内での開始時刻と終了時刻の指定を含む。)を指定する。 The format of the editing plan according to this embodiment will be outlined below. First, the editing plan can include three main types of elements: "shot", "view", and "attach". The "shot" tag is a collection of multiple "views". "View" specifies the material file and related information. Material files include videos (including the start and end times of the parts to be used in the video material) and images (magnification rate and on-screen layout of the image file), and related information includes color and gradation designations. "Attach" specifies an element to be displayed by adding it to the material specified by "view" (if it is an image, this includes the size, layout, and start and end times in the video to be generated. If it is audio, this includes the audio volume and start and end times in the video to be generated).
例えば、素材動画内時刻を指定して抽出した素材動画からの切り出し動画を該構成要素の一つ(“views”)に割り当て、そのような複数の切り出し動画をトランジションを挟んで連続的に再生させた後、チャンネル内の他の動画にアクセスするためのQRコード(登録商標)を表示させる時間を付帯させる(“attaches”)、等のカット編集情報を記述する。 For example, cut editing information such as allocating an excerpt from a source video extracted by specifying a time within the source video to one of the components ("views"), playing multiple such excerpts continuously with transitions in between, and then attaching a time to display a QR code (registered trademark) for accessing other videos in the channel ("attaches") is described.
例えば、編集計画書には、編集計画として、素材となる動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて編集動画を構成する情報が含まれてもよい。また、編集計画書には、編集計画として、素材となる動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて編集動画を構成する情報、および部分的な動画の前後に付加すべき動画、静止画または音声の指定が含まれてもよい。また、編集計画書には、編集計画として、素材となる動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて編集動画を構成する情報、および部分的な動画のつなぎ目に用いる視覚効果の指定が含まれてもよい。 For example, the editing plan may include, as an editing plan, information for constructing an edited video by joining partial videos with specified start and end positions on the elapsed time axis in the video file to be used as the material. The editing plan may also include, as an editing plan, information for constructing an edited video by joining partial videos with specified start and end positions on the elapsed time axis in the video file to be used as the material, and specification of videos, still images, or audio to be added before and after the partial videos. The editing plan may also include, as an editing plan, information for constructing an edited video by joining partial videos with specified start and end positions on the elapsed time axis in the video file to be used as the material, and specification of visual effects to be used at the joins of the partial videos.
図2の説明に戻る。処理部120には、取得部121と、解析部122と、編集計画部123と、動画編集部124と、が含まれる。
Returning to the explanation of FIG. 2, the
取得部121は、動画ファイルを取得する。解析部122は、動画ファイルに含まれる発話音声を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を音声解析サービスから取得する。また、解析部122は、動画ファイルに含まれる発話音声を時系列を維持しながら早送り編集し、所定の音声テキスト変換部(音声解析サービス300)に受け渡して時系列発話情報を得てもよい。あるいはまた、解析部122は、動画ファイルに含まれる発話音声の話者を識別して話者ごとに時系列を維持しながら抽出し、所定の音声テキスト変換部(音声解析サービス300)に受け渡して得たテキスト情報を統合して時系列発話情報を得てもよい。
The
編集計画部123は、時系列発話情報と、時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AI(対話型AIサービス200)に送信し、対話型AIから編集計画書を受信する。また、編集計画部は、命令情報に、編集計画により得られる編集動画についての制約条件を含めるようにしてよい。また、編集計画部123は、命令情報に、編集計画により得られる編集動画についての構成情報を含めるようにしてもよい。編集計画部123は、命令情報に、編集計画により得られる編集動画に付加すべき動画、静止画または音声の指定を含めるようにしてもよい。また、編集計画部123は、命令情報に、編集計画により得られる編集動画において用いる視覚効果の指定を含めるようにしてもよい。また、編集計画部123は、命令情報に、編集計画を記述するフォーマット言語についての定義情報を含めるようにしてもよい。
The
動画編集部124は、編集計画書に含まれる編集計画に沿って動画ファイルを編集し、編集動画を生成する。具体的には、動画編集部124は、部分的な動画を動画素材のファイルから切り出してつなぎ合わせることで前記編集動画を生成する。また、動画編集部124は、さらに、付加すべき動画、静止画または音声を付加することで編集動画を生成するようにしてもよい。また、動画編集部124は、部分的な動画を動画ファイルから切り出してつなぎ合わせ、該つなぎ目に指定された視覚効果を適用することで編集動画を生成するようにしてもよい。
The
入出力部140は、動画生成装置100に対する入出力を制御する。例えば、入出力部140は、受け付けたタイピングやタッチ、フリック入力等の各種の接触入力、あるいは視線入力等の各種の入力を受け付ける。また、入出力部140は、ユーザへの出力を行う。出力される情報は、画面、プレゼンテーション情報、広告、動画等の各種出力情報である。
The input/
通信部150は、通信路50を介して対話型AIサービス200を提供する装置群、音声解析サービス300を提供する装置群、ユーザ端末400およびその他インターネットを介して通信を行う他の端末との間で通信を行う。
The
対話型AIサービス200は、例えば、GPT、Gemini等のいわゆる生成AIの機能をAPI(Application Programming Interface)等を介して提供するサービスである。対話型AIサービス200は、自然言語による命令(プロンプト)を生成AIに与えて、望む結果を生成させて得る。本実施形態では、生成AIに動画を生成するための編集計画書を生成させる。
The
音声解析サービス300は、例えば、Google TTS API 等の公知の技術を用いて音声解析を行う。音声解析サービス300は、音声ファイルを受け付けると、音声ファイル内での発話をテキストに起こし、その音声ファイルに含まれる発話ごとに発話内容のテキストと、発話の開始時刻と終了時刻を特定する情報を解析済テキストとして出力する。
The
ユーザ端末400は、ユーザが利用する端末である。ユーザ端末400としては、ユーザのスマートフォン端末、PC(Personal Computer)等を用いるようにしてもよい。さらには、これに限られず、ユーザのスマートウォッチ等のウェアラブル装置をユーザ端末400として用いるようにしてもよい。
The
図8は、動画生成装置のハードウェア構成例を示す図である。動画生成装置100は、いわゆるサーバー装置、ワークステーション、パーソナルコンピュータ、スマートフォンあるいはタブレット端末の筐体により実現されるハードウェア構成を備える。動画生成装置100は、プロセッサ101と、メモリ102と、ストレージ103と、入力装置104と、表示装置105と、通信装置106と、各装置をつなぐバスと、を備える。
Figure 8 is a diagram showing an example of the hardware configuration of a video generation device. The
プロセッサ101は、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)等の演算装置である。
The
メモリ102は、例えばRAM(Random Access Memory)などのメモリ装置である。
ストレージ103は、デジタル情報を記憶可能な、いわゆるハードディスク(Hard Disk Drive)やSSD(Solid State Drive)あるいはフラッシュメモリなどの不揮発性記憶装置である。
入力装置104は、キーボードやマウス、タッチパネル、マイクのいずれかまたは複数の入力を受け付ける装置である。表示装置105は、有機EL(Electro-Luminescence)ディスプレイ等の各種出力装置のいずれかまたは複数の表示を行う装置である。
The
通信装置106は、ネットワークを介して他の装置と通信するネットワークインターフェースカード(NIC)等である。
The
なお、対話型AIサービス200を提供する装置、音声解析サービス300を提供する装置、ユーザ端末400についても、動画生成装置100と略同様のハードウェア構成を備える。
The device providing the
上記した動画生成装置100の処理部120と、取得部121と、解析部122と、編集計画部123と、動画編集部124とは、プロセッサ101に処理を行わせるプログラムによって実現される。このプログラムは、メモリ102、ストレージ103または図示しないROM装置内に記憶され、実行にあたってメモリ102上にロードされ、プロセッサ101により実行される。
The
また、動画生成装置100の記憶部110は、メモリ102及びストレージ103により実現される。また、入出力部140は、入力装置104および表示装置105により実現される。通信部150は、通信装置106により実現される。以上が、動画生成装置100のハードウェア構成例である。
The
動画生成装置100の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。
The configuration of the
また、各処理部(処理部120と、取得部121と、解析部122と、編集計画部123と、動画編集部124)は、それぞれの機能を実現する専用のハードウェア(ASIC、GPUなど)により構築されてもよい。また、各処理部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
In addition, each processing unit (processing
次に、本実施形態における動画生成システム1の動作を説明する。
Next, the operation of the
図9は、動画生成フロー(動画素材登録)の例を示す図である。動画生成フロー(動画素材登録)は、ユーザがユーザ端末400のウェブブラウザあるいはアプリケーションソフトウェア(以後、単にブラウザと表記することもある)において開始を要求すると開始される。
Figure 9 shows an example of a video generation flow (video material registration). The video generation flow (video material registration) starts when a user requests the start of the flow in the web browser or application software (hereinafter sometimes simply referred to as the browser) of the
動画生成装置100の取得部121は、動画素材登録画面を生成し、ユーザ端末400に表示させる(ステップS001)。具体的には、取得部121は、ユーザが過去に登録済の動画の一覧を管理する動画素材登録画面を生成する。そして、取得部121は、生成した動画素材登録画面の表示情報をユーザ端末400に送信する。
The
そして、ユーザ端末400のブラウザは、動画素材登録画面を表示させ、登録する動画素材ファイルと、動画タイトルと、説明の情報を含む情報を付帯させて動画素材登録依頼を動画生成装置100に送信する(ステップS002)。
Then, the browser of the
取得部121は、動画素材ファイル等を取得する(ステップS003)。具体的には、取得部121は、素材情報111に、ユーザと、動画タイトルと、動画ファイルと、説明と、を登録する。
The
そして、解析部122は、動画解析(音声部分抽出)を行う(ステップS004)。具体的には、解析部122は、取得した動画ファイルからオーディオ成分を分離取得する。
Then, the
そして、解析部122は、動画解析(早送音声生成)を行う(ステップS005)。具体的には、解析部122は、取得した動画ファイルに含まれるオーディオ成分を時系列を維持しながら早送り編集する。例えば、解析部122は、動画内時間で発話開始0分15秒時点から発話終了0分27秒時点までの発話(発話継続時間が12秒)の動画ファイルについて処理する場合、4倍速に編集して、発話開始から発話終了までの時間が3秒となるよう音声ファイルのデータ量を小さく作成する。
Then, the
そして、解析部122は、動画解析(音声解析依頼)を行う(ステップS006)。具体的には、解析部122は、音声解析サービス300に、ステップS005にて作成した早送音声の音声ファイルをAPI等を通じて送信して解析を依頼する。
Then, the
音声解析サービス300は、送信された早送音声の音声ファイルについて、音声解析処理を行う(ステップS007)。具体的には、音声解析サービス300は、素材動画の発話タイミングと発話内容を対応付けて記録した素材動画の発話タイミング解析済テキストを生成し、動画生成装置100に送信する。
The
そして、解析部122は、動画解析(時系列情報作成)を行う(ステップS007)。具体的には、解析部122は、受信した解析済みテキストを時系列発話情報112に格納し、解析済フラグ111Eを「済」に設定して、解析結果111Fに当該時系列発話情報112への参照情報を格納する。その際、解析部122は、解析済みテキストと時系列発話情報112と、のデータ構造が異なる場合には、解析済みテキストの情報について、時刻情報を早送状態から通常速度状態に戻すよう変換して時系列発話情報112として格納してもよいし、時刻情報を早送状態から通常速度状態に戻すよう変換した上で時系列発話情報112のデータ構造に変換して格納してもよい。
Then, the
以上が、動画生成フロー(動画素材登録)の例である。動画生成フロー(動画素材登録)によれば、動画素材として登録された動画について、発話のテキスト情報と動画上のその発話タイミングを解析した時系列発話情報を得ることができる。 The above is an example of the video generation flow (video material registration). According to the video generation flow (video material registration), for videos registered as video material, it is possible to obtain text information of utterances and time-series utterance information that analyzes the timing of the utterances in the video.
図10は、動画生成フロー(編集方針登録)の例を示す図である。動画生成フロー(編集方針登録)は、ユーザがユーザ端末400のブラウザにおいて開始を要求すると開始される。
Figure 10 is a diagram showing an example of a video creation flow (editing policy registration). The video creation flow (editing policy registration) starts when a user requests the start of the flow in the browser of the
動画生成装置100の編集計画部123は、編集方針登録画面を生成し、ユーザ端末400に表示させる(ステップS101)。具体的には、編集計画部123は、ユーザが過去に登録済の編集方針の一覧を管理する編集方針登録画面を生成する。そして、編集計画部123は、生成した編集方針登録画面の表示情報をユーザ端末400に送信する。
The
そして、ユーザ端末400のブラウザは、編集方針登録画面を表示させ、登録する編集方針タイトルと、登録動画素材と、オーダーを含む情報を付帯させて編集方針登録依頼を動画生成装置100に送信する(ステップS102)。
Then, the browser of the
編集計画部123は、編集方針等を受け付ける(ステップS103)。具体的には、編集計画部123は、編集方針情報113に、編集方針タイトルと、オーダーに基づいてコンテンツの目標、制約条件、コンテンツの構成、編集計画書フォーマットと、登録動画素材に基づいてリソースファイルと、を登録する。なお、編集計画部123は、オーダーに記載されている自然言語を解釈して、オーダーに含まれているコンテンツの目標、制約条件、コンテンツの構成、編集計画書フォーマットを特定する。
The
そして、編集計画部123は、編集準備(命令情報作成)を行う(ステップS104)。具体的には、編集計画部123は、命令情報114を作成する。例えば、編集計画部123は、上述した命令情報114の編集方針データの指定部分を、編集方針情報113の内容に置き換えて、対話型AIサービス200に受け渡すプロンプトを生成する。
Then, the
そして、編集計画部123は、編集準備(計画依頼)を行う(ステップS105)。具体的には、編集計画部123は、ステップS104にて作成した命令情報114と、素材動画の発話タイミング解析済テキストと、を対話型AIサービス200にAPI等を通じて送信する。
Then, the
そして、対話型AIサービス200は、送信された命令情報に従って、編集計画処理を行う(ステップS106)。具体的には、対話型AIサービス200は、素材動画の発話タイミング解析済テキストを用いて、発話内容(意味)と発話タイミングを考慮して重要な部分や面白い、興味深い等と評価される発言を中心にカット編集を行い、オーダーに従ってトランジションやアタッチメントを組み込んで指定された尺を満たすよう編集する計画を立てる。対話型AIサービス200は、計画した編集内容を編集計画書として指定されたフォーマットで生成し、動画生成装置100に送信する。
Then, the
そして、動画編集部124は、該編集計画書115に従って動画編集(編集動画作成)を行う(ステップS107)。具体的には、動画編集部124は、送信された編集計画書を受信すると、記憶部110の編集計画書115に格納する。そして、動画編集部124は、該編集計画書115に従って動画編集(編集動画作成)を行い、動画編集の結果得られた編集動画を、記憶部110の編集動画116に格納するとともにユーザ端末400へ送信する。なお、動画編集部124は、動画編集の結果得られた編集動画を、ダウンロード可能にウェブサイトに掲示してユーザ端末400にそのリンクを送信するようにしてもよいし、あるいはユーザ端末400から予め指定された動画共有サイトにアップロードするようにしてもよい。
Then, the
以上が、動画生成フロー(編集方針登録)の例である。動画生成フロー(編集方針登録)によれば、動画素材として登録された動画を解析して得た時系列発話情報と、編集方針を用いて作成した編集計画に従い、動画素材を編集して編集動画を得ることができる。したがって、ユーザが望む態様の動画を生成することができるといえる。 The above is an example of the video generation flow (editing policy registration). According to the video generation flow (editing policy registration), the video material can be edited to obtain an edited video according to the time-series speech information obtained by analyzing the video registered as video material and the editing plan created using the editing policy. Therefore, it can be said that a video in the format desired by the user can be generated.
図11は、動画素材登録画面の画面例を示す図である。動画素材登録画面の画面例600には、少なくとも、登録された動画素材ファイル610ごとに、動画タイトル611と、説明の情報615と、を含む情報を表示させる。その他、動画素材登録画面の画面例600には、編集方針一覧画面へ遷移する指示を受け付ける編集方針表示ボタン601と、動画素材を新規登録する指示を受け付ける新規登録ボタン602と、登録された動画素材ファイル610ごとに、動画ファイル名612と、コンテンツ解析ステータス613と、動画素材の登録を解除する削除ボタン614と、が含まれる。
Figure 11 is a diagram showing an example of a video material registration screen. The example video material registration screen 600 displays information including at least a
コンテンツ解析ステータス613は、登録された動画素材について、発話のテキスト情報と動画上のその発話タイミングを解析した時系列発話情報を得たか否かを示す情報である。編集方針表示ボタン601は、入力を受け付けると、後述する編集方針登録画面の画面例に画面を遷移させる。新規登録ボタン602は、入力を受け付けると、後述する新規素材登録画面の画面例に画面を遷移させる。
The
図12は、新規素材登録画面の画面例を示す図である。新規素材登録画面の画面例650には、少なくとも、ユーザが登録する動画素材について、動画タイトル651と、動画ファイル名652と、動画ファイル名652にて特定される動画ファイルの格納位置を示すファイルパスを参照入力する参照ボタン653と、素材ファイルの説明入力欄654と、動画素材登録画面へ遷移する指示を受け付ける閉じるボタン655と、動画素材を登録する指示を受け付ける登録ボタン656と、が含まれる。
Figure 12 is a diagram showing an example of a new material registration screen. The example new material registration screen 650 includes at least a
素材ファイルの説明入力欄654は、フリーテキストにて素材の内容の説明を受け付ける。例えば、素材ファイルの説明入力欄654は、動画素材の場合、あらすじや、動画内時刻ごとのシーンの説明を受け付ける。登録ボタン656は、動画素材を登録する指示を受け付けると、動画生成フロー(動画素材登録)のステップS003の登録処理を実施する。
The material file
図13は、編集方針登録画面の画面例を示す図である。編集方針登録画面の画面例700には、少なくとも、登録された編集方針710ごとに、編集方針名711と、編集方針の登録を解除する削除ボタン712と、編集方針の具体的な内容であるオーダー713と、編集計画書の作成の指示を受け付ける編集計画書作成ボタン714と、編集計画書により作成される動画のあらすじの説明の情報715と、編集計画書に従って編集動画を生成する指示を受け付ける動画生成ボタン716と、を表示させる。
Figure 13 is a diagram showing an example of an editing policy registration screen. The example 700 of the editing policy registration screen displays at least, for each registered
オーダー713は、編集方針(制約条件や構成条件を含む)を自然言語で記述したテキスト情報である。例えば、オーダー713には、生成する動画の尺の制限や目安、編集動画に付加すべき動画・静止画・音声の指定、あるいは編集動画において用いる視覚効果の指定が含まれる。
編集計画書作成ボタン714は、入力を受け付けると、編集計画書の作成の指示として受け付け、動画生成フロー(編集方針登録)のステップS104からステップS107を実施させる。あらすじ715には、編集計画書により示される編集動画のあらすじ(例えば、章立てや動画の再生時間等)が表示される。動画生成ボタン716は、入力を受け付けると、作成された編集計画書に従った動画作成の指示として受け付け、動画生成フロー(編集方針登録)のステップS107を実施させる。
When input is received by the edit
また、編集方針登録画面の画面例700には、登録動画素材一覧表示ボタン701と、新規登録ボタン702と、が含まれる。登録動画素材一覧表示ボタン701は、入力を受け付けると、動画素材登録画面の画面例600に画面を遷移させる。新規登録ボタン702は、入力を受け付けると、後述する新規編集方針登録画面の画面例に画面を遷移させる。
The example editing
図14は、新規編集方針登録画面の画面例を示す図である。新規編集方針登録画面の画面例750には、少なくとも、ユーザが登録する編集方針について、編集方針名751と、編集対象とする動画素材の動画ファイル名752と、動画ファイル名752にて特定される動画ファイルの格納位置を示すファイルパスを参照入力する参照ボタン753と、編集方針の具体的な内容を受け付けるオーダー入力欄754と、編集方針登録画面の画面例700へ遷移する指示を受け付ける閉じるボタン755と、編集方針を登録する指示を受け付ける登録ボタン756と、が含まれる。
Figure 14 is a diagram showing an example of a new editing policy registration screen. The example 750 of the new editing policy registration screen includes at least an
オーダー入力欄754は、フリーテキストにて編集方針の内容の指示(プロンプトへの追加情報)を受け付ける。具体的には、オーダー入力欄754は、生成する動画の尺の制限や目安、編集動画に付加すべき動画・静止画・音声の指定、あるいは編集動画において用いる視覚効果の指定を受け付ける。例えば、オーダー入力欄754は、「3つのシーンから構成され、それぞれのシーンの変遷には視覚効果を付けて急な被写体、明度の変化を避ける。BGMは明るい感じの曲で、動画の最後にはQRコードを表示する時間を10秒設けて。動画全体の尺は5分以内で。」のようなフリーテキストを編集方針の内容として指示を受け付ける。
The
登録ボタン656は、編集方針を登録する指示を受け付けると、動画生成フロー(編集方針登録)のステップS103の登録処理を実施する。
When the
以上が、本発明に係る実施形態の一つとしての動画生成システム1である。以上の実施形態のように、動画生成システム1によれば、ユーザ自身に動画編集のスキルが無い場合や、動画生成のための設備環境がない場合であっても、ユーザが望む態様の動画を生成することができる。
The above is an explanation of the
本発明は、上記の実施形態に制限されない。上記の実施形態は、本発明の技術的思想の範囲内で様々な変形が可能である。例えば、上記の実施形態においては、動画生成装置100は、対話型AIサービス200を利用して動画の編集計画書を得ているが、これに限られず、例えば、動画生成装置100自身にて動画生成に特化した生成AIを稼働させ、編集動画を生成するものであってもよい。
The present invention is not limited to the above-described embodiment. The above-described embodiment can be modified in various ways within the scope of the technical concept of the present invention. For example, in the above-described embodiment, the
あるいは、上記の実施形態においては、動画生成装置100は、音声解析サービス300を利用して素材動画の発話の解析を行っているが、これに限られず、例えば、動画生成装置100自身にて音声解析に特化した生成AIを稼働させ、時系列発話情報を生成するものであってもよい。
Alternatively, in the above embodiment, the
また、動画生成装置100の機能は、1つ又は複数のコンピュータで構成されるクラウドサービスによって実現してもよい。
Furthermore, the functions of the
また、上記した実施形態の技術的要素は、単独で適用されてもよいし、プログラム部品とハードウェア部品のような複数の部分に分けられて適用されるようにしてもよい。 In addition, the technical elements of the above-mentioned embodiments may be applied independently, or may be divided into multiple parts, such as program parts and hardware parts, and then applied.
以上、本発明について、実施形態を中心に説明した。 The present invention has been described above, focusing on the embodiments.
1・・・動画生成システム、50・・・通信路、100・・・動画生成装置、110・・・記憶部、111・・・素材情報、112・・・時系列発話情報、113・・・編集方針情報、114・・・命令情報、115・・・編集計画書、116・・・編集動画、120・・・処理部、121・・・取得部、122・・・解析部、123・・・編集計画部、124・・・動画編集部、140・・・入出力部、150・・・通信部、200・・・対話型AIサービス、300・・・音声解析サービス、400・・・ユーザ端末。 1: Video generation system, 50: Communication path, 100: Video generation device, 110: Memory unit, 111: Material information, 112: Time-series speech information, 113: Editing policy information, 114: Command information, 115: Editing plan, 116: Edited video, 120: Processing unit, 121: Acquisition unit, 122: Analysis unit, 123: Editing plan unit, 124: Video editing unit, 140: Input/output unit, 150: Communication unit, 200: Interactive AI service, 300: Voice analysis service, 400: User terminal.
Claims (14)
前記動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析部と、
前記時系列発話情報と、前記時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、前記対話型AIから前記編集計画を受信する編集計画部と、
前記編集計画に沿って前記動画ファイルを編集し、編集動画を生成する動画編集部と、
を有する動画生成装置。 An acquisition unit that acquires a video file;
an analysis unit that acquires an analysis result including time-series speech information, which is text information obtained by transcribing speech included in the video file in a time series;
An editing plan unit that transmits the time-series speech information and command information instructing the user to output an editing plan for editing the time-series speech information according to desired editing policy information to an interactive AI using a language model, and receives the editing plan from the interactive AI;
a video editing unit that edits the video file in accordance with the editing plan and generates an edited video;
A video generating device having the above configuration.
前記編集計画部は、前記命令情報に、前記編集計画により得られる前記編集動画についての制約条件を含める、
ことを特徴とする動画生成装置。 The video generating device according to claim 1 ,
The editing plan unit includes, in the command information, a constraint condition for the edited video obtained according to the editing plan.
A moving image generating device comprising:
前記編集計画部は、前記命令情報に、前記編集計画により得られる前記編集動画についての構成情報を含める、
ことを特徴とする動画生成装置。 The video generating device according to claim 1 ,
The editing plan unit includes, in the command information, configuration information about the edited video obtained according to the editing plan.
A moving image generating device comprising:
前記編集計画部は、前記命令情報に、前記編集計画により得られる前記編集動画に付加すべき動画、静止画または音声の指定を含める、
ことを特徴とする動画生成装置。 The video generating device according to claim 1 ,
The editing planning unit includes, in the command information, a designation of a video, a still image, or a sound to be added to the edited video obtained according to the editing plan.
A moving image generating device comprising:
前記編集計画部は、前記命令情報に、前記編集計画により得られる前記編集動画において用いる視覚効果の指定を含める、
ことを特徴とする動画生成装置。 The video generating device according to claim 1 ,
The editing plan unit includes, in the command information, a designation of a visual effect to be used in the edited video obtained according to the editing plan.
A moving image generating device comprising:
前記編集計画には、前記動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて前記編集動画を構成する情報が含まれ、
前記動画編集部は、前記部分的な動画を前記動画ファイルから切り出してつなぎ合わせることで前記編集動画を生成する、
ことを特徴とする動画生成装置。 The video generating device according to claim 1 ,
The editing plan includes information for constructing the edited video by connecting partial videos each having a start position and an end position on a time axis in the video file,
the video editing unit generates the edited video by extracting the partial video from the video file and connecting the extracted partial video.
A moving image generating device comprising:
前記編集計画には、前記動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて前記編集動画を構成する情報、および前記部分的な動画の前後に付加すべき動画、静止画または音声の指定が含まれ、
前記動画編集部は、前記部分的な動画を前記動画ファイルから切り出してつなぎ合わせ、付加すべき前記動画、静止画または音声を付加することで前記編集動画を生成する、
ことを特徴とする動画生成装置。 The video generating device according to claim 1 ,
The editing plan includes information for linking together partial videos, each of which has a start position and an end position on a time axis in the video file, to form the edited video, and information for specifying videos, still images, or audio to be added before and after the partial videos;
the video editing unit extracts the partial video from the video file, joins them together, and generates the edited video by adding the video, still image, or audio to be added;
A moving image generating device comprising:
前記編集計画には、前記動画ファイル内の経過時間軸上の開始位置と終了位置を指定した部分的な動画をつなぎ合わせて前記編集動画を構成する情報、および前記部分的な動画のつなぎ目に用いる視覚効果の指定が含まれ、
前記動画編集部は、前記部分的な動画を前記動画ファイルから切り出してつなぎ合わせ、該つなぎ目に指定された前記視覚効果を適用することで前記編集動画を生成する、
ことを特徴とする動画生成装置。 The video generating device according to claim 1 ,
The editing plan includes information for constructing the edited video by joining together partial videos, each of which has a start position and an end position on a time axis in the video file, and a designation of visual effects to be used at the joins between the partial videos;
the video editing unit extracts the partial videos from the video file, joins them together, and applies the designated visual effect to the joins to generate the edited video;
A moving image generating device comprising:
前記解析部は、前記動画ファイルに含まれる発話音声を時系列を維持しながら早送り編集し、所定の音声テキスト変換部に受け渡して前記時系列発話情報を得る、
ことを特徴とする動画生成装置。 The video generating device according to claim 1 ,
The analysis unit performs fast-forward editing of the speech included in the video file while maintaining the time series, and transfers the speech to a predetermined speech-to-text conversion unit to obtain the time-series speech information.
A moving image generating device comprising:
前記解析部は、前記動画ファイルに含まれる発話音声の話者を識別して前記話者ごとに時系列を維持しながら抽出し、所定の音声テキスト変換部に受け渡して得たテキスト情報を統合して前記時系列発話情報を得る、
ことを特徴とする動画生成装置。 The video generating device according to claim 1 ,
The analysis unit identifies speakers of speech sounds included in the video file, extracts the speech sounds while maintaining a time series for each speaker, and transfers the speech sounds to a predetermined speech-to-text conversion unit to obtain the time-series speech information by integrating the obtained text information.
A moving image generating device comprising:
前記編集計画は、所定のフォーマット言語により記述され、
前記編集計画部は、前記命令情報に、前記編集計画を記述する前記フォーマット言語についての定義情報を含める、
ことを特徴とする動画生成装置。 The video generating device according to claim 1 ,
The editing plan is described in a predetermined format language;
The editing plan unit includes, in the command information, definition information about the format language in which the editing plan is described.
A moving image generating device comprising:
前記動画生成装置は、プロセッサを備え、
前記プロセッサは、
動画ファイルを取得する取得ステップと、
前記動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析ステップと、
前記時系列発話情報と、前記時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、前記対話型AIから前記編集計画を受信する編集計画ステップと、
前記編集計画に沿って前記動画ファイルを編集し、編集動画を生成する動画編集ステップと、
を実施する動画生成方法。 A moving image generating method using a moving image generating device, comprising:
The video production device includes a processor,
The processor,
An acquisition step of acquiring a video file;
An analysis step of acquiring an analysis result including time-series speech information, which is text information obtained by transcribing speech included in the video file in a time series;
An editing planning step of transmitting the time-series speech information and command information instructing the user to output an editing plan for editing the time-series speech information according to desired editing policy information to an interactive AI using a language model, and receiving the editing plan from the interactive AI;
a video editing step of editing the video file in accordance with the editing plan to generate an edited video;
A video generation method that implements the above.
前記情報処理装置は、プロセッサを備え、
前記プロセッサに、
動画ファイルを取得する取得ステップと、
前記動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析ステップと、
前記時系列発話情報と、前記時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、前記対話型AIから前記編集計画を受信する編集計画ステップと、
前記編集計画に沿って前記動画ファイルを編集し、編集動画を生成する動画編集ステップと、
を実施させる動画生成プログラム。 A moving image generating program for causing an information processing device to generate a moving image,
The information processing device includes a processor,
The processor,
An acquisition step of acquiring a video file;
An analysis step of acquiring an analysis result including time-series speech information, which is text information obtained by transcribing speech included in the video file in a time series;
An editing planning step of transmitting the time-series speech information and command information instructing the user to output an editing plan for editing the time-series speech information according to desired editing policy information to an interactive AI using a language model, and receiving the editing plan from the interactive AI;
a video editing step of editing the video file in accordance with the editing plan to generate an edited video;
A video generation program that performs the above.
前記動画生成装置は、
前記利用者端末から通信を介して動画ファイルを取得する取得部と、
前記動画ファイルに含まれる発話を時系列に書き起こしたテキスト情報である時系列発話情報を含む解析結果を取得する解析部と、
前記時系列発話情報と、前記時系列発話情報を所望の編集方針情報に従って編集する編集計画を出力するように指示する命令情報とを、言語モデルを用いた対話型AIに送信し、前記対話型AIから前記編集計画を受信する編集計画部と、
前記編集計画に沿って前記動画ファイルを編集し、編集動画を生成する動画編集部と、を有する、
ことを特徴とする動画生成システム。 A video production system including a user terminal and a video production device communicably connected to the user terminal,
The video generating device comprises:
An acquisition unit that acquires a video file from the user terminal via communication;
an analysis unit that acquires an analysis result including time-series speech information, which is text information obtained by transcribing speech included in the video file in a time series;
An editing plan unit that transmits the time-series speech information and command information instructing the user to output an editing plan for editing the time-series speech information according to desired editing policy information to an interactive AI using a language model, and receives the editing plan from the interactive AI;
a video editing unit that edits the video file in accordance with the editing plan and generates an edited video;
A video generation system comprising:
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024068392A JP7538574B1 (en) | 2024-04-19 | 2024-04-19 | Video creation device, video creation method, video creation program, and video creation system |
| PCT/JP2024/045665 WO2025220279A1 (en) | 2024-04-19 | 2024-12-24 | Video generation device, video generation method, video generation program, and video generation system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024068392A JP7538574B1 (en) | 2024-04-19 | 2024-04-19 | Video creation device, video creation method, video creation program, and video creation system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP7538574B1 true JP7538574B1 (en) | 2024-08-22 |
| JP2025164419A JP2025164419A (en) | 2025-10-30 |
Family
ID=92424492
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024068392A Active JP7538574B1 (en) | 2024-04-19 | 2024-04-19 | Video creation device, video creation method, video creation program, and video creation system |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7538574B1 (en) |
| WO (1) | WO2025220279A1 (en) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006048465A (en) | 2004-08-06 | 2006-02-16 | Ricoh Co Ltd | Content generation system, program, and recording medium |
| US20130120654A1 (en) | 2010-04-12 | 2013-05-16 | David A. Kuspa | Method and Apparatus for Generating Video Descriptions |
| JP2019110480A (en) | 2017-12-19 | 2019-07-04 | 日本放送協会 | Content processing system, terminal device, and program |
| JP2020140326A (en) | 2019-02-27 | 2020-09-03 | みんとる合同会社 | Content generation system and content generation method |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008236138A (en) * | 2007-03-19 | 2008-10-02 | Hop Information System Co Ltd | Moving picture editing program |
| JP2010011409A (en) * | 2008-06-30 | 2010-01-14 | Nippon Telegr & Teleph Corp <Ntt> | Video digest apparatus and video editing program |
| US10984246B2 (en) * | 2019-03-13 | 2021-04-20 | Google Llc | Gating model for video analysis |
| US11508411B2 (en) * | 2020-10-28 | 2022-11-22 | Meta Platforms Technologies, Llc | Text-driven editor for audio and video assembly |
-
2024
- 2024-04-19 JP JP2024068392A patent/JP7538574B1/en active Active
- 2024-12-24 WO PCT/JP2024/045665 patent/WO2025220279A1/en active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006048465A (en) | 2004-08-06 | 2006-02-16 | Ricoh Co Ltd | Content generation system, program, and recording medium |
| US20130120654A1 (en) | 2010-04-12 | 2013-05-16 | David A. Kuspa | Method and Apparatus for Generating Video Descriptions |
| JP2019110480A (en) | 2017-12-19 | 2019-07-04 | 日本放送協会 | Content processing system, terminal device, and program |
| JP2020140326A (en) | 2019-02-27 | 2020-09-03 | みんとる合同会社 | Content generation system and content generation method |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2025220279A1 (en) | 2025-10-23 |
| JP2025164419A (en) | 2025-10-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20150331961A1 (en) | Method and apparatus for editing media | |
| JP2015517684A (en) | Content customization | |
| US20140258858A1 (en) | Content customization | |
| US20140258462A1 (en) | Content customization | |
| CN110234032A (en) | A kind of voice technical ability creation method and system | |
| CN118689347A (en) | Intelligent agent generation method, interaction method, device, medium and equipment | |
| CN108241598A (en) | Method and device for making a presentation | |
| US20160349978A1 (en) | Knowledge base studio | |
| US10366149B2 (en) | Multimedia presentation authoring tools | |
| Guedes et al. | Extending multimedia languages to support multimodal user interactions | |
| KR102353797B1 (en) | Method and system for suppoting content editing based on real time generation of synthesized sound for video content | |
| JP7538574B1 (en) | Video creation device, video creation method, video creation program, and video creation system | |
| CN108241597A (en) | Method and device for making a presentation | |
| US11423941B2 (en) | Write-a-movie: unifying writing and shooting | |
| CN114783408A (en) | A kind of audio data processing method, apparatus, computer equipment and medium | |
| CN115695680A (en) | Video editing method, device, electronic device, and computer-readable storage medium | |
| CN119991869A (en) | Story picture book editing method, display device and server | |
| CN111768756A (en) | Information processing method, information processing apparatus, vehicle, and computer storage medium | |
| CN118466890A (en) | Audio novel player, device, equipment and storage medium thereof | |
| JP7166370B2 (en) | Methods, systems, and computer readable recording media for improving speech recognition rates for audio recordings | |
| CN116956826A (en) | Data processing method and device, electronic equipment and storage medium | |
| KR102488623B1 (en) | Method and system for suppoting content editing based on real time generation of synthesized sound for video content | |
| KR101886067B1 (en) | Electronic document preparing apparatus of independent web browser | |
| JP7166373B2 (en) | METHOD, SYSTEM, AND COMPUTER-READABLE RECORDING MEDIUM FOR MANAGING TEXT TRANSFORMATION RECORD AND MEMO TO VOICE FILE | |
| CN120281994B (en) | Video generation method, device, equipment and storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240424 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20240424 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240730 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240802 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7538574 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |