JP2014236276A - Image processing device, imaging device, and image processing program - Google Patents
Image processing device, imaging device, and image processing program Download PDFInfo
- Publication number
- JP2014236276A JP2014236276A JP2013115146A JP2013115146A JP2014236276A JP 2014236276 A JP2014236276 A JP 2014236276A JP 2013115146 A JP2013115146 A JP 2013115146A JP 2013115146 A JP2013115146 A JP 2013115146A JP 2014236276 A JP2014236276 A JP 2014236276A
- Authority
- JP
- Japan
- Prior art keywords
- image
- subject
- unit
- image processing
- main subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Studio Devices (AREA)
Abstract
【課題】 主要被写体を確度高く特定することができる技術を提供することを目的とする。
【解決手段】 時系列に連続して撮像された複数の画像を取得する画像取得部と、複数の画像の撮像時に録音され複数の画像に対応付けられた音声を取得する音声取得部と、音声から音声情報を抽出し、音声情報より画像の主要被写体を推定する被写体推定部と、推定された主要被写体を画像から特定する被写体特定部と、を備える。
【選択図】 図1PROBLEM TO BE SOLVED: To provide a technique capable of specifying a main subject with high accuracy.
An image acquisition unit that acquires a plurality of images that are continuously captured in time series, a sound acquisition unit that acquires sound recorded at the time of capturing a plurality of images and associated with the plurality of images, and a sound Voice information is extracted from the subject, and a subject estimation unit that estimates the main subject of the image from the voice information, and a subject specification unit that specifies the estimated main subject from the image.
[Selection] Figure 1
Description
本発明は、画像処理装置、撮像装置および画像処理プログラムに関する。 The present invention relates to an image processing device, an imaging device, and an image processing program.
撮像された画像から主要被写体を検出する様々な技術が開発されている。 Various techniques for detecting a main subject from captured images have been developed.
例えば、画像から複数の特徴量を統合して顕著性マップを求め、その顕著性マップにおいて、人間の視覚的注意を引く可能性の高い、所定の閾値以上の顕著性を有する画像領域を主要被写体のコア領域の種と設定し、領域分割処理を施すことにより、画像から主要被写体の領域を抽出する技術がある(特許文献1など参照) For example, a saliency map is obtained by integrating a plurality of feature amounts from an image, and an image area having a saliency equal to or higher than a predetermined threshold that is likely to attract human visual attention in the saliency map is selected as a main subject. There is a technique for extracting a region of a main subject from an image by setting it as a seed of a core region and performing region division processing (see Patent Document 1, etc.)
しかしながら、従来技術では、顕著性などの特徴量に基づいて主要被写体を検出することから、画像を撮像したユーザが意図した主要被写体と異なる場合がある。 However, in the prior art, since the main subject is detected based on a feature amount such as saliency, it may be different from the main subject intended by the user who captured the image.
上記従来技術が有する問題に鑑み、本発明の目的は、主要被写体を確度高く特定することができる技術を提供することにある。 In view of the above-described problems of the conventional technology, an object of the present invention is to provide a technology capable of specifying a main subject with high accuracy.
上記課題を解決するために、本発明を例示する画像処理装置の一態様は、時系列に連続して撮像された複数の画像を取得する画像取得部と、複数の画像の撮像時に録音され複数の画像に対応付けられた音声を取得する音声取得部と、音声から音声情報を抽出し、音声情報より画像の主要被写体を推定する被写体推定部と、推定された主要被写体を画像から特定する被写体特定部と、を備える。 In order to solve the above-described problem, an aspect of an image processing apparatus illustrating the present invention includes an image acquisition unit that acquires a plurality of images that are continuously captured in time series, and a plurality of images that are recorded when a plurality of images are captured. An audio acquisition unit that acquires audio associated with the image, a subject estimation unit that extracts audio information from the audio and estimates a main subject of the image from the audio information, and a subject that identifies the estimated main subject from the image A specific unit.
また、被写体特定部は、音声情報が抽出された時点より後に撮像された画像から主要被写体を特定してもよい。 In addition, the subject specifying unit may specify the main subject from an image captured after the time when the audio information is extracted.
また、音声を発話する人物を画像から特定する発話者特定部を備えてもよい。 Moreover, you may provide the speaker specific part which specifies the person who utters an audio | voice from an image.
また、被写体特定部により主要被写体が特定された画像に対し主要被写体の情報を付加する情報付加部を備えてもよい。 Further, an information adding unit that adds information on the main subject to the image in which the main subject is specified by the subject specifying unit may be provided.
また、音声情報と主要被写体とを予め対応付けた情報を記憶する記憶部を備えてもよい。 In addition, a storage unit that stores information in which the audio information and the main subject are associated in advance may be provided.
本発明を例示する撮像装置の一態様は、時系列に連続して被写界を撮像し複数の画像を生成する撮像部と、被写界の合焦状態を調整する合焦調整部と、本発明の画像処理装置と、被写体推定部により推定された主要被写体に合焦させるように、合焦調整部を制御する制御部と、を備える。 An aspect of an imaging apparatus illustrating the present invention is an imaging unit that captures an image of a scene continuously in time series to generate a plurality of images, a focus adjustment unit that adjusts a focus state of the scene, The image processing apparatus of the present invention, and a control unit that controls the focus adjustment unit so as to focus on the main subject estimated by the subject estimation unit.
本発明を例示する画像処理プログラムの一態様は、時系列に連続して撮像された複数の画像を取得する画像取得手順、複数の画像の撮像時に録音され複数の画像に対応付けられた音声を取得する音声取得手順、音声から音声情報を抽出し、音声情報より画像の主要被写体を推定する被写体推定手順、推定された主要被写体を画像から特定する被写体特定手順、をコンピュータに実行させる。 One aspect of the image processing program illustrating the present invention is an image acquisition procedure for acquiring a plurality of images that are continuously captured in time series, and voices that are recorded when a plurality of images are captured and are associated with the plurality of images. The computer executes an audio acquisition procedure to be acquired, audio information is extracted from the audio, a subject estimation procedure for estimating the main subject of the image from the audio information, and a subject specifying procedure for specifying the estimated main subject from the image.
本発明によれば、主要被写体を確度高く特定することができる。 According to the present invention, a main subject can be specified with high accuracy.
以下、本発明の一の実施形態について、図面に基づいて説明する。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
図1は、本発明の一の実施形態に係るデジタルカメラ100の構成を示す図である。 FIG. 1 is a diagram showing a configuration of a digital camera 100 according to an embodiment of the present invention.
本実施形態のデジタルカメラ100は、撮像レンズ11、撮像素子12、AFE13、画像処理部14、マイクロホン15a、15b、表示制御部16a、モニタ16b、SDRAM17、レンズ駆動部18、撮像素子駆動回路19、CPU20、操作部材24、不揮発性メモリ25、動きセンサ26、記録I/F27およびバス29から構成される。画像処理部14、マイクロホン15a、15b、表示制御部16a、SDRAM17、CPU20および記録I/F27は、バス29を介して情報伝達可能にそれぞれ接続される。また、レンズ駆動部18、撮像素子駆動回路19、操作部材24、不揮発性メモリ25および動きセンサ26は、CPU20に接続される。
The digital camera 100 of the present embodiment includes an
撮像レンズ11は、ズームレンズやフォーカシングレンズを含む複数のレンズ群で構成されている。撮像レンズ11のレンズ位置は、CPU20の制御指示に基づきレンズ駆動部18によって光軸方向に調整される。なお、簡単のため、図1では撮像レンズ11を1枚のレンズとして図示する。
The
撮像素子12は、撮像素子駆動回路19によって駆動され、CPU20からの制御信号に基づいて、撮像レンズ11を通過した光束によって結像される被写界を撮像するデバイスである。撮像素子12の受光面には、複数の受光素子がマトリックス状に配列されている。また、撮像素子12の各受光素子には、赤色(R)、緑色(G)、青色(B)のカラーフィルタが公知のベイヤ配列に従って配置されている。そのため、撮像素子12の各受光素子は、カラーフィルタでの色分解によってそれぞれの色に対応するアナログの画像信号を出力する。この撮像素子12の出力はAFE13に入力される。なお、本実施形態の撮像素子12は、順次走査方式の固体撮像素子(CCD等)であっても、XYアドレス方式の固体撮像素子(CMOS等)であってもよい。
The
AFE13は、撮像素子12の出力に対してアナログ信号処理を施すアナログフロントエンド回路である。このAFE13は、相関二重サンプリング、画像信号のゲインの調整、画像信号のA/D変換を行う。AFE13の出力は、画像処理部14に送られる。なお、本実施形態では、撮像素子12およびAFE13で撮像部を構成する。
The AFE 13 is an analog front end circuit that performs analog signal processing on the output of the
画像処理部14は、ホワイトバランス処理回路、画素補間(デモザイキング)回路、マトリクス処理回路、非線形変換(γ補正)処理回路、および輪郭強調処理回路などを備え、デジタルの画像信号に対して、ホワイトバランス、画素補間、マトリクス、非線形変換(γ補正)、および輪郭強調などの処理を施す。なお、画素補間回路は、1画素当たり1色のベイヤ配列信号を、1画素当たり3色からなる通常のカラー画像信号に変換する。
The
画像処理部14から出力される3色の画像信号は、バス29を通じてSDRAM17に格納される。SDRAM17に格納された画像データは、CPU20の制御により読み出されて表示制御部16aに送られる。表示制御部16aは、入力された画像データを表示用の所定方式の信号(例えば、NTSC方式のカラー複合映像信号)に変換してモニタ16bに表示する(スルー)画像として出力する。
The three color image signals output from the
また、後述する操作部材24のレリーズ釦操作に応答して取得された画像データは、SDRAM17から読み出され不図示の圧縮伸長処理部に送られる。圧縮伸長処理部(不図示)は、その画像データに圧縮処理を施して画像ファイルを生成し、記録I/F27を介して記録媒体であるメモリカード28に記録する。
Also, image data acquired in response to a release button operation of the
マイクロホン15a、15bは、ユーザや被写界の人物、または周囲から発せられる音声を受信して電気信号のアナログの音声信号に変換する。そのアナログの音声信号は、不図示のA/D変換回路でデジタル信号に変換された後、ステレオ形式で音声データとしてSDRAM17に格納される。マイクロホン15a、15bには、一般的なマイクロホンを用いることができる。また、動画などの再生時には、記録された音声信号は、不図示のスピーカで再生することも可能な構成とされている。
The
CPU20は、不揮発性メモリ25に格納されている制御プログラムに従い、デジタルカメラ100の各部を統括的に制御するプロセッサである。例えば、CPU20は、撮像素子12に撮像された画像データに基づいて、公知のコントラスト検出や位相差検出による自動焦点(AF)制御や公知の自動露出(AE)演算などをそれぞれ実行する。また、本実施形態のCPU20は、不揮発性メモリ25に格納されている画像処理プログラムに従い、発話者特定部21、被写体推定部22および被写体特定部23として動作する。
The
発話者特定部21は、後述する被写体推定部22が主要被写体を推定するために用いる音声データを発話する発話者を、撮像素子12により撮像された画像データを用いて検出し特定する。本実施形態の発話者特定部21は、画像データに公知の被写体検出処理のアルゴリズムを適用して発話者を特定する。例えば、発話者特定部21は、予め不揮発性メモリ25に格納された人物の形状を示すテンプレートを読み込み、画像データに対しパターンマッチング処理などを施すことにより、人物の顔領域を検出し発話者として特定する。例えば、CPU20は、その結果に基づいて、マイクロホン15a、15bを特定された発話者からの音声が明瞭に取得できるように設定するのが好ましい。なお、複数の人物の顔領域が検出された場合、発話者特定部21は、複数の人物全てを発話者と特定してもよいし、CPU20やユーザによって選択された人物を発話者と特定してもよい。また、発話者特定部21は、画像データから人物が検出されなかった場合、ユーザや画像データの画角外の人物を発話者と特定することが好ましい。なお、発話者特定部21は、マイクロホン15a,15bで取得された音声信号に対して声紋分析を行うことで、発話者を特定(推定)する構成としてもよい。
The
被写体推定部22は、SDRAM17に格納されている音声データを読み込み、公知の音声認識のアルゴリズムに基づいて、音声データから発話者特定部21により特定された発話者の発話内容を音声情報として抽出し取得する。被写体推定部22は、不揮発性メモリ25に格納される辞書データに基づいて、取得した音声情報から撮像素子12により次に撮像される主要被写体を推定する。なお、辞書データは、音声情報と主要被写体とが対応付けられた一覧のデータである。つまり、本実施形態の辞書データは、人物や動物、花、乗り物、建物および山などのそれぞれの主要被写体を表す名詞の音声情報の一覧とともに、例えば、花や虹などの主要被写体に対応する「きれい」などの形容詞などの音声情報の一覧とからなる。
The
被写体特定部23は、被写体推定部22の推定後に、撮像素子12により撮像される画像データに対して、例えば、被写体検出処理を施し、被写体推定部22により推定された主要被写体の画像領域を検出し特定する。例えば、被写体特定部23は、被写体推定部22により推定された主要被写体の形状を示すテンプレートを不揮発性メモリ25より読み込み、画像データに対しパターンマッチング処理などを施して主要被写体の画像領域を検出し特定する。CPU20は、特定された主要被写体の画像領域を合焦領域として、レンズ駆動部18を駆動して撮影レンズ11を光軸方向で進退させて焦点調整を行う。なお、不揮発性メモリ25は、辞書データに登録される主要被写体のテンプレートを格納しているものとする。
The
操作部材24は、例えば、レリーズ釦、電源釦、コマンドダイヤル、十字状のカーソルキー、決定釦などで構成される。そして、操作部材24はデジタルカメラ100の各種入力をユーザから受け付ける。また、本実施形態では、モニタ16bと同形状の透明のパネルで構成されモニタ16bの表面全体に積層配置されるタッチパネルを、操作部材24として用いてもよい。すなわち、タッチパネルが、パネル表面に接触したスタイラス(または指先等)の位置を検出し、検出した位置情報をCPU20に出力することでユーザからの指示入力を受け付けるようにしてもよい。
The
動きセンサ26は、加速度センサや電子ジャイロなどデジタルカメラ100の姿勢や動きを検出し、CPU20に検出信号を出力する。
The
次に、図2のフローチャートを参照しつつ、本実施形態のデジタルカメラ100による撮像動作について説明する。なお、本実施形態では、撮影モードとして動画モードに設定され動画を撮像する場合について説明するが、連写モードで静止画像を撮像する場合や撮像待機時のスルー画像を撮像する場合についても同様である。 Next, the imaging operation by the digital camera 100 of the present embodiment will be described with reference to the flowchart of FIG. In this embodiment, the case where the moving image mode is set as the shooting mode will be described. However, the same applies to the case where a still image is captured in the continuous shooting mode or the case where a through image is captured during standby. is there.
CPU20は、ユーザによる操作部材23の電源釦操作により、電源投入指示を受け付け、デジタルカメラ100の電源を投入する。CPU20は、不揮発性メモリ25に格納された制御プログラムおよび画像処理プログラムを読み込んで実行し、デジタルカメラ100を初期化する。CPU20は、ユーザによる操作部材24のレリーズ釦全押し操作の撮像指示を受け付けると、撮像素子12に動画の撮像を開始させる。同時に、CPU20は、マイクロホン15a、15bに音声を受信して音声データの取得を開始させる。なお、撮像開始時において動画撮像される被写界は、図3に示すような人物31だけの構図の被写界30であるとする。
The
ステップS101において、発話者特定部21は、撮像素子12により撮像された動画のフレームに対して被写体検出処理を施し、人物31の顔領域を検出し、マイクロホン15a,15bによって取得された音声信号と同期して、検出された顔領域の一部(口)が動いていると判断し、人物31を発話者と特定する。
In step S101, the
ステップS102において、被写体推定部22は、SDRAM17に記録されている音声データを読み込んで音声認識処理を施し、人物31の発話内容を音声情報として抽出し取得する。被写体推定部22は、その音声情報と不揮発性メモリ25に格納されている辞書データとに基づいて、撮像素子12により次に撮像される主要被写体を推定する。
In step S102, the
ここで、被写体推定部22および被写体特定部23の具体的な動作について、次の5つのケースそれぞれの場合を例にして説明する。
[ケース1]
図4(a)に示すように、被写界30の人物31が、例えば、「きれいなお花」と発話した場合、ステップS102において、被写体推定部22は、撮像素子12によって次に撮像される主要被写体は「花」であると推定する。
Here, specific operations of the
[Case 1]
As shown in FIG. 4A, when the
ステップS103において、被写体特定部23は、被写体推定部22の推定結果に基づいて、SDRAM17から「花」のテンプレートを読み込む。被写体特定部23は、撮像素子12によって次に撮像されるフレームから主要被写体である「花」の検出を開始する。そして、ユーザによるデジタルカメラ100のパンニングやズーミングなどの結果、撮像素子12が、図4(b)に示す被写界40を撮像すると、被写体特定部23は、そのフレームから後ろの山ではなく手前の花41の画像領域42を主要被写体として検出し特定する。
In step S <b> 103, the
ステップS104において、CPU20は、特定された花41の画像領域42を合焦領域として、レンズ駆動部18を駆動して撮影レンズ11を光軸方向で進退させて焦点調整を行う。同時に、CPU20は、フレームのスルー画像をモニタ16bに表示するとともに、花41の画像領域42が合焦領域であることを示すAF枠を重畳表示する。
[ケース2]
図5(a)に示すように、会議などにおいて、被写界30の人物31が、例えば、「次の図をご覧下さい」と発話した場合、ステップS102において、被写体推定部22は、撮像素子12によって次に撮像される主要被写体は「図」であると推定する。
In step S <b> 104, the
[Case 2]
As shown in FIG. 5A, in a meeting or the like, when a
ステップS103において、被写体特定部23は、被写体推定部22の推定結果に基づいて、SDRAM17からグラフなどのテンプレートを読み込む。被写体特定部23は、撮像素子12によって次に撮像されるフレームから主要被写体である「図」の検出を開始する。そして、撮像素子12が、図5(b)に示すようなプロジェクタなどに映し出されたグラフ51を含む被写界50を撮像すると、被写体特定部23は、フレームからグラフ51の画像領域52を主要被写体として特定する。
In step S <b> 103, the
ステップS104において、CPU20は、特定されたグラフ51の画像領域52を合焦領域として、レンズ駆動部18を駆動して撮影レンズ11を光軸方向で進退させて焦点調整を行う。同時に、CPU20は、フレームのスルー画像をモニタ16bに表示するとともに、グラフ51の画像領域52が合焦領域であることを示すAF枠を重畳表示する。
In step S <b> 104, the
なお、「図」を特定するにあたり、被写体特定部23は、グラフなどのテンプレートの代わりに、例えば、公知の文字認識またはグラフ認識技術を用いて、「図」の画像領域を特定してもよい。
[ケース3]
図6(a)に示すように、被写界30の人物31が、例えば、「わあ、きれい」と発話した場合、ステップS102において、被写体推定部22は、撮像素子12によって次に撮像される主要被写体は「きれなもの」と推定する。
Note that, in specifying the “figure”, the
[Case 3]
As illustrated in FIG. 6A, when the
ステップS103において、被写体特定部23は、被写体推定部22の推定結果に基づいて、SDRAM17から「きれなもの」として対応付けられた「花」や「虹」などのテンプレートを読み込む。被写体特定部23は、撮像素子12によって次に撮像されるフレームから主要被写体である「きれいなもの」の検出を開始する。そして、ユーザによるデジタルカメラ100のパンニングやズーミングなどの結果、撮像素子12が、図4(b)に示す花41や図6(b)に示す虹61を撮像すると、被写体特定部23は、花41の画像領域42や虹61の画像領域62を主要被写体として特定する。
In step S <b> 103, the
ステップS104において、CPU20は、特定された花41の画像領域42や虹61の画像領域62を合焦領域として、レンズ駆動部18を駆動して撮影レンズ11を光軸方向で進退させて焦点調整を行う。同時に、CPU20は、フレームのスルー画像をモニタ16bに表示するとともに、花41の画像領域42や虹61の画像領域62が合焦領域であることを示すAF枠を重畳表示する。
In step S104, the
なお、「きれいなもの」を特定するにあたり、被写体特定部23は、「花」や「虹」などのテンプレートを用いる代わりに、例えば、顕著性マップに基づいて、高彩度領域で明るい領域を「きれいなもの」の画像領域として特定してもよい。その際、顕著性マップにおいて、色、明るさの重みを高くして、方向性エッジの重みを低くすることが好ましい。また、CPU20は、特定された高彩度領域で明るい領域を合焦領域とするが、高彩度領域で明るい領域が複数ある場合には、最至近の領域または最も大きな画像領域などを合焦領域とすることが好ましい。本実施形態によれば、発話内容が、次のシーンの主要被写体を直接的に示しておらず、例えば、形容詞、形容動詞のような形で表現されている場合であっても、主要被写体を特定することができる。
[ケース4]
図7(a)に示すように、被写界30の人物31が、例えば、「わあ、早い」と発話した場合、ステップS102において、被写体推定部22は、撮像素子12によって次に撮像される主要被写体が「早いもの」と推定する。
Note that in specifying “beautiful”, the
[Case 4]
As shown in FIG. 7A, when the
ステップS103において、被写体特定部23は、被写体推定部22の推定結果に基づいて、SDRAM17から「早いもの」として対応付けられた「自動車」、「電車」あるいは「飛行機」などのテンプレートを読み込む。被写体特定部23は、撮像素子12によって次に撮像されるフレームから主要被写体である「早いもの」の検出を開始する。そして、ユーザによるデジタルカメラ100のパンニングまたはズーミングなどの結果、撮像素子12が、図7(b)に示す電車71を撮像すると、被写体特定部23は、後ろの山ではなくその麓を走る電車71の画像領域72を主要被写体として特定する。
In step S <b> 103, the
ステップS104において、CPU20は、特定された電車71の画像領域72を合焦領域として、レンズ駆動部18を駆動して撮影レンズ11を光軸方向で進退させて焦点調整を行う。同時に、CPU20は、フレームのスルー画像をモニタ16bに表示するとともに電車71の画像領域72が合焦領域であることを示すAF枠を重畳表示する。
In step S <b> 104, the
なお、「早いもの」を特定するにあたり、被写体特定部23は、「電車」などのテンプレートを用いる代わりに、例えば、フレームと1フレーム前のフレームとの間で相関処理を施して、フレーム間差分または動きベクトルを算出し、フレーム間差分または動きベクトルに基づいて「早いもの」の画像領域を特定してもよい。ただし、ユーザがデジタルカメラ100をパンニングしながら「早いもの」を撮像する場合、「早いもの」および背景におけるフレーム間差分または動きベクトルの関係は逆となる。この場合、被写体特定部23は、例えば、動きセンサ26の検出信号に基づいて、デジタルカメラ100自身の動きを判定し、「早いもの」の画像領域を特定することが好ましい。また、CPU20は、「早いもの」の主要被写体に対しコンティニュアスAFを行うことが好ましい。
[ケース5]
図8(a)に示すように、被写界30の人物31が、例えば、「わあ、広い」と発話した場合、ステップS102において、被写体推定部22は、撮像素子12によって次に撮像される主要被写体が「広いもの」と推定する。
Note that in specifying “early thing”, the
[Case 5]
As illustrated in FIG. 8A, when the
ステップS103において、被写体特定部23は、被写体推定部22の推定結果に基づいて、SDRAM17から「広いもの」として対応付けられた「空」や「海」などのテンプレートを読み込む。被写体特定部23は、撮像素子12によって次に撮像されるフレームから主要被写体である「広いもの」の検出を開始する。そして、ユーザによるデジタルカメラ100のパンニングなどの結果、撮像素子12が、図8(b)に示す被写界80を撮像すると、被写体特定部23は、手前の「花」ではなく「空」を主要被写体として特定する。
In step S <b> 103, the
ステップS104において、CPU20は、「空」に合焦するように、無限遠にシングルAF制御して、駆動部18を駆動し撮影レンズ11を光軸方向で進退させて焦点調整を行う。
In step S <b> 104, the
ステップS105において、CPU20は、ユーザによる操作部材24の操作から撮像終了の指示を受け付けたか否かを判定する。CPU20は、撮像終了の指示を受け付けた場合、ステップS106(YES側)へ移行する。一方、CPU20は、撮像終了の指示を受け付けていない場合、ステップS101(NO側)へ移行し、撮像終了の指示を受け付けるまでステップS101〜ステップS104の処理を行う。
In step S <b> 105, the
ステップS106において、CPU20は、SDRAM17に格納され画像処理部14によって画像処理された動画データを読み出して、不図示の圧縮伸長処理部に送る。圧縮伸長処理部(不図示)は、動画データに対し圧縮処理を施して動画ファイルを生成し、記録I/F27を介して記録媒体であるメモリカード28に記録する。CPU20は、一連の処理を終了する。
In step S106, the
このように、本実施形態では、次の主要被写体が画像内にいないにもかかわらず、取得した音声データに基づいて、次の主要被写体を予め推定することにより、撮像素子12により撮像された画像から、その主要被写体を確度高く且つ迅速に特定することができる。
As described above, in the present embodiment, an image captured by the
また、次の主要被写体を予め推定し特定することにより、デジタルカメラ100は、確実にその主要被写体に合焦させることができ、最適な状態で撮像することができる。
《実施形態の補足事項》
(1)本発明の再生処理装置は、画像処理プログラムをデジタルカメラ100のCPU20に実行させることにより実現させたが、本発明はこれに限定されない。例えば、本発明に係る再生処理装置における処理を、コンピュータや撮像部を有するスマートフォンなどの電子機器で実現するための処理プログラムおよびそれを記録した媒体に対しても適用可能である。
In addition, by preliminarily estimating and specifying the next main subject, the digital camera 100 can reliably focus on the main subject and can take an image in an optimal state.
<< Additional items of embodiment >>
(1) Although the reproduction processing apparatus of the present invention is realized by causing the
なお、コンピュータを本発明の画像処理装置として動作させる場合、コンピュータが、例えば、デジタルカメラ100などから読み込んだ動画ファイルを再生すると、被写体推定部22は、動画ファイルに付加された音声データまたはユーザからの音声に基づいて主要被写体を推定し、被写体特定部23は、被写体推定部22の推定後に再生されるフレームから推定された主要被写体を特定する。そして、コンピュータのCPUは、情報付加部として、特定された主要被写体および画像領域の大きさや位置などの情報をフレームに対応付けて、動画ファイルのヘッダ領域に付加する。これにより、動画の各フレームに何が主要被写体として写っているかを容易に確認することでき、動画ファイルの編集などが容易にできる。
When the computer is operated as the image processing apparatus of the present invention, when the computer reproduces a moving image file read from the digital camera 100 or the like, for example, the
(2)上記実施形態では、発話者特定部21、被写体推定部22および被写体特定部23の処理を、CPU20がソフトウエア的に実現する例を説明したが、ASIC等を用いてハードウエア的に実現してもよい。
(2) In the above embodiment, the example in which the
(3)上記実施形態では、不揮発性メモリ25に格納される辞書データは、名詞や形容詞などの音声情報と主要被写体とを対応付けたデータとしたが、本発明はこれに限定されない。例えば、辞書データは、自動車や電車などが発する音声データ自身を音声情報として、自動車や電車などの主要被写体と対応付けしてもよい。
(3) In the above embodiment, the dictionary data stored in the
例えば、デジタルカメラ100が、最初、図9(a)に示す被写界90の山に合焦して撮像している場合を例に考える。その撮像中に、デジタルカメラ100のマイクロホン15a、15bが、被写界90に接近する電車の音声を受信し、その信号レベルが大きくなっている場合、あるいはその周波数成分が(ドップラー効果により)高く変化している場合、被写体推定部22は、受信した電車の音声情報に基づいて、撮像素子12によって次に撮像される主要被写体が電車であると推定する。被写体特定部23は、SDRAM17から電車のテンプレートを読み込み、撮像素子12によって次に撮像されるフレームから電車の検出を開始する。そして、デジタルカメラ100をパンニングやズーミングなどすることなく、図9(b)に示す被写界90に電車が入ってきた場合、被写体特定部23は、手前を走る電車91の画像領域を主要被写体として特定し、CPU20は、山から電車91の画像領域92を合焦領域として、レンズ駆動部18を駆動して撮影レンズ11を光軸方向で進退させて焦点調整を行う。
For example, consider a case where the digital camera 100 is initially focused on a mountain of the
なお、被写体特定部23は、マイクロホン15a、15bによるステレオ形式の音声データに基づいて、音声の近づいてくる方向から被写界内に入ってくる主要被写体を検出するようにしてもよい。
Note that the
(4)上記実施形態では、マイクロホン15a、15bは、被写界内外の音声だけでなく、マイクロホン15a、15bとは別に、ユーザの音声を受信するマイクロホンが配置されてもよい。
(4) In the above-described embodiment, the
(5)上記実施形態では、マイクロホン15a,15bで取得した音声情報をもとに、次に撮影される画面の主要被写体を特定する例について説明したが、例えば、図5(b)に示す画面が撮影されている状態で、人物31の「この図を見て下さい」との発話を認識した場合には、主要被写体を、人物31から、同じ撮影画面内のグラフ52に変更する構成としてもよい。
(5) In the above embodiment, the example in which the main subject of the screen to be photographed next is specified based on the audio information acquired by the
以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲が、その精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図する。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずであり、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物によることも可能である。 From the above detailed description, features and advantages of the embodiments will become apparent. It is intended that the scope of the claims extend to the features and advantages of the embodiments as described above without departing from the spirit and scope of the right. Further, any person having ordinary knowledge in the technical field should be able to easily come up with any improvements and modifications, and there is no intention to limit the scope of the embodiments having the invention to those described above. It is also possible to use appropriate improvements and equivalents within the scope disclosed in.
11…撮像レンズ、12…撮像素子、13…AFE、14…画像処理部、15a、15b…マイクロホン、20…CPU、21…発話者特定部、22…被写体推定部、23…被写体特定部、100…デジタルカメラ
DESCRIPTION OF
Claims (7)
前記複数の画像の撮像時に録音され前記複数の画像に対応付けられた音声を取得する音声取得部と、
前記音声から音声情報を抽出し、前記音声情報より前記画像の主要被写体を推定する被写体推定部と、
推定された前記主要被写体を前記画像から特定する被写体特定部と、
を備えることを特徴とする画像処理装置。 An image acquisition unit that acquires a plurality of images that are continuously captured in time series;
An audio acquisition unit that acquires audio recorded during imaging of the plurality of images and associated with the plurality of images;
A subject estimation unit that extracts speech information from the speech and estimates a main subject of the image from the speech information;
A subject identifying unit for identifying the estimated main subject from the image;
An image processing apparatus comprising:
前記被写体特定部は、前記音声情報が抽出された時点より後に撮像された画像から前記主要被写体を特定する
ことを特徴とする画像処理装置。 The image processing apparatus according to claim 1.
The image processing apparatus according to claim 1, wherein the subject specifying unit specifies the main subject from an image captured after the time when the audio information is extracted.
前記音声を発話する人物を前記画像から特定する発話者特定部を備えることを特徴とする画像処理装置。 The image processing apparatus according to claim 1 or 2,
An image processing apparatus comprising: a speaker specifying unit that specifies a person who speaks the sound from the image.
前記被写体特定部により前記主要被写体が特定された前記画像に対し前記主要被写体の情報を付加する情報付加部を備えることを特徴とする画像処理装置。 The image processing device according to any one of claims 1 to 3,
An image processing apparatus comprising: an information adding unit that adds information on the main subject to the image in which the main subject is specified by the subject specifying unit.
前記音声情報と前記主要被写体とを予め対応付けた情報を記憶する記憶部を備えることを特徴とする画像処理装置。 The image processing apparatus according to claim 1, wherein:
An image processing apparatus comprising: a storage unit that stores information in which the audio information and the main subject are associated in advance.
前記被写界の合焦状態を調整する合焦調整部と、
請求項1に記載の画像処理装置と、
前記被写体推定部により推定された主要被写体に合焦させるように、前記合焦調整部を制御する制御部と、
を備えることを特徴とする撮像装置。 An imaging unit that continuously images in time series and generates a plurality of images;
A focus adjustment unit for adjusting a focus state of the object scene;
An image processing apparatus according to claim 1;
A control unit that controls the focus adjustment unit so as to focus on the main subject estimated by the subject estimation unit;
An imaging apparatus comprising:
前記複数の画像の撮像時に録音され前記複数の画像に対応付けられた音声を取得する音声取得手順、
前記音声から音声情報を抽出し、前記音声情報より前記画像の主要被写体を推定する被写体推定手順、
推定された前記主要被写体を前記画像から特定する被写体特定手順、
をコンピュータに実行させることを特徴とする画像処理プログラム。 An image acquisition procedure for acquiring a plurality of images that are continuously captured in time series,
An audio acquisition procedure for acquiring audio recorded at the time of capturing the plurality of images and associated with the plurality of images;
Subject estimation procedure for extracting speech information from the speech and estimating a main subject of the image from the speech information;
A subject identification procedure for identifying the estimated main subject from the image;
An image processing program for causing a computer to execute.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013115146A JP2014236276A (en) | 2013-05-31 | 2013-05-31 | Image processing device, imaging device, and image processing program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013115146A JP2014236276A (en) | 2013-05-31 | 2013-05-31 | Image processing device, imaging device, and image processing program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2014236276A true JP2014236276A (en) | 2014-12-15 |
Family
ID=52138709
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013115146A Pending JP2014236276A (en) | 2013-05-31 | 2013-05-31 | Image processing device, imaging device, and image processing program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2014236276A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2024080528A (en) * | 2022-12-02 | 2024-06-13 | ソフトバンク株式会社 | Content Processing Device |
-
2013
- 2013-05-31 JP JP2013115146A patent/JP2014236276A/en active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2024080528A (en) * | 2022-12-02 | 2024-06-13 | ソフトバンク株式会社 | Content Processing Device |
| JP7628528B2 (en) | 2022-12-02 | 2025-02-10 | ソフトバンク株式会社 | Content Processing Device |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN100431337C (en) | Photographic device and automatic focus control method | |
| US8587691B2 (en) | Photographing apparatus and method for dynamic range adjustment and stereography | |
| US8401364B2 (en) | Imaging device and playback device | |
| EP2741293A1 (en) | Video processing apparatus and method | |
| US20110007187A1 (en) | Imaging Device And Image Playback Device | |
| KR101626004B1 (en) | Method and apparatus for selective support of the RAW format in digital imaging processor | |
| JP2009156888A (en) | Speech corrector and imaging apparatus equipped with the same, and sound correcting method | |
| US8610812B2 (en) | Digital photographing apparatus and control method thereof | |
| JP2009065587A (en) | Voice-recording device and voice-reproducing device | |
| JP2008139683A (en) | Imaging apparatus and autofocus control method | |
| JP2009033544A (en) | Image capturing apparatus, image capturing apparatus control method, and program | |
| US20140285649A1 (en) | Image acquisition apparatus that stops acquisition of images | |
| JP2012257112A (en) | Imaging apparatus and program | |
| JP4595832B2 (en) | Imaging apparatus, program, and storage medium | |
| JP2007228453A (en) | IMAGING DEVICE, REPRODUCTION DEVICE, PROGRAM, AND STORAGE MEDIUM | |
| JP2012151544A (en) | Imaging apparatus and program | |
| JP2011239267A (en) | Imaging apparatus and image processing apparatus | |
| CN106878606A (en) | An image generation method based on an electronic device and the electronic device | |
| JP2006303961A (en) | Imaging device | |
| JP2008172395A (en) | Imaging apparatus and image processing apparatus, method, and program | |
| JP2009253925A (en) | Imaging apparatus and imaging method, and imaging control program | |
| JP2014122978A (en) | Imaging device, voice recognition method, and program | |
| JP2014236276A (en) | Image processing device, imaging device, and image processing program | |
| JP2010192956A (en) | Imaging apparatus, and speaking person recognition method | |
| WO2014155961A1 (en) | Image generation device, imaging device, image generation method, and program |