JP6609181B2

JP6609181B2 - 文字属性推定装置、及び文字属性推定プログラム

Info

Publication number: JP6609181B2
Application number: JP2015254409A
Authority: JP
Inventors: 伶遠藤; 吉彦河合; 英樹住吉; 貴裕望月
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2015-12-25
Filing date: 2015-12-25
Publication date: 2019-11-20
Anticipated expiration: 2035-12-25
Also published as: JP2017117340A

Description

本発明は、文字属性推定装置、及び文字属性推定プログラムに関する。

従来、カメラで撮影した画像から、当該画像に写っている文字を認識する技術が知られている。一般に、文字を認識する場合には、まず画像から文字領域を抽出し、次に文字の形状や色等のパターンに基づいて、文字を認識する（例えば、特許文献１〜３参照）。

なお、上述した手法では、画像に写っている文字の形状や色等を完全な状態で抽出することができず、情報の一部が欠けたり、ノイズが混入したりする。そのため、従来では、予め作成しておいた辞書を用いて補正することで、文字列を認識した際に、一部の文字の認識誤りを修正する手法が存在する（例えば、特許文献４、特許文献５参照）。

特開２００１−３３１８０３号公報特開２００５−０１８１７６号公報特開２００２−２３０５５１号公報特公平０４−０７４７５６号公報特公平０７−０６６４２３号公報

しかしながら、従来技術において、精度の高い文字認識を行うために、文字以外の情報に基づいて文字の属性を推定する手法は存在しなかった。

そこで、本発明は、情景画像中の文字の属性を、文字以外の情報に基づいて高精度で推定できる文字属性推定装置、及び文字属性推定プログラムを提供することを目的とする。

本発明の一つの態様では、文字属性推定装置において、画像から文字の領域を検出する文字領域検出部と、前記文字領域検出部により検出された前記文字の領域に隣接する画素のうちの少なくとも一部の画素値に応じた条件を満たす画素を、前記文字が記載された物体の領域として検出する物体領域検出部と、前記文字が表す内容の属性に応じた画像群をトレーニングデータとして機械学習し、前記機械学習の結果、及び前記物体領域検出部により検出された前記物体の領域の形状から、前記文字が表す内容の属性を推定する属性推定部と、を備える。

また、本発明の一つの態様では、文字属性推定装置において、画像から文字の領域を検出する文字領域検出部と、前記文字領域検出部により検出された前記文字の領域に隣接する画素のうちの少なくとも一部の画素値に応じた条件を満たす画素を、前記文字が記載された物体の領域として検出する物体領域検出部と、物体の種別に応じた画像群をトレーニングデータとして機械学習し、前記機械学習の結果、及び前記物体領域検出部により検出された前記物体の領域の形状から、前記物体の種別を判別する物体種別判定部と、前記物体種別判定部により判定された前記物体の種別から前記文字が表す内容の属性を推定する属性推定部と、を備える。

開示の技術によれば、情景画像中の文字の属性を、文字以外の情報に基づいて高精度で推定することが可能となる。

本実施形態に係る文字属性推定装置の概要を説明するための図である。本実施形態に係る文字属性推定装置の機能構成を示す機能ブロック図である。属性推定テーブルの一例を示す図である。情景画像中の文字の属性を推定する処理の一例を示すフローチャートである。物体領域検出処理の一例を示すフローチャートである。物体領域検出処理を説明する図である。属性推定処理の一例を示すフローチャートである。属性推定処理を説明する図である。文字属性推定装置の機能構成の変形例を示す機能ブロック図である。情景画像中の文字の属性を推定する処理の変形例を示すフローチャートである。

以下、図面を参照しながら本発明の実施形態について説明する。

＜文字属性推定装置の概要＞
図１は、本実施形態に係る文字属性推定装置の概要を説明するための図である。図１に示す文字属性推定装置１は、画像（情景画像２）を入力し、当該画像中に写っている１以上の文字の属性を推定する。なお、「文字」には、例えば、漢字、かな、英数字等に限らず、絵文字、記号、図形等、所定の情報を伝達するために記載されている情報を含む。ここで、「文字の属性」とは、例えば、「人名」、「地名」、「会社名（組織名）」等の文字が表す内容を示す情報であるが、上記の例に限定されるものではない。

情景画像２中に写っている文字３は、何らかの物体４（例えば名札や看板）に記載されたものであり、文字３と物体４とには何らかの関連があることが期待できる。例えば、「名札の中央部付近に大きく記載されている文字の属性は、人名であることが多い」といった関連である。

本実施形態に係る文字属性推定装置１は、情景画像２中に写っている文字３の画素の集合である文字領域を検出し、その文字領域の周辺の情報を利用して、文字３の属性を推定する。これにより、情景画像中の文字の属性を、高精度で推定できる。また、本実施形態では、文字の属性を出力するだけでなく、文字の属性を用いて認識した文字データを出力してもよい。

＜文字属性推定装置の機能構成＞
次に、本実施形態に係る文字属性推定装置の機能構成について、図を用いて説明する。図２は、本実施形態に係る文字属性推定装置の機能構成を示す機能ブロック図である。

文字属性推定装置１は、画像取得部１１と、文字領域検出部１２と、物体領域検出部１３と、物体種別判定部１４と、属性推定部１５と、辞書選択部１６と、文字認識部１７とを有する。

画像取得部１１は、文字が写っている画像（情景画像）データを取得する。画像取得部１１は、例えば、カメラやビデオカメラ等の撮像装置で撮影した画像でもよく、または予め蓄積されている画像でもよい。また、上述した撮像装置は、文字属性推定装置１の内部に設けられていてもよく、外部に設けられていてもよい。また、上述した画像は、静止画でもよく、動画に含まれる画像フレームでもよい。

文字領域検出部１２は、画像取得部１１により取得された画像から、文字が写っている領域である文字領域を検出する。なお、文字領域は、例えば、白地の看板等に黒い文字が写っている場合は、当該黒い部分の領域である。文字領域の検出は、近い特徴を有する画素集合の色や形状、エッジの形状等に基づいて検出することができるが、これに限定されるものではない。なお、文字領域は、例えば、当該文字を構成する各画素（座標）の集合により表すことができる。

物体領域検出部１３は、文字領域検出部により検出された文字領域に基づいて、画像取得部１１により取得された画像から、文字が記載された物体の領域である物体領域を検出する物体領域検出処理を行う。物体領域検出部１３は、物体領域検出処理において、文字領域検出部１２により検出された文字の領域に隣接する画素のうちの少なくとも一部の画素を物体領域の初期範囲とし、この一部画素の外側にある画素について所定の条件を満たす画素を、物体領域として検出する。

すなわち、物体領域検出部１３は、物体領域検出処理において、文字領域検出部１２により検出された文字領域に隣接する画素のうちの少なくとも一部を、物体領域の初期範囲として設定する。また、物体領域検出部１３は、物体領域に隣接し、物体領域の画素値に応じた条件を満たす画素の有無を判断し、条件を満たす画素を、順次物体領域に含める。物体領域検出部１３は、上述した処理を物体領域の初期範囲を基準に外側に順次行うことで、物体領域の拡張等を行い、最終的な物体領域を検出する。物体領域検出処理の詳細は後述する。なお、物体領域検出部１３は、周知のパターン認識等の画像処理技術を用いて、画像中から、所定の物体領域を検出してもよい。

物体種別判定部１４は、物体領域検出部１３により検出された物体領域に基づいて、文字が記載されている物体の種別を判定する。物体種別判定部１４は、予め、検出対象の物体の種別に応じた画像群をトレーニングデータとして機械学習しておく。そして、物体種別判定部１４は、当該機械学習の結果、及び入力された物体領域の形状から、文字が記載されている物体の種別を判定する。また、物体種別判定部１４は、物体領域の色を検出し、入力された物体領域の色もあわせて、文字が記載されている物体の種別を判定する。

属性推定部１５は、物体種別判定部１４により判定された物体の種別から、文字領域検出部１２により検出された文字領域の文字が表す内容の属性を推定する。属性推定部１５は、物体領域における文字の位置、文字の範囲、属性の推定対象である文字の他の文字に対する相対的な大きさ、文字の数、及び文字の背景の色を検出する。属性推定部１５は、例えば予め設定された属性推定テーブルを用いて、物体の種別、物体領域における文字の位置、文字の範囲、属性の推定対象である文字の他の文字に対する相対的な大きさ、文字の数、及び文字の背景の色の少なくとも一つに対応させて、物体に記載されている文字の属性（カテゴリ）を推定する属性推定処理を行う。これにより、属性推定部１５は、例えば文字の属性に基づいて、文字を文字認識するための辞書（単語辞書）を適切に選択することができる。また、属性推定部１５は、上述した属性推定処理により、文字に対する１以上の属性を推定した後、その属性情報を出力してもよい。なお、属性推定処理の詳細は後述する。

辞書選択部１６は、属性推定部１５により推定された文字の属性に応じた辞書を選択する。例えば、文字の属性が「人名」であれば、人名として用いられやすい文字が登録されている辞書を選択する。

文字認識部１７は、辞書選択部１６により選択された辞書のデータに基づいて、文字領域検出部１２に検出された文字領域の文字を認識する。例えば、辞書に登録されている各文字と、検出された文字領域とのパターンマッチングを行い、検出された文字領域の文字を、辞書に登録されている各文字のうち、類似度が最も高い文字であると認識する。

なお、図２に示す文字属性推定装置１は、画像等に含まれる文字の属性を推定した後、その推定結果を用いて文字の認識まで行う構成としたが、これに限定されるものではなく、例えば文字の属性を出力するまでの構成でもよい。その場合、文字属性推定装置１は、上述した画像取得部１１と、文字領域検出部１２と、物体領域検出部１３と、物体種別判定部１４と、属性推定部１５とを有し、属性推定部１５から得られる文字属性情報が出力される。

＜属性推定テーブルの一例＞
図３は、属性推定テーブルの一例を示す図である。属性推定テーブルの項目の一例としては、例えば、「物体の種別」、「文字の位置または範囲」、「他の文字に対する相対的な大きさ」、「文字の数」、「文字の背景の色」、「文字の属性」等があるが、これに限定されるものではない。

「物体の種別」は、物体種別判定部１４により判定された、文字が記載されている物体の種別である。

「文字の位置または文字の範囲」は、文字が記載されている物体の領域における、文字の位置または文字の範囲である。「文字の位置」としては、例えば、「上部」、「中央部」、「下部」等を設定する。また、本実施形態では、各「物体の種別」の「文字の位置」毎に、当該位置と判定する所定の条件が設定されていてもよい。例えば、「物体の種別」が「名札」で、「文字の位置」が「上部」であると判定する条件は、「文字領域の中心が、物体領域を垂直方向に３等分した場合の一番の上の領域に位置する場合」等であるが、条件についてはこれに限定されるものではない。

また、「文字の範囲」としては、例えば、「全面」等を設定する。また、本実施形態では、各「物体の種別」の「文字の範囲」毎に、当該範囲と判定する所定の条件が設定されていてもよい。例えば、「物体の種別」が「看板」で「文字の範囲」が「全面」であると判定する条件は、「物体に記載されている全ての文字領域を含む範囲（例えば、各の文字領域を含む面積最少の楕円（なお、図８の６２０、６２１のような、矩形の左右を直線に代えてそれぞれ半円で構成した図形のことも、本明細書では便宜的に「楕円」と称する）または矩形）の面積が、物体領域の面積の例えば８０％以上の場合」等であるが、条件についてはこれに限定されるものではない。

「他の文字に対する相対的な大きさ」は、例えば、ある物体の領域に複数の文字が記載されている場合に、文字の属性の判定対象である文字の大きさを、その領域内の他の文字に対する相対的な大きさの情報として表したものである。「他の文字に対する相対的な大きさ」としては、例えば、「大」、「中」、「小」、「均等」等を設定する。また、本実施形態では、各「物体の種別」の、「他の文字に対する相対的な大きさ」毎に、当該大きさと判定する所定の条件が設定されていてもよい。例えば、「物体の種別」が「名札」で「他の文字に対する相対的な大きさ」が「大」であると判定する条件は、「一のグループに含まれる円の大きさと、他のグループに含まれる円の大きさの比が所定値以上である場合」等であるが、条件についてはこれに限定されるものではない。

「文字の数」は、物体領域に含まれる文字領域の数である。「文字の背景の色」は、物体領域における文字領域以外の部分の色である。

図３の例では、物体の属性が「名札」に対応付けて、文字の属性として「人名」と「会社名」が記憶されている。「看板」に対応付けて、「会社名」が記憶されている。これは、例えば、ニュース映像を記録する場合、最初に建物や会議室の前に設置されている看板が撮影されている場合のためである。また、「ネームプレート」に対応付けて、「人名」が記憶されている。これは、例えば、記者会見の映像を記録する場合、最初に机に置かれているネームプレートが撮影されている場合のためである。

＜情景画像中の文字の属性を推定する処理＞
次に、図４を参照して、情景画像中の文字の属性を推定する処理について説明する。図４は、情景画像中の文字の属性を推定する処理の一例を示すフローチャートである。

画像取得部１１は、情景画像を取得する（ステップＳ１０１）。

文字領域検出部１２は、取得された情景画像から、文字が写っている領域である文字領域を検出する（ステップＳ１０２）。

物体領域検出部１３は、検出した文字領域に基づいて、文字が記載されている物体の領域である物体領域を検出する物体領域検出処理を行う（ステップＳ１０３）。

物体種別判定部１４は、物体領域検出部１３により検出された物体領域に基づいて、文字が記載されている物体の種別を判定する（ステップＳ１０４）。

属性推定部１５は、判定された物体の種別に基づき、当該物体に記載されている文字の属性を推定する属性推定処理を行う（ステップＳ１０５）。

＜物体領域検出処理＞
次に、図５を参照して、図４のステップＳ１０３の、物体領域検出部１３による、文字が記載されている物体の領域である物体領域を検出する物体領域検出処理の詳細について説明する。図５は、物体領域検出処理の一例を示すフローチャートである。

物体領域検出部１３は、文字領域の外縁部の画素値を基に、物体領域の初期範囲を決定する（ステップＳ２０１）。

次に、物体領域検出部１３は、物体領域に隣接する画素のうち、未選択の一の画素を物体領域の候補として選択する（ステップＳ２０２）。次に、物体領域検出部１３は、選択した画素が、物体領域に含まれる画素群に近い特徴を有するか判断する（ステップＳ２０３）。

近い特徴を有しない場合は（ステップＳ２０３でＮＯ）、後述するステップＳ２０５の処理に進む。また、近い特徴を有する場合は（ステップＳ２０３でＹＥＳ）、当該画素を、物体領域に含めることにより、物体領域を順次拡張する（ステップＳ２０４）。

物体領域検出部１３は、物体領域に隣接する画素のうち、物体領域の候補として未選択の画素があるか判断する（ステップＳ２０５）。

物体領域検出部１３は、未選択の画素がなければ（ステップＳ２０５でＮＯ）、処理を終了する。また、物体領域検出部１３は、未選択の画素があれば（ステップＳ２０５でＹＥＳ）、ステップＳ２０２の処理に戻る。

＜物体領域検出の一例＞
次に、図６を参照して、本実施形態に係る物体領域検出の一例について説明する。図６は、物体領域検出処理を説明する図である。

図６（Ａ）は、情景画像に含まれる、「１」という１文字が記載された物体の領域の例を示している。図６（Ａ）において、文字領域６０１に含まれる各画素の画素値は、例えば輝度が約０であるとする。領域６０２は、文字領域６０１に接する各画素に近い特徴を有する領域である。領域６０２に含まれる各画素の画素値は、例えば輝度が約２００であるとする。領域６０３は、文字領域６０１に接する各画素と近い特徴を有しない領域である。領域６０３の各画素の画素値は、例えば輝度が約１２５であるとする。

物体領域検出処理により、文字領域６０１と、領域６０２を含む領域が、物体領域として検出される。

図６（Ｂ）は、図５のステップＳ２０１にて、文字領域６０１に接する各画素である外縁部の値を基に、物体領域の初期範囲を決定する例を示す図である。図６（Ｂ）の例では、文字領域６０１の外縁部の全ての画素を、物体領域の初期範囲６０４ｂとして決定する。なお、例えば、文字領域の外縁部の画素の中から、それらの平均値や中央値に最も近い値の画素を選ぶ等、外縁部の一部の画素を初期範囲として決定する構成としてもよい。

次に、図５のステップＳ２０４にて、物体領域を順次拡張する。まず、物体領域の初期範囲６０４ｂに接する各画素（図６（Ｂ）における「×」を付加されている各画素）を選択する。そして、選択した各画素のうち、例えば、現在の物体領域に最も近い特徴を有する画素を、物体領域に含める処理を順次繰り返す。その場合、例えば、現在の物体領域に含まれる画素の平均値や中央値に最も近い画素を物体領域に含める処理を繰り返す。なお、図６（Ｃ）は、文字領域６０１の左下付近の画素が、現在の物体領域に含まれる画素の平均値や中央値に比較的近いため、先に物体領域６０４ｃに取り込まれていく場合の例を示している。この処理を順次繰り返すことにより、物体領域が、図６（Ｂ）の６０４ｂから、図６（Ｃ）の６０４ｃ、図６（Ｄ）の６０４ｄ、図６（Ｅ）の６０４ｅ、図６（Ｆ）６０４ｆのように、順次拡張する。

または、物体領域に隣接する画素の値が、物体領域に含まれている画素の最大値と最小値の間である場合に、当該隣接する画素を物体領域に含めることにより、物体領域を順次拡張する構成としてもよい。その場合、物体領域に含める画素がなくなった場合、新たに物体領域に含める画素の最大値を１増加させ、最小値を１減少させ、隣接する画素の値が、新たな物体領域に含まれている画素の最大値と最小値の間であれば、当該隣接する画素を物体領域に含める処理を繰り返す構成としてもよい。

図６（Ｆ）は、図５のステップＳ２０５でＮＯとなり、処理を終了する例を示す図である。物体領域６０４ｆは、文字領域６０１と、領域６０２を含む領域となる。物体領域に隣接する画素と、物体領域に含まれる画素群との特徴が遠い（例えば、特徴の差が所定の閾値以上）ため、物体領域の拡張が収束した時点で、処理を終了する。例えば、現在の物体領域の平均値や中央値から所定の閾値以内である画素が、現在の物体領域外に存在しなくなった場合に、処理を終了する。

または、物体領域に含まれている画素の最大値と最小値の間から所定の閾値以内である画素が、現在の物体領域外に存在しなくなった場合に、処理を終了する構成としてもよい。

なお、画素値として、ＲＧＢの３つの各画素値を用いる構成としてもよい。その場合には、例えば、ＲＧＢから選択した一つの原色（例えばＲ）の画素値のみを用いてもよく、複数の原色の平均値を用いてもよい。

＜物体種別判定処理＞
次に、物体種別判定部１４による、物体の種別を判定する処理について説明する。物体種別判定部１４は、予め、検出対象の物体の種別に応じた画像群をトレーニングデータとして機械学習しておく。そして、物体種別判定部１４は、物体領域検出部１３により検出された物体領域の、例えば形状や色の特徴に基づいて一般物体認識または特定物体認識を行うことにより、文字が記載されている物体の種別を判定する。

＜属性推定処理＞
次に、図７を参照して、属性推定部１５による、属性推定処理について説明する。図７は、属性推定処理の一例を示すフローチャートである。

属性推定部１５は、文字領域検出部１２が検出した文字領域と、物体領域検出部１３が検出した物体領域に基づいて、物体領域における文字の位置を判定する（ステップＳ３０１）。

次に、属性推定部１５は、物体領域における文字を含む領域の範囲を判定する（ステップＳ３０２）。次に、属性推定部１５は、物体領域における他の文字に対する相対的な大きさを判定する（ステップＳ３０３）。次に、属性推定部１５は、物体領域における文字の数を判定する（ステップＳ３０４）。次に、物体領域における文字の背景の色を判定する（ステップＳ３０５）。

次に、属性推定部１５は、属性推定テーブルに基づいて、物体の種別、物体領域における文字の位置、範囲、他の文字に対する相対的な大きさ、文字の数、背景の色に基づいて、文字が表す内容の属性を推定する（ステップＳ３０６）。

＜属性推定の一例＞
次に、図８を参照して、本実施形態に係る属性推定の一例について説明する。図８は、本実施形態に係る属性推定の一例を説明する図である。

図８（Ａ）は、物体領域検出部１３により検出された物体４の領域（物体領域）における文字を判定するための前処理を説明する図である。属性推定部１５は、例えば、各文字領域を含む（内接する）円６１０〜６１９を生成し、距離（例えば最も近い円の中心同士の距離）が所定の範囲内であり、大きさ（例えば円の半径）の差が所定の範囲内である１以上の円を、同一のグループと判定する。図８（Ａ）の例では、円６１０〜６１３が同一グループと判定され、円６１４〜６１９が同一グループと判定される。なお、円の代わりに、正方形や矩形等の多角形を用いる構成としてもよい。

図８（Ｂ）は、図７のステップＳ３０１〜ステップＳ３０５の、物体領域における、文字の位置、文字の範囲、他の文字に対する相対的な大きさ、文字の数、背景の色を判定する処理を説明する図である。

属性推定部１５は、例えば、各グループの円を含み、面積が最少となる楕円６２０、６２１を生成し、生成した楕円６２０、６２１の、物体領域における位置と、範囲を判定する。

物体領域における文字の位置は、図３の属性推定テーブルにおいて設定されている、各位置と判定する所定の条件を満たすか否かに応じて判定する。図８（Ｂ）の例では、円６１４〜６１９の中心が、物体領域を垂直方向に３等分した場合の一番の上の領域に位置するとの条件を満たすため、円６１４〜６１９に含まれる各文字の位置は「上部」であると判定する。

物体領域における文字の範囲は、図３の属性推定テーブルにおいて設定されている、各範囲と判定する所定の条件を満たすか否かに応じて判定する。

物体領域における他の文字に対する相対的な大きさは、図３の属性推定テーブルにおいて設定されている、各大きさと判定する所定の条件を満たすか否かに応じて判定する。図８（Ｂ）の例では、楕円６２０に含まれる各円の大きさと、楕円６２１に含まれる各円の大きさの比が所定値以上であるため、楕円６２０に含まれる各文字の、他の文字に対する相対的な大きさを、「大」であると判定する。同様に、楕円６２１に含まれる各文字の、他の文字に対する相対的な大きさを、「中」であると判定する。

物体領域における文字の数は、例えば、各グループに含まれる円の数に基づいて判定する。図８（Ｂ）の例では、楕円６２０のグループに含まれる円６１４〜６１９の数は６であるため、文字の数は６と判定される。

物体領域における文字の背景の色は、物体領域における文字領域以外の部分の色の平均値に基づいて判定する。図８（Ｂ）の例では、文字領域以外の部分の平均値が、「白」と判定する所定範囲以内であるため、文字の背景の色を、「白」であると判定する。

図３に示す属性推定テーブルの例を用いて、図７のステップＳ３０６による文字が表す内容の属性を推定する処理について説明する。

円６１０〜６１３の文字は、物体の種別が「名刺」、物体領域における文字の位置が「中央部」、他の文字に対する相対的な大きさが「大」、物体領域における文字の数は４、物体領域における文字の背景の色が「白」である。そのため、文字が表す内容の属性は、「人名」であると推定される。同様に、円６１４〜６１９の文字は、物体の種別が「名刺」、他の文字に対する相対的な大きさが「中」であるため、文字が表す内容の属性は、「社名」であると推定される。

なお、上述した属性推定処理の各処理における所定範囲の値、及び所定の閾値は、物体の種別に応じた値を用いる構成としてもよい。その場合、当該値は、ユーザが設定できる構成としてもよい。

＜変形例＞
物体領域検出部１３は、物体領域を拡張する度に、物体領域の特徴を保存しながら、情景画像全体が物体領域に含まれるまで拡張し、条件に合った領域を検出する構成としてもよい。

例えば、物体領域検出部１３は、物体領域を拡張する度に、拡張する前の物体領域内の画素値のばらつきq_internal（例えば、最小値と最大値との差や分散等）と、拡張した前の物体領域内の画素値のばらつきq_externalとを算出して保存しておく。そして、物体領域検出部１３は、情景画像の全ての画素が物体領域に含まれる状態まで拡張を行った後、物体領域をある回数だけ拡張した際のばらつきの比率q_internal／q_externalが、当該回数の前後の回数だけ拡張した際の各ばらつきの比率q_internal／q_externalと比べて小さい領域を、物体領域として検出する構成としてもよい。

また、ばらつきの比率q_internal／q_externalが、物体領域を拡張した回数が所定範囲内（例えば５０回〜１５０回）で最小となる領域を、物体領域として検出する構成としてもよい。なお、ここで、所定範囲内で最少となる領域としたのは、全範囲内で最小となる領域とすると、検出したい物体が一回り大きな別の物体の中にある場合、（例えば「人物」が写っている領域の中に「名札」が写っている領域がある場合）、当該別の物体が検出される可能性があるためである。

上記処理により、複数の領域が物体領域として検出された場合、当該複数の領域のうちの一つのみをその後の処理に用いてもよいし、当該複数の領域のうちの一以上の領域を用いて、各領域に対する文字の属性を推定し、得られた各領域に対する文字の属性を文字認識等に利用してもよい。

また、属性推定部１５は、物体種別判定部１４の判定結果が複数あるため、文字の属性が複数推定された場合は、当該属性毎に、物体種別判定部１４から取得した、判定結果の確からしさを示すスコアも出力するか、最も確からしい属性に対応付けられた文字の属性を出力する構成としてもよい。

また、属性推定部１５は、例えば、物体領域検出部１３により検出された物体の領域に基づいて、文字の属性を推定する構成としてもよい。その場合について、以下に説明する。図９は、文字属性推定装置の機能構成の変形例を示す機能ブロック図である。図２の機能ブロック図と比較して、物体種別判定部１４が存在しない点が異なる。変形例の属性推定部１５は、予め、検出対象の文字が表す内容の属性に応じた画像群をトレーニングデータとして機械学習しておく。例えば、人名の文字が写っている複数の画像に「人名」の属性を付加し、当該複数の画像をトレーニングデータとして機械学習しておく。そして、変形例の属性推定部１５は、当該機械学習の結果、及び物体領域検出部１３により検出された物体の領域の形状等から、前記文字が表す内容の属性を推定する。図１０は、情景画像中の文字の属性を推定する処理の変形例を示すフローチャートである。図１０のステップＳ４０１〜ステップＳ４０３は、図４のステップＳ１０１〜ステップＳ１０３と同様である。ステップＳ４０４の属性推定処理において、変形例の属性推定部１５は、物体の種別の代わりに、物体領域の形状に基づいて、文字の属性を推定する。これにより、物体種別判定部１４による物体の種別の判定は不要となる。

また、物体種別判定部１４は、判定した物体の種別の情報を、文字認識部１７に出力する構成としてもよい。これにより、文字認識部１７は、例えば物体の種別がのぼり等の布である場合に、歪みが多く直線成分が少ない等の特徴を用いて文字認識することができる。

文字属性推定装置１は、例えば１以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。その場合、例えば、辞書選択部１６や文字認識部１７は、別のコンピュータにより実現する構成としてもよい。

文字属性推定装置１は、例えば、文字の属性に応じて、文字認識に用いる辞書を切り替えるシステムに適用可能である。例えば、取材内容の動画や、過去の放送番組の動画を蓄積した動画データベースから、動画中の画像に写っている文字を文字認識し、当該動画の検索用のタグとして、認識した文字列を当該動画に対応付けて管理するアーカイブシステムに適用することが可能である。また、文字属性推定装置１は、例えば、カメラで撮影した画像から文字を認識するスマートフォンに適用することも可能である。

＜文字属性推定プログラムについて＞
本実施形態に係る文字属性推定装置１は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の揮発性の記憶媒体、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の不揮発性の記憶媒体、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータを表示する表示部、並びに外部と通信するためのインターフェースを備えたコンピュータによって構成してもよい。

その場合、文字属性推定装置１が有する各機能は、これらの機能を記述したプログラム（文字属性推定プログラム）をＣＰＵに実行させることによりそれぞれ実現可能となる。また、このプログラムは、磁気ディスク（フロッピィーディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記録媒体に格納して頒布することもできる。つまり、上述した各構成における処理をコンピュータ（ハードウェア）に実行させるためのプログラムを、例えば汎用のＰＣやサーバ等にそのプログラムをインストールすることにより、上述した処理を実現することができる。

また、上述した実施形態における文字属性推定装置１の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。文字属性推定装置１の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。

＜まとめ＞
上述した実施形態によれば、文字領域の周辺の情報を利用して、文字の属性を推定する。これにより、情景画像中の文字の属性を、高精度で推定できる。文字の属性は、情景画像中の文字の認識精度を向上されるための単語辞書の選択等に利用可能である。文字の属性に応じて、文字認識に用いる辞書を切り替えれば、照合する辞書サイズの減少による認識速度の向上や、文字（単語）の誤認識の低減が可能となる。

また、上述した実施形態によれば、文字領域の周辺の情報を利用して、物体の領域を検出する。そのため、従来技術のように、情景画像中から、輝度等に基づいて物体の領域を検出する場合と比較して、文字が記載されている物体の領域を高精度で検出できる。

以上、図面を参照して実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。また、上述した各実施形態の一部又は全部を組み合わせることも可能である。

１文字属性推定装置
１１画像取得部
１２文字領域検出部
１３物体領域検出部
１４物体種別判定部
１５属性推定部
１６辞書選択部
１７文字認識部

Claims

画像から文字の領域を検出する文字領域検出部と、
前記文字領域検出部により検出された前記文字の領域に隣接する画素のうちの少なくとも一部の画素値に応じた条件を満たす画素を、前記文字が記載された物体の領域として検出する物体領域検出部と、
前記文字が表す内容の属性に応じた画像群をトレーニングデータとして機械学習し、前記機械学習の結果、及び前記物体領域検出部により検出された前記物体の領域の形状から、前記文字が表す内容の属性を推定する属性推定部と、
を備える文字属性推定装置。
画像から文字の領域を検出する文字領域検出部と、
前記文字領域検出部により検出された前記文字の領域に隣接する画素のうちの少なくとも一部の画素値に応じた条件を満たす画素を、前記文字が記載された物体の領域として検出する物体領域検出部と、
物体の種別に応じた画像群をトレーニングデータとして機械学習し、前記機械学習の結果、及び前記物体領域検出部により検出された前記物体の領域の形状から、前記物体の種別を判別する物体種別判定部と、
前記物体種別判定部により判定された前記物体の種別から前記文字が表す内容の属性を推定する属性推定部と、
を備える文字属性推定装置。
前記物体領域検出部は、前記文字の領域に隣接する画素のうちの少なくとも一部を前記物体の領域の初期範囲とし、前記物体の領域に隣接し、前記物体の領域の画素値に応じた条件を満たす画素を、順次前記物体の領域に含める、
請求項１または２に記載の文字属性推定装置。
前記属性推定部は、前記物体の領域における前記文字の位置、前記文字の範囲、前記文字の他の文字に対する相対的な大きさ、前記文字の数、または前記文字の背景の色に基づいて、前記属性を推定する、
請求項１乃至３のいずれか一項に記載の文字属性推定装置。
前記属性推定部により推定された前記属性に応じた辞書を選択する辞書選択部と、
前記辞書選択部により選択された辞書に基づいて、前記文字を認識する文字認識部と、
を備える、請求項１乃至４のいずれか一項に記載の文字属性推定装置。
コンピュータを、
請求項１乃至５のいずれか一項に記載の文字属性推定装置として機能させるための文字属性推定プログラム。