[go: up one dir, main page]

JP6609181B2 - 文字属性推定装置、及び文字属性推定プログラム - Google Patents

文字属性推定装置、及び文字属性推定プログラム Download PDF

Info

Publication number
JP6609181B2
JP6609181B2 JP2015254409A JP2015254409A JP6609181B2 JP 6609181 B2 JP6609181 B2 JP 6609181B2 JP 2015254409 A JP2015254409 A JP 2015254409A JP 2015254409 A JP2015254409 A JP 2015254409A JP 6609181 B2 JP6609181 B2 JP 6609181B2
Authority
JP
Japan
Prior art keywords
character
region
attribute estimation
attribute
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015254409A
Other languages
English (en)
Other versions
JP2017117340A (ja
Inventor
伶 遠藤
吉彦 河合
英樹 住吉
貴裕 望月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2015254409A priority Critical patent/JP6609181B2/ja
Publication of JP2017117340A publication Critical patent/JP2017117340A/ja
Application granted granted Critical
Publication of JP6609181B2 publication Critical patent/JP6609181B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

本発明は、文字属性推定装置、及び文字属性推定プログラムに関する。
従来、カメラで撮影した画像から、当該画像に写っている文字を認識する技術が知られている。一般に、文字を認識する場合には、まず画像から文字領域を抽出し、次に文字の形状や色等のパターンに基づいて、文字を認識する(例えば、特許文献1〜3参照)。
なお、上述した手法では、画像に写っている文字の形状や色等を完全な状態で抽出することができず、情報の一部が欠けたり、ノイズが混入したりする。そのため、従来では、予め作成しておいた辞書を用いて補正することで、文字列を認識した際に、一部の文字の認識誤りを修正する手法が存在する(例えば、特許文献4、特許文献5参照)。
特開2001−331803号公報 特開2005−018176号公報 特開2002−230551号公報 特公平04−074756号公報 特公平07−066423号公報
しかしながら、従来技術において、精度の高い文字認識を行うために、文字以外の情報に基づいて文字の属性を推定する手法は存在しなかった。
そこで、本発明は、情景画像中の文字の属性を、文字以外の情報に基づいて高精度で推定できる文字属性推定装置、及び文字属性推定プログラムを提供することを目的とする。
本発明の一つの態様では、文字属性推定装置において、画像から文字の領域を検出する文字領域検出部と、前記文字領域検出部により検出された前記文字の領域に隣接する画素のうちの少なくとも一部の画素値に応じた条件を満たす画素を、前記文字が記載された物体の領域として検出する物体領域検出部と、前記文字が表す内容の属性に応じた画像群をトレーニングデータとして機械学習し、前記機械学習の結果、及び前記物体領域検出部により検出された前記物体の領域の形状から、前記文字が表す内容の属性を推定する属性推定部と、を備える。
また、本発明の一つの態様では、文字属性推定装置において、画像から文字の領域を検出する文字領域検出部と、前記文字領域検出部により検出された前記文字の領域に隣接する画素のうちの少なくとも一部の画素値に応じた条件を満たす画素を、前記文字が記載された物体の領域として検出する物体領域検出部と、物体の種別に応じた画像群をトレーニングデータとして機械学習し、前記機械学習の結果、及び前記物体領域検出部により検出された前記物体の領域の形状から、前記物体の種別を判別する物体種別判定部と、前記物体種別判定部により判定された前記物体の種別から前記文字が表す内容の属性を推定する属性推定部と、を備える。
開示の技術によれば、情景画像中の文字の属性を、文字以外の情報に基づいて高精度で推定することが可能となる。
本実施形態に係る文字属性推定装置の概要を説明するための図である。 本実施形態に係る文字属性推定装置の機能構成を示す機能ブロック図である。 属性推定テーブルの一例を示す図である。 情景画像中の文字の属性を推定する処理の一例を示すフローチャートである。 物体領域検出処理の一例を示すフローチャートである。 物体領域検出処理を説明する図である。 属性推定処理の一例を示すフローチャートである。 属性推定処理を説明する図である。 文字属性推定装置の機能構成の変形例を示す機能ブロック図である。 情景画像中の文字の属性を推定する処理の変形例を示すフローチャートである。
以下、図面を参照しながら本発明の実施形態について説明する。
<文字属性推定装置の概要>
図1は、本実施形態に係る文字属性推定装置の概要を説明するための図である。図1に示す文字属性推定装置1は、画像(情景画像2)を入力し、当該画像中に写っている1以上の文字の属性を推定する。なお、「文字」には、例えば、漢字、かな、英数字等に限らず、絵文字、記号、図形等、所定の情報を伝達するために記載されている情報を含む。ここで、「文字の属性」とは、例えば、「人名」、「地名」、「会社名(組織名)」等の文字が表す内容を示す情報であるが、上記の例に限定されるものではない。
情景画像2中に写っている文字3は、何らかの物体4(例えば名札や看板)に記載されたものであり、文字3と物体4とには何らかの関連があることが期待できる。例えば、「名札の中央部付近に大きく記載されている文字の属性は、人名であることが多い」といった関連である。
本実施形態に係る文字属性推定装置1は、情景画像2中に写っている文字3の画素の集合である文字領域を検出し、その文字領域の周辺の情報を利用して、文字3の属性を推定する。これにより、情景画像中の文字の属性を、高精度で推定できる。また、本実施形態では、文字の属性を出力するだけでなく、文字の属性を用いて認識した文字データを出力してもよい。
<文字属性推定装置の機能構成>
次に、本実施形態に係る文字属性推定装置の機能構成について、図を用いて説明する。図2は、本実施形態に係る文字属性推定装置の機能構成を示す機能ブロック図である。
文字属性推定装置1は、画像取得部11と、文字領域検出部12と、物体領域検出部13と、物体種別判定部14と、属性推定部15と、辞書選択部16と、文字認識部17とを有する。
画像取得部11は、文字が写っている画像(情景画像)データを取得する。画像取得部11は、例えば、カメラやビデオカメラ等の撮像装置で撮影した画像でもよく、または予め蓄積されている画像でもよい。また、上述した撮像装置は、文字属性推定装置1の内部に設けられていてもよく、外部に設けられていてもよい。また、上述した画像は、静止画でもよく、動画に含まれる画像フレームでもよい。
文字領域検出部12は、画像取得部11により取得された画像から、文字が写っている領域である文字領域を検出する。なお、文字領域は、例えば、白地の看板等に黒い文字が写っている場合は、当該黒い部分の領域である。文字領域の検出は、近い特徴を有する画素集合の色や形状、エッジの形状等に基づいて検出することができるが、これに限定されるものではない。なお、文字領域は、例えば、当該文字を構成する各画素(座標)の集合により表すことができる。
物体領域検出部13は、文字領域検出部により検出された文字領域に基づいて、画像取得部11により取得された画像から、文字が記載された物体の領域である物体領域を検出する物体領域検出処理を行う。物体領域検出部13は、物体領域検出処理において、文字領域検出部12により検出された文字の領域に隣接する画素のうちの少なくとも一部の画素を物体領域の初期範囲とし、この一部画素の外側にある画素について所定の条件を満たす画素を、物体領域として検出する。
すなわち、物体領域検出部13は、物体領域検出処理において、文字領域検出部12により検出された文字領域に隣接する画素のうちの少なくとも一部を、物体領域の初期範囲として設定する。また、物体領域検出部13は、物体領域に隣接し、物体領域の画素値に応じた条件を満たす画素の有無を判断し、条件を満たす画素を、順次物体領域に含める。物体領域検出部13は、上述した処理を物体領域の初期範囲を基準に外側に順次行うことで、物体領域の拡張等を行い、最終的な物体領域を検出する。物体領域検出処理の詳細は後述する。なお、物体領域検出部13は、周知のパターン認識等の画像処理技術を用いて、画像中から、所定の物体領域を検出してもよい。
物体種別判定部14は、物体領域検出部13により検出された物体領域に基づいて、文字が記載されている物体の種別を判定する。物体種別判定部14は、予め、検出対象の物体の種別に応じた画像群をトレーニングデータとして機械学習しておく。そして、物体種別判定部14は、当該機械学習の結果、及び入力された物体領域の形状から、文字が記載されている物体の種別を判定する。また、物体種別判定部14は、物体領域の色を検出し、入力された物体領域の色もあわせて、文字が記載されている物体の種別を判定する。
属性推定部15は、物体種別判定部14により判定された物体の種別から、文字領域検出部12により検出された文字領域の文字が表す内容の属性を推定する。属性推定部15は、物体領域における文字の位置、文字の範囲、属性の推定対象である文字の他の文字に対する相対的な大きさ、文字の数、及び文字の背景の色を検出する。属性推定部15は、例えば予め設定された属性推定テーブルを用いて、物体の種別、物体領域における文字の位置、文字の範囲、属性の推定対象である文字の他の文字に対する相対的な大きさ、文字の数、及び文字の背景の色の少なくとも一つに対応させて、物体に記載されている文字の属性(カテゴリ)を推定する属性推定処理を行う。これにより、属性推定部15は、例えば文字の属性に基づいて、文字を文字認識するための辞書(単語辞書)を適切に選択することができる。また、属性推定部15は、上述した属性推定処理により、文字に対する1以上の属性を推定した後、その属性情報を出力してもよい。なお、属性推定処理の詳細は後述する。
辞書選択部16は、属性推定部15により推定された文字の属性に応じた辞書を選択する。例えば、文字の属性が「人名」であれば、人名として用いられやすい文字が登録されている辞書を選択する。
文字認識部17は、辞書選択部16により選択された辞書のデータに基づいて、文字領域検出部12に検出された文字領域の文字を認識する。例えば、辞書に登録されている各文字と、検出された文字領域とのパターンマッチングを行い、検出された文字領域の文字を、辞書に登録されている各文字のうち、類似度が最も高い文字であると認識する。
なお、図2に示す文字属性推定装置1は、画像等に含まれる文字の属性を推定した後、その推定結果を用いて文字の認識まで行う構成としたが、これに限定されるものではなく、例えば文字の属性を出力するまでの構成でもよい。その場合、文字属性推定装置1は、上述した画像取得部11と、文字領域検出部12と、物体領域検出部13と、物体種別判定部14と、属性推定部15とを有し、属性推定部15から得られる文字属性情報が出力される。
<属性推定テーブルの一例>
図3は、属性推定テーブルの一例を示す図である。属性推定テーブルの項目の一例としては、例えば、「物体の種別」、「文字の位置または範囲」、「他の文字に対する相対的な大きさ」、「文字の数」、「文字の背景の色」、「文字の属性」等があるが、これに限定されるものではない。
「物体の種別」は、物体種別判定部14により判定された、文字が記載されている物体の種別である。
「文字の位置または文字の範囲」は、文字が記載されている物体の領域における、文字の位置または文字の範囲である。「文字の位置」としては、例えば、「上部」、「中央部」、「下部」等を設定する。また、本実施形態では、各「物体の種別」の「文字の位置」毎に、当該位置と判定する所定の条件が設定されていてもよい。例えば、「物体の種別」が「名札」で、「文字の位置」が「上部」であると判定する条件は、「文字領域の中心が、物体領域を垂直方向に3等分した場合の一番の上の領域に位置する場合」等であるが、条件についてはこれに限定されるものではない。
また、「文字の範囲」としては、例えば、「全面」等を設定する。また、本実施形態では、各「物体の種別」の「文字の範囲」毎に、当該範囲と判定する所定の条件が設定されていてもよい。例えば、「物体の種別」が「看板」で「文字の範囲」が「全面」であると判定する条件は、「物体に記載されている全ての文字領域を含む範囲(例えば、各の文字領域を含む面積最少の楕円(なお、図8の620、621のような、矩形の左右を直線に代えてそれぞれ半円で構成した図形のことも、本明細書では便宜的に「楕円」と称する)または矩形)の面積が、物体領域の面積の例えば80%以上の場合」等であるが、条件についてはこれに限定されるものではない。
「他の文字に対する相対的な大きさ」は、例えば、ある物体の領域に複数の文字が記載されている場合に、文字の属性の判定対象である文字の大きさを、その領域内の他の文字に対する相対的な大きさの情報として表したものである。「他の文字に対する相対的な大きさ」としては、例えば、「大」、「中」、「小」、「均等」等を設定する。また、本実施形態では、各「物体の種別」の、「他の文字に対する相対的な大きさ」毎に、当該大きさと判定する所定の条件が設定されていてもよい。例えば、「物体の種別」が「名札」で「他の文字に対する相対的な大きさ」が「大」であると判定する条件は、「一のグループに含まれる円の大きさと、他のグループに含まれる円の大きさの比が所定値以上である場合」等であるが、条件についてはこれに限定されるものではない。
「文字の数」は、物体領域に含まれる文字領域の数である。「文字の背景の色」は、物体領域における文字領域以外の部分の色である。
図3の例では、物体の属性が「名札」に対応付けて、文字の属性として「人名」と「会社名」が記憶されている。「看板」に対応付けて、「会社名」が記憶されている。これは、例えば、ニュース映像を記録する場合、最初に建物や会議室の前に設置されている看板が撮影されている場合のためである。また、「ネームプレート」に対応付けて、「人名」が記憶されている。これは、例えば、記者会見の映像を記録する場合、最初に机に置かれているネームプレートが撮影されている場合のためである。
<情景画像中の文字の属性を推定する処理>
次に、図4を参照して、情景画像中の文字の属性を推定する処理について説明する。図4は、情景画像中の文字の属性を推定する処理の一例を示すフローチャートである。
画像取得部11は、情景画像を取得する(ステップS101)。
文字領域検出部12は、取得された情景画像から、文字が写っている領域である文字領域を検出する(ステップS102)。
物体領域検出部13は、検出した文字領域に基づいて、文字が記載されている物体の領域である物体領域を検出する物体領域検出処理を行う(ステップS103)。
物体種別判定部14は、物体領域検出部13により検出された物体領域に基づいて、文字が記載されている物体の種別を判定する(ステップS104)。
属性推定部15は、判定された物体の種別に基づき、当該物体に記載されている文字の属性を推定する属性推定処理を行う(ステップS105)。
<物体領域検出処理>
次に、図5を参照して、図4のステップS103の、物体領域検出部13による、文字が記載されている物体の領域である物体領域を検出する物体領域検出処理の詳細について説明する。図5は、物体領域検出処理の一例を示すフローチャートである。
物体領域検出部13は、文字領域の外縁部の画素値を基に、物体領域の初期範囲を決定する(ステップS201)。
次に、物体領域検出部13は、物体領域に隣接する画素のうち、未選択の一の画素を物体領域の候補として選択する(ステップS202)。次に、物体領域検出部13は、選択した画素が、物体領域に含まれる画素群に近い特徴を有するか判断する(ステップS203)。
近い特徴を有しない場合は(ステップS203でNO)、後述するステップS205の処理に進む。また、近い特徴を有する場合は(ステップS203でYES)、当該画素を、物体領域に含めることにより、物体領域を順次拡張する(ステップS204)。
物体領域検出部13は、物体領域に隣接する画素のうち、物体領域の候補として未選択の画素があるか判断する(ステップS205)。
物体領域検出部13は、未選択の画素がなければ(ステップS205でNO)、処理を終了する。また、物体領域検出部13は、未選択の画素があれば(ステップS205でYES)、ステップS202の処理に戻る。
<物体領域検出の一例>
次に、図6を参照して、本実施形態に係る物体領域検出の一例について説明する。図6は、物体領域検出処理を説明する図である。
図6(A)は、情景画像に含まれる、「1」という1文字が記載された物体の領域の例を示している。図6(A)において、文字領域601に含まれる各画素の画素値は、例えば輝度が約0であるとする。領域602は、文字領域601に接する各画素に近い特徴を有する領域である。領域602に含まれる各画素の画素値は、例えば輝度が約200であるとする。領域603は、文字領域601に接する各画素と近い特徴を有しない領域である。領域603の各画素の画素値は、例えば輝度が約125であるとする。
物体領域検出処理により、文字領域601と、領域602を含む領域が、物体領域として検出される。
図6(B)は、図5のステップS201にて、文字領域601に接する各画素である外縁部の値を基に、物体領域の初期範囲を決定する例を示す図である。図6(B)の例では、文字領域601の外縁部の全ての画素を、物体領域の初期範囲604bとして決定する。なお、例えば、文字領域の外縁部の画素の中から、それらの平均値や中央値に最も近い値の画素を選ぶ等、外縁部の一部の画素を初期範囲として決定する構成としてもよい。
次に、図5のステップS204にて、物体領域を順次拡張する。まず、物体領域の初期範囲604bに接する各画素(図6(B)における「×」を付加されている各画素)を選択する。そして、選択した各画素のうち、例えば、現在の物体領域に最も近い特徴を有する画素を、物体領域に含める処理を順次繰り返す。その場合、例えば、現在の物体領域に含まれる画素の平均値や中央値に最も近い画素を物体領域に含める処理を繰り返す。なお、図6(C)は、文字領域601の左下付近の画素が、現在の物体領域に含まれる画素の平均値や中央値に比較的近いため、先に物体領域604cに取り込まれていく場合の例を示している。この処理を順次繰り返すことにより、物体領域が、図6(B)の604bから、図6(C)の604c、図6(D)の604d、図6(E)の604e、図6(F)604fのように、順次拡張する。
または、物体領域に隣接する画素の値が、物体領域に含まれている画素の最大値と最小値の間である場合に、当該隣接する画素を物体領域に含めることにより、物体領域を順次拡張する構成としてもよい。その場合、物体領域に含める画素がなくなった場合、新たに物体領域に含める画素の最大値を1増加させ、最小値を1減少させ、隣接する画素の値が、新たな物体領域に含まれている画素の最大値と最小値の間であれば、当該隣接する画素を物体領域に含める処理を繰り返す構成としてもよい。
図6(F)は、図5のステップS205でNOとなり、処理を終了する例を示す図である。物体領域604fは、文字領域601と、領域602を含む領域となる。物体領域に隣接する画素と、物体領域に含まれる画素群との特徴が遠い(例えば、特徴の差が所定の閾値以上)ため、物体領域の拡張が収束した時点で、処理を終了する。例えば、現在の物体領域の平均値や中央値から所定の閾値以内である画素が、現在の物体領域外に存在しなくなった場合に、処理を終了する。
または、物体領域に含まれている画素の最大値と最小値の間から所定の閾値以内である画素が、現在の物体領域外に存在しなくなった場合に、処理を終了する構成としてもよい。
なお、画素値として、RGBの3つの各画素値を用いる構成としてもよい。その場合には、例えば、RGBから選択した一つの原色(例えばR)の画素値のみを用いてもよく、複数の原色の平均値を用いてもよい。
<物体種別判定処理>
次に、物体種別判定部14による、物体の種別を判定する処理について説明する。物体種別判定部14は、予め、検出対象の物体の種別に応じた画像群をトレーニングデータとして機械学習しておく。そして、物体種別判定部14は、物体領域検出部13により検出された物体領域の、例えば形状や色の特徴に基づいて一般物体認識または特定物体認識を行うことにより、文字が記載されている物体の種別を判定する。
<属性推定処理>
次に、図7を参照して、属性推定部15による、属性推定処理について説明する。図7は、属性推定処理の一例を示すフローチャートである。
属性推定部15は、文字領域検出部12が検出した文字領域と、物体領域検出部13が検出した物体領域に基づいて、物体領域における文字の位置を判定する(ステップS301)。
次に、属性推定部15は、物体領域における文字を含む領域の範囲を判定する(ステップS302)。次に、属性推定部15は、物体領域における他の文字に対する相対的な大きさを判定する(ステップS303)。次に、属性推定部15は、物体領域における文字の数を判定する(ステップS304)。次に、物体領域における文字の背景の色を判定する(ステップS305)。
次に、属性推定部15は、属性推定テーブルに基づいて、物体の種別、物体領域における文字の位置、範囲、他の文字に対する相対的な大きさ、文字の数、背景の色に基づいて、文字が表す内容の属性を推定する(ステップS306)。
<属性推定の一例>
次に、図8を参照して、本実施形態に係る属性推定の一例について説明する。図8は、本実施形態に係る属性推定の一例を説明する図である。
図8(A)は、物体領域検出部13により検出された物体4の領域(物体領域)における文字を判定するための前処理を説明する図である。属性推定部15は、例えば、各文字領域を含む(内接する)円610〜619を生成し、距離(例えば最も近い円の中心同士の距離)が所定の範囲内であり、大きさ(例えば円の半径)の差が所定の範囲内である1以上の円を、同一のグループと判定する。図8(A)の例では、円610〜613が同一グループと判定され、円614〜619が同一グループと判定される。なお、円の代わりに、正方形や矩形等の多角形を用いる構成としてもよい。
図8(B)は、図7のステップS301〜ステップS305の、物体領域における、文字の位置、文字の範囲、他の文字に対する相対的な大きさ、文字の数、背景の色を判定する処理を説明する図である。
属性推定部15は、例えば、各グループの円を含み、面積が最少となる楕円620、621を生成し、生成した楕円620、621の、物体領域における位置と、範囲を判定する。
物体領域における文字の位置は、図3の属性推定テーブルにおいて設定されている、各位置と判定する所定の条件を満たすか否かに応じて判定する。図8(B)の例では、円614〜619の中心が、物体領域を垂直方向に3等分した場合の一番の上の領域に位置するとの条件を満たすため、円614〜619に含まれる各文字の位置は「上部」であると判定する。
物体領域における文字の範囲は、図3の属性推定テーブルにおいて設定されている、各範囲と判定する所定の条件を満たすか否かに応じて判定する。
物体領域における他の文字に対する相対的な大きさは、図3の属性推定テーブルにおいて設定されている、各大きさと判定する所定の条件を満たすか否かに応じて判定する。図8(B)の例では、楕円620に含まれる各円の大きさと、楕円621に含まれる各円の大きさの比が所定値以上であるため、楕円620に含まれる各文字の、他の文字に対する相対的な大きさを、「大」であると判定する。同様に、楕円621に含まれる各文字の、他の文字に対する相対的な大きさを、「中」であると判定する。
物体領域における文字の数は、例えば、各グループに含まれる円の数に基づいて判定する。図8(B)の例では、楕円620のグループに含まれる円614〜619の数は6であるため、文字の数は6と判定される。
物体領域における文字の背景の色は、物体領域における文字領域以外の部分の色の平均値に基づいて判定する。図8(B)の例では、文字領域以外の部分の平均値が、「白」と判定する所定範囲以内であるため、文字の背景の色を、「白」であると判定する。
図3に示す属性推定テーブルの例を用いて、図7のステップS306による文字が表す内容の属性を推定する処理について説明する。
円610〜613の文字は、物体の種別が「名刺」、物体領域における文字の位置が「中央部」、他の文字に対する相対的な大きさが「大」、物体領域における文字の数は4、物体領域における文字の背景の色が「白」である。そのため、文字が表す内容の属性は、「人名」であると推定される。同様に、円614〜619の文字は、物体の種別が「名刺」、他の文字に対する相対的な大きさが「中」であるため、文字が表す内容の属性は、「社名」であると推定される。
なお、上述した属性推定処理の各処理における所定範囲の値、及び所定の閾値は、物体の種別に応じた値を用いる構成としてもよい。その場合、当該値は、ユーザが設定できる構成としてもよい。
<変形例>
物体領域検出部13は、物体領域を拡張する度に、物体領域の特徴を保存しながら、情景画像全体が物体領域に含まれるまで拡張し、条件に合った領域を検出する構成としてもよい。
例えば、物体領域検出部13は、物体領域を拡張する度に、拡張する前の物体領域内の画素値のばらつきqinternal(例えば、最小値と最大値との差や分散等)と、拡張した前の物体領域内の画素値のばらつきqexternalとを算出して保存しておく。そして、物体領域検出部13は、情景画像の全ての画素が物体領域に含まれる状態まで拡張を行った後、物体領域をある回数だけ拡張した際のばらつきの比率qinternal/qexternalが、当該回数の前後の回数だけ拡張した際の各ばらつきの比率qinternal/qexternalと比べて小さい領域を、物体領域として検出する構成としてもよい。
また、ばらつきの比率qinternal/qexternalが、物体領域を拡張した回数が所定範囲内(例えば50回〜150回)で最小となる領域を、物体領域として検出する構成としてもよい。なお、ここで、所定範囲内で最少となる領域としたのは、全範囲内で最小となる領域とすると、検出したい物体が一回り大きな別の物体の中にある場合、(例えば「人物」が写っている領域の中に「名札」が写っている領域がある場合)、当該別の物体が検出される可能性があるためである。
上記処理により、複数の領域が物体領域として検出された場合、当該複数の領域のうちの一つのみをその後の処理に用いてもよいし、当該複数の領域のうちの一以上の領域を用いて、各領域に対する文字の属性を推定し、得られた各領域に対する文字の属性を文字認識等に利用してもよい。
また、属性推定部15は、物体種別判定部14の判定結果が複数あるため、文字の属性が複数推定された場合は、当該属性毎に、物体種別判定部14から取得した、判定結果の確からしさを示すスコアも出力するか、最も確からしい属性に対応付けられた文字の属性を出力する構成としてもよい。
また、属性推定部15は、例えば、物体領域検出部13により検出された物体の領域に基づいて、文字の属性を推定する構成としてもよい。その場合について、以下に説明する。図9は、文字属性推定装置の機能構成の変形例を示す機能ブロック図である。図2の機能ブロック図と比較して、物体種別判定部14が存在しない点が異なる。変形例の属性推定部15は、予め、検出対象の文字が表す内容の属性に応じた画像群をトレーニングデータとして機械学習しておく。例えば、人名の文字が写っている複数の画像に「人名」の属性を付加し、当該複数の画像をトレーニングデータとして機械学習しておく。そして、変形例の属性推定部15は、当該機械学習の結果、及び物体領域検出部13により検出された物体の領域の形状等から、前記文字が表す内容の属性を推定する。図10は、情景画像中の文字の属性を推定する処理の変形例を示すフローチャートである。図10のステップS401〜ステップS403は、図4のステップS101〜ステップS103と同様である。ステップS404の属性推定処理において、変形例の属性推定部15は、物体の種別の代わりに、物体領域の形状に基づいて、文字の属性を推定する。これにより、物体種別判定部14による物体の種別の判定は不要となる。
また、物体種別判定部14は、判定した物体の種別の情報を、文字認識部17に出力する構成としてもよい。これにより、文字認識部17は、例えば物体の種別がのぼり等の布である場合に、歪みが多く直線成分が少ない等の特徴を用いて文字認識することができる。
文字属性推定装置1は、例えば1以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。その場合、例えば、辞書選択部16や文字認識部17は、別のコンピュータにより実現する構成としてもよい。
文字属性推定装置1は、例えば、文字の属性に応じて、文字認識に用いる辞書を切り替えるシステムに適用可能である。例えば、取材内容の動画や、過去の放送番組の動画を蓄積した動画データベースから、動画中の画像に写っている文字を文字認識し、当該動画の検索用のタグとして、認識した文字列を当該動画に対応付けて管理するアーカイブシステムに適用することが可能である。また、文字属性推定装置1は、例えば、カメラで撮影した画像から文字を認識するスマートフォンに適用することも可能である。
<文字属性推定プログラムについて>
本実施形態に係る文字属性推定装置1は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)等の揮発性の記憶媒体、ROM(Read Only Memory)等の不揮発性の記憶媒体、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータを表示する表示部、並びに外部と通信するためのインターフェースを備えたコンピュータによって構成してもよい。
その場合、文字属性推定装置1が有する各機能は、これらの機能を記述したプログラム(文字属性推定プログラム)をCPUに実行させることによりそれぞれ実現可能となる。また、このプログラムは、磁気ディスク(フロッピィーディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記録媒体に格納して頒布することもできる。つまり、上述した各構成における処理をコンピュータ(ハードウェア)に実行させるためのプログラムを、例えば汎用のPCやサーバ等にそのプログラムをインストールすることにより、上述した処理を実現することができる。
また、上述した実施形態における文字属性推定装置1の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。文字属性推定装置1の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。
<まとめ>
上述した実施形態によれば、文字領域の周辺の情報を利用して、文字の属性を推定する。これにより、情景画像中の文字の属性を、高精度で推定できる。文字の属性は、情景画像中の文字の認識精度を向上されるための単語辞書の選択等に利用可能である。文字の属性に応じて、文字認識に用いる辞書を切り替えれば、照合する辞書サイズの減少による認識速度の向上や、文字(単語)の誤認識の低減が可能となる。
また、上述した実施形態によれば、文字領域の周辺の情報を利用して、物体の領域を検出する。そのため、従来技術のように、情景画像中から、輝度等に基づいて物体の領域を検出する場合と比較して、文字が記載されている物体の領域を高精度で検出できる。
以上、図面を参照して実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。また、上述した各実施形態の一部又は全部を組み合わせることも可能である。
1 文字属性推定装置
11 画像取得部
12 文字領域検出部
13 物体領域検出部
14 物体種別判定部
15 属性推定部
16 辞書選択部
17 文字認識部

Claims (6)

  1. 画像から文字の領域を検出する文字領域検出部と、
    前記文字領域検出部により検出された前記文字の領域に隣接する画素のうちの少なくとも一部の画素値に応じた条件を満たす画素を、前記文字が記載された物体の領域として検出する物体領域検出部と、
    前記文字が表す内容の属性に応じた画像群をトレーニングデータとして機械学習し、前記機械学習の結果、及び前記物体領域検出部により検出された前記物体の領域の形状から、前記文字が表す内容の属性を推定する属性推定部と、
    を備える文字属性推定装置。
  2. 画像から文字の領域を検出する文字領域検出部と、
    前記文字領域検出部により検出された前記文字の領域に隣接する画素のうちの少なくとも一部の画素値に応じた条件を満たす画素を、前記文字が記載された物体の領域として検出する物体領域検出部と、
    物体の種別に応じた画像群をトレーニングデータとして機械学習し、前記機械学習の結果、及び前記物体領域検出部により検出された前記物体の領域の形状から、前記物体の種別を判別する物体種別判定部と、
    前記物体種別判定部により判定された前記物体の種別から前記文字が表す内容の属性を推定する属性推定部と、
    を備える文字属性推定装置。
  3. 前記物体領域検出部は、前記文字の領域に隣接する画素のうちの少なくとも一部を前記物体の領域の初期範囲とし、前記物体の領域に隣接し、前記物体の領域の画素値に応じた条件を満たす画素を、順次前記物体の領域に含める、
    請求項1または2に記載の文字属性推定装置。
  4. 前記属性推定部は、前記物体の領域における前記文字の位置、前記文字の範囲、前記文字の他の文字に対する相対的な大きさ、前記文字の数、または前記文字の背景の色に基づいて、前記属性を推定する、
    請求項1乃至3のいずれか一項に記載の文字属性推定装置。
  5. 前記属性推定部により推定された前記属性に応じた辞書を選択する辞書選択部と、
    前記辞書選択部により選択された辞書に基づいて、前記文字を認識する文字認識部と、
    を備える、請求項1乃至4のいずれか一項に記載の文字属性推定装置。
  6. コンピュータを、
    請求項1乃至5のいずれか一項に記載の文字属性推定装置として機能させるための文字属性推定プログラム。
JP2015254409A 2015-12-25 2015-12-25 文字属性推定装置、及び文字属性推定プログラム Active JP6609181B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015254409A JP6609181B2 (ja) 2015-12-25 2015-12-25 文字属性推定装置、及び文字属性推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015254409A JP6609181B2 (ja) 2015-12-25 2015-12-25 文字属性推定装置、及び文字属性推定プログラム

Publications (2)

Publication Number Publication Date
JP2017117340A JP2017117340A (ja) 2017-06-29
JP6609181B2 true JP6609181B2 (ja) 2019-11-20

Family

ID=59234335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015254409A Active JP6609181B2 (ja) 2015-12-25 2015-12-25 文字属性推定装置、及び文字属性推定プログラム

Country Status (1)

Country Link
JP (1) JP6609181B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6811811B1 (ja) * 2019-07-04 2021-01-13 Jcc株式会社 メタデータ生成システム、映像コンテンツ管理システム及びプログラム
JPWO2024201819A1 (ja) * 2023-03-29 2024-10-03

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5141969B2 (ja) * 2007-09-27 2013-02-13 アイシン・エィ・ダブリュ株式会社 画像認識装置及び画像認識プログラム、並びにそれを用いた地点情報収集装置及びナビゲーション装置
JP4923134B2 (ja) * 2010-06-08 2012-04-25 株式会社スクウェア・エニックス リアルタイムなカメラ辞書

Also Published As

Publication number Publication date
JP2017117340A (ja) 2017-06-29

Similar Documents

Publication Publication Date Title
US10846870B2 (en) Joint training technique for depth map generation
US9418319B2 (en) Object detection using cascaded convolutional neural networks
US11138257B2 (en) Object search in digital images
US10706322B1 (en) Semantic ordering of image text
CN110276366A (zh) 使用弱监督模型来检测对象
US11295495B2 (en) Automatic positioning of textual content within digital images
US9245357B2 (en) Image processing apparatus, image processing method, and storage medium
CN114120305B (zh) 文本分类模型的训练方法、文本内容的识别方法及装置
CN109697414B (zh) 一种文本定位方法及装置
CN111062365A (zh) 识别混合排版文字的方法、设备、芯片电路和计算机可读存储介质
US20180089525A1 (en) Method for line and word segmentation for handwritten text images
CN113887375A (zh) 一种文本识别方法、装置、设备及存储介质
US11657511B2 (en) Heuristics-based detection of image space suitable for overlaying media content
US20170249526A1 (en) Information processing apparatus, information processing method, and storage medium
US20160283786A1 (en) Image processor, image processing method, and non-transitory recording medium
US20150139547A1 (en) Feature calculation device and method and computer program product
JP6609181B2 (ja) 文字属性推定装置、及び文字属性推定プログラム
CN115004261B (zh) 文本行检测
US10360471B2 (en) Image retrieving device, image retrieving method, and recording medium
CN116386049B (zh) 公式识别方法、装置、设备及存储介质
JP7677429B2 (ja) メディアコンテンツのオーバーレイに適した画像スペースの検出
US10025766B2 (en) Relational database for assigning orphan fillable fields of electronic fillable forms with associated captions
US10846878B2 (en) Multi-axis equal spacing smart guides
US20150142784A1 (en) Retrieval device and method and computer program product
WO2024013901A1 (ja) マッチ率算出装置、マッチ率算出方法およびマッチ率算出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191025

R150 Certificate of patent or registration of utility model

Ref document number: 6609181

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250