JP4668345B1

JP4668345B1 - 情報処理装置、および情報処理装置の制御方法

Info

Publication number: JP4668345B1
Application number: JP2009267853A
Authority: JP
Inventors: 和行名古; 斉志広瀬; 晶藤原
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2009-11-25
Filing date: 2009-11-25
Publication date: 2011-04-13
Anticipated expiration: 2029-11-25
Also published as: US8867840B2; CN102667813B; WO2011065065A1; JP2011113214A; CN102667813A; US20120274803A1

Abstract

【課題】画像から迅速に文字を認識することができる情報処理装置を提供する。
【解決手段】本発明に係る携帯電話機は、画像から語句の認識を行う装置である。携帯電話機は、動画像を撮影する撮像部８と、撮影された動画像を構成する連続した画像を順次取得し、該画像の所定位置にある語句を示すＩＤを取得する文字列取得部２１、文字列照合部２２、語句ＩＤ取得部２３と、取得したＩＤを格納するＦＩＦＯバッファ１６と、ＦＩＦＯバッファ１６において最も多く格納されているＩＤを認識結果として決定する認識決定部２４とを備える。
【選択図】図１

Description

本発明は、画像から語句の認識を行う情報処理装置に関する。

電子辞書は、小型化および低価格化が進んだことにより従来の紙の辞書に代わって広く利用されるようになった。さらに、近年では電子辞書を搭載したＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、携帯情報端末）や携帯電話等も開発されている。

ところで、一般的な電子辞書は、例えばキーボードなどのような、容易に語句を入力することができるように支援する入力手段を備えており、ユーザはこのキーボードを操作して語句を入力し、その語句の意味を検索することができるようになっている。しかし、ＰＤＡや携帯電話等には入力手段として、このようなキーボ−ドを備えていない機種がある。このような機種に搭載された電子辞書を使用する場合、ユーザはＰＤＡまたは携帯電話が備えるテンキーまたはタッチパネル等の別の入力手段を利用して語句の入力を行うこととなる。このように、テンキーまたはタッチパネル等の入力手段により語句の入力を行う構成の場合、キーボードで入力する構成と比較して操作性が悪く、迅速な文字入力が困難となる。また、入力手段としてキーボードを備えた電子辞書であってもキーボード操作に不慣れなユーザの場合、キーボードで文字を入力すること自体が非常に困難かつ時間のかかる作業となる。

また、複数の単語からなる英熟語を調べるとき、あるいは難読漢字の読みや見知らぬ国の文字などを調べるときには、ユーザがどの単語（語句）を入力すればよいのか分からない場合があり、キーボード等を利用したキー入力そのものに限界があった。そこで、キー入力の手間を省くことを可能とする技術が開発されている（例えば、特許文献１および２）。

より具体的には、特許文献１ではペン型のスキャナで文字画像を読み取ることが可能な、イメージスキャナ付き電子辞書が開示されている。このイメージスキャナ付き電子辞書は、スキャナにより文字画像を読み取ることができ、キー入力の手間を省くことができる。

また、特許文献２では、カメラで文字画像を取り込み、該取り込んだ文字画像に関する情報を表示する画像取込み／メッセージ表示装置が開示されている。この画像取込み／メッセージ表示装置では、カメラにより文字画像を取得することができ、キー入力の手間を省くことができる。

しかしながら、上記特許文献１に記載のイメージスキャナ付き電子辞書では、ローラーを真っ直ぐ、空回りさせずに動かさなければ、文字列を正しく認識できないことがある。このため、ユーザの操作ミスにより、文字の誤認識が生じる場合がある。

一方、上記特許文献２に記載の画像取込み／メッセージ表示装置では、カメラで取得した文字画像から文字認識を行う構成である。カメラで取得した文字画像から文字認識を行う場合、カメラの手振れ、撮像環境および撮像媒体の品質等の外的要因に起因してその認識率は１００％とはならない。

このように、特許文献１および２に開示された技術では、文字の入力に際して文字の誤認識が生じてしまうという問題がある。

そこで、特許文献３では以下の構成を有する記号認識装置が提案されている。すなわち、この記号認識装置は、３回以上の奇数回連続して画像を撮像し、各画像に対する文字認識の結果から最も発生頻度の高い認識結果を抽出する。このように連続する画像から最も頻度が高い認識結果を採用する構成であるため、記号認識装置は、カメラの手振れ、撮像環境および撮像媒体の品質等の外的要因に起因して生じる認識率の低下を防止することができる。

特開平１−２３４９７７号公報（１９８９年９月２０日公開）特開２０００−２０６７７号公報（２０００年１月２１日公開）特開２００４−１９９１４１号公報（２００４年７月１５日公開）

しかしながら、上記した従来技術では、迅速に文字を認識することができないという問題がある。

具体的には、上記した特許文献３に記載の記号認識装置及び記号認識方法では、静止画の撮像を複数回行って多数決を取るため、撮像を行ってから検索すべき文字を特定するまでの時間が長くかかる問題があった。

本発明は上記課題を解決するためになされたものであり、その目的は、画像から迅速に文字を認識することができる情報処理装置、情報処理装置の制御方法、情報処理装置の制御プログラム、および情報処理装置の制御プログラムを記録した記録媒体を提供することにある。

本発明に係る情報処理装置は、上記した課題を解決するために、画像から語句の認識を行う情報処理装置であって、動画像を撮影する撮像部と、上記撮像部により撮影された動画像を構成する連続した画像を順次取得し、該画像の所定位置にある語句を示す情報である語句情報を抽出する抽出手段と、上記抽出手段によって抽出した語句情報を格納する格納部と、上記格納部において最も多く格納されている語句情報の語句を認識結果として決定する決定手段と、を備えることを特徴とする。

上記した構成によると、撮像部と抽出手段とを備えるため、動画像を構成する連続的な画像から、該画像の所定位置にある語句を示す語句情報を順次抽出することができる。つまり、語句情報を、動画像を構成する各画像から抽出することができるため、迅速に複数の語句情報を得ることができる。

ここで、語句情報とは所定位置にある語句に関連する情報であって、該語句に割り当てられている識別子であってもよいし、語句そのものを示すデータであってもよい。

また、決定手段を備えるため、例えば、上記格納部に語句情報が格納されていな状態において１つでも語句情報が格納されれば、該語句情報の語句を、認識結果として決定することができる。すなわち、本発明に係る情報処理装置は、語句の認識結果を迅速に決定することができる。

したがって、本発明に係る情報処理装置は、画像から迅速に文字を認識することができるという効果を奏する。

本発明に係る情報処理装置は、上記した構成において、上記格納部は、語句情報を所定数まで格納することができ、かつ当該格納部への語句情報の入出力方式が古く格納した順に取り出すようにする方式であってもよい。なお、語句情報を古く格納した順に取り出すようにする方式とは、例えばＦＩＦＯ（First - In First - Out)が挙げられる。

上記した構成によると、格納部において所定数まで上記語句情報を格納することができ、かつ当該格納部への語句情報の入出力方式が古く格納した順に取り出すようにする方式である。このため、格納部には、常に最新の所定数の語句情報が格納されていることとなる。

ここで、格納部において所定数の語句情報を格納することができる。このため、抽出手段が画像から誤った語句情報を抽出した場合であっても、決定手段が格納部に最も多く格納されている語句情報の語句を認識結果とするため、正確な語句の認識結果を得ることができる。

さらに、格納部には抽出手段により抽出された最新の語句情報が格納されている。このため、撮像部の撮影対象位置が変更され、動画像を構成する画像の所定位置にある語句が別の語句となる場合であっても、格納部において、所定数の半分以上の語句情報が新たな撮影対象位置の画像から取得した語句情報に置き換わった時点で、該語句情報を新たな語句の認識結果として決定することができる。ところで、語句情報は抽出手段によって動画を構成する、連続した画像から抽出されており、複数の語句情報を迅速に得ることができる。

それゆえ、本発明に係る情報処理装置は、大きな時間をかけることなく新たな語句の認識結果を決定することができる。

また、例えば、特許文献３のように３回以上の奇数回連続して画像を撮像し、各画像に対する文字認識の結果から最も発生頻度の高い認識結果を抽出する構成の場合、文字認識時における文字の切り出しを誤ったり、文字の認識誤りが多数発生したりすると、文字認識の結果の対応が取れなくなり、正確な文字の認識結果が得られないことがある。そこで、本発明に係る情報処理装置は、上記した構成において、画像から抽出する語句を示す語句情報のリストであるリスト情報を記憶するリスト情報記憶装置をさらに備え、上記抽出手段は、上記リスト情報を参照して、上記撮像部により撮影された動画像を構成する画像から上記所定位置における語句の語句情報を抽出するように構成されていることが好ましい。

すなわち、本発明に係る情報処理装置は、リスト情報記憶装置をさらに備え、抽出手段が、リスト情報を参照して、撮像部により撮影された動画像を構成する画像から語句の語句情報を抽出することができるため、文字の認識誤りを防ぐことができる。

よって、本発明に係る情報処理装置は、画像から迅速にかつ正確に語句を認識することができる。

また、本発明に係る情報処理装置は、上記した構成において、上記リスト情報は、語句と該語句を識別する識別子との対応関係を示すテーブルであり、上記抽出手段は、上記取得した画像から上記所定位置を含む文字列を抽出する文字列抽出手段と、上記文字列抽出手段によって抽出された文字列と、上記リスト情報記憶装置に記憶されたリスト情報とを照合し、所定位置における語句を特定する語句特定手段と、上記語句特定手段によって特定された語句を示す語句情報として、上記リスト情報を参照して上記特定された語句の識別子を取得する識別子取得手段とを備え、上記格納部は、上記語句情報として、上記識別子取得手段によって取得された上記識別子を格納するように構成されていてもよい。

上記した構成によると、上記格納部は、上記語句情報として、上記識別子取得手段によって取得された上記識別子を格納するように構成されている。つまり、リスト情報を参照して語句特定手段により特定された語句そのものではなく、その語句の識別子を格納部に格納している。このため、格納部に最も多く格納された語句を抽出する際に語句そのものを比較する必要はなく、識別子を比較するだけでよく、このため効率的に語句の抽出を行うことができる。

また、本発明に係る情報処理装置は、上記した構成において、上記語句特定手段は、上記文字列抽出手段によって抽出された文字列と、上記リスト情報記憶装置に記憶されたリスト情報とを動的計画法を利用して照合し、所定位置における語句を特定するように構成されていることが好ましい。

上記した構成によると、上記語句特定手段は、上記文字列抽出手段によって抽出された文字列と、上記リスト情報記憶装置に記憶されたリスト情報とを動的計画法を利用して照合する。

ところで、文字の認識には、誤って文字を認識したり、文字を欠落させて認識したり、ごみ等を文字と認識してしまい不要な文字を追加して認識したりする場合がある。このような文字の認識誤りが生じた場合、単純に抽出した文字列とリスト情報とを比較することができない。

本発明に係る情報処理装置は、抽出された文字列と、上記リスト情報記憶装置に記憶されたリスト情報とを動的計画法を利用して照合する構成であるため、上述した文字の認識誤りが発生する場合であっても類似度（比較する文字列どうしの距離）を計算して照合し、リスト情報の中から文字の認識結果と最も近い語句を抽出することができる。

また、本発明に係る情報処理装置は、上記した構成において、上記リスト情報では、上記語句に、少なくともこの語句の意味および読みのうちいずれか１つが対応づけられており、上記リスト情報から、上記決定手段により、認識結果として決定された語句に対応づけられた意味および読みのうち少なくても１つを取得する意味・読み取得手段と、上記意味・読み取得手段によって取得された上記語句の意味および読みのうちの少なくとも１つを出力する第１出力手段とを備えるように構成されていてもよい。

上記した構成によると、意味・読み取得手段が、リスト情報から、少なくとも語句に対応づけられた意味および読みのうちいずれか１つを取得することができる。このため、認識結果として決定された語句の、少なくとも意味および読みのうちいずれか１つを取得することができる。さらに、第１出力手段を備えているため、この取得した少なくとも意味および読みのうちいずれか１つを提供することができる。

また、本発明に係る情報処理装置は、上記した構成において、上記撮像部により撮影された動画像を表示する表示部をさらに備え、上記第１出力手段は、上記動画像に上記意味・読み取得手段によって取得された語句の意味および読みのうちの少なくとも１つを重畳させて表示させるように、上記表示部に出力するように構成されていてもよい。

上記した構成によると、表示部を備えるため、認識した語句の読み、および意味のうち少なくとも１つを表示させることができる。また、取得した動画像と重畳させて表示させるため、動画像において所定位置にある語句の読みや、意味を視覚的に把握することができる。

また、本発明に係る情報処理装置は、上記した構成において、ユーザからの入力を受け付ける操作受け付け部と、上記操作受け付け部におけるユーザからの入力の有無を検知する入力検知手段とを備え、上記入力検知手段がユーザからの入力を検知している間、第１出力手段が、上記意味・読み取得手段によって取得した上記語句の意味および読みのうちの少なくとも１つを表示部に出力し続けるように構成されていてもよい。

上記した構成によると入力検知手段がユーザからの入力を検知している間、第１出力手段が、語句の意味および読みのうちの少なくとも１つを表示部に出力し続けることができる。すなわち、語句の意味および読みのうちの少なくとも１つを表示部において固定して表示させることができる。

ところで、本発明に係る情報処理装置は、撮像部により撮影した動画像を構成する画像からリアルタイムに文字の認識を行う構成である。このため、撮像部の撮像対象位置が移動してしまうと、その移動にともなって認識対象となる文字も別の文字に切り替わってしまう。

そこで、上述のように語句の意味および読みのうちの少なくとも１つを表示部において固定して表示させることができる構成とすることで、撮像部の姿勢に影響されることなくユーザは所望する語句の、意味および読みのうちの少なくとも１つを確認することができる。

また、本発明に係る情報処理装置は、上記した構成において、上記抽出手段により抽出された上記語句情報を、該語句情報を利用して特定の処理を実行する特定処理部に出力する第２出力手段を備え、上記操作受け付け部は、ユーザからの入力を、第１入力段階と第２入力段階との異なる入力段階で受け付け可能となっており、上記入力検知手段が上記第１入力段階での入力である第１入力を検知している間、上記第１出力手段は、上記意味・読み取得手段によって取得された上記語句の意味および読みのうちの少なくとも１つを表示部に出力し続け、上記検知手段が上記第１入力が第２入力段階での入力である第２入力に切り替わったことを検知した場合、第２出力手段が、上記語句の語句情報を上記特定処理部に出力するように構成されていてもよい。

ここで、第１入力段階と第２入力段階との異なる入力段階とは、例えば、操作受け付け部が半押しと全押しの異なる押下状態を実現できる操作ボタンである場合、この押下状態の違いなどで区別される入力段階が挙げられる。

上記構成によると、上記入力検知手段が上記第１入力を検知している間、上記第１出力手段は、上記意味・読み取得手段によって取得された上記語句の意味および読みのうちの少なくとも１つを表示部に出力し続け、上記検知手段が上記第１入力が第２入力に切り替わったことを検知した場合、第２出力手段が、上記語句の語句情報を上記特定処理部に出力する。このため、第１入力段階から第２段階へと入力段階が遷移することで、段階的に当該情報処理装置における異なる処理を実行させることができる。

また、本発明に係る情報処理装置は、上記した構成において、上記文字列抽出手段により抽出された文字列を記憶する文字列記憶装置とをさらに備え、上記入力検知手段がユーザからの入力を検知すると、文字列抽出手段は、上記画像から抽出した文字列を上記文字列記憶装置に記憶し、さらに画像から新たな文字列を抽出した場合、この新たに抽出した文字列に上記文字列記憶装置に記憶している文字列を上書きして結合文字列を生成しており、上記語句特定手段は、上記結合文字列と上記リスト情報記憶装置に記憶されたリスト情報とを照合するように構成されていてもよい。

上記した構成によると、操作受け付け部および入力検知手段とを備えるため。操作受け付け部によりユーザからの操作を受け付けたか否か把握することができる。そして、ユーザからの操作受け付け部に対する入力を検知した場合、文字列抽出手段により抽出した文字列を文字列記憶装置に記憶させ、新たに抽出した文字列にこの記憶した文字列を上書きすることができる。

ここで、新たに抽出した文字列に文字列記憶装置に記憶させた文字列を上書きする構成である。このため、例えば改行等により行末と次の行頭とに分断された語句を結合して認識することができる。

また、本発明に係る情報処理装置は、上記した構成において、文字列抽出手段は、文字列に含まれる所定位置を基準にして、新たに抽出した文字列に上記文字列記憶装置に記憶している文字列を上書きして結合文字列を生成するように構成されていてもよい。

また、本発明に係る情報処理装置は、上記した構成において、上記抽出手段は、画像の所定位置にある語句として、該画像を上記表示部にて表示した際に、該表示部の表示領域の中心座標位置近傍に表示される語句を示す語句情報を抽出するように構成されていてもよい。

また、本発明に係る情報処理装置は、上記した構成において、上記表示部の表示領域における物理的接触を検知する検知手段をさらに備え、上記抽出手段は、画像の所定位置にある語句として、該画像を上記表示部にて表示した際に、該表示部の表示領域において上記検知手段によって検知された位置に表示される語句を示す語句情報を抽出するように構成されていてもよい。

ここで検知手段によって検知される物理的接触とは、例えば、ユーザの指によるタッチや、ペンなどによるタッチなどの物理的な接触が挙げられる。

上記構成によると、上記抽出手段は、検知手段による検知位置、すなわち物理的接触があった位置に表示される語句を示す語句情報を抽出する構成である。このため、表示部に表示された画像を見ながら指でタッチするなどして語句情報を抽出したい語句をユーザが自由に選択することができる。

また、本発明に係る情報処理装置は、上記した構成において、上記格納部が格納できる語句情報の所定数は、上記撮像部が撮影した動画のフレームレートの１／５〜１倍となることが好ましい。

ところで、格納部に格納できる語句情報の所定数は、撮像部による撮影対象位置の変更に伴う、新たな語句の認識結果の決定に係る速度に関係する。本発明に係る情報処理装置は、格納部において、所定数の半分以上の語句情報が新たな撮影対象位置の画像から取得した語句情報に置き換わった時点で、該語句情報を新たな語句の認識結果として決定することができる。

そこで、上記格納部が格納できる語句情報の所定数を、上記撮像部が撮影した動画のフレームレートの１／５〜１倍とすると最大でも約０．１から０．５秒の遅延で新たな語句の認識結果を決定することができる。このため、新た語句の認識結果の決定までに大きな時間がかかりユーザに負担をかけることを防ぐことができる。

本発明に係る情報処理装置の制御方法は、上記した課題を解決するために、撮像部と格納部とを備え、画像から語句の認識を行う情報処理装置の制御方法であって、上記撮像部により動画像を撮影する撮像ステップと、上記撮像ステップにおいて撮影された動画像を構成する連続した画像を順次取得し、該画像の所定位置にある語句を示す情報である語句情報を抽出する抽出ステップと、上記抽出ステップにおいて抽出した語句情報を上記格納部に格納する格納ステップと、上記格納部において最も多く格納されている語句情報の語句を認識結果として決定する決定ステップと、を含むことを特徴とする。

上記した方法によると、抽出ステップを含むため、撮像部により撮影された動画像を構成する連続的な画像から、該画像の所定位置にある語句を示す語句情報を順次抽出することができる。つまり、語句情報を、動画像を構成する各画像から抽出することができるため、迅速に複数の語句情報を得ることができる。

また、決定ステップを含むため、例えば、上記格納部に語句情報が格納されていな状態において１つでも語句情報が格納されれば、該語句情報の語句を、認識結果として決定することができる。すなわち、本発明に係る情報処理装置の制御方法では、語句の認識結果を迅速に決定することができる。

したがって、本発明に係る情報処理装置の制御方法では、画像から迅速に文字を認識することができるという効果を奏する。

なお、上記情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記情報処理装置をコンピュータにて実現させる情報処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明に係る情報処理装置は、以上のように、画像から語句の認識を行う情報処理装置であって、動画像を撮影する撮像部と、上記撮像部により撮影された動画像を構成する連続した画像を順次取得し、該画像の所定位置にある語句を示す情報である語句情報を抽出する抽出手段と、上記抽出手段によって抽出した語句情報を格納する格納部と、上記格納部において最も多く格納されている語句情報の語句を認識結果として決定する決定手段と、を備えることを特徴とする。

本発明の実施形態を示すものであり、辞書機能に係る携帯電話機のソフトウェア構成を示すブロック図である。本発明の実施形態を示すものであり、携帯電話機の外観の一例を示す図である。本発明の実施形態を示すものであり、携帯電話機の外観の一例を示す図である。本発明の実施形態を示すものであり、携帯電話機の要部構成を示すブロック図である。本発明の実施形態を示すものであり、辞書テーブルの一例を示す図である。本発明の実施形態を示すものであり、所定位置近傍にある、文字列から抽出された語句に、該語句の読み、および意味を併記した表示状態の一例を示す図である。本発明の実施形態を示すものであり、ＤＰマッチングの概略を説明する図である。本発明の実施形態を示すものであり、ＤＰマッチングにおける各ノード、およびノード間パスの距離値の関係の一例を示す図である。本発明の実施形態を示すものであり、ＦＩＦＯバッファにおけるデータの格納状態の一例を示す図である。本発明の実施形態を示すものであり、ＦＩＦＯバッファにおけるデータの格納状態の一例を示す図である。本発明の実施形態を示すものであり、ＦＩＦＯバッファにおけるデータの格納状態の一例を示す図である。本発明の実施形態を示すものであり、ＦＩＦＯバッファにおけるデータの格納状態の一例を示す図である。本発明の実施形態を示すものであり、ＦＩＦＯバッファにおけるデータの格納状態の一例を示す図である。本発明の実施形態を示すものであり、辞書機能に関する処理フローの一例を示すフローチャートである。本発明の実施形態を示すものであり、所定位置近傍にある、文字列から抽出された語句に、該語句の読み、および意味を併記した表示状態の一例を示す図である。本発明の他の実施形態を示すものであり、辞書機能に係る携帯電話機のソフトウェア構成を示すブロック図である。本発明の他の実施形態を示すものであり、辞書機能に関する処理フローの一例を示すフローチャートである。本発明の他の実施形態を示すものであり、所定位置近傍にある、文字列から抽出された語句に、該語句の読み、および意味を併記した表示状態の一例を示す図である。本発明の他の実施形態を示すものであり、所定位置近傍にある、文字列から抽出された語句に、該語句の読み、および意味を併記した表示状態の一例を示す図である。本発明の他の実施形態を示すものであり、保存された文字列、今回取得した文字列、それらを結合した結合文字列の関係を示す図である。本発明の他の実施形態を示すものであり、保存された文字列、今回取得した文字列、それらを結合した結合文字列の関係を示す図である。本発明の他の実施形態を示すものであり、保存された文字列、今回取得した文字列、それらを結合した結合文字列の関係を示す図である。本発明の他の実施形態を示すものであり、保存された文字列、今回取得した文字列、それらを結合した結合文字列の関係を示す図である。本発明の他の実施形態を示すものであり、辞書機能に係る携帯電話機のソフトウェア構成を示すブロック図である。本発明の他の実施形態を示すものであり、携帯電話機の辞書機能に関する処理フローを示すフローチャートである。本発明の他の実施形態を示すものであり、情報提供処理部が有する機能をユーザが選択するための表示画面の一例を示す図である。

（実施の形態１）
本発明の実施の一形態について図１〜図１３に基づいて説明すれば、以下のとおりである。本実施の形態に係る携帯電話機１は、利用者により携行され、基地局を介して他の電話機と通話を行ったりメールを送受信したりすることができる電話機である。この携帯電話機１は、上述した通話を行う機能（通話機能）、メールを送受信する機能（メール機能）に加えて、撮像部８により静止画像または動画像を取得する機能（撮像機能）も有している。さらにまた、インターネット等の通信ネットワークに接続したり、該通信ネットワークを通じて他の装置と通信を行ったりすることもできる。

そして、詳細は後述するが、本実施の形態に係る携帯電話機１は、取得した動画像から特定の語句を認識し、該語句の意味および読みを動画像に重畳させて表示すること（辞書機能）ができるようにも構成されている。

なお、携帯電話機１が有する機能は上記した通話機能、メール機能、撮像機能、および辞書機能に限定されるものではなく、例えば、放送波を受信するアンテナを備え、該アンテナを介して受信した放送波に基づきテレビ放送を出力するテレビ機能など他の機能を備えていてもよい。

上記携帯電話機１は、図２、３に示すように上面に操作部６およびマイク９、背面に撮像部８、その内部に通信用アンテナ５（図２、３では図示せず）を有する操作本体部２と、上面に表示部７、スピーカ１０を有する表示画面部３と、これら操作本体部２と表示画面部３とを接続するヒンジ部４とを備えてなる構成である。

なお、表示画面部３と操作本体部２との間は有線で結ばれており、操作本体部２から出力された制御信号等を表示画面部３にて受付けることができる。この図２、３は、本発明の実施形態を示すものであり、携帯電話機１の外観の一例を示す図である。

携帯電話機１は、例えば他の電話機との間で通話を行う場合、スピーカ１０より音声を出力し、マイク９より音声を入力することができる。また、携帯電話機１は、操作部（操作受け付け部）６により各種制御指示等を入力することができる。

さらにまた、携帯電話機１は、表示部７において各種情報を示すテキストデータや画像データ、動画等のデジタルコンテンツを表示させることができるように構成されている。

操作部６は、テンキー６１および十字キー６２から構成されており、本実施形態（実施形態１）では、テンキー６１、十字キー６２、あるいはこれらの組み合わせにより各種情報の設定を行ったり、各種アプリケーションの起動・停止指示等を指示したりすることができる。また、本実施の形態に係る携帯電話機１では、この操作部６を操作して撮像部８を起動させ、取得した動画像に含まれる特定の語句についてその意味と読みを表示することができるように構成されている。

表示部７は、例えばＬＣＤ（Liquid Crystal Display）等によって実現することができる。

撮像部８は、ＣＣＤ（charge coupled device）やＣＭＯＳによって構成され、これによって動画像または静止画像を撮影することができる。撮像部８は、１秒あたり１５から３０フレーム以上の動画を撮像することができる。なお、詳細は後述するが携帯電話機１では、主制御部１５が、この撮像部８によって撮像した動画像の各画像（フレーム）を解析し、該画像において所定位置にある語句を抽出し、抽出した語句の読み、および意味を出力することができるようになっている。

（携帯電話機のハードウェア構成）
次に、上記した携帯電話機１のハードウェア構成の詳細について図４を参照して説明する。図４は、本発明の実施形態を示すものであり、携帯電話機１の要部構成を示すブロック図である。

図４に示すように、本実施の形態に係る携帯電話機１は、上記したヒンジ部４、通信用アンテナ５、操作部６、表示部７、撮像部８、マイク９、およびスピーカ１０に加えて、さらに無線通信処理部１１、信号処理部１２、表示ドライバ１３、記憶装置（リスト情報記憶装置）１４、主制御部１５、およびＦＩＦＯバッファ（格納部）１６を備えてなる構成である。

まず、記憶装置１４が保持する各種情報について説明する。なお、この記憶装置１４は、読み書き可能な記憶装置であり、例えば、フラッシュメモリ、ハードディスク等によって実現することができる。この記憶装置１４には、図４に示すように、辞書テーブル（リスト情報）７０および所定位置情報７１が記憶されている。

辞書テーブル７０は、動画像の各画像（フレーム）から抽出した語句、該語句のＩＤ、該語句の読み、および意味に関する情報を含むテーブルである。辞書テーブル７０では、図５に示すように語句を識別するためのＩＤ、語句、その語句の読みおよび意味それぞれが対応づけられて記録されている。図５は本発明の実施形態を示すものであり、辞書テーブル７０の一例を示す図である。

また、所定位置情報７１は、意味および読みを出力する語句を決定するために基準とする情報である。より具体的には、本実施形態では、取得した画像を表示部７にて表示させた際、表示画面における中心座標の位置に関する情報となる。

主制御部１５は、携帯電話機１が備える各部の各種制御を行うものであり、例えばＣＰＵ等によって実現することができる。ここで、主制御部１５が、ＣＰＵ等によって実現される場合、該ＣＰＵが、不図示のＲＯＭ等に記憶しているシステムプログラムを不図示のＲＡＭ等に読み出し実行することにより、当該携帯電話機１が有する各部を制御することができる。

そして、このように構成された携帯電話機１では、以下のようにして、各種機能を実行する。すなわち、携帯電話機１では、無線通信処理部１１による送受信制御のもとに、通信用アンテナ５を介して基地局（不図示）との信号の送受信を行い、信号処理部１２が送受信される信号に対して所定の信号処理を施す。これによって、携帯電話機１では、基地局を介して相手側装置（他の電話機）から送信されてくる音声をスピーカ１０から出力したり、マイク９から入力される音声を、基地局を介して相手側装置に送信したりする、いわゆる通話機能を実現する。

さらにまた、上記携帯電話機１では、上記通信用アンテナ５を介して基地局との間でメールデータの送受信を行い、該基地局と通信可能に接続されたサーバ等からメールデータを受信したり、メールデータを送信したりする、いわゆるメール機能を実現することもできる。

また、主制御部１５からの制御指示に応じて、撮像部８が起動し、静止画像または動画像を取得する。そして、取得した静止画像または動画像を記憶装置１４に格納したり、表示ドライバ１３に出力して表示部７において表示したりする、いわゆる撮像機能を実現する。

辞書機能を実行するために撮像部８を起動させる場合は、撮像部８により撮影された画像から抽出した語句のＩＤを、主制御部１５の制御指示に応じてＦＩＦＯバッファ１６に入力する。

ＦＩＦＯバッファ１６は、取得した画像（フレーム）から抽出した語句のＩＤを古く格納した順に取り出すように入出力を行う、いわゆる先出し先入れバッファである。

詳細は後述するが、本実施の形態に係る携帯電話機１では、辞書機能を実行する場合、主制御部１５からの制御指示に応じて、画像から抽出した語句のＩＤを順次ＦＩＦＯバッファ１６に入力する。そして、１画像（フレーム）が撮像部８から入力される度に、主制御部１５では、該画像から語句を抽出し、抽出した語句のＩＤをＦＩＦＯバッファ１６に格納する。そして、ＦＩＦＯバッファ１６を探索して格納されているＩＤのうち最も出現頻度が高いＩＤ（最頻値となるＩＤ）の語句の読み、および意味を表示ドライバ１３に出力する。そして、表示ドライバ１３は、入力された語句の読み、および意味を、撮像部８により撮影されている動画像に重畳させて表示部７に表示させるように構成されている。

次に、本実施の形態に係る携帯電話機１における上述した辞書機能の詳細について説明する。まず、「辞書機能に関するソフトウェア構成」について、図１を参照して説明する。図１は、本発明の実施形態を示すものであり、辞書機能に係る携帯電話機１のソフトウェア構成を示すブロック図である。

（辞書機能に関するソフトウェア構成）
まず図１を参照して辞書機能に関するソフトウェア構成について説明する。図１に示すように、本実施の形態に係る携帯電話機１では、主制御部１５が辞書機能を実行処理するものとして辞書機能処理部２０を備えている。そして、辞書機能処理部２０は、機能ブロックとして、文字列取得部（文字列抽出手段）２１、文字列照合部（語句特定手段）２２、語句ＩＤ取得部（識別子取得手段）２３、認識決定部（決定手段）２４、および語句情報取得部（意味・読み取得手段、第１出力手段）２５を備えてなる構成である。なお、これらの機能ブロックは、辞書機能処理部２０が例えば、ＣＰＵ等によって実現できる場合、該ＣＰＵが不図示のＲＯＭに格納したプログラムを不図示のＲＡＭに読み出し、実行することにより実現できる。また、文字列取得部２１と文字列照合部２２と語句ＩＤ取得部２３とによって本発明の抽出手段を実現する。

文字列取得部２１は、操作部６からの指示に応じて、撮像部８により撮像した動画像を構成する連続する画像（フレーム）それぞれにおいて文字の認識処理を行うものである。そして、文字列取得部２１は、所定位置情報７１を参照して、認識した文字のうち画像の所定位置を含む文字列を取得する。つまり、文字列取得部２１は、撮像部８により取得した動画像の各画像において、行間や文字の並びから行を抽出する。そして文字を切り出し文字の認識を行う。さらに文字列取得部２１は、画像の所定位置を含む文字列を取得する。

なお、画像の所定位置とは、本実施形態では、取得した画像を表示部７にて表示させた際、表示画面における中心座標の位置とする。より具体的には、例えば図６に示すような画像を取得した場合、表示部７の表示画面における中心座標（０，０）が所定位置となる。そして、所定位置を含む文字列は、中心座標を含む文字列、すなわち「る農場の杜撰な管理によ」となる。文字列取得部２１は、文字列を取得すると、この取得した文字列を文字列照合部２２に送信する。図６は本発明の実施形態を示すものであり、所定位置近傍にある、文字列から抽出された語句に、該語句の読み、および意味を併記した表示状態の一例を示す図である。

文字列照合部２２は、文字列取得部２１により取得された文字列から意味、および読みを表示させる語句を選択するものである。文字列照合部２２は、文字列取得部２１により取得された文字列（入力文字列）と、辞書テーブル７０に格納された参照文字とをＤＰ（Dynamic Programming：動的計画法）マッチングを用いてマッチングさせる。そして、マッチングした語句（文字列）の中から意味・読みを出力する語句（文字列）を特定する。より具体的には、以下のようにして辞書テーブル７０を利用して照合を行う。

まず、図７により本実施形態にて利用するＤＰマッチングについての概略を説明する。図７は本発明の実施形態を示すものであり、ＤＰマッチングの概略を説明する図である。文字列照合におけるＤＰマッチングでは、入力文字列と参照文字との間で対応をとるとき、図７に示すように累積距離値が最小値となる経路を求める。ここで累積距離値とは、始端から終端まで経路を辿るとき、入力文字列と参照文字との一致度合いを示す各ノード（交点）の距離値と、入力文字列と参照文字の対応関係を示すパス（辺）の距離値とを累積したものである。

なお、参照文字は入力文字列における一部分である。このため、始端、終端をフリーとし、始端と終端とのノードの距離値、および始端から出るパス、終端に入るパスの距離値を０とする。

ところで、ＤＰマッチングを用いて、入力文字列から辞書テーブル７０に登録されている語句を探索する場合、この探索する語句の長さは同じではない。そこで、累積距離値を語句の長さで割った値が最小となる語句を探索する。なお、文字列取得部２１によって取得された文字列が図６に示す「る農場の杜撰な管理によ」であり、辞書テーブル７０には、「農場」、「杜撰」、「管理」という参照文字が登録されているとする。この場合、全ての語句（「農場」、「杜撰」、「管理」）について同じ累積距離値となってしまう。このように累積距離値が同じ語句が複数存在する場合は、文字列照合部２２は、所定位置情報７１を参照して、本実施形態では表示画面における所定位置に最も近い語句（「杜撰」）を選択する。

また、文字列取得部２１によって取得した文字列が「go as soon as possible」を含む文字列であり、「所定の位置」が「soon」の位置だったとする。このとき「soon」が辞書テーブル７０に格納されていれば「soon」の累積距離値は０となるが、「as soon as」という熟語も辞書テーブル７０に格納されていればこちらの累積距離値も０となる。このように同じ累積距離値の語句が見つかった場合、本実施形態では長さが長いものを優先するように規定しているため、このため、文字列照合部２２は、文字列取得部２１によって取得した文字列からは「as soon as」という語句を抽出することとなる。このため、ユーザは辞書を引くときに「as」なのか「soon」なのかを気にすることなく、所望の意味（和訳）を得ることができる。

次に図８を用いて、本実施の形態で用いるＤＰマッチングの詳細について説明する。図８は本発明の実施形態を示すものであり、ＤＰマッチングにおける各ノード、およびノード間パスの距離値の関係の一例を示す図である。

ノード(i,j)における累積距離値をF(i,j)とすると、数式（１）のように求めることができる。

ここで、数式（１）において、d(i,j)はノード(i,j)における入力文字列と参照文字との距離（一致度）である。なお、この距離は完全一致する場合「０」、一致しない場合値「Ｋ」というように２値を設定してもよいし、例えば「社」と「杜」のように類似文字では文字が一致していなくても、他の一致しない文字よりは小さい値（「０」により近い値）を設定するように構成されていてもよい。また、文字列取得部２１において文字認識を行った際の第２位以下の候補文字についても同様の値を設定するようにしてもよい。

また、数式（１）においてq(i-1,j)はノード(i-1,j)からノード(i,j)へのパスの距離値であり、このパスは入力文字列に重複や、ゴミを含む場合に相当する。p(i,j-1)はノード(i,j-1)からノード(i,j)へのパスの距離値であり、このパスは入力文字列に欠落がある場合に相当する。ノード(i-1,j-1) からノード(i,j)へのパスについては入力文字列と参照文字列との対応が取れている場合に相当するため、数式（１）におけるパスの距離は０としている。文字認識の認識率は１００％ではないため、文字を余分に認識したり、欠落したりしてしまうことも起こり得るが、ＤＰマッチングを用いることでそれらを加味して、入力文字列と参照文字列との累積距離値を求めることができる。なお、空白文字（スペース）は他の文字とは異なり、文字の形状ではなく、文字間の隙間を認識するだけであるため、余分に認識してしまったり、欠落してしまったりすることが起こりやすい。そこで、ノード(i,j)の入力文字が空白文字（スペース）で参照文字がそれ以外のときにはq(i-1,j)を、ノード(i,j)の参照文字が空白文字で入力文字がそれ以外のときにはp(i,j-1)を通常よりも小さい値に設定し、空白文字の誤認識の影響が小さくなるようにしてもよい。本実施の形態ではＤＰマッチングに図１３および式１のようなモデルを用いたが、別のモデルを用いてもよい。文字列照合部２２は、文字列取得部２１により取得された文字列から意味、読みを表示させる語句を選択すると、選択した語句についての情報を語句ＩＤ取得部２３に通知する。

このように、本実施の形態に係る携帯電話機１では、文字列照合部２２が、文字列取得部２１により取得された文字列（入力文字列）と、辞書テーブル７０に格納された参照文字とをＤＰ（Dynamic Programming：動的計画法）マッチングを用いてマッチングさせる。つまり、文字の認識において誤認識、切り出し間違いによる文字の分断、欠落など、様々な要因で誤りを含んだ入力文字列から辞書テーブル７０に格納されている最も近い文字列を抽出するためにＤＰマッチングを用いている。このため、誤りを含んだ入力文字列であっても類似度（比較する文字列どうしの距離）を計算して照合し、辞書テーブル７０の中から文字の認識結果と最も近い語句を抽出することができる。

なお、本実施形態では、画像から文字列取得部２１が文字列を取得し、文字列照合部２２が取得した文字列の中から、辞書テーブル７０に格納された参照文字とマッチングする語句を選択し、選択した語句の中から意味・読みを出力する語句を特定する処理を語句の認識処理と称する。

語句ＩＤ取得部２３は、文字列照合部２２からの、選択した語句についての情報の通知を受けると、該語句のＩＤを辞書テーブル７０から読み出し、ＦＩＦＯバッファ１６に出力するものである。語句ＩＤ取得部２３は、選択した語句のＩＤをＦＩＦＯバッファ１６に出力する際、その出力タイミングを通知するタイミング情報を認識決定部２４に送信する。

認識決定部２４は、語句ＩＤ取得部２３からタイミング情報を受け付けると、ＦＩＦＯバッファ１６において格納されているＩＤのうち最も多いＩＤを取得する。すなわち、認識決定部２４は、ＦＩＦＯバッファ１６においてＩＤの出現頻度を比べ最頻値をとるＩＤを取得する。そして、取得したＩＤに対応する語句を、語句の認識処理に係る認識結果として決定するものである。認識決定部２４は、認識結果として決定した語句のＩＤを語句情報取得部２５に通知する。なお、認識決定部２４による「語句の認識結果の決定処理」についての詳細は後述する。

語句情報取得部２５は、認識決定部２４からの通知に応じて、受信した語句のＩＤに対応する読み、または意味を辞書テーブル７０から取得するものである。語句情報取得部２５は、取得した読み、または意味を表示ドライバ１３に送信し、撮像部８で取得している動画像における対応するする語句上に重畳させて表示するように指示する。なお、表示ドライバ１３は、語句情報取得部２５からの指示に応じて、例えば図６に示すように所定位置にある語句にその意味または読みを併記する形で表示するように制御する。

（語句の認識結果の決定処理）
次に、上記した「語句の認識結果の決定処理」について図９〜図１３を参照して説明する。なお、本実施の形態に係る携帯電話機１が備えるＦＩＦＯバッファ１６は、データを格納する深度が８であるものとして説明する。また、図９から図１３は、本発明の実施形態を示すものであり、ＦＩＦＯバッファ１６におけるデータの格納状態の一例を示す図である。

ＦＩＦＯバッファ１６は、初期状態では語句ＩＤ取得部２３から入力された語句のＩＤが無いため、図９に示すようにＩＤを格納すべき欄（記憶領域）はすべて値「０」が設定されている。なお、本実施形態では、ＩＤ＝「０」は、語句ＩＤ取得部２３から入力された語句のＩＤがないことを示しており、「認識した語句なし」を意味する。

ここで、撮像部８が１フレームの画像を取得し、この画像に対する文字列取得部２１および文字列照合部２２による語句の認識処理に基づき、語句ＩＤ取得部２３が該画像において所定位置にある語句のＩＤ（＝「２２２２」）を取得したとする。そして、この取得したＩＤを語句ＩＤ取得部２３がＦＩＦＯバッファ１６に出力すると、ＦＩＦＯバッファ１６は図１０に示すような状態となる。すなわち、出力順番が１番となる位置に格納された「０」が出力され、出力順番が２番から８番となる位置に格納された「０」がそれぞれ出力順番１から７番となる位置に繰り上がる。そして、語句ＩＤ取得部２３から受信したＩＤが、出力順番が８番目となる位置に格納される。なお、図９および図１０は本発明の実施形態を示すものであり、ＦＩＦＯバッファ１６におけるデータの格納状態の一例を示すものである。

このようにデータ（語句のＩＤ）が格納された状態で認識決定部２４は、ＦＩＦＯバッファ１６において格納されているＩＤのうち最も多いＩＤを取得する。ここで、格納されている値「０」は、無視するものとする。このため、この時点でＦＩＦＯバッファ１６において格納されているＩＤのうち最も多いＩＤは、「２２２２」となる。したがって、認識決定部２４は、語句の認識結果として「２２２２」を取得する。

このように、本実施の形態に係る携帯電話機１は、撮像部８が新たに画像を取得すると即座に表示部７に該画像において認識した文字の読み、または意味を出力し表示させることができる。

ところで、撮像部８によって取得した動画像を構成する各画像に対して実施される語句の認識処理による認識結果は、すべてが正確とは言えず、誤った文字列から不適切な語句を、認識処理の結果として取得する場合がある。例えば、携帯電話機１が、ＩＤが「２２２２」となる語句を所定位置に含む画像を連続的に取得しているとする。しかしながら、語句の認識処理において、数画像に１画像の割合で所定位置にある語句を、ＩＤが「１２１２」である語句と誤って認識し、ＦＩＦＯバッファ１６に格納されたＩＤが例えば図１１に示すようになる場合がある。なお、図１１は、本発明の実施形態を示すものであり、ＦＩＦＯバッファ１６におけるデータの格納状態の一例を示すものである。

ここで認識決定部２４は、ＦＩＦＯバッファ１６に格納されているＩＤで最も多いＩＤを文字列認識の認識結果として決定する構成となっている。このため、図１１に示すように、ＦＩＦＯバッファ１６に格納されたＩＤに、文字列取得部２１による誤った認識結果を含む場合であっても認識決定部２４は、該ＦＩＦＯバッファ１６に格納されているＩＤで最も多いＩＤを語句の認識結果として決定することができる。

したがって、本実施の形態に係る携帯電話機１は、表示画面の所定位置にある語句について安定してその意味または読みを表示させることができる。

なお、上記では、語句の認識処理を行っていない状態から、撮像部８が動画像の撮影を開始する。そして、１フレーム分の画像における所定位置にある語句が取得され、該語句に対応するＩＤがＦＩＦＯバッファ１６に格納されると、該語句を認識結果として決定する構成であった。

しかしながら、上述のように本実施の形態に係る携帯電話機１における語句の認識処理の認識結果は誤りを含む可能性がある。このため、最初に撮像部８から入力された画像に対する、語句の認識処理の認識結果が誤っている場合、携帯電話機１はこの誤った語句の読み、および意味を表示することとなる。

そこで、安定して正確な語句の読み、および意味を表示できるようにするため、ＦＩＦＯバッファ１６に格納されているＩＤについて、語句の認識結果として決定するＩＤの最頻値に下限を設ける構成としてもよい。例えば、ＦＩＦＯバッファ１６において、共通するＩＤが３つ以上格納されていない場合は最頻値となるＩＤを取得せず、語句の認識結果を決定しないように構成する。

また、上記では、所定位置に表示された、ある特定の語句についての認識結果の決定処理について説明した。携帯電話機１は任意に撮影対象位置を変更できるため、当然、所定位置に表示する語句も変更することができる。

以下において、文字列（語句）の認識処理対象の変更に伴う認識結果の決定処理について説明する。

まず、前提として表示部７の表示画面における所定位置に「杜撰」（語句のＩＤ＝「２２２２」とする）という文字列を表示するようにユーザが携帯電話機１を保持しているものとする。この状態から撮像部８の撮像対象位置を変更し、表示画面における所定位置に「管理」（語句ＩＤ＝「１１１１」とする）という語句を表示するようにユーザが携帯電話機１を移動させるものとする。

このような撮像対象位置の変更にともない、ＦＩＦＯバッファ１６に格納されたＩＤの格納状態は、図１２、図１３と遷移していく。すなわち、図１２、１３に示すように、新たに語句のＩＤ「１１１１」がＦＩＦＯバッファ１６に入力されるにつれ、先に格納されていた語句のＩＤ「２２２２」が出力される。すなわち、図１２における１から８のうちその約半分の５から８までが「２２２２」に書き換えられると、語句のＩＤ「１１１１」の数が格納されている語句のＩＤ「２２２２」の数を上回るように変化する。そして、ＦＩＦＯバッファ１６において、語句のＩＤ「１１１１」の数が語句のＩＤ「２２２２」の数を上回ると、語句のＩＤ「１１１１」の意味および読みが、語句のＩＤ「２２２２」の意味および読みの表示に書き換わる。

（辞書機能に関する処理フロー）
次に上記した構成を有する携帯電話機１における、辞書機能に関する処理フローについて、図１４を参照して説明する。図１４は、本発明の実施形態を示すものであり、辞書機能に関する処理フローの一例を示すフローチャートである。

まず、撮像部８が撮像を開始する。つまり、ユーザが携帯電話機１において操作部６を操作して、撮像部８を起動させるとともに、主制御部１５に対して辞書機能の実行を指示する。そして、表示部７の表示画面における所定位置に、意味、および読みを表示させたい語句が表示されるように携帯電話機１を移動させる。

このようにして、撮像部８は所望の語句が表示部７の表示画面における所定位置に表示されるように動画像を撮像する（ステップＳ１０、これ以降はＳ１０のように称する）。撮像部８は、撮像した動画像を構成する連続する画像（フレーム）ごとに文字列取得部２１に出力する。

文字列取得部２１は、操作部６からの上記指示に応じて、撮像部８から入力された画像に対して文字認識を行い（Ｓ１１）、文字認識の認識結果に基づき所定位置を含む文字列を認識する（Ｓ１２）。つまり、文字列取得部２１は、撮像部８により取得した動画像の各画像において、行間や文字の並びから行を抽出する。そして文字を切り出し文字の認識を行う。さらに、文字列取得部２１は、画像から所定位置を含む文字列を取得する。文字列取得部２１は、文字列を取得すると、この取得した文字列を文字列照合部２２に送信する。

文字列照合部２２は、文字列取得部２１により抽出された文字列（入力文字列）と、辞書テーブル７０に格納された参照文字とをＤＰマッチングを用いてマッチングさせる。そして、マッチングした語句の中から意味、および読みを出力する語句を特定する（Ｓ１３）。文字列照合部２２は、特定した語句についての情報の通知を語句ＩＤ取得部２３に送信する。

語句ＩＤ取得部２３は、文字列照合部２２からの通知を受けると、通知された語句のＩＤを辞書テーブル７０から読み出し、ＦＩＦＯバッファ１６に出力する。語句ＩＤ取得部２３は、選択した語句のＩＤをＦＩＦＯバッファ１６に出力する際、その出力タイミングを通知するタイミング情報を認識決定部２４に送信する。

認識決定部２４は、語句ＩＤ取得部２３からタイミング情報を受け付けると、ＦＩＦＯバッファ１６において格納されているＩＤのうち最も多いＩＤを取得する。すなわち、認識決定部２４は、ＦＩＦＯバッファ１６においてＩＤの出現頻度を比べ最頻値をとるＩＤを取得する（Ｓ１４）。そして、取得したＩＤに対応する語句を語句の認識結果として決定し、決定した語句のＩＤを語句情報取得部２５に通知する。

語句情報取得部２５は、認識決定部２４からの通知に応じて、受信した語句のＩＤに対応する読み、および意味を辞書テーブル７０から取得し、表示ドライバ１３に送信する。そして、表示ドライバ１３は、語句情報取得部２５からの受信した語句の意味または読みを表示部７に表示させる（Ｓ１５）。

ここで、ユーザから辞書機能の停止指示が操作部６によって入力されない間、すなわち、ステップＳ１６において「ＮＯ」の間は、ステップＳ１０からステップＳ１５までの処理を繰り返す。一方、操作部６から辞書機能の停止指示が入力された場合、すなわちステップＳ１６において「ＹＥＳ」の場合、撮像部８の起動を停止し、辞書機能の実行を停止させる。

（実施形態２）
次に、図１６から図２３に基づいて、実施形態２に係る携帯電話機１について説明する。実施形態２に係る携帯電話機１は、実施形態１に係る携帯電話機１において文字列の認識処理を実行する際に、操作部６における所定の操作ボタンを押下した状態にある間は、撮像部８の撮像位置が多少位置ずれしたとしても安定した認識結果が得られるように構成されている点で相違する。また、意味および読みを出力させたい語句が改行により分断されている場合、行頭部分の文字列と行末部分の文字列とを結合させた結合文字列を生成し、この結合文字列から語句を抽出することができるように構成されている点でも相違する。

より具体的には、実施形態２に係る携帯電話機１は、図１６に示すように、実施形態１に係る携帯電話機１の構成において、ボタン押下検出部（入力検知手段）２６を更に備える点で異なる。図１６は、本発明の他の実施形態を示すものであり、辞書機能に係る携帯電話機１のソフトウェア構成を示すブロック図である。

ボタン押下検出部２６は、操作部６における所定の操作ボタンの押下状態を検出するものである。所定の操作ボタンが押下状態にある旨検出すると、その検出結果を文字列取得部２１に送信する。

また、実施形態２に係る携帯電話機１では、ボタン押下検出部２６から、所定の操作ボタンが押下状態にある旨の検出結果を受信すると、文字列取得部２１が画像から取得した所定位置を含む文字列を一時記憶するためのメモリ（文字列記憶装置）１７を備える点で異なる。さらに、既に文字列を記憶しており、さらに新たな文字列を取得した場合は、保存されている文字列と新たな文字列とを結合させた結合文字列を生成する点でも異なる。

それ以外の点については、実施形態２に係る携帯電話機１と実施形態１に係る携帯電話機１では同様であるため、実施形態１に示した各部と同一部材には同じ符号を付し、その説明は省略するものとする。

次に、図１７を参照して実施形態２に係る携帯電話機１による辞書機能の実行処理について説明する。図１７は、本発明の他の実施形態を示すものであり、辞書機能に関する処理フローの一例を示すフローチャートである。

なお、ステップＳ２０からステップＳ２２までの処理は、図１４に示すステップＳ１０からステップＳ１２までの処理と同様である。また、ステップＳ２５からＳ２８までの処理は、図１４におけるステップＳ１３からステップＳ１６と同様である。このため、これらの処理についての説明は省略する。

文字列取得部２１は、撮像部８から入力された画像から文字列を取得すると、ボタン押下検出部２６からの検出結果に基づき、操作ボタンが押下されているか否か判定する（Ｓ２３）。

例えば、図１８に示すように撮像部８から入力された画像の所定位置を含む文字列が「今年の北海」である場合、ステップＳ２２において文字列取得部２１が「今年の北海」という文字列を抽出する。そして、文字列取得部２１は、操作ボタンが押下されているか否か判定する。なお、図１８は、本発明の他の実施形態（実施形態２）を示すものであり、所定位置近傍にある、文字列から抽出された語句に、該語句の読み、および意味を併記した表示状態の一例を示す図である。

ここで、ステップＳ２３において「ＮＯ」の場合、文字列取得部２１は、メモリ１７に前回画像から取得した文字列が保存されているか否か確認する。そして、保存された文字列が格納されている場合は、その文字列を削除する（Ｓ２４）。さらに、入力された画像から取得した文字列を文字列照合部２２に送信する。これ以降では、ステップＳ２５からＳ２８までの処理が実行される。

一方、文字列取得部２１がボタン押下検出部２６からの検出結果に基づき、操作ボタンが押下されていると判定した場合（ステップＳ２３において「ＹＥＳ」）、今回の文字列の取得処理が、操作ボタンが押下された状況下における１回目の処理であるか否か確認する。すなわち、文字列取得部２１は、操作ボタンが押下状況下で、すでにメモリ１７に保存された文字列があるか否か確認する（Ｓ２９）。

ステップＳ２９において「ＹＥＳ」の場合、文字列取得部２１は、取得した文字列をメモリ１７に保存するとともに（Ｓ３１）、文字列照合部２２に送信する。例えば、所定位置を含む文字列が図１８に示す文字列である場合、文字列取得部２１は、「今年の北海」という文字列をメモリ１７に保存するとともに、該文字列を文字列照合部２２に送信する。この文字列取得部２１による文字列照合部２２への文字列の送信後は、ステップＳ２５からステップＳ２８までの処理が実行される。

一方、ステップＳ２９において「ＮＯ」の場合、すなわち、メモリ１７にすでに保存されている文字列がある場合、今回取得した文字列と結合する（Ｓ３０）。そして、文字列取得部２１は、この結合した結合文字列を文字列照合部２２に送信する。これ以降では、ステップＳ２５からＳ２８までの処理が実行される。

例えば、ステップＳ３１により「今年の北海」という文字列がメモリ１７に保存された後に、さらに次のフレームに対して、ステップＳ２０からＳ２２までが実行され、新たな文字列が取得されたとする。この場合、文字列取得部２１は所定位置を基準にして既に保存されている「今年の北海」という文字列に今回取得した文字列を結合する。

例えば、既に保存されている文字列を取得した姿勢を維持し、操作ボタンを押下したままユーザが動画を撮影した場合、図２０に示すように既に保存されている文字列と、今回取得した文字列とは略同じとなり、結合文字列は既に保存されている文字列を今回取得した文字列に所定位置を基準にして上書きしたものとなる。

なお、ここでの上書きとは、今回取得した文字列を既に保存されている文字列と置き換えるという意味ではない。今回取得した文字列と、保存されている文字列とを所定位置を基準にして位置合わせし、そして重複する部分だけ上書きされるということである。ただし、操作ボタンを押下した時点の文字列を常に文字列取得部２１が取得するように構成する場合は、操作ボタンが押下された状況下にある間、取得した文字列を既に保存されている文字列に常に置き換えるように構成してもよい。

図２０は、本発明の他の実施形態（実施形態２）を示すものであり、保存された文字列、今回取得した文字列、それらを結合した結合文字列の関係を示す図である。

そして、文字列取得部２１は、この結合文字列を文字列照合部２２に出力する。文字列照合部２２は、この結合文字列に対して所定位置にある語句を抽出する。図２０の例では、所定位置が「海」であり、辞書テーブル７０において「北海」という語句が参照文字として記録されているため、抽出する語句は「北海」となる。

一方、既に保存されている文字列を取得した姿勢を変更し、撮像対象位置を所定位置が「北」の位置にくるように移動させ、操作ボタンを押下したままユーザが動画を撮影した場合、図２１のようになる。図２１は、本発明の他の実施形態（実施形態２）を示すものであり、保存された文字列、今回取得した文字列、それらを結合した結合文字列の関係を示す図である。

すなわち、今回取得された文字列は、保存された文字列よりも所定位置が左にずれた位置となる。このため、結合文字列は、所定位置を基準にして保存された文字列を今回取得した文字列に上書きしたもの、すなわち、「今年の北海海」となる。辞書テーブル７０には「北海海」という文字列が存在しないため、結合文字列が「今年の北海海」となる場合であっても、文字列照合部２２は、「北海」という文字を抽出する。

このように、実施形態２に係る携帯電話機１は、操作ボタンが押下された状態で、撮像対象位置がずれる場合であっても抽出する語句を固定化させることができる。

また、意味および読みを表示させたい語句が改行により分断されてしまっている場合は、以下のように処理して語句の抽出を行う。

例えば、改行により「・・・今年の北海」と「道の夏はとて・・・」とが一文にも関わらず分断されているものとする。そして、文字列取得部２１が改行前の文字列から「今年の北海」を取得し、改行後の文字列から「道の夏はとて」を取得したとする。つまり、既に保存されている文字列（改行前の文字列：「今年の北海」）を取得した姿勢を変更し、撮像対象位置を次の行頭に移動させ、所定位置が「道」の位置にくるようにする。操作ボタンを押下したまま、このように撮像対象位置を変更させてユーザが動画を撮影した結果、文字列取得部２１は、今回取得した文字列として図１９に示す「道の夏はとて」という文字列を取得する。なお、図１９は、本発明の他の実施形態（実施形態２）を示すものであり、所定位置近傍にある、文字列から抽出された語句に、該語句の読み、および意味を併記した表示状態の一例を示す図である。

このように、既に保存されている文字列は図２２に示すように「今年の北海」であるのに対して今回取得した文字列は「道の夏はとて」となる。図２２は、本発明の他の実施形態（実施形態２）を示すものであり、保存された文字列、今回取得した文字列、それらを結合した結合文字列の関係を示す図である。

ここで、所定位置を基準にこのまま保存された文字列を、取得した文字列に上書きすると「今年の北海の夏はとて」となる。しかしながら、実施形態２に係る携帯電話機１では、保存された文字列、および今回取得した文字列のうちいずれか一方が行頭位置の文字列となり、いずれか一方が行末位置の文字列となる場合、図２２に示すように結合文字列を生成する。すなわち、そのまま上書きをするのではなく保存された文字列と今回取得した文字列とをつなぎ合わせて、結合文字列を「今年の北海度の夏はとて」という文字列とする。この場合、辞書テーブル７０に「北海道」という文字列が存在するとすると、文字列照合部２２による結合文字列に対する語句の抽出結果は「北海道」となる。

このように行末付近の文字列を抽出した状態で、操作ボタンを押下したまま、撮像部８の撮影対象位置を文字列の行頭付近に移動させる場合、すなわち改行により語句が分断されるような場合であっても該語句を適切に抽出することができる。

なお、保存された文字列、および今回取得した文字列が、行頭位置の文字列であるのか、行末位置であるのかについては以下のように取得した文字列から判断することができる。すなわち、図２２に示すように、取得した文字列において所定位置の右側に一定範囲の空白（スペース）が存在する場合、文字列取得部２１はこの取得した文字列は、行末部分の文字列であると判断する。一方、取得した文字列において所定位置の左側に一定範囲の空白（スペース）が存在する場合、文字列取得部２１はこの取得した文字列は、行頭部分の文字列であると判断する。

また、図２２では、既に取得した文字列が行末部分の文字列となり、今回取得した文字列が行頭部分の文字列である場合について示している。つまり、撮像部８の撮像対象位置を行末から行頭へと移動させた例について説明している。しかしながら、図２３に示すように、既に取得した文字列が行頭部分の文字列となり、今回取得した文字列が行末部分の文字列である場合も同様に結合文字列として「今年の北海道の夏はとて」という文字列を生成することができる。なお、図２３は、本発明の他の実施形態を示すものであり、保存された文字列、今回取得した文字列、それらを結合した結合文字列の関係を示す図である。

（実施形態３）
次に、図２４から図２６に基づいて、実施形態３に係る携帯電話機１について説明する。図２４は本発明の他の実施形態（実施形態３）を示すものであり、辞書機能に係る携帯電話機１のソフトウェア構成を示すブロック図である。

実施形態３に係る携帯電話機１は、実施形態１に係る携帯電話機１と比較して、操作部６が、異なる入力段階（第１入力段階、第２入力段階）でユーザからの入力（第１入力、第２入力）それぞれを受け付けることができる点で相違する。また、この異なる入力段階は、操作部６における操作ボタンの異なる押下状態（半押し、全押し）により区別できるようになっている。さらにまた、操作部６における操作ボタンの押下状態の切り替わりを検知できる押下状態検知部（入力検知手段）２７、情報出力部（第２出力手段）２８をさらに備える点で相違する。また、実施形態３に係る携帯電話機１では、主制御部１５が情報提供処理部（特定処理部）３０を備える点で相違する。

また、語句情報取得部２５が押下状態検知部２７から受信した検知結果から、操作ボタンが全押しであると判定した場合、認識決定部２４から通知されたＩＤに対応する語句を情報出力部２８に送信する点でも実施形態１とは異なる。

なお、上記した点を除き、実施形態３に係る携帯電話機１は、実施形態１に係る携帯電話機１と同様であるため、この携帯電話機１が新たに備える、押下状態検知部２７、情報出力部２８、および情報提供処理部３０以外の部材については、実施形態１と同様の符号を付し、その説明を省略する。

押下状態検知部２７は、操作部６における操作ボタンのユーザによる押下状態を検知するものである。携帯電話機１が備える操作ボタンは、該操作ボタンを押し切らず半分だけ押した状態（半押し）と、操作ボタンを押し切った状態（全押し）との２段階になっている。そこで、押下状態検知部２７は、操作ボタンの押下状態として、半押し、全押しのいずれの状態にあるのか検知することができる。押下状態検知部２７は検知した結果を語句情報取得部２５に出力する。

情報出力部２８は、語句情報取得部２５から語句を受信すると、該語句を情報提供処理部３０に出力するものである。

情報提供処理部３０は、例えば、国語辞書、和英辞書、英和辞書、和独辞書、独和辞書等、語句に関する情報を提供するアプリケーションである。情報提供処理部３０は、情報出力部２８から語句を受信すると、該語句に関する情報を探索し、探索した結果を例えば、表示ドライバ１３に出力して表示部７にて表示させる。語句に関する情報としては、例えば入力された語句に対応する英語表現（英単語）、あるいはこの英単語の意味等が挙げられる。

なお、実施形態３では、携帯電話機１が内部にこの情報提供処理部３０を備える構成であった。しかしながら、この情報提供処理部３０は、携帯電話機１とは別の外部機器が備える構成であってもよい。この場合、情報出力部２８は、無線通信処理部１１にＩＤを出力して情報提供処理部３０への送信を指示するとともに、外部機器との通信を確立するように指示する。この指示に応じて、無線通信処理部１１は基地局を介して外部機器と通信を確立させ、語句を情報提供処理部３０に送信する。

また、実施形態３では、携帯電話機１が１つの情報提供処理部３０を備える構成であるが、実行する特定処理ごとに情報提供処理部３０をそれぞれ備える構成であってもよい。

また、携帯電話機１が内部にこの情報提供処理部３０を備える構成の場合、情報提供処理部３０の各種処理を実行するプログラムや、辞書データは、基地局を介して通信が確立された外部機器等からダウンロードする構成であってもよい。

次に、図２５を参照して実施形態３に係る携帯電話機１における、「辞書機能に関する処理フロー」について説明する。図２５は、本発明の他の実施形態（実施形態３）を示すものであり、携帯電話機１の辞書機能に関する処理フローを示すフローチャートである。なお、図２５におけるステップＳ４０からＳ４４までの処理は、図１４におけるステップＳ１０からＳ１４までの処理と同様であるため、その説明は省略する。また、図２５におけるステップＳ４７の処理は、図１４におけるステップＳ１６の処理と同様であるためその説明は省略する。

実施形態１に係る携帯電話機１と同様にして、語句情報取得部２５は、認識決定部２４からの通知に応じて、受信したＩＤに対応する語句、該語句の読み、および意味を辞書テーブル７０から取得する。ここで、語句情報取得部２５は、操作ボタンの押下状態が全押しか否か判断する（Ｓ４５）。実施形態３に係る携帯電話機１では、操作ボタンの押下状態として全押しまたは半押しが設定されている。このため、ステップＳ４５において全押しではないと判断される場合とは、操作ボタンの押下状態が半押しであるということになる。

ステップＳ４５の判定において「ＮＯ」の場合、語句情報取得部２５は、辞書テーブル７０から取得した語句、該語句の読み、および意味を、表示ドライバ１３に送信する。そして、表示ドライバ１３は、語句情報取得部２５からの受信した語句、該語句の意味または読みを表示部７に表示させる（Ｓ４６）。

一方、ステップＳ４５の判定において「ＹＥＳ」の場合、語句情報取得部２５は、辞書テーブル７０から取得した語句を情報出力部２８に送信する。情報出力部２８は、語句情報取得部２５から受信した語句を情報提供処理部３０に出力する語句として確定する。そして、該語句を情報提供処理部３０に出力する。なお、情報提供処理部３０が、例えば、国語辞書および和英辞書の異なる機能を有している場合、情報出力部２８が語句を情報提供処理部３０に出力する前に、図２６に示すような表示を行って、いずれの機能を実行ささせて処理結果を得るかユーザに問い合わせるように構成されていてもよい。

なお、実施形態３に係る携帯電話機１の操作ボタンは、上述したように「半押し」、「全押し」と異なる２つの押下状態を実現するボタンであったが、この異なる押下状態はこれらに限定されるものではない。例えば、物理的に異なる２つの操作ボタンを利用して異なる押下状態を実現する構成であってもよい。あるいは、２段階の入力が可能なスライド式の操作ボタンにより異なる押下状態を実現してもよい。

また、実施形態２に係る携帯電話機１の構成において、辞書機能処理部２０が押下状態検知部２７、情報出力部２８をさらに備え、主制御部１５が情報提供処理部３０を備えることで、実施形態２に実施形態３の構成を組み合わせることは可能である。

なお、本実施の形態１から３に係る携帯電話機１では、表示部７の表示画面の中心座標を基準にして、画像から抽出する語句を特定する構成であった。しかしながら、基準はこれに限定されるものではない。例えば、表示部７の表示画面上における所定位置に「×」または「＋」等の記号が付されており、該記号位置の座標を基準にして文字列の抽出を行い、該文字列から語句を特定する構成であってもよい。

あるいは、携帯電話機１が表示部７の表示画面をユーザがタッチすることで入力を行うことができる、いわゆるタッチパネル機能を有している場合、ユーザがタッチした位置（座標）を基準とする構成であってもよい。例えば、図１５に示すように、表示画面上の任意の位置をユーザがタッチすると、このタッチした座標を含む文字列を文字列取得部２１が抽出する。なお、図１５は、本発明の実施形態を示すものであり、所定位置近傍にある、文字列から抽出された語句に、該語句の読み、および意味を併記した表示状態の一例を示す図である。

この場合、携帯電話機１は、図１に示す構成において、さらに本発明に係る検知手段として所定位置情報変更部（不図示）を備える。そして、所定位置情報変更部は、表示部７の表示画面においてユーザがタッチした位置を示す座標情報を取得すると、所定位置情報変更部は、取得した座標情報により所定位置情報７１を書き換える。これにより、ユーザがタッチした位置を所定位置として辞書機能を実行することができる。

また、本実施の形態１から３に係る携帯電話機１が保持する辞書テーブル７０は、図５に示すように語句を識別するＩＤ、語句、その語句の読みおよび意味それぞれが対応づけられて１つのテーブルとして記録されていた。また、図５に示すように日本語の語句の意味・読みと英語の語句の意味・読みをともに同じテーブル内に格納していた。しかしながら、日本語の語句と英語の語句とはそれぞれ別々のテーブルとして管理されていてもよい。あるいは、照合を高速で行うことができるように検索用の副テーブルを別途用意する構成であってもよい。また、辞書テーブル７０では語句とその意味・読みが対応付けられているが、日本語の語句とその英訳とが対応付けられたテーブルであってもよい。語句と対応づける情報は、該語句に関連して一緒に表示させたい内容の情報であればよく、使用用途に応じて決定されることが好ましい。

また、上記では本実施の形態１から３に係る携帯電話機１が備えるＦＩＦＯバッファ１６のキュー構造の深度を８として説明したが、この深度に限定されるものではない。ＦＩＦＯバッファ１６のキュー構造の深さは、撮像対象の変更に伴う意味、または読みの表示の切り替わりなど、ユーザが視認できる表示の切り替わり等の反応速度に関係する。つまり、撮像部８による撮影対象位置の変更に伴う、認識決定部２４による新たな語句の認識結果の決定に係る速度に関係する。

このため、ＦＩＦＯバッファ１６のキュー構造の深さは、撮像部８が撮影した動画のフレームレート（１秒間に描画されるフレーム数）の１／５から１倍程度が好適である。つまりＦＩＦＯバッファ１６では、格納しているＩＤのうち、約半分が新たなＩＤに変更されることで、新たなＩＤの意味、または読みを出力することができる。したがって、ＦＩＦＯバッファ１６のキュー構造の深さをフレームレートの１／５から１倍程度となるように設定すると、最大でも約０．１から０．５秒の遅延で新たな語句の意味、または読みの表示を切り替えることができる。

最後に、実施形態１から３に係る携帯電話機１が備える各部、特には、辞書機能処理部２０が備える各部、情報提供処理部３０は、ハードウェアロジックによって構成してもよいし、次のようにＣＰＵを用いてソフトウェアによって実現してもよい。

すなわち、携帯電話機１は、各機能を実現する制御プログラムの命令を実行するＣＰＵ、前記プログラムを格納したＲＯＭ（read only memory）、前記プログラムを展開するＲＡＭ（random access memory）、前記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである携帯電話機１の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、前記携帯電話機１に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。

また、携帯電話機１を通信ネットワークと接続可能に構成し、前記プログラムコードを、通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、第３．９世代以降の携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、前記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

本実施の形態に係る携帯電話機１は、撮像部８により撮影された動画像を構成する連続した画像を順次取得し、該画像の所定位置にある語句を示すＩＤを取得する文字列取得部２１、文字列照合部２２、語句ＩＤ取得部２３と、取得したＩＤを格納するＦＩＦＯバッファ１６と、ＦＩＦＯバッファ１６において最も多く格納されているＩＤを認識結果として決定する認識決定部２４とを備える。このため、携帯電話機１は画像から迅速に文字を認識することができる。また、文字列照合部２２は、文字列取得部２１により取得された文字列（入力文字列）と、辞書テーブル７０に格納された参照文字とをＤＰマッチングを用いてマッチングさせることができるため、文字認識の誤りをカバーして正確に語句を認識することができる。

したがって、本実施の形態に係る携帯電話機１は、迅速かつ正確に画像から文字を認識する必要のある装置において幅広く適用できる。

１携帯電話機（情報処理装置）
６操作部（操作受け付け部）
７表示部
８撮像部
１３表示ドライバ
１４記憶装置（リスト情報記憶装置）
１５主制御部
１６ＦＩＦＯバッファ（格納部）
１７メモリ（文字列記憶装置）
２０辞書機能処理部
２１文字列取得部（抽出手段、文字列抽出手段）
２２文字列照合部（抽出手段、語句特定手段）
２３語句ＩＤ取得部（抽出手段・識別子取得手段）
２４認識決定部（決定手段）
２５語句情報取得部（意味・読み取得手段、第１出力手段）
２６ボタン押下検出部（入力検知手段）
２７押下状態検知部（入力検知手段）
２８情報出力部（第２出力手段）
３０情報提供処理部（特定処理部）
７０辞書テーブル（リスト情報）
７１所定位置情報

Claims

画像から語句の認識を行う情報処理装置であって、
動画像を撮影する撮像部と、
上記撮像部により撮影された動画像を構成する連続した画像を順次取得し、該画像の所定位置にある語句を示す情報である語句情報を抽出する抽出手段と、
上記抽出手段によって抽出した語句情報を格納する格納部と、
上記格納部において最も多く格納されている語句情報の語句を認識結果として決定する決定手段と、を備え、
上記格納部は、語句情報を所定数まで格納することができ、かつ当該格納部への語句情報の入出力方式が古く格納した順に取り出すようにする方式である
ことを特徴とする情報処理装置。
画像から抽出する語句を示す語句情報のリストであるリスト情報を記憶するリスト情報記憶装置をさらに備え、
上記抽出手段は、上記リスト情報を参照して、上記撮像部により撮影された動画像を構成する画像から上記所定位置における語句の語句情報を抽出することを特徴とする請求項１に記載の情報処理装置。
上記リスト情報は、語句と該語句を識別する識別子との対応関係を示すテーブルであり、
上記抽出手段は、上記取得した画像から上記所定位置を含む文字列を抽出する文字列抽出手段と、
上記文字列抽出手段によって抽出された文字列と、上記リスト情報記憶装置に記憶されたリスト情報とを照合し、所定位置における語句を特定する語句特定手段と、
上記語句特定手段によって特定された語句を示す語句情報として、上記リスト情報を参照して上記特定された語句の識別子を取得する識別子取得手段とを備え、
上記格納部は、上記語句情報として、上記識別子取得手段によって取得された上記識別子を格納することを特徴とする請求項２に記載の情報処理装置。
上記語句特定手段は、上記文字列抽出手段によって抽出された文字列と、上記リスト情報記憶装置に記憶されたリスト情報とを動的計画法を利用して照合し、所定位置における語句を特定することを特徴とする請求項３に記載の情報処理装置。
上記リスト情報では、上記語句に、少なくともこの語句の意味および読みのうちいずれか１つが対応づけられており、
上記リスト情報から、上記決定手段により、認識結果として決定された語句に対応づけられた意味および読みのうち少なくとも１つを取得する意味・読み取得手段と、
上記意味・読み取得手段によって取得された上記語句の意味および読みのうちの少なくとも１つを出力する第１出力手段とを備えることを特徴とする請求項３または４に記載の情報処理装置。
上記撮像部により撮影された動画像を表示する表示部をさらに備え、
上記第１出力手段は、上記動画像に上記意味・読み取得手段によって取得された語句の意味および読みのうちの少なくとも１つを重畳させて表示させるように、上記表示部に出力することを特徴とする請求項５に記載の情報処理装置。
ユーザからの入力を受け付ける操作受け付け部と、
上記操作受け付け部におけるユーザからの入力の有無を検知する入力検知手段とを備え、
上記入力検知手段がユーザからの入力を検知している間、第１出力手段が、上記意味・読み取得手段によって取得した上記語句の意味および読みのうちの少なくとも１つを表示部に出力し続けることを特徴とする請求項６に記載の情報処理装置。
上記抽出手段により抽出された上記語句情報を、該語句情報を利用して特定の処理を実行する特定処理部に出力する第２出力手段を備え、
上記操作受け付け部は、ユーザからの入力を、第１入力段階と第２入力段階との異なる入力段階で受け付け可能となっており、
上記入力検知手段が上記第１入力段階での入力である第１入力を検知している間、上記第１出力手段は、上記意味・読み取得手段によって取得された上記語句の意味および読みのうちの少なくとも１つを表示部に出力し続け、
上記検知手段が上記第１入力が第２入力段階での入力である第２入力に切り替わったことを検知した場合、第２出力手段が、上記語句の語句情報を上記特定処理部に出力することを特徴とする請求項７に記載の情報処理装置。
上記文字列抽出手段により抽出された文字列を記憶する文字列記憶装置とをさらに備え、
上記入力検知手段がユーザからの入力を検知すると、文字列抽出手段は、上記画像から抽出した文字列を上記文字列記憶装置に記憶し、さらに画像から新たな文字列を抽出した場合、この新たに抽出した文字列に上記文字列記憶装置に記憶している文字列を上書きして結合文字列を生成しており、
上記語句特定手段は、上記結合文字列と上記リスト情報記憶装置に記憶されたリスト情報とを照合することを特徴とする請求項７または８に記載の情報処理装置。
文字列抽出手段は、文字列に含まれる所定位置を基準にして、新たに抽出した文字列に上記文字列記憶装置に記憶している文字列を上書きして結合文字列を生成することを特徴とする請求項９に記載の情報処理装置。
上記抽出手段は、画像の所定位置にある語句として、該画像を上記表示部にて表示した際に、該表示部の表示領域の中心座標位置近傍に表示される語句を示す語句情報を抽出することを特徴とする請求項６から１０のいずれか１項に記載の情報処理装置。
上記表示部の表示領域における物理的接触を検知する検知手段をさらに備え、
上記抽出手段は、画像の所定位置にある語句として、該画像を上記表示部にて表示した際に、該表示部の表示領域において上記検知手段によって検知された位置に表示される語句を示す語句情報を抽出することを特徴とする請求項６から１０のいずれか１項に記載の情報処理装置。
上記格納部が格納できる語句情報の所定数は、上記撮像部が撮影した動画のフレームレートの１／５〜１倍となることを特徴とする請求項１に記載の情報処理装置。
撮像部と格納部とを備え、画像から語句の認識を行う情報処理装置の制御方法であって、
上記撮像部により動画像を撮影する撮像ステップと、
上記撮像ステップにおいて撮影された動画像を構成する連続した画像を順次取得し、該画像の所定位置にある語句を示す情報である語句情報を抽出する抽出ステップと、
上記抽出ステップにおいて抽出した語句情報を上記格納部に格納する格納ステップと、
語句情報を所定数まで格納することができ、かつ語句情報の入出力方式が古く格納した順に取り出すようにする方式である上記格納部において最も多く格納されている語句情報の語句を認識結果として決定する決定ステップと、を含むことを特徴とする情報処理装置の制御方法。
コンピュータを請求項１から１３のいずれか１項に記載の情報処理装置の各手段として機能させるための情報処理装置の制御プログラム。
請求項１５に記載の情報処理装置の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。