[go: up one dir, main page]

JP4668345B1 - 情報処理装置、および情報処理装置の制御方法 - Google Patents

情報処理装置、および情報処理装置の制御方法 Download PDF

Info

Publication number
JP4668345B1
JP4668345B1 JP2009267853A JP2009267853A JP4668345B1 JP 4668345 B1 JP4668345 B1 JP 4668345B1 JP 2009267853 A JP2009267853 A JP 2009267853A JP 2009267853 A JP2009267853 A JP 2009267853A JP 4668345 B1 JP4668345 B1 JP 4668345B1
Authority
JP
Japan
Prior art keywords
phrase
character string
unit
information
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009267853A
Other languages
English (en)
Other versions
JP2011113214A (ja
Inventor
和行 名古
斉志 広瀬
晶 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2009267853A priority Critical patent/JP4668345B1/ja
Priority to PCT/JP2010/062833 priority patent/WO2011065065A1/ja
Priority to US13/511,666 priority patent/US8867840B2/en
Priority to CN201080053212.6A priority patent/CN102667813B/zh
Application granted granted Critical
Publication of JP4668345B1 publication Critical patent/JP4668345B1/ja
Publication of JP2011113214A publication Critical patent/JP2011113214A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/52Details of telephonic subscriber devices including functional features of a camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Character Discrimination (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】画像から迅速に文字を認識することができる情報処理装置を提供する。
【解決手段】本発明に係る携帯電話機は、画像から語句の認識を行う装置である。携帯電話機は、動画像を撮影する撮像部8と、撮影された動画像を構成する連続した画像を順次取得し、該画像の所定位置にある語句を示すIDを取得する文字列取得部21、文字列照合部22、語句ID取得部23と、取得したIDを格納するFIFOバッファ16と、FIFOバッファ16において最も多く格納されているIDを認識結果として決定する認識決定部24とを備える。
【選択図】図1

Description

本発明は、画像から語句の認識を行う情報処理装置に関する。
電子辞書は、小型化および低価格化が進んだことにより従来の紙の辞書に代わって広く利用されるようになった。さらに、近年では電子辞書を搭載したPDA(Personal Digital Assistant、携帯情報端末)や携帯電話等も開発されている。
ところで、一般的な電子辞書は、例えばキーボードなどのような、容易に語句を入力することができるように支援する入力手段を備えており、ユーザはこのキーボードを操作して語句を入力し、その語句の意味を検索することができるようになっている。しかし、PDAや携帯電話等には入力手段として、このようなキーボ−ドを備えていない機種がある。このような機種に搭載された電子辞書を使用する場合、ユーザはPDAまたは携帯電話が備えるテンキーまたはタッチパネル等の別の入力手段を利用して語句の入力を行うこととなる。このように、テンキーまたはタッチパネル等の入力手段により語句の入力を行う構成の場合、キーボードで入力する構成と比較して操作性が悪く、迅速な文字入力が困難となる。また、入力手段としてキーボードを備えた電子辞書であってもキーボード操作に不慣れなユーザの場合、キーボードで文字を入力すること自体が非常に困難かつ時間のかかる作業となる。
また、複数の単語からなる英熟語を調べるとき、あるいは難読漢字の読みや見知らぬ国の文字などを調べるときには、ユーザがどの単語(語句)を入力すればよいのか分からない場合があり、キーボード等を利用したキー入力そのものに限界があった。そこで、キー入力の手間を省くことを可能とする技術が開発されている(例えば、特許文献1および2)。
より具体的には、特許文献1ではペン型のスキャナで文字画像を読み取ることが可能な、イメージスキャナ付き電子辞書が開示されている。このイメージスキャナ付き電子辞書は、スキャナにより文字画像を読み取ることができ、キー入力の手間を省くことができる。
また、特許文献2では、カメラで文字画像を取り込み、該取り込んだ文字画像に関する情報を表示する画像取込み/メッセージ表示装置が開示されている。この画像取込み/メッセージ表示装置では、カメラにより文字画像を取得することができ、キー入力の手間を省くことができる。
しかしながら、上記特許文献1に記載のイメージスキャナ付き電子辞書では、ローラーを真っ直ぐ、空回りさせずに動かさなければ、文字列を正しく認識できないことがある。このため、ユーザの操作ミスにより、文字の誤認識が生じる場合がある。
一方、上記特許文献2に記載の画像取込み/メッセージ表示装置では、カメラで取得した文字画像から文字認識を行う構成である。カメラで取得した文字画像から文字認識を行う場合、カメラの手振れ、撮像環境および撮像媒体の品質等の外的要因に起因してその認識率は100%とはならない。
このように、特許文献1および2に開示された技術では、文字の入力に際して文字の誤認識が生じてしまうという問題がある。
そこで、特許文献3では以下の構成を有する記号認識装置が提案されている。すなわち、この記号認識装置は、3回以上の奇数回連続して画像を撮像し、各画像に対する文字認識の結果から最も発生頻度の高い認識結果を抽出する。このように連続する画像から最も頻度が高い認識結果を採用する構成であるため、記号認識装置は、カメラの手振れ、撮像環境および撮像媒体の品質等の外的要因に起因して生じる認識率の低下を防止することができる。
特開平1−234977号公報(1989年9月20日公開) 特開2000−20677号公報(2000年1月21日公開) 特開2004−199141号公報(2004年7月15日公開)
しかしながら、上記した従来技術では、迅速に文字を認識することができないという問題がある。
具体的には、上記した特許文献3に記載の記号認識装置及び記号認識方法では、静止画の撮像を複数回行って多数決を取るため、撮像を行ってから検索すべき文字を特定するまでの時間が長くかかる問題があった。
本発明は上記課題を解決するためになされたものであり、その目的は、画像から迅速に文字を認識することができる情報処理装置、情報処理装置の制御方法、情報処理装置の制御プログラム、および情報処理装置の制御プログラムを記録した記録媒体を提供することにある。
本発明に係る情報処理装置は、上記した課題を解決するために、画像から語句の認識を行う情報処理装置であって、動画像を撮影する撮像部と、上記撮像部により撮影された動画像を構成する連続した画像を順次取得し、該画像の所定位置にある語句を示す情報である語句情報を抽出する抽出手段と、上記抽出手段によって抽出した語句情報を格納する格納部と、上記格納部において最も多く格納されている語句情報の語句を認識結果として決定する決定手段と、を備えることを特徴とする。
上記した構成によると、撮像部と抽出手段とを備えるため、動画像を構成する連続的な画像から、該画像の所定位置にある語句を示す語句情報を順次抽出することができる。つまり、語句情報を、動画像を構成する各画像から抽出することができるため、迅速に複数の語句情報を得ることができる。
ここで、語句情報とは所定位置にある語句に関連する情報であって、該語句に割り当てられている識別子であってもよいし、語句そのものを示すデータであってもよい。
また、決定手段を備えるため、例えば、上記格納部に語句情報が格納されていな状態において1つでも語句情報が格納されれば、該語句情報の語句を、認識結果として決定することができる。すなわち、本発明に係る情報処理装置は、語句の認識結果を迅速に決定することができる。
したがって、本発明に係る情報処理装置は、画像から迅速に文字を認識することができるという効果を奏する。
本発明に係る情報処理装置は、上記した構成において、上記格納部は、語句情報を所定数まで格納することができ、かつ当該格納部への語句情報の入出力方式が古く格納した順に取り出すようにする方式であってもよい。なお、語句情報を古く格納した順に取り出すようにする方式とは、例えばFIFO(First - In First - Out)が挙げられる。
上記した構成によると、格納部において所定数まで上記語句情報を格納することができ、かつ当該格納部への語句情報の入出力方式が古く格納した順に取り出すようにする方式である。このため、格納部には、常に最新の所定数の語句情報が格納されていることとなる。
ここで、格納部において所定数の語句情報を格納することができる。このため、抽出手段が画像から誤った語句情報を抽出した場合であっても、決定手段が格納部に最も多く格納されている語句情報の語句を認識結果とするため、正確な語句の認識結果を得ることができる。
さらに、格納部には抽出手段により抽出された最新の語句情報が格納されている。このため、撮像部の撮影対象位置が変更され、動画像を構成する画像の所定位置にある語句が別の語句となる場合であっても、格納部において、所定数の半分以上の語句情報が新たな撮影対象位置の画像から取得した語句情報に置き換わった時点で、該語句情報を新たな語句の認識結果として決定することができる。ところで、語句情報は抽出手段によって動画を構成する、連続した画像から抽出されており、複数の語句情報を迅速に得ることができる。
それゆえ、本発明に係る情報処理装置は、大きな時間をかけることなく新たな語句の認識結果を決定することができる。
また、例えば、特許文献3のように3回以上の奇数回連続して画像を撮像し、各画像に対する文字認識の結果から最も発生頻度の高い認識結果を抽出する構成の場合、文字認識時における文字の切り出しを誤ったり、文字の認識誤りが多数発生したりすると、文字認識の結果の対応が取れなくなり、正確な文字の認識結果が得られないことがある。そこで、本発明に係る情報処理装置は、上記した構成において、画像から抽出する語句を示す語句情報のリストであるリスト情報を記憶するリスト情報記憶装置をさらに備え、上記抽出手段は、上記リスト情報を参照して、上記撮像部により撮影された動画像を構成する画像から上記所定位置における語句の語句情報を抽出するように構成されていることが好ましい。
すなわち、本発明に係る情報処理装置は、リスト情報記憶装置をさらに備え、抽出手段が、リスト情報を参照して、撮像部により撮影された動画像を構成する画像から語句の語句情報を抽出することができるため、文字の認識誤りを防ぐことができる。
よって、本発明に係る情報処理装置は、画像から迅速にかつ正確に語句を認識することができる。
また、本発明に係る情報処理装置は、上記した構成において、上記リスト情報は、語句と該語句を識別する識別子との対応関係を示すテーブルであり、上記抽出手段は、上記取得した画像から上記所定位置を含む文字列を抽出する文字列抽出手段と、上記文字列抽出手段によって抽出された文字列と、上記リスト情報記憶装置に記憶されたリスト情報とを照合し、所定位置における語句を特定する語句特定手段と、上記語句特定手段によって特定された語句を示す語句情報として、上記リスト情報を参照して上記特定された語句の識別子を取得する識別子取得手段とを備え、上記格納部は、上記語句情報として、上記識別子取得手段によって取得された上記識別子を格納するように構成されていてもよい。
上記した構成によると、上記格納部は、上記語句情報として、上記識別子取得手段によって取得された上記識別子を格納するように構成されている。つまり、リスト情報を参照して語句特定手段により特定された語句そのものではなく、その語句の識別子を格納部に格納している。このため、格納部に最も多く格納された語句を抽出する際に語句そのものを比較する必要はなく、識別子を比較するだけでよく、このため効率的に語句の抽出を行うことができる。
また、本発明に係る情報処理装置は、上記した構成において、上記語句特定手段は、上記文字列抽出手段によって抽出された文字列と、上記リスト情報記憶装置に記憶されたリスト情報とを動的計画法を利用して照合し、所定位置における語句を特定するように構成されていることが好ましい。
上記した構成によると、上記語句特定手段は、上記文字列抽出手段によって抽出された文字列と、上記リスト情報記憶装置に記憶されたリスト情報とを動的計画法を利用して照合する。
ところで、文字の認識には、誤って文字を認識したり、文字を欠落させて認識したり、ごみ等を文字と認識してしまい不要な文字を追加して認識したりする場合がある。このような文字の認識誤りが生じた場合、単純に抽出した文字列とリスト情報とを比較することができない。
本発明に係る情報処理装置は、抽出された文字列と、上記リスト情報記憶装置に記憶されたリスト情報とを動的計画法を利用して照合する構成であるため、上述した文字の認識誤りが発生する場合であっても類似度(比較する文字列どうしの距離)を計算して照合し、リスト情報の中から文字の認識結果と最も近い語句を抽出することができる。
また、本発明に係る情報処理装置は、上記した構成において、上記リスト情報では、上記語句に、少なくともこの語句の意味および読みのうちいずれか1つが対応づけられており、上記リスト情報から、上記決定手段により、認識結果として決定された語句に対応づけられた意味および読みのうち少なくても1つを取得する意味・読み取得手段と、上記意味・読み取得手段によって取得された上記語句の意味および読みのうちの少なくとも1つを出力する第1出力手段とを備えるように構成されていてもよい。
上記した構成によると、意味・読み取得手段が、リスト情報から、少なくとも語句に対応づけられた意味および読みのうちいずれか1つを取得することができる。このため、認識結果として決定された語句の、少なくとも意味および読みのうちいずれか1つを取得することができる。さらに、第1出力手段を備えているため、この取得した少なくとも意味および読みのうちいずれか1つを提供することができる。
また、本発明に係る情報処理装置は、上記した構成において、上記撮像部により撮影された動画像を表示する表示部をさらに備え、上記第1出力手段は、上記動画像に上記意味・読み取得手段によって取得された語句の意味および読みのうちの少なくとも1つを重畳させて表示させるように、上記表示部に出力するように構成されていてもよい。
上記した構成によると、表示部を備えるため、認識した語句の読み、および意味のうち少なくとも1つを表示させることができる。また、取得した動画像と重畳させて表示させるため、動画像において所定位置にある語句の読みや、意味を視覚的に把握することができる。
また、本発明に係る情報処理装置は、上記した構成において、ユーザからの入力を受け付ける操作受け付け部と、上記操作受け付け部におけるユーザからの入力の有無を検知する入力検知手段とを備え、上記入力検知手段がユーザからの入力を検知している間、第1出力手段が、上記意味・読み取得手段によって取得した上記語句の意味および読みのうちの少なくとも1つを表示部に出力し続けるように構成されていてもよい。
上記した構成によると入力検知手段がユーザからの入力を検知している間、第1出力手段が、語句の意味および読みのうちの少なくとも1つを表示部に出力し続けることができる。すなわち、語句の意味および読みのうちの少なくとも1つを表示部において固定して表示させることができる。
ところで、本発明に係る情報処理装置は、撮像部により撮影した動画像を構成する画像からリアルタイムに文字の認識を行う構成である。このため、撮像部の撮像対象位置が移動してしまうと、その移動にともなって認識対象となる文字も別の文字に切り替わってしまう。
そこで、上述のように語句の意味および読みのうちの少なくとも1つを表示部において固定して表示させることができる構成とすることで、撮像部の姿勢に影響されることなくユーザは所望する語句の、意味および読みのうちの少なくとも1つを確認することができる。
また、本発明に係る情報処理装置は、上記した構成において、上記抽出手段により抽出された上記語句情報を、該語句情報を利用して特定の処理を実行する特定処理部に出力する第2出力手段を備え、上記操作受け付け部は、ユーザからの入力を、第1入力段階と第2入力段階との異なる入力段階で受け付け可能となっており、上記入力検知手段が上記第1入力段階での入力である第1入力を検知している間、上記第1出力手段は、上記意味・読み取得手段によって取得された上記語句の意味および読みのうちの少なくとも1つを表示部に出力し続け、上記検知手段が上記第1入力が第2入力段階での入力である第2入力に切り替わったことを検知した場合、第2出力手段が、上記語句の語句情報を上記特定処理部に出力するように構成されていてもよい。
ここで、第1入力段階と第2入力段階との異なる入力段階とは、例えば、操作受け付け部が半押しと全押しの異なる押下状態を実現できる操作ボタンである場合、この押下状態の違いなどで区別される入力段階が挙げられる。
上記構成によると、上記入力検知手段が上記第1入力を検知している間、上記第1出力手段は、上記意味・読み取得手段によって取得された上記語句の意味および読みのうちの少なくとも1つを表示部に出力し続け、上記検知手段が上記第1入力が第2入力に切り替わったことを検知した場合、第2出力手段が、上記語句の語句情報を上記特定処理部に出力する。このため、第1入力段階から第2段階へと入力段階が遷移することで、段階的に当該情報処理装置における異なる処理を実行させることができる。
また、本発明に係る情報処理装置は、上記した構成において、上記文字列抽出手段により抽出された文字列を記憶する文字列記憶装置とをさらに備え、上記入力検知手段がユーザからの入力を検知すると、文字列抽出手段は、上記画像から抽出した文字列を上記文字列記憶装置に記憶し、さらに画像から新たな文字列を抽出した場合、この新たに抽出した文字列に上記文字列記憶装置に記憶している文字列を上書きして結合文字列を生成しており、上記語句特定手段は、上記結合文字列と上記リスト情報記憶装置に記憶されたリスト情報とを照合するように構成されていてもよい。
上記した構成によると、操作受け付け部および入力検知手段とを備えるため。操作受け付け部によりユーザからの操作を受け付けたか否か把握することができる。そして、ユーザからの操作受け付け部に対する入力を検知した場合、文字列抽出手段により抽出した文字列を文字列記憶装置に記憶させ、新たに抽出した文字列にこの記憶した文字列を上書きすることができる。
ここで、新たに抽出した文字列に文字列記憶装置に記憶させた文字列を上書きする構成である。このため、例えば改行等により行末と次の行頭とに分断された語句を結合して認識することができる。
また、本発明に係る情報処理装置は、上記した構成において、文字列抽出手段は、文字列に含まれる所定位置を基準にして、新たに抽出した文字列に上記文字列記憶装置に記憶している文字列を上書きして結合文字列を生成するように構成されていてもよい。
また、本発明に係る情報処理装置は、上記した構成において、上記抽出手段は、画像の所定位置にある語句として、該画像を上記表示部にて表示した際に、該表示部の表示領域の中心座標位置近傍に表示される語句を示す語句情報を抽出するように構成されていてもよい。
また、本発明に係る情報処理装置は、上記した構成において、上記表示部の表示領域における物理的接触を検知する検知手段をさらに備え、上記抽出手段は、画像の所定位置にある語句として、該画像を上記表示部にて表示した際に、該表示部の表示領域において上記検知手段によって検知された位置に表示される語句を示す語句情報を抽出するように構成されていてもよい。
ここで検知手段によって検知される物理的接触とは、例えば、ユーザの指によるタッチや、ペンなどによるタッチなどの物理的な接触が挙げられる。
上記構成によると、上記抽出手段は、検知手段による検知位置、すなわち物理的接触があった位置に表示される語句を示す語句情報を抽出する構成である。このため、表示部に表示された画像を見ながら指でタッチするなどして語句情報を抽出したい語句をユーザが自由に選択することができる。
また、本発明に係る情報処理装置は、上記した構成において、上記格納部が格納できる語句情報の所定数は、上記撮像部が撮影した動画のフレームレートの1/5〜1倍となることが好ましい。
ところで、格納部に格納できる語句情報の所定数は、撮像部による撮影対象位置の変更に伴う、新たな語句の認識結果の決定に係る速度に関係する。本発明に係る情報処理装置は、格納部において、所定数の半分以上の語句情報が新たな撮影対象位置の画像から取得した語句情報に置き換わった時点で、該語句情報を新たな語句の認識結果として決定することができる。
そこで、上記格納部が格納できる語句情報の所定数を、上記撮像部が撮影した動画のフレームレートの1/5〜1倍とすると最大でも約0.1から0.5秒の遅延で新たな語句の認識結果を決定することができる。このため、新た語句の認識結果の決定までに大きな時間がかかりユーザに負担をかけることを防ぐことができる。
本発明に係る情報処理装置の制御方法は、上記した課題を解決するために、撮像部と格納部とを備え、画像から語句の認識を行う情報処理装置の制御方法であって、上記撮像部により動画像を撮影する撮像ステップと、上記撮像ステップにおいて撮影された動画像を構成する連続した画像を順次取得し、該画像の所定位置にある語句を示す情報である語句情報を抽出する抽出ステップと、上記抽出ステップにおいて抽出した語句情報を上記格納部に格納する格納ステップと、上記格納部において最も多く格納されている語句情報の語句を認識結果として決定する決定ステップと、を含むことを特徴とする。
上記した方法によると、抽出ステップを含むため、撮像部により撮影された動画像を構成する連続的な画像から、該画像の所定位置にある語句を示す語句情報を順次抽出することができる。つまり、語句情報を、動画像を構成する各画像から抽出することができるため、迅速に複数の語句情報を得ることができる。
ここで、語句情報とは所定位置にある語句に関連する情報であって、該語句に割り当てられている識別子であってもよいし、語句そのものを示すデータであってもよい。
また、決定ステップを含むため、例えば、上記格納部に語句情報が格納されていな状態において1つでも語句情報が格納されれば、該語句情報の語句を、認識結果として決定することができる。すなわち、本発明に係る情報処理装置の制御方法では、語句の認識結果を迅速に決定することができる。
したがって、本発明に係る情報処理装置の制御方法では、画像から迅速に文字を認識することができるという効果を奏する。
なお、上記情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記情報処理装置をコンピュータにて実現させる情報処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明に係る情報処理装置は、以上のように、画像から語句の認識を行う情報処理装置であって、動画像を撮影する撮像部と、上記撮像部により撮影された動画像を構成する連続した画像を順次取得し、該画像の所定位置にある語句を示す情報である語句情報を抽出する抽出手段と、上記抽出手段によって抽出した語句情報を格納する格納部と、上記格納部において最も多く格納されている語句情報の語句を認識結果として決定する決定手段と、を備えることを特徴とする。
したがって、本発明に係る情報処理装置は、画像から迅速に文字を認識することができるという効果を奏する。
本発明に係る情報処理装置の制御方法は、上記した課題を解決するために、撮像部と格納部とを備え、画像から語句の認識を行う情報処理装置の制御方法であって、上記撮像部により動画像を撮影する撮像ステップと、上記撮像ステップにおいて撮影された動画像を構成する連続した画像を順次取得し、該画像の所定位置にある語句を示す情報である語句情報を抽出する抽出ステップと、上記抽出ステップにおいて抽出した語句情報を上記格納部に格納する格納ステップと、上記格納部において最も多く格納されている語句情報の語句を認識結果として決定する決定ステップと、を含むことを特徴とする。
したがって、本発明に係る情報処理装置の制御方法では、画像から迅速に文字を認識することができるという効果を奏する。
本発明の実施形態を示すものであり、辞書機能に係る携帯電話機のソフトウェア構成を示すブロック図である。 本発明の実施形態を示すものであり、携帯電話機の外観の一例を示す図である。 本発明の実施形態を示すものであり、携帯電話機の外観の一例を示す図である。 本発明の実施形態を示すものであり、携帯電話機の要部構成を示すブロック図である。 本発明の実施形態を示すものであり、辞書テーブルの一例を示す図である。 本発明の実施形態を示すものであり、所定位置近傍にある、文字列から抽出された語句に、該語句の読み、および意味を併記した表示状態の一例を示す図である。 本発明の実施形態を示すものであり、DPマッチングの概略を説明する図である。 本発明の実施形態を示すものであり、DPマッチングにおける各ノード、およびノード間パスの距離値の関係の一例を示す図である。 本発明の実施形態を示すものであり、FIFOバッファにおけるデータの格納状態の一例を示す図である。 本発明の実施形態を示すものであり、FIFOバッファにおけるデータの格納状態の一例を示す図である。 本発明の実施形態を示すものであり、FIFOバッファにおけるデータの格納状態の一例を示す図である。 本発明の実施形態を示すものであり、FIFOバッファにおけるデータの格納状態の一例を示す図である。 本発明の実施形態を示すものであり、FIFOバッファにおけるデータの格納状態の一例を示す図である。 本発明の実施形態を示すものであり、辞書機能に関する処理フローの一例を示すフローチャートである。 本発明の実施形態を示すものであり、所定位置近傍にある、文字列から抽出された語句に、該語句の読み、および意味を併記した表示状態の一例を示す図である。 本発明の他の実施形態を示すものであり、辞書機能に係る携帯電話機のソフトウェア構成を示すブロック図である。 本発明の他の実施形態を示すものであり、辞書機能に関する処理フローの一例を示すフローチャートである。 本発明の他の実施形態を示すものであり、所定位置近傍にある、文字列から抽出された語句に、該語句の読み、および意味を併記した表示状態の一例を示す図である。 本発明の他の実施形態を示すものであり、所定位置近傍にある、文字列から抽出された語句に、該語句の読み、および意味を併記した表示状態の一例を示す図である。 本発明の他の実施形態を示すものであり、保存された文字列、今回取得した文字列、それらを結合した結合文字列の関係を示す図である。 本発明の他の実施形態を示すものであり、保存された文字列、今回取得した文字列、それらを結合した結合文字列の関係を示す図である。 本発明の他の実施形態を示すものであり、保存された文字列、今回取得した文字列、それらを結合した結合文字列の関係を示す図である。 本発明の他の実施形態を示すものであり、保存された文字列、今回取得した文字列、それらを結合した結合文字列の関係を示す図である。 本発明の他の実施形態を示すものであり、辞書機能に係る携帯電話機のソフトウェア構成を示すブロック図である。 本発明の他の実施形態を示すものであり、携帯電話機の辞書機能に関する処理フローを示すフローチャートである。 本発明の他の実施形態を示すものであり、情報提供処理部が有する機能をユーザが選択するための表示画面の一例を示す図である。
(実施の形態1)
本発明の実施の一形態について図1〜図13に基づいて説明すれば、以下のとおりである。本実施の形態に係る携帯電話機1は、利用者により携行され、基地局を介して他の電話機と通話を行ったりメールを送受信したりすることができる電話機である。この携帯電話機1は、上述した通話を行う機能(通話機能)、メールを送受信する機能(メール機能)に加えて、撮像部8により静止画像または動画像を取得する機能(撮像機能)も有している。さらにまた、インターネット等の通信ネットワークに接続したり、該通信ネットワークを通じて他の装置と通信を行ったりすることもできる。
そして、詳細は後述するが、本実施の形態に係る携帯電話機1は、取得した動画像から特定の語句を認識し、該語句の意味および読みを動画像に重畳させて表示すること(辞書機能)ができるようにも構成されている。
なお、携帯電話機1が有する機能は上記した通話機能、メール機能、撮像機能、および辞書機能に限定されるものではなく、例えば、放送波を受信するアンテナを備え、該アンテナを介して受信した放送波に基づきテレビ放送を出力するテレビ機能など他の機能を備えていてもよい。
上記携帯電話機1は、図2、3に示すように上面に操作部6およびマイク9、背面に撮像部8、その内部に通信用アンテナ5(図2、3では図示せず)を有する操作本体部2と、上面に表示部7、スピーカ10を有する表示画面部3と、これら操作本体部2と表示画面部3とを接続するヒンジ部4とを備えてなる構成である。
なお、表示画面部3と操作本体部2との間は有線で結ばれており、操作本体部2から出力された制御信号等を表示画面部3にて受付けることができる。この図2、3は、本発明の実施形態を示すものであり、携帯電話機1の外観の一例を示す図である。
携帯電話機1は、例えば他の電話機との間で通話を行う場合、スピーカ10より音声を出力し、マイク9より音声を入力することができる。また、携帯電話機1は、操作部(操作受け付け部)6により各種制御指示等を入力することができる。
さらにまた、携帯電話機1は、表示部7において各種情報を示すテキストデータや画像データ、動画等のデジタルコンテンツを表示させることができるように構成されている。
操作部6は、テンキー61および十字キー62から構成されており、本実施形態(実施形態1)では、テンキー61、十字キー62、あるいはこれらの組み合わせにより各種情報の設定を行ったり、各種アプリケーションの起動・停止指示等を指示したりすることができる。また、本実施の形態に係る携帯電話機1では、この操作部6を操作して撮像部8を起動させ、取得した動画像に含まれる特定の語句についてその意味と読みを表示することができるように構成されている。
表示部7は、例えばLCD(Liquid Crystal Display)等によって実現することができる。
撮像部8は、CCD(charge coupled device)やCMOSによって構成され、これによって動画像または静止画像を撮影することができる。撮像部8は、1秒あたり15から30フレーム以上の動画を撮像することができる。なお、詳細は後述するが携帯電話機1では、主制御部15が、この撮像部8によって撮像した動画像の各画像(フレーム)を解析し、該画像において所定位置にある語句を抽出し、抽出した語句の読み、および意味を出力することができるようになっている。
(携帯電話機のハードウェア構成)
次に、上記した携帯電話機1のハードウェア構成の詳細について図4を参照して説明する。図4は、本発明の実施形態を示すものであり、携帯電話機1の要部構成を示すブロック図である。
図4に示すように、本実施の形態に係る携帯電話機1は、上記したヒンジ部4、通信用アンテナ5、操作部6、表示部7、撮像部8、マイク9、およびスピーカ10に加えて、さらに無線通信処理部11、信号処理部12、表示ドライバ13、記憶装置(リスト情報記憶装置)14、主制御部15、およびFIFOバッファ(格納部)16を備えてなる構成である。
まず、記憶装置14が保持する各種情報について説明する。なお、この記憶装置14は、読み書き可能な記憶装置であり、例えば、フラッシュメモリ、ハードディスク等によって実現することができる。この記憶装置14には、図4に示すように、辞書テーブル(リスト情報)70および所定位置情報71が記憶されている。
辞書テーブル70は、動画像の各画像(フレーム)から抽出した語句、該語句のID、該語句の読み、および意味に関する情報を含むテーブルである。辞書テーブル70では、図5に示すように語句を識別するためのID、語句、その語句の読みおよび意味それぞれが対応づけられて記録されている。図5は本発明の実施形態を示すものであり、辞書テーブル70の一例を示す図である。
また、所定位置情報71は、意味および読みを出力する語句を決定するために基準とする情報である。より具体的には、本実施形態では、取得した画像を表示部7にて表示させた際、表示画面における中心座標の位置に関する情報となる。
主制御部15は、携帯電話機1が備える各部の各種制御を行うものであり、例えばCPU等によって実現することができる。ここで、主制御部15が、CPU等によって実現される場合、該CPUが、不図示のROM等に記憶しているシステムプログラムを不図示のRAM等に読み出し実行することにより、当該携帯電話機1が有する各部を制御することができる。
そして、このように構成された携帯電話機1では、以下のようにして、各種機能を実行する。すなわち、携帯電話機1では、無線通信処理部11による送受信制御のもとに、通信用アンテナ5を介して基地局(不図示)との信号の送受信を行い、信号処理部12が送受信される信号に対して所定の信号処理を施す。これによって、携帯電話機1では、基地局を介して相手側装置(他の電話機)から送信されてくる音声をスピーカ10から出力したり、マイク9から入力される音声を、基地局を介して相手側装置に送信したりする、いわゆる通話機能を実現する。
さらにまた、上記携帯電話機1では、上記通信用アンテナ5を介して基地局との間でメールデータの送受信を行い、該基地局と通信可能に接続されたサーバ等からメールデータを受信したり、メールデータを送信したりする、いわゆるメール機能を実現することもできる。
また、主制御部15からの制御指示に応じて、撮像部8が起動し、静止画像または動画像を取得する。そして、取得した静止画像または動画像を記憶装置14に格納したり、表示ドライバ13に出力して表示部7において表示したりする、いわゆる撮像機能を実現する。
辞書機能を実行するために撮像部8を起動させる場合は、撮像部8により撮影された画像から抽出した語句のIDを、主制御部15の制御指示に応じてFIFOバッファ16に入力する。
FIFOバッファ16は、取得した画像(フレーム)から抽出した語句のIDを古く格納した順に取り出すように入出力を行う、いわゆる先出し先入れバッファである。
詳細は後述するが、本実施の形態に係る携帯電話機1では、辞書機能を実行する場合、主制御部15からの制御指示に応じて、画像から抽出した語句のIDを順次FIFOバッファ16に入力する。そして、1画像(フレーム)が撮像部8から入力される度に、主制御部15では、該画像から語句を抽出し、抽出した語句のIDをFIFOバッファ16に格納する。そして、FIFOバッファ16を探索して格納されているIDのうち最も出現頻度が高いID(最頻値となるID)の語句の読み、および意味を表示ドライバ13に出力する。そして、表示ドライバ13は、入力された語句の読み、および意味を、撮像部8により撮影されている動画像に重畳させて表示部7に表示させるように構成されている。
次に、本実施の形態に係る携帯電話機1における上述した辞書機能の詳細について説明する。まず、「辞書機能に関するソフトウェア構成」について、図1を参照して説明する。図1は、本発明の実施形態を示すものであり、辞書機能に係る携帯電話機1のソフトウェア構成を示すブロック図である。
(辞書機能に関するソフトウェア構成)
まず図1を参照して辞書機能に関するソフトウェア構成について説明する。図1に示すように、本実施の形態に係る携帯電話機1では、主制御部15が辞書機能を実行処理するものとして辞書機能処理部20を備えている。そして、辞書機能処理部20は、機能ブロックとして、文字列取得部(文字列抽出手段)21、文字列照合部(語句特定手段)22、語句ID取得部(識別子取得手段)23、認識決定部(決定手段)24、および語句情報取得部(意味・読み取得手段、第1出力手段)25を備えてなる構成である。なお、これらの機能ブロックは、辞書機能処理部20が例えば、CPU等によって実現できる場合、該CPUが不図示のROMに格納したプログラムを不図示のRAMに読み出し、実行することにより実現できる。また、文字列取得部21と文字列照合部22と語句ID取得部23とによって本発明の抽出手段を実現する。
文字列取得部21は、操作部6からの指示に応じて、撮像部8により撮像した動画像を構成する連続する画像(フレーム)それぞれにおいて文字の認識処理を行うものである。そして、文字列取得部21は、所定位置情報71を参照して、認識した文字のうち画像の所定位置を含む文字列を取得する。つまり、文字列取得部21は、撮像部8により取得した動画像の各画像において、行間や文字の並びから行を抽出する。そして文字を切り出し文字の認識を行う。さらに文字列取得部21は、画像の所定位置を含む文字列を取得する。
なお、画像の所定位置とは、本実施形態では、取得した画像を表示部7にて表示させた際、表示画面における中心座標の位置とする。より具体的には、例えば図6に示すような画像を取得した場合、表示部7の表示画面における中心座標(0,0)が所定位置となる。そして、所定位置を含む文字列は、中心座標を含む文字列、すなわち「る農場の杜撰な管理によ」となる。文字列取得部21は、文字列を取得すると、この取得した文字列を文字列照合部22に送信する。図6は本発明の実施形態を示すものであり、所定位置近傍にある、文字列から抽出された語句に、該語句の読み、および意味を併記した表示状態の一例を示す図である。
文字列照合部22は、文字列取得部21により取得された文字列から意味、および読みを表示させる語句を選択するものである。文字列照合部22は、文字列取得部21により取得された文字列(入力文字列)と、辞書テーブル70に格納された参照文字とをDP(Dynamic Programming:動的計画法)マッチングを用いてマッチングさせる。そして、マッチングした語句(文字列)の中から意味・読みを出力する語句(文字列)を特定する。より具体的には、以下のようにして辞書テーブル70を利用して照合を行う。
まず、図7により本実施形態にて利用するDPマッチングについての概略を説明する。図7は本発明の実施形態を示すものであり、DPマッチングの概略を説明する図である。文字列照合におけるDPマッチングでは、入力文字列と参照文字との間で対応をとるとき、図7に示すように累積距離値が最小値となる経路を求める。ここで累積距離値とは、始端から終端まで経路を辿るとき、入力文字列と参照文字との一致度合いを示す各ノード(交点)の距離値と、入力文字列と参照文字の対応関係を示すパス(辺)の距離値とを累積したものである。
なお、参照文字は入力文字列における一部分である。このため、始端、終端をフリーとし、始端と終端とのノードの距離値、および始端から出るパス、終端に入るパスの距離値を0とする。
ところで、DPマッチングを用いて、入力文字列から辞書テーブル70に登録されている語句を探索する場合、この探索する語句の長さは同じではない。そこで、累積距離値を語句の長さで割った値が最小となる語句を探索する。なお、文字列取得部21によって取得された文字列が図6に示す「る農場の杜撰な管理によ」であり、辞書テーブル70には、「農場」、「杜撰」、「管理」という参照文字が登録されているとする。この場合、全ての語句(「農場」、「杜撰」、「管理」)について同じ累積距離値となってしまう。このように累積距離値が同じ語句が複数存在する場合は、文字列照合部22は、所定位置情報71を参照して、本実施形態では表示画面における所定位置に最も近い語句(「杜撰」)を選択する。
また、文字列取得部21によって取得した文字列が「go as soon as possible」を含む文字列であり、「所定の位置」が「soon」の位置だったとする。このとき「soon」が辞書テーブル70に格納されていれば「soon」の累積距離値は0となるが、「as soon as」という熟語も辞書テーブル70に格納されていればこちらの累積距離値も0となる。このように同じ累積距離値の語句が見つかった場合、本実施形態では長さが長いものを優先するように規定しているため、このため、文字列照合部22は、文字列取得部21によって取得した文字列からは「as soon as」という語句を抽出することとなる。このため、ユーザは辞書を引くときに「as」なのか「soon」なのかを気にすることなく、所望の意味(和訳)を得ることができる。
次に図8を用いて、本実施の形態で用いるDPマッチングの詳細について説明する。図8は本発明の実施形態を示すものであり、DPマッチングにおける各ノード、およびノード間パスの距離値の関係の一例を示す図である。
ノード(i,j)における累積距離値をF(i,j)とすると、数式(1)のように求めることができる。
Figure 0004668345
ここで、数式(1)において、d(i,j)はノード(i,j)における入力文字列と参照文字との距離(一致度)である。なお、この距離は完全一致する場合「0」、一致しない場合値「K」というように2値を設定してもよいし、例えば「社」と「杜」のように類似文字では文字が一致していなくても、他の一致しない文字よりは小さい値(「0」により近い値)を設定するように構成されていてもよい。また、文字列取得部21において文字認識を行った際の第2位以下の候補文字についても同様の値を設定するようにしてもよい。
また、数式(1)においてq(i-1,j)はノード(i-1,j)からノード(i,j)へのパスの距離値であり、このパスは入力文字列に重複や、ゴミを含む場合に相当する。p(i,j-1)はノード(i,j-1)からノード(i,j)へのパスの距離値であり、このパスは入力文字列に欠落がある場合に相当する。ノード(i-1,j-1) からノード(i,j)へのパスについては入力文字列と参照文字列との対応が取れている場合に相当するため、数式(1)におけるパスの距離は0としている。文字認識の認識率は100%ではないため、文字を余分に認識したり、欠落したりしてしまうことも起こり得るが、DPマッチングを用いることでそれらを加味して、入力文字列と参照文字列との累積距離値を求めることができる。なお、空白文字(スペース)は他の文字とは異なり、文字の形状ではなく、文字間の隙間を認識するだけであるため、余分に認識してしまったり、欠落してしまったりすることが起こりやすい。そこで、ノード(i,j)の入力文字が空白文字(スペース)で参照文字がそれ以外のときにはq(i-1,j)を、ノード(i,j)の参照文字が空白文字で入力文字がそれ以外のときにはp(i,j-1)を通常よりも小さい値に設定し、空白文字の誤認識の影響が小さくなるようにしてもよい。本実施の形態ではDPマッチングに図13および式1のようなモデルを用いたが、別のモデルを用いてもよい。文字列照合部22は、文字列取得部21により取得された文字列から意味、読みを表示させる語句を選択すると、選択した語句についての情報を語句ID取得部23に通知する。
このように、本実施の形態に係る携帯電話機1では、文字列照合部22が、文字列取得部21により取得された文字列(入力文字列)と、辞書テーブル70に格納された参照文字とをDP(Dynamic Programming:動的計画法)マッチングを用いてマッチングさせる。つまり、文字の認識において誤認識、切り出し間違いによる文字の分断、欠落など、様々な要因で誤りを含んだ入力文字列から辞書テーブル70に格納されている最も近い文字列を抽出するためにDPマッチングを用いている。このため、誤りを含んだ入力文字列であっても類似度(比較する文字列どうしの距離)を計算して照合し、辞書テーブル70の中から文字の認識結果と最も近い語句を抽出することができる。
なお、本実施形態では、画像から文字列取得部21が文字列を取得し、文字列照合部22が取得した文字列の中から、辞書テーブル70に格納された参照文字とマッチングする語句を選択し、選択した語句の中から意味・読みを出力する語句を特定する処理を語句の認識処理と称する。
語句ID取得部23は、文字列照合部22からの、選択した語句についての情報の通知を受けると、該語句のIDを辞書テーブル70から読み出し、FIFOバッファ16に出力するものである。語句ID取得部23は、選択した語句のIDをFIFOバッファ16に出力する際、その出力タイミングを通知するタイミング情報を認識決定部24に送信する。
認識決定部24は、語句ID取得部23からタイミング情報を受け付けると、FIFOバッファ16において格納されているIDのうち最も多いIDを取得する。すなわち、認識決定部24は、FIFOバッファ16においてIDの出現頻度を比べ最頻値をとるIDを取得する。そして、取得したIDに対応する語句を、語句の認識処理に係る認識結果として決定するものである。認識決定部24は、認識結果として決定した語句のIDを語句情報取得部25に通知する。なお、認識決定部24による「語句の認識結果の決定処理」についての詳細は後述する。
語句情報取得部25は、認識決定部24からの通知に応じて、受信した語句のIDに対応する読み、または意味を辞書テーブル70から取得するものである。語句情報取得部25は、取得した読み、または意味を表示ドライバ13に送信し、撮像部8で取得している動画像における対応するする語句上に重畳させて表示するように指示する。なお、表示ドライバ13は、語句情報取得部25からの指示に応じて、例えば図6に示すように所定位置にある語句にその意味または読みを併記する形で表示するように制御する。
(語句の認識結果の決定処理)
次に、上記した「語句の認識結果の決定処理」について図9〜図13を参照して説明する。なお、本実施の形態に係る携帯電話機1が備えるFIFOバッファ16は、データを格納する深度が8であるものとして説明する。また、図9から図13は、本発明の実施形態を示すものであり、FIFOバッファ16におけるデータの格納状態の一例を示す図である。
FIFOバッファ16は、初期状態では語句ID取得部23から入力された語句のIDが無いため、図9に示すようにIDを格納すべき欄(記憶領域)はすべて値「0」が設定されている。なお、本実施形態では、ID=「0」は、語句ID取得部23から入力された語句のIDがないことを示しており、「認識した語句なし」を意味する。
ここで、撮像部8が1フレームの画像を取得し、この画像に対する文字列取得部21および文字列照合部22による語句の認識処理に基づき、語句ID取得部23が該画像において所定位置にある語句のID(=「2222」)を取得したとする。そして、この取得したIDを語句ID取得部23がFIFOバッファ16に出力すると、FIFOバッファ16は図10に示すような状態となる。すなわち、出力順番が1番となる位置に格納された「0」が出力され、出力順番が2番から8番となる位置に格納された「0」がそれぞれ出力順番1から7番となる位置に繰り上がる。そして、語句ID取得部23から受信したIDが、出力順番が8番目となる位置に格納される。なお、図9および図10は本発明の実施形態を示すものであり、FIFOバッファ16におけるデータの格納状態の一例を示すものである。
このようにデータ(語句のID)が格納された状態で認識決定部24は、FIFOバッファ16において格納されているIDのうち最も多いIDを取得する。ここで、格納されている値「0」は、無視するものとする。このため、この時点でFIFOバッファ16において格納されているIDのうち最も多いIDは、「2222」となる。したがって、認識決定部24は、語句の認識結果として「2222」を取得する。
このように、本実施の形態に係る携帯電話機1は、撮像部8が新たに画像を取得すると即座に表示部7に該画像において認識した文字の読み、または意味を出力し表示させることができる。
ところで、撮像部8によって取得した動画像を構成する各画像に対して実施される語句の認識処理による認識結果は、すべてが正確とは言えず、誤った文字列から不適切な語句を、認識処理の結果として取得する場合がある。例えば、携帯電話機1が、IDが「2222」となる語句を所定位置に含む画像を連続的に取得しているとする。しかしながら、語句の認識処理において、数画像に1画像の割合で所定位置にある語句を、IDが「1212」である語句と誤って認識し、FIFOバッファ16に格納されたIDが例えば図11に示すようになる場合がある。なお、図11は、本発明の実施形態を示すものであり、FIFOバッファ16におけるデータの格納状態の一例を示すものである。
ここで認識決定部24は、FIFOバッファ16に格納されているIDで最も多いIDを文字列認識の認識結果として決定する構成となっている。このため、図11に示すように、FIFOバッファ16に格納されたIDに、文字列取得部21による誤った認識結果を含む場合であっても認識決定部24は、該FIFOバッファ16に格納されているIDで最も多いIDを語句の認識結果として決定することができる。
したがって、本実施の形態に係る携帯電話機1は、表示画面の所定位置にある語句について安定してその意味または読みを表示させることができる。
なお、上記では、語句の認識処理を行っていない状態から、撮像部8が動画像の撮影を開始する。そして、1フレーム分の画像における所定位置にある語句が取得され、該語句に対応するIDがFIFOバッファ16に格納されると、該語句を認識結果として決定する構成であった。
しかしながら、上述のように本実施の形態に係る携帯電話機1における語句の認識処理の認識結果は誤りを含む可能性がある。このため、最初に撮像部8から入力された画像に対する、語句の認識処理の認識結果が誤っている場合、携帯電話機1はこの誤った語句の読み、および意味を表示することとなる。
そこで、安定して正確な語句の読み、および意味を表示できるようにするため、FIFOバッファ16に格納されているIDについて、語句の認識結果として決定するIDの最頻値に下限を設ける構成としてもよい。例えば、FIFOバッファ16において、共通するIDが3つ以上格納されていない場合は最頻値となるIDを取得せず、語句の認識結果を決定しないように構成する。
また、上記では、所定位置に表示された、ある特定の語句についての認識結果の決定処理について説明した。携帯電話機1は任意に撮影対象位置を変更できるため、当然、所定位置に表示する語句も変更することができる。
以下において、文字列(語句)の認識処理対象の変更に伴う認識結果の決定処理について説明する。
まず、前提として表示部7の表示画面における所定位置に「杜撰」(語句のID=「2222」とする)という文字列を表示するようにユーザが携帯電話機1を保持しているものとする。この状態から撮像部8の撮像対象位置を変更し、表示画面における所定位置に「管理」(語句ID=「1111」とする)という語句を表示するようにユーザが携帯電話機1を移動させるものとする。
このような撮像対象位置の変更にともない、FIFOバッファ16に格納されたIDの格納状態は、図12、図13と遷移していく。すなわち、図12、13に示すように、新たに語句のID「1111」がFIFOバッファ16に入力されるにつれ、先に格納されていた語句のID「2222」が出力される。すなわち、図12における1から8のうちその約半分の5から8までが「2222」に書き換えられると、語句のID「1111」の数が格納されている語句のID「2222」の数を上回るように変化する。そして、FIFOバッファ16において、語句のID「1111」の数が語句のID「2222」の数を上回ると、語句のID「1111」の意味および読みが、語句のID「2222」の意味および読みの表示に書き換わる。
(辞書機能に関する処理フロー)
次に上記した構成を有する携帯電話機1における、辞書機能に関する処理フローについて、図14を参照して説明する。図14は、本発明の実施形態を示すものであり、辞書機能に関する処理フローの一例を示すフローチャートである。
まず、撮像部8が撮像を開始する。つまり、ユーザが携帯電話機1において操作部6を操作して、撮像部8を起動させるとともに、主制御部15に対して辞書機能の実行を指示する。そして、表示部7の表示画面における所定位置に、意味、および読みを表示させたい語句が表示されるように携帯電話機1を移動させる。
このようにして、撮像部8は所望の語句が表示部7の表示画面における所定位置に表示されるように動画像を撮像する(ステップS10、これ以降はS10のように称する)。撮像部8は、撮像した動画像を構成する連続する画像(フレーム)ごとに文字列取得部21に出力する。
文字列取得部21は、操作部6からの上記指示に応じて、撮像部8から入力された画像に対して文字認識を行い(S11)、文字認識の認識結果に基づき所定位置を含む文字列を認識する(S12)。つまり、文字列取得部21は、撮像部8により取得した動画像の各画像において、行間や文字の並びから行を抽出する。そして文字を切り出し文字の認識を行う。さらに、文字列取得部21は、画像から所定位置を含む文字列を取得する。文字列取得部21は、文字列を取得すると、この取得した文字列を文字列照合部22に送信する。
文字列照合部22は、文字列取得部21により抽出された文字列(入力文字列)と、辞書テーブル70に格納された参照文字とをDPマッチングを用いてマッチングさせる。そして、マッチングした語句の中から意味、および読みを出力する語句を特定する(S13)。文字列照合部22は、特定した語句についての情報の通知を語句ID取得部23に送信する。
語句ID取得部23は、文字列照合部22からの通知を受けると、通知された語句のIDを辞書テーブル70から読み出し、FIFOバッファ16に出力する。語句ID取得部23は、選択した語句のIDをFIFOバッファ16に出力する際、その出力タイミングを通知するタイミング情報を認識決定部24に送信する。
認識決定部24は、語句ID取得部23からタイミング情報を受け付けると、FIFOバッファ16において格納されているIDのうち最も多いIDを取得する。すなわち、認識決定部24は、FIFOバッファ16においてIDの出現頻度を比べ最頻値をとるIDを取得する(S14)。そして、取得したIDに対応する語句を語句の認識結果として決定し、決定した語句のIDを語句情報取得部25に通知する。
語句情報取得部25は、認識決定部24からの通知に応じて、受信した語句のIDに対応する読み、および意味を辞書テーブル70から取得し、表示ドライバ13に送信する。そして、表示ドライバ13は、語句情報取得部25からの受信した語句の意味または読みを表示部7に表示させる(S15)。
ここで、ユーザから辞書機能の停止指示が操作部6によって入力されない間、すなわち、ステップS16において「NO」の間は、ステップS10からステップS15までの処理を繰り返す。一方、操作部6から辞書機能の停止指示が入力された場合、すなわちステップS16において「YES」の場合、撮像部8の起動を停止し、辞書機能の実行を停止させる。
(実施形態2)
次に、図16から図23に基づいて、実施形態2に係る携帯電話機1について説明する。実施形態2に係る携帯電話機1は、実施形態1に係る携帯電話機1において文字列の認識処理を実行する際に、操作部6における所定の操作ボタンを押下した状態にある間は、撮像部8の撮像位置が多少位置ずれしたとしても安定した認識結果が得られるように構成されている点で相違する。また、意味および読みを出力させたい語句が改行により分断されている場合、行頭部分の文字列と行末部分の文字列とを結合させた結合文字列を生成し、この結合文字列から語句を抽出することができるように構成されている点でも相違する。
より具体的には、実施形態2に係る携帯電話機1は、図16に示すように、実施形態1に係る携帯電話機1の構成において、ボタン押下検出部(入力検知手段)26を更に備える点で異なる。図16は、本発明の他の実施形態を示すものであり、辞書機能に係る携帯電話機1のソフトウェア構成を示すブロック図である。
ボタン押下検出部26は、操作部6における所定の操作ボタンの押下状態を検出するものである。所定の操作ボタンが押下状態にある旨検出すると、その検出結果を文字列取得部21に送信する。
また、実施形態2に係る携帯電話機1では、ボタン押下検出部26から、所定の操作ボタンが押下状態にある旨の検出結果を受信すると、文字列取得部21が画像から取得した所定位置を含む文字列を一時記憶するためのメモリ(文字列記憶装置)17を備える点で異なる。さらに、既に文字列を記憶しており、さらに新たな文字列を取得した場合は、保存されている文字列と新たな文字列とを結合させた結合文字列を生成する点でも異なる。
それ以外の点については、実施形態2に係る携帯電話機1と実施形態1に係る携帯電話機1では同様であるため、実施形態1に示した各部と同一部材には同じ符号を付し、その説明は省略するものとする。
次に、図17を参照して実施形態2に係る携帯電話機1による辞書機能の実行処理について説明する。図17は、本発明の他の実施形態を示すものであり、辞書機能に関する処理フローの一例を示すフローチャートである。
なお、ステップS20からステップS22までの処理は、図14に示すステップS10からステップS12までの処理と同様である。また、ステップS25からS28までの処理は、図14におけるステップS13からステップS16と同様である。このため、これらの処理についての説明は省略する。
文字列取得部21は、撮像部8から入力された画像から文字列を取得すると、ボタン押下検出部26からの検出結果に基づき、操作ボタンが押下されているか否か判定する(S23)。
例えば、図18に示すように撮像部8から入力された画像の所定位置を含む文字列が「今年の北海」である場合、ステップS22において文字列取得部21が「今年の北海」という文字列を抽出する。そして、文字列取得部21は、操作ボタンが押下されているか否か判定する。なお、図18は、本発明の他の実施形態(実施形態2)を示すものであり、所定位置近傍にある、文字列から抽出された語句に、該語句の読み、および意味を併記した表示状態の一例を示す図である。
ここで、ステップS23において「NO」の場合、文字列取得部21は、メモリ17に前回画像から取得した文字列が保存されているか否か確認する。そして、保存された文字列が格納されている場合は、その文字列を削除する(S24)。さらに、入力された画像から取得した文字列を文字列照合部22に送信する。これ以降では、ステップS25からS28までの処理が実行される。
一方、文字列取得部21がボタン押下検出部26からの検出結果に基づき、操作ボタンが押下されていると判定した場合(ステップS23において「YES」)、今回の文字列の取得処理が、操作ボタンが押下された状況下における1回目の処理であるか否か確認する。すなわち、文字列取得部21は、操作ボタンが押下状況下で、すでにメモリ17に保存された文字列があるか否か確認する(S29)。
ステップS29において「YES」の場合、文字列取得部21は、取得した文字列をメモリ17に保存するとともに(S31)、文字列照合部22に送信する。例えば、所定位置を含む文字列が図18に示す文字列である場合、文字列取得部21は、「今年の北海」という文字列をメモリ17に保存するとともに、該文字列を文字列照合部22に送信する。この文字列取得部21による文字列照合部22への文字列の送信後は、ステップS25からステップS28までの処理が実行される。
一方、ステップS29において「NO」の場合、すなわち、メモリ17にすでに保存されている文字列がある場合、今回取得した文字列と結合する(S30)。そして、文字列取得部21は、この結合した結合文字列を文字列照合部22に送信する。これ以降では、ステップS25からS28までの処理が実行される。
例えば、ステップS31により「今年の北海」という文字列がメモリ17に保存された後に、さらに次のフレームに対して、ステップS20からS22までが実行され、新たな文字列が取得されたとする。この場合、文字列取得部21は所定位置を基準にして既に保存されている「今年の北海」という文字列に今回取得した文字列を結合する。
例えば、既に保存されている文字列を取得した姿勢を維持し、操作ボタンを押下したままユーザが動画を撮影した場合、図20に示すように既に保存されている文字列と、今回取得した文字列とは略同じとなり、結合文字列は既に保存されている文字列を今回取得した文字列に所定位置を基準にして上書きしたものとなる。
なお、ここでの上書きとは、今回取得した文字列を既に保存されている文字列と置き換えるという意味ではない。今回取得した文字列と、保存されている文字列とを所定位置を基準にして位置合わせし、そして重複する部分だけ上書きされるということである。ただし、操作ボタンを押下した時点の文字列を常に文字列取得部21が取得するように構成する場合は、操作ボタンが押下された状況下にある間、取得した文字列を既に保存されている文字列に常に置き換えるように構成してもよい。
図20は、本発明の他の実施形態(実施形態2)を示すものであり、保存された文字列、今回取得した文字列、それらを結合した結合文字列の関係を示す図である。
そして、文字列取得部21は、この結合文字列を文字列照合部22に出力する。文字列照合部22は、この結合文字列に対して所定位置にある語句を抽出する。図20の例では、所定位置が「海」であり、辞書テーブル70において「北海」という語句が参照文字として記録されているため、抽出する語句は「北海」となる。
一方、既に保存されている文字列を取得した姿勢を変更し、撮像対象位置を所定位置が「北」の位置にくるように移動させ、操作ボタンを押下したままユーザが動画を撮影した場合、図21のようになる。図21は、本発明の他の実施形態(実施形態2)を示すものであり、保存された文字列、今回取得した文字列、それらを結合した結合文字列の関係を示す図である。
すなわち、今回取得された文字列は、保存された文字列よりも所定位置が左にずれた位置となる。このため、結合文字列は、所定位置を基準にして保存された文字列を今回取得した文字列に上書きしたもの、すなわち、「今年の北海海」となる。辞書テーブル70には「北海海」という文字列が存在しないため、結合文字列が「今年の北海海」となる場合であっても、文字列照合部22は、「北海」という文字を抽出する。
このように、実施形態2に係る携帯電話機1は、操作ボタンが押下された状態で、撮像対象位置がずれる場合であっても抽出する語句を固定化させることができる。
また、意味および読みを表示させたい語句が改行により分断されてしまっている場合は、以下のように処理して語句の抽出を行う。
例えば、改行により「・・・今年の北海」と「道の夏はとて・・・」とが一文にも関わらず分断されているものとする。そして、文字列取得部21が改行前の文字列から「今年の北海」を取得し、改行後の文字列から「道の夏はとて」を取得したとする。つまり、既に保存されている文字列(改行前の文字列:「今年の北海」)を取得した姿勢を変更し、撮像対象位置を次の行頭に移動させ、所定位置が「道」の位置にくるようにする。操作ボタンを押下したまま、このように撮像対象位置を変更させてユーザが動画を撮影した結果、文字列取得部21は、今回取得した文字列として図19に示す「道の夏はとて」という文字列を取得する。なお、図19は、本発明の他の実施形態(実施形態2)を示すものであり、所定位置近傍にある、文字列から抽出された語句に、該語句の読み、および意味を併記した表示状態の一例を示す図である。
このように、既に保存されている文字列は図22に示すように「今年の北海」であるのに対して今回取得した文字列は「道の夏はとて」となる。図22は、本発明の他の実施形態(実施形態2)を示すものであり、保存された文字列、今回取得した文字列、それらを結合した結合文字列の関係を示す図である。
ここで、所定位置を基準にこのまま保存された文字列を、取得した文字列に上書きすると「今年の北海の夏はとて」となる。しかしながら、実施形態2に係る携帯電話機1では、保存された文字列、および今回取得した文字列のうちいずれか一方が行頭位置の文字列となり、いずれか一方が行末位置の文字列となる場合、図22に示すように結合文字列を生成する。すなわち、そのまま上書きをするのではなく保存された文字列と今回取得した文字列とをつなぎ合わせて、結合文字列を「今年の北海度の夏はとて」という文字列とする。この場合、辞書テーブル70に「北海道」という文字列が存在するとすると、文字列照合部22による結合文字列に対する語句の抽出結果は「北海道」となる。
このように行末付近の文字列を抽出した状態で、操作ボタンを押下したまま、撮像部8の撮影対象位置を文字列の行頭付近に移動させる場合、すなわち改行により語句が分断されるような場合であっても該語句を適切に抽出することができる。
なお、保存された文字列、および今回取得した文字列が、行頭位置の文字列であるのか、行末位置であるのかについては以下のように取得した文字列から判断することができる。すなわち、図22に示すように、取得した文字列において所定位置の右側に一定範囲の空白(スペース)が存在する場合、文字列取得部21はこの取得した文字列は、行末部分の文字列であると判断する。一方、取得した文字列において所定位置の左側に一定範囲の空白(スペース)が存在する場合、文字列取得部21はこの取得した文字列は、行頭部分の文字列であると判断する。
また、図22では、既に取得した文字列が行末部分の文字列となり、今回取得した文字列が行頭部分の文字列である場合について示している。つまり、撮像部8の撮像対象位置を行末から行頭へと移動させた例について説明している。しかしながら、図23に示すように、既に取得した文字列が行頭部分の文字列となり、今回取得した文字列が行末部分の文字列である場合も同様に結合文字列として「今年の北海道の夏はとて」という文字列を生成することができる。なお、図23は、本発明の他の実施形態を示すものであり、保存された文字列、今回取得した文字列、それらを結合した結合文字列の関係を示す図である。
(実施形態3)
次に、図24から図26に基づいて、実施形態3に係る携帯電話機1について説明する。図24は本発明の他の実施形態(実施形態3)を示すものであり、辞書機能に係る携帯電話機1のソフトウェア構成を示すブロック図である。
実施形態3に係る携帯電話機1は、実施形態1に係る携帯電話機1と比較して、操作部6が、異なる入力段階(第1入力段階、第2入力段階)でユーザからの入力(第1入力、第2入力)それぞれを受け付けることができる点で相違する。また、この異なる入力段階は、操作部6における操作ボタンの異なる押下状態(半押し、全押し)により区別できるようになっている。さらにまた、操作部6における操作ボタンの押下状態の切り替わりを検知できる押下状態検知部(入力検知手段)27、情報出力部(第2出力手段)28をさらに備える点で相違する。また、実施形態3に係る携帯電話機1では、主制御部15が情報提供処理部(特定処理部)30を備える点で相違する。
また、語句情報取得部25が押下状態検知部27から受信した検知結果から、操作ボタンが全押しであると判定した場合、認識決定部24から通知されたIDに対応する語句を情報出力部28に送信する点でも実施形態1とは異なる。
なお、上記した点を除き、実施形態3に係る携帯電話機1は、実施形態1に係る携帯電話機1と同様であるため、この携帯電話機1が新たに備える、押下状態検知部27、情報出力部28、および情報提供処理部30以外の部材については、実施形態1と同様の符号を付し、その説明を省略する。
押下状態検知部27は、操作部6における操作ボタンのユーザによる押下状態を検知するものである。携帯電話機1が備える操作ボタンは、該操作ボタンを押し切らず半分だけ押した状態(半押し)と、操作ボタンを押し切った状態(全押し)との2段階になっている。そこで、押下状態検知部27は、操作ボタンの押下状態として、半押し、全押しのいずれの状態にあるのか検知することができる。押下状態検知部27は検知した結果を語句情報取得部25に出力する。
情報出力部28は、語句情報取得部25から語句を受信すると、該語句を情報提供処理部30に出力するものである。
情報提供処理部30は、例えば、国語辞書、和英辞書、英和辞書、和独辞書、独和辞書等、語句に関する情報を提供するアプリケーションである。情報提供処理部30は、情報出力部28から語句を受信すると、該語句に関する情報を探索し、探索した結果を例えば、表示ドライバ13に出力して表示部7にて表示させる。語句に関する情報としては、例えば入力された語句に対応する英語表現(英単語)、あるいはこの英単語の意味等が挙げられる。
なお、実施形態3では、携帯電話機1が内部にこの情報提供処理部30を備える構成であった。しかしながら、この情報提供処理部30は、携帯電話機1とは別の外部機器が備える構成であってもよい。この場合、情報出力部28は、無線通信処理部11にIDを出力して情報提供処理部30への送信を指示するとともに、外部機器との通信を確立するように指示する。この指示に応じて、無線通信処理部11は基地局を介して外部機器と通信を確立させ、語句を情報提供処理部30に送信する。
また、実施形態3では、携帯電話機1が1つの情報提供処理部30を備える構成であるが、実行する特定処理ごとに情報提供処理部30をそれぞれ備える構成であってもよい。
また、携帯電話機1が内部にこの情報提供処理部30を備える構成の場合、情報提供処理部30の各種処理を実行するプログラムや、辞書データは、基地局を介して通信が確立された外部機器等からダウンロードする構成であってもよい。
次に、図25を参照して実施形態3に係る携帯電話機1における、「辞書機能に関する処理フロー」について説明する。図25は、本発明の他の実施形態(実施形態3)を示すものであり、携帯電話機1の辞書機能に関する処理フローを示すフローチャートである。なお、図25におけるステップS40からS44までの処理は、図14におけるステップS10からS14までの処理と同様であるため、その説明は省略する。また、図25におけるステップS47の処理は、図14におけるステップS16の処理と同様であるためその説明は省略する。
実施形態1に係る携帯電話機1と同様にして、語句情報取得部25は、認識決定部24からの通知に応じて、受信したIDに対応する語句、該語句の読み、および意味を辞書テーブル70から取得する。ここで、語句情報取得部25は、操作ボタンの押下状態が全押しか否か判断する(S45)。実施形態3に係る携帯電話機1では、操作ボタンの押下状態として全押しまたは半押しが設定されている。このため、ステップS45において全押しではないと判断される場合とは、操作ボタンの押下状態が半押しであるということになる。
ステップS45の判定において「NO」の場合、語句情報取得部25は、辞書テーブル70から取得した語句、該語句の読み、および意味を、表示ドライバ13に送信する。そして、表示ドライバ13は、語句情報取得部25からの受信した語句、該語句の意味または読みを表示部7に表示させる(S46)。
一方、ステップS45の判定において「YES」の場合、語句情報取得部25は、辞書テーブル70から取得した語句を情報出力部28に送信する。情報出力部28は、語句情報取得部25から受信した語句を情報提供処理部30に出力する語句として確定する。そして、該語句を情報提供処理部30に出力する。なお、情報提供処理部30が、例えば、国語辞書および和英辞書の異なる機能を有している場合、情報出力部28が語句を情報提供処理部30に出力する前に、図26に示すような表示を行って、いずれの機能を実行ささせて処理結果を得るかユーザに問い合わせるように構成されていてもよい。
なお、実施形態3に係る携帯電話機1の操作ボタンは、上述したように「半押し」、「全押し」と異なる2つの押下状態を実現するボタンであったが、この異なる押下状態はこれらに限定されるものではない。例えば、物理的に異なる2つの操作ボタンを利用して異なる押下状態を実現する構成であってもよい。あるいは、2段階の入力が可能なスライド式の操作ボタンにより異なる押下状態を実現してもよい。
また、実施形態2に係る携帯電話機1の構成において、辞書機能処理部20が押下状態検知部27、情報出力部28をさらに備え、主制御部15が情報提供処理部30を備えることで、実施形態2に実施形態3の構成を組み合わせることは可能である。
なお、本実施の形態1から3に係る携帯電話機1では、表示部7の表示画面の中心座標を基準にして、画像から抽出する語句を特定する構成であった。しかしながら、基準はこれに限定されるものではない。例えば、表示部7の表示画面上における所定位置に「×」または「+」等の記号が付されており、該記号位置の座標を基準にして文字列の抽出を行い、該文字列から語句を特定する構成であってもよい。
あるいは、携帯電話機1が表示部7の表示画面をユーザがタッチすることで入力を行うことができる、いわゆるタッチパネル機能を有している場合、ユーザがタッチした位置(座標)を基準とする構成であってもよい。例えば、図15に示すように、表示画面上の任意の位置をユーザがタッチすると、このタッチした座標を含む文字列を文字列取得部21が抽出する。なお、図15は、本発明の実施形態を示すものであり、所定位置近傍にある、文字列から抽出された語句に、該語句の読み、および意味を併記した表示状態の一例を示す図である。
この場合、携帯電話機1は、図1に示す構成において、さらに本発明に係る検知手段として所定位置情報変更部(不図示)を備える。そして、所定位置情報変更部は、表示部7の表示画面においてユーザがタッチした位置を示す座標情報を取得すると、所定位置情報変更部は、取得した座標情報により所定位置情報71を書き換える。これにより、ユーザがタッチした位置を所定位置として辞書機能を実行することができる。
また、本実施の形態1から3に係る携帯電話機1が保持する辞書テーブル70は、図5に示すように語句を識別するID、語句、その語句の読みおよび意味それぞれが対応づけられて1つのテーブルとして記録されていた。また、図5に示すように日本語の語句の意味・読みと英語の語句の意味・読みをともに同じテーブル内に格納していた。しかしながら、日本語の語句と英語の語句とはそれぞれ別々のテーブルとして管理されていてもよい。あるいは、照合を高速で行うことができるように検索用の副テーブルを別途用意する構成であってもよい。また、辞書テーブル70では語句とその意味・読みが対応付けられているが、日本語の語句とその英訳とが対応付けられたテーブルであってもよい。語句と対応づける情報は、該語句に関連して一緒に表示させたい内容の情報であればよく、使用用途に応じて決定されることが好ましい。
また、上記では本実施の形態1から3に係る携帯電話機1が備えるFIFOバッファ16のキュー構造の深度を8として説明したが、この深度に限定されるものではない。FIFOバッファ16のキュー構造の深さは、撮像対象の変更に伴う意味、または読みの表示の切り替わりなど、ユーザが視認できる表示の切り替わり等の反応速度に関係する。つまり、撮像部8による撮影対象位置の変更に伴う、認識決定部24による新たな語句の認識結果の決定に係る速度に関係する。
このため、FIFOバッファ16のキュー構造の深さは、撮像部8が撮影した動画のフレームレート(1秒間に描画されるフレーム数)の1/5から1倍程度が好適である。つまりFIFOバッファ16では、格納しているIDのうち、約半分が新たなIDに変更されることで、新たなIDの意味、または読みを出力することができる。したがって、FIFOバッファ16のキュー構造の深さをフレームレートの1/5から1倍程度となるように設定すると、最大でも約0.1から0.5秒の遅延で新たな語句の意味、または読みの表示を切り替えることができる。
最後に、実施形態1から3に係る携帯電話機1が備える各部、特には、辞書機能処理部20が備える各部、情報提供処理部30は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
すなわち、携帯電話機1は、各機能を実現する制御プログラムの命令を実行するCPU、前記プログラムを格納したROM(read only memory)、前記プログラムを展開するRAM(random access memory)、前記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである携帯電話機1の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、前記携帯電話機1に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
また、携帯電話機1を通信ネットワークと接続可能に構成し、前記プログラムコードを、通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、第3.9世代以降の携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、前記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
本実施の形態に係る携帯電話機1は、撮像部8により撮影された動画像を構成する連続した画像を順次取得し、該画像の所定位置にある語句を示すIDを取得する文字列取得部21、文字列照合部22、語句ID取得部23と、取得したIDを格納するFIFOバッファ16と、FIFOバッファ16において最も多く格納されているIDを認識結果として決定する認識決定部24とを備える。このため、携帯電話機1は画像から迅速に文字を認識することができる。また、文字列照合部22は、文字列取得部21により取得された文字列(入力文字列)と、辞書テーブル70に格納された参照文字とをDPマッチングを用いてマッチングさせることができるため、文字認識の誤りをカバーして正確に語句を認識することができる。
したがって、本実施の形態に係る携帯電話機1は、迅速かつ正確に画像から文字を認識する必要のある装置において幅広く適用できる。
1 携帯電話機(情報処理装置)
6 操作部(操作受け付け部)
7 表示部
8 撮像部
13 表示ドライバ
14 記憶装置(リスト情報記憶装置)
15 主制御部
16 FIFOバッファ(格納部)
17 メモリ(文字列記憶装置)
20 辞書機能処理部
21 文字列取得部(抽出手段、文字列抽出手段)
22 文字列照合部(抽出手段、語句特定手段)
23 語句ID取得部(抽出手段・識別子取得手段)
24 認識決定部(決定手段)
25 語句情報取得部(意味・読み取得手段、第1出力手段)
26 ボタン押下検出部(入力検知手段)
27 押下状態検知部(入力検知手段)
28 情報出力部(第2出力手段)
30 情報提供処理部(特定処理部)
70 辞書テーブル(リスト情報)
71 所定位置情報

Claims (16)

  1. 画像から語句の認識を行う情報処理装置であって、
    動画像を撮影する撮像部と、
    上記撮像部により撮影された動画像を構成する連続した画像を順次取得し、該画像の所定位置にある語句を示す情報である語句情報を抽出する抽出手段と、
    上記抽出手段によって抽出した語句情報を格納する格納部と、
    上記格納部において最も多く格納されている語句情報の語句を認識結果として決定する決定手段と、を備え
    上記格納部は、語句情報を所定数まで格納することができ、かつ当該格納部への語句情報の入出力方式が古く格納した順に取り出すようにする方式である
    ことを特徴とする情報処理装置。
  2. 画像から抽出する語句を示す語句情報のリストであるリスト情報を記憶するリスト情報記憶装置をさらに備え、
    上記抽出手段は、上記リスト情報を参照して、上記撮像部により撮影された動画像を構成する画像から上記所定位置における語句の語句情報を抽出することを特徴とする請求項1に記載の情報処理装置。
  3. 上記リスト情報は、語句と該語句を識別する識別子との対応関係を示すテーブルであり、
    上記抽出手段は、上記取得した画像から上記所定位置を含む文字列を抽出する文字列抽出手段と、
    上記文字列抽出手段によって抽出された文字列と、上記リスト情報記憶装置に記憶されたリスト情報とを照合し、所定位置における語句を特定する語句特定手段と、
    上記語句特定手段によって特定された語句を示す語句情報として、上記リスト情報を参照して上記特定された語句の識別子を取得する識別子取得手段とを備え、
    上記格納部は、上記語句情報として、上記識別子取得手段によって取得された上記識別子を格納することを特徴とする請求項に記載の情報処理装置。
  4. 上記語句特定手段は、上記文字列抽出手段によって抽出された文字列と、上記リスト情報記憶装置に記憶されたリスト情報とを動的計画法を利用して照合し、所定位置における語句を特定することを特徴とする請求項に記載の情報処理装置。
  5. 上記リスト情報では、上記語句に、少なくともこの語句の意味および読みのうちいずれか1つが対応づけられており、
    上記リスト情報から、上記決定手段により、認識結果として決定された語句に対応づけられた意味および読みのうち少なくも1つを取得する意味・読み取得手段と、
    上記意味・読み取得手段によって取得された上記語句の意味および読みのうちの少なくとも1つを出力する第1出力手段とを備えることを特徴とする請求項3または4に記載の情報処理装置。
  6. 上記撮像部により撮影された動画像を表示する表示部をさらに備え、
    上記第1出力手段は、上記動画像に上記意味・読み取得手段によって取得された語句の意味および読みのうちの少なくとも1つを重畳させて表示させるように、上記表示部に出力することを特徴とする請求項に記載の情報処理装置。
  7. ユーザからの入力を受け付ける操作受け付け部と、
    上記操作受け付け部におけるユーザからの入力の有無を検知する入力検知手段とを備え、
    上記入力検知手段がユーザからの入力を検知している間、第1出力手段が、上記意味・読み取得手段によって取得した上記語句の意味および読みのうちの少なくとも1つを表示部に出力し続けることを特徴とする請求項に記載の情報処理装置。
  8. 上記抽出手段により抽出された上記語句情報を、該語句情報を利用して特定の処理を実行する特定処理部に出力する第2出力手段を備え、
    上記操作受け付け部は、ユーザからの入力を、第1入力段階と第2入力段階との異なる入力段階で受け付け可能となっており、
    上記入力検知手段が上記第1入力段階での入力である第1入力を検知している間、上記第1出力手段は、上記意味・読み取得手段によって取得された上記語句の意味および読みのうちの少なくとも1つを表示部に出力し続け、
    上記検知手段が上記第1入力が第2入力段階での入力である第2入力に切り替わったことを検知した場合、第2出力手段が、上記語句の語句情報を上記特定処理部に出力することを特徴とする請求項に記載の情報処理装置。
  9. 上記文字列抽出手段により抽出された文字列を記憶する文字列記憶装置とをさらに備え、
    上記入力検知手段がユーザからの入力を検知すると、文字列抽出手段は、上記画像から抽出した文字列を上記文字列記憶装置に記憶し、さらに画像から新たな文字列を抽出した場合、この新たに抽出した文字列に上記文字列記憶装置に記憶している文字列を上書きして結合文字列を生成しており、
    上記語句特定手段は、上記結合文字列と上記リスト情報記憶装置に記憶されたリスト情報とを照合することを特徴とする請求項7または8に記載の情報処理装置。
  10. 文字列抽出手段は、文字列に含まれる所定位置を基準にして、新たに抽出した文字列に上記文字列記憶装置に記憶している文字列を上書きして結合文字列を生成することを特徴とする請求項に記載の情報処理装置。
  11. 上記抽出手段は、画像の所定位置にある語句として、該画像を上記表示部にて表示した際に、該表示部の表示領域の中心座標位置近傍に表示される語句を示す語句情報を抽出することを特徴とする請求項6から10のいずれか1項に記載の情報処理装置。
  12. 上記表示部の表示領域における物理的接触を検知する検知手段をさらに備え、
    上記抽出手段は、画像の所定位置にある語句として、該画像を上記表示部にて表示した際に、該表示部の表示領域において上記検知手段によって検知された位置に表示される語句を示す語句情報を抽出することを特徴とする請求項6から10のいずれか1項に記載の情報処理装置。
  13. 上記格納部が格納できる語句情報の所定数は、上記撮像部が撮影した動画のフレームレートの1/5〜1倍となることを特徴とする請求項に記載の情報処理装置。
  14. 撮像部と格納部とを備え、画像から語句の認識を行う情報処理装置の制御方法であって、
    上記撮像部により動画像を撮影する撮像ステップと、
    上記撮像ステップにおいて撮影された動画像を構成する連続した画像を順次取得し、該画像の所定位置にある語句を示す情報である語句情報を抽出する抽出ステップと、
    上記抽出ステップにおいて抽出した語句情報を上記格納部に格納する格納ステップと、
    語句情報を所定数まで格納することができ、かつ語句情報の入出力方式が古く格納した順に取り出すようにする方式である上記格納部において最も多く格納されている語句情報の語句を認識結果として決定する決定ステップと、を含むことを特徴とする情報処理装置の制御方法。
  15. コンピュータを請求項1から13のいずれか1項に記載の情報処理装置の各手段として機能させるための情報処理装置の制御プログラム。
  16. 請求項15に記載の情報処理装置の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2009267853A 2009-11-25 2009-11-25 情報処理装置、および情報処理装置の制御方法 Active JP4668345B1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2009267853A JP4668345B1 (ja) 2009-11-25 2009-11-25 情報処理装置、および情報処理装置の制御方法
PCT/JP2010/062833 WO2011065065A1 (ja) 2009-11-25 2010-07-29 情報処理装置、および情報処理装置の制御方法
US13/511,666 US8867840B2 (en) 2009-11-25 2010-07-29 Information processing device and method for controlling an information processing device
CN201080053212.6A CN102667813B (zh) 2009-11-25 2010-07-29 信息处理装置、以及信息处理装置的控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009267853A JP4668345B1 (ja) 2009-11-25 2009-11-25 情報処理装置、および情報処理装置の制御方法

Publications (2)

Publication Number Publication Date
JP4668345B1 true JP4668345B1 (ja) 2011-04-13
JP2011113214A JP2011113214A (ja) 2011-06-09

Family

ID=44021700

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009267853A Active JP4668345B1 (ja) 2009-11-25 2009-11-25 情報処理装置、および情報処理装置の制御方法

Country Status (4)

Country Link
US (1) US8867840B2 (ja)
JP (1) JP4668345B1 (ja)
CN (1) CN102667813B (ja)
WO (1) WO2011065065A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9342533B2 (en) 2013-07-02 2016-05-17 Open Text S.A. System and method for feature recognition and document searching based on feature recognition
EP2821934B1 (en) * 2013-07-03 2024-02-14 Open Text S.A. System and method for optical character recognition and document searching based on optical character recognition
JP2015103082A (ja) * 2013-11-26 2015-06-04 沖電気工業株式会社 情報処理装置、システム、方法、及び、プログラム
JP5990609B2 (ja) * 2015-02-25 2016-09-14 京セラドキュメントソリューションズ株式会社 画像形成装置
SG10202108490QA (en) * 2017-08-08 2021-09-29 Education Index Man Asia Pacific Pte Ltd Language-adapted user interfaces
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57146380A (en) * 1981-03-04 1982-09-09 Nec Corp Address reader
JPH01234977A (ja) 1988-03-16 1989-09-20 Hitachi Ltd イメージスキャナ付き電子辞書
JP2801602B2 (ja) * 1988-06-30 1998-09-21 株式会社東芝 単語認識装置
JP3316445B2 (ja) * 1998-01-19 2002-08-19 三菱重工業株式会社 画像合成装置
JP2000020677A (ja) 1998-06-11 2000-01-21 Inventec Corp 画像取込み/メッセージ表示装置
JP2004199141A (ja) * 2002-12-16 2004-07-15 Nec Saitama Ltd 記号認識装置及び記号認識方法
JP4036168B2 (ja) * 2003-09-09 2008-01-23 株式会社日立製作所 携帯電話
US20060103893A1 (en) * 2004-11-15 2006-05-18 Kouros Azimi Cellular telephone based document scanner
JP2007018166A (ja) * 2005-07-06 2007-01-25 Nec Corp 情報検索装置、情報検索システム、情報検索方法及び情報検索プログラム
US8131714B2 (en) * 2008-01-02 2012-03-06 Think Village-OIP, LLC Linguistic assistance systems and methods

Also Published As

Publication number Publication date
US8867840B2 (en) 2014-10-21
CN102667813B (zh) 2015-01-07
WO2011065065A1 (ja) 2011-06-03
JP2011113214A (ja) 2011-06-09
CN102667813A (zh) 2012-09-12
US20120274803A1 (en) 2012-11-01

Similar Documents

Publication Publication Date Title
US10706887B2 (en) Apparatus and method for displaying times at which an object appears in frames of video
US10810453B2 (en) Apparatus and method for reproducing handwritten message by using handwriting data
CN108885614B (zh) 一种文本和语音信息的处理方法以及终端
US9083848B2 (en) Speaker displaying method and videophone terminal therefor
US9172879B2 (en) Image display control apparatus, image display apparatus, non-transitory computer readable medium, and image display control method
JP4668345B1 (ja) 情報処理装置、および情報処理装置の制御方法
US20140056475A1 (en) Apparatus and method for recognizing a character in terminal equipment
CN107688399B (zh) 一种输入方法和装置、一种用于输入的装置
JP2010250464A (ja) 情報処理装置、情報処理方法及びプログラム
EP3062237A1 (en) Information processing device, information processing method, and program
JP2014229091A (ja) 文字入力用のプログラム
CN101676848A (zh) 识别和处理图像信息的装置和方法
JP4596754B2 (ja) 文字認識方法とそれを用いた携帯端末システム
US9641740B2 (en) Apparatus and method for auto-focusing in device having camera
KR100633231B1 (ko) 제스처 인식 기반 정보 검색기능을 구비한 휴대용 단말기및 그 구현방법
KR20150026382A (ko) 전자 장치 및 전자 장치에서 연락처 관리 방법
JP4800144B2 (ja) 文字列判定装置、文字列判定方法、文字列判定プログラムおよびコンピュータ読み取り可能な記録媒体
US9521228B2 (en) Mobile electronic apparatus and control method of mobile electronic apparatus
CN115243062B (zh) 场景展示方法、装置、屏显设备、电子设备和存储介质
KR101364844B1 (ko) 화상통화기능을 갖는 이동통신단말기 및 그 제어방법
JP2010191907A (ja) 文字入力装置および文字入力方法
KR20080034248A (ko) 휴대 단말기에서 얼굴인식을 통한 사진 검색 방법
CN118377405A (zh) 显示方法、智能终端及存储介质
US20130254679A1 (en) Apparatus and method for creating e-mail in a portable terminal
JP2016177363A (ja) 情報処理装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4668345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

SG99 Written request for registration of restore

Free format text: JAPANESE INTERMEDIATE CODE: R316G99

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350