[go: up one dir, main page]

JP6110539B1 - Speech translation device, speech translation method, and speech translation program - Google Patents

Speech translation device, speech translation method, and speech translation program Download PDF

Info

Publication number
JP6110539B1
JP6110539B1 JP2016067710A JP2016067710A JP6110539B1 JP 6110539 B1 JP6110539 B1 JP 6110539B1 JP 2016067710 A JP2016067710 A JP 2016067710A JP 2016067710 A JP2016067710 A JP 2016067710A JP 6110539 B1 JP6110539 B1 JP 6110539B1
Authority
JP
Japan
Prior art keywords
language
unit
translation
speech
languages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016067710A
Other languages
Japanese (ja)
Other versions
JP2017182397A (en
Inventor
知高 大越
知高 大越
千春 宇賀神
千春 宇賀神
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Recruit Lifestyle Co Ltd
Original Assignee
Recruit Lifestyle Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Recruit Lifestyle Co Ltd filed Critical Recruit Lifestyle Co Ltd
Priority to JP2016067710A priority Critical patent/JP6110539B1/en
Application granted granted Critical
Publication of JP6110539B1 publication Critical patent/JP6110539B1/en
Publication of JP2017182397A publication Critical patent/JP2017182397A/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

【課題】対話者たる外国人との会話の契機を得ることができ、かつ、自然な会話の流れのなかで対話者の言語を選択する又は選択させること。【解決手段】本発明の一態様による音声翻訳装置は、ユーザの音声入力のための入力部、入力音声の内容を翻訳する翻訳部、及び、その翻訳内容を音声等で出力する出力部を備える。また、当該音声翻訳装置は、複数の定型文、及びそれらの複数の言語による訳文を記憶する記憶部と、ユーザが複数の定型文のなかから特定の定型文を選択するために、複数の定型文を表示する定型文提示部と、特定の定型文に対する複数の言語による訳文を表示する訳文提示部と、対話者が複数の言語のなかから所望の言語を選択するための言語選択手段を表示する言語選択手段提示部とを更に備える。【選択図】図5An object of the present invention is to obtain an opportunity for a conversation with a foreigner who is a conversation person and to select or select a language of a conversation person in a natural conversation flow. A speech translation apparatus according to an aspect of the present invention includes an input unit for inputting a user's speech, a translation unit for translating the content of the input speech, and an output unit for outputting the translated content in speech or the like. . In addition, the speech translation apparatus includes a storage unit that stores a plurality of fixed sentences and translations in a plurality of languages, and a plurality of fixed forms for the user to select a specific fixed sentence from the plurality of fixed sentences. A fixed sentence presentation unit for displaying a sentence, a translated sentence presentation unit for displaying a translation in a plurality of languages for a specific fixed sentence, and a language selection means for a conversation person to select a desired language from a plurality of languages are displayed. And a language selection means presenting section. [Selection] Figure 5

Description

本発明は、音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムに関する。   The present invention relates to a speech translation device, a speech translation method, and a speech translation program.

互いの言語を理解できない人同士の会話、例えば店員(飲食店等の店舗の販売員)と外国人(海外からの観光客等)との会話を可能ならしめるべく、話者の発話音声をテキスト化し、そのテキストの内容を相手の言語に機械翻訳した上で画面に表示したり、或いは、音声合成技術を用いてそのテキストの内容を音声再生したりする音声翻訳技術が提案されている(例えば特許文献1参照)。また、かかる音声翻訳技術を具現化したスマートフォン等の情報端末で動作する音声翻訳アプリケーションも実用化されている(例えば非特許文献1参照)。   To make conversations between people who do not understand each other's language, for example, conversations between shop assistants (sales staff at restaurants, etc.) and foreigners (tourists from abroad, etc.) A speech translation technology has been proposed in which the text content is machine-translated into the language of the other party and displayed on the screen, or the text content is played back using speech synthesis technology (for example, Patent Document 1). In addition, a speech translation application that operates on an information terminal such as a smartphone that embodies such speech translation technology has been put into practical use (see, for example, Non-Patent Document 1).

特開平9−34895号公報Japanese Patent Laid-Open No. 9-34895

U−STARコンソーシアムホームページ[平成28年1月25日検索]、インターネット<URL:http://www.ustar-consortium.com/app_ja/app.html>U-STAR Consortium Home Page [Search on January 25, 2016], Internet <URL: http://www.ustar-consortium.com/app_en/app.html>

しかし、いざ、外国人と会話によるコミュニケーションを図ろうとしても、話しかける切っ掛けを作ることができず、会話自体を始めることができないことがある。また、音声翻訳アプリケーションや音声翻訳装置を有していても、そもそも、対話者(外国人)が話す言語や理解することができる言語が分からない状態では、相手の言語を選択することができず、結果として、音声翻訳アプリケーションや音声翻訳装置を使用することができない。   However, when trying to communicate with foreigners through conversations, it is sometimes impossible to create a chance to speak and to start the conversation itself. In addition, even if you have a speech translation application or speech translation device, you cannot select the language of the other party if you do not know the language spoken or understood by the interlocutor (foreigner). As a result, the speech translation application or speech translation device cannot be used.

そこで、本発明は、かかる事情に鑑みてなされたものであり、対話者たる外国人との会話の契機を得ることができ、かつ、自然な会話の流れのなかで対話者の言語を選択する又は選択させることが可能な音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムを提供することを目的とする。   Therefore, the present invention has been made in view of such circumstances, and can provide a trigger for a conversation with a foreigner who is a conversation person, and selects the language of the conversation person in a natural conversation flow. Another object is to provide a speech translation device, a speech translation method, and a speech translation program that can be selected.

上記課題を解決するため、本発明の一態様による音声翻訳装置は、ユーザの音声を入力するための入力部、入力音声の内容を異なる言語の内容に翻訳する翻訳部、及び、対話者に対して入力音声の翻訳内容(対訳)を音声及び/又はテキストで出力する出力部を備える。そして、当該音声翻訳装置は、複数の定型文(質問文等)、及びそれらの複数の定型文のそれぞれに対する複数の言語による訳文を記憶する記憶部と、ユーザが複数の定型文のなかから特定の定型文を選択するために、それらの複数の定型文を表示する定型文提示部と、特定の定型文が選択されたときに、その特定の定型文に対する複数の言語による訳文を表示する訳文提示部と、対話者が複数の言語のなかから所望の言語を選択するための言語選択手段を表示する言語選択手段提示部とを更に備える。   In order to solve the above problems, a speech translation apparatus according to an aspect of the present invention provides an input unit for inputting a user's speech, a translation unit that translates the content of the input speech into content in different languages, and a conversation person And an output unit for outputting the translation content (parallel translation) of the input speech as speech and / or text. Then, the speech translation apparatus specifies a plurality of fixed sentences (question sentences, etc.), a storage unit for storing translated sentences in a plurality of languages for each of the plurality of fixed sentences, and a user specified from the plurality of fixed sentences To select a fixed phrase, a fixed sentence presentation unit that displays those fixed phrases, and a translation that displays translations in multiple languages for the specific fixed sentence when a specific fixed sentence is selected It further includes a presentation unit and a language selection unit presentation unit that displays a language selection unit for the conversation person to select a desired language from a plurality of languages.

また、具体的には、言語選択手段提示部が、上記特定の定型文に対する前記複数の言語による訳文の表示の後に、又は、該訳文の表示とともに(同時に)、言語選択手段(ボタン、チェックボックス等)を表示するようにしてもよい。   More specifically, the language selection means presenting unit displays the language selection means (button, check box) after displaying the translated sentences in the plurality of languages with respect to the specific fixed sentence or together with displaying the translated sentences (simultaneously). Etc.) may be displayed.

さらに、上記特定の定型文に対する複数の言語による訳文の表示の後に、又は、その訳文の表示とともに(同時に)、対話者が上記と定型文(質問文等)に対して返答するための返答手段を表示する返答手段提示部を更に備えてもよい。   Further, after the translation of the specific standard sentence in a plurality of languages is displayed, or together with the display of the translation (at the same time), a response means for the dialog person to reply to the above and the standard sentence (question sentence, etc.) May further include a response means presenting unit for displaying.

また、本発明の一態様による音声翻訳方法は、入力部、翻訳部、出力部、記憶部、定型文提示部、訳文提示部、及び言語選択手段提示部を備える本発明による音声翻訳装置を用いる方法である。すなわち、当該方法は、ユーザの音声を入力するステップと、翻訳部が、入力音声の内容を異なる言語の内容に翻訳するステップと、出力部が、翻訳内容を音声及び/又はテキストで出力するステップと、記憶部が、複数の定型文、及びそれらの複数の定型文のそれぞれに対する複数の言語による訳文を記憶するステップと、定型文提示部が、ユーザが複数の定型文のなかから特定の定型文を選択するために、それらの複数の定型文を表示するステップと、訳文提示部が、特定の定型文が選択されたときに、その特定の定型文に対する複数の言語による訳文を表示するステップと、言語選択手段提示部が、対話者が複数の言語のなかから所望の言語を選択するための言語選択手段を表示するステップとを含む。   A speech translation method according to an aspect of the present invention uses a speech translation apparatus according to the present invention including an input unit, a translation unit, an output unit, a storage unit, a fixed sentence presentation unit, a translation presentation unit, and a language selection means presentation unit. Is the method. That is, in the method, the step of inputting the user's voice, the step of the translation unit translating the content of the input voice into the content of a different language, and the step of outputting the translation content by voice and / or text And a step of storing a plurality of fixed sentences and translations in a plurality of languages for each of the plurality of fixed sentences, and a fixed sentence presenting part, wherein the user selects a specific fixed form from among the plurality of fixed sentences A step of displaying a plurality of standard sentences to select a sentence, and a step of displaying a translation in a plurality of languages for the specific standard sentence when the specific sentence is selected by the translation presentation unit And a language selection means presenting unit displaying a language selection means for the interlocutor to select a desired language from among a plurality of languages.

また、本発明の一態様による音声翻訳プログラムは、コンピュータ(単数又は単一種に限られず、複数又は複数種でもよい;以下同様)を、ユーザの音声を入力するための入力部と、入力音声の内容を異なる言語の内容に翻訳する翻訳部と、翻訳内容を音声及び/又はテキストで出力する出力部と、複数の定型文、及びそれらの複数の定型文のそれぞれに対する複数の言語による訳文を記憶する記憶部と、ユーザが複数の定型文のなかから特定の定型文を選択するために、それらの複数の定型文を表示する定型文提示部と、特定の定型文が選択されたときに、その特定の定型文に対する複数の言語による訳文を表示する訳文提示部と、対話者が複数の言語のなかから所望の言語を選択するための言語選択手段を表示する言語選択手段提示部として機能させるものである。   A speech translation program according to an aspect of the present invention includes a computer (not limited to a single type or a single type, but may be a plurality or a plurality of types; the same applies hereinafter), an input unit for inputting a user's voice, A translation section that translates content into different language contents, an output section that outputs the translation contents in speech and / or text, a plurality of fixed sentences, and a plurality of language sentences for each of the plurality of fixed sentences are stored. When the user selects a specific fixed sentence from a plurality of fixed sentences, and when a specific fixed sentence presenting section that displays those fixed sentences is selected, A translation presenting unit for displaying a translation in a plurality of languages for the specific fixed phrase, and a language selection unit presenting unit for displaying a language selection unit for a dialogue person to select a desired language from the plurality of languages; It is intended to function Te.

本発明によれば、複数の定型文、及びそれらの複数の定型文のそれぞれに対する複数の言語の訳文を予め記憶しておき、ユーザがそれらのなかから適宜の「特定の定型文」を選択することができる。そして、それらの複数の言語による訳文を対話者に提示することにより、会話の契機を得ることができるので、対話者との会話による円滑なコミュニケーションが可能となる。また、そのような特定の定型文に対する複数の言語による訳文を対話者に表示して会話を始めてから、対話者が話す又は理解することができる所望の言語を選択することができるので、対話者の言語選択を自然な会話の流れのなかで行うことが可能となる。   According to the present invention, a plurality of fixed phrases and a plurality of language translations for each of the plurality of fixed sentences are stored in advance, and the user selects an appropriate “specific fixed sentence” from them. be able to. Then, by presenting the translated texts in the plurality of languages to the conversation person, the opportunity for conversation can be obtained, so that smooth communication by conversation with the conversation person becomes possible. In addition, since a conversation can be displayed by displaying translations in a plurality of languages for such a specific fixed sentence to the conversation person, a desired language that the conversation person can speak or understand can be selected. Language selection can be performed in a natural conversation flow.

本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。1 is a system block diagram schematically showing a preferred embodiment of a network configuration and the like related to a speech translation apparatus according to the present invention. 本発明による音声翻訳装置におけるユーザ装置である情報端末の構成の一例を概略的に示すシステムブロック図である。It is a system block diagram which shows roughly an example of a structure of the information terminal which is a user apparatus in the speech translation apparatus by this invention. 本発明による音声翻訳装置におけるサーバの構成の一例を概略的に示すシステムブロック図である。It is a system block diagram which shows roughly an example of a structure of the server in the speech translation apparatus by this invention. 本発明による音声翻訳装置の第1実施形態における処理の流れ(一部)の一例を示すフローチャートである。It is a flowchart which shows an example of the flow (a part) of the process in 1st Embodiment of the speech translation apparatus by this invention. (A)乃至(D)は、第1実施形態による情報端末における表示画面の遷移の一例を示す平面図である。(A) thru | or (D) is a top view which shows an example of the transition of the display screen in the information terminal by 1st Embodiment. (A)及び(B)は、第1実施形態による情報端末における表示画面の遷移の一例を示す平面図である。(A) And (B) is a top view which shows an example of the transition of the display screen in the information terminal by 1st Embodiment. 本発明による音声翻訳装置の第2実施形態における処理の流れ(一部)の一例を示すフローチャートである。It is a flowchart which shows an example of the flow (a part) of the process in 2nd Embodiment of the speech translation apparatus by this invention. (A)及び(B)は、第2実施形態による情報端末10の画面表示における遷移(の一部)の一例を示す平面図である。(A) And (B) is a top view which shows an example of the transition (part) in the screen display of the information terminal 10 by 2nd Embodiment.

以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。   Hereinafter, embodiments of the present invention will be described in detail. The following embodiments are examples for explaining the present invention, and are not intended to limit the present invention only to the embodiments. The present invention can be variously modified without departing from the gist thereof. Furthermore, those skilled in the art can employ embodiments in which the elements described below are replaced with equivalent ones, and such embodiments are also included in the scope of the present invention. Furthermore, positional relationships such as up, down, left, and right shown as needed are based on the display shown unless otherwise specified. Furthermore, various dimensional ratios in the drawings are not limited to the illustrated ratios.

(装置構成)
図1は、本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。また、図2は、音声翻訳装置100におけるユーザ装置である情報端末10の構成の一例を概略的に示すシステムブロック図である。さらに、図3は、音声翻訳装置100におけるサーバ20の構成の一例を概略的に示すシステムブロック図である。この例において、音声翻訳装置100は、ユーザが使用する情報端末10(ユーザ装置)にネットワークNを介して電子的に接続されるサーバ20を備える(但し、これに限定されない)。
(Device configuration)
FIG. 1 is a system block diagram schematically showing a preferred embodiment such as a network configuration related to a speech translation apparatus according to the present invention. FIG. 2 is a system block diagram schematically illustrating an example of the configuration of the information terminal 10 that is a user apparatus in the speech translation apparatus 100. FIG. 3 is a system block diagram schematically showing an example of the configuration of the server 20 in the speech translation apparatus 100. In this example, the speech translation apparatus 100 includes a server 20 that is electronically connected to the information terminal 10 (user apparatus) used by the user via the network N (but is not limited to this).

情報端末10は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末10は、ネットワークNとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末10は、プロセッサ11、記憶資源12、音声入出力デバイス13、通信インターフェイス14、入力デバイス15、表示デバイス16、及びカメラ17を備えている。また、情報端末10は、インストールされた音声翻訳アプリケーションソフト(本発明の一実施形態による音声翻訳プログラムの少なくとも一部)が動作することにより、本発明の一実施形態による音声翻訳装置の一部又は全部として機能するものである。   The information terminal 10 employs a user interface such as a touch panel and a display with high visibility, for example. The information terminal 10 here is a portable tablet terminal device including a mobile phone represented by a smartphone having a communication function with the network N. The information terminal 10 further includes a processor 11, a storage resource 12, a voice input / output device 13, a communication interface 14, an input device 15, a display device 16, and a camera 17. In addition, the information terminal 10 operates by the installed speech translation application software (at least a part of the speech translation program according to the embodiment of the present invention), so that a part of the speech translation apparatus according to the embodiment of the present invention or It functions as a whole.

プロセッサ11は、算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成される。また、プロセッサ11は、記憶資源12に格納されているプログラムP10である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムP10としての音声翻訳アプリケーションソフトは、例えばサーバ20からネットワークNを通じて配信可能なものであり、手動で又は自動でインストール及びアップデートされてもよい。   The processor 11 includes an arithmetic logic unit and various registers (program counter, data register, instruction register, general-purpose register, etc.). Further, the processor 11 interprets and executes speech translation application software, which is the program P10 stored in the storage resource 12, and performs various processes. The speech translation application software as the program P10 can be distributed from the server 20 through the network N, for example, and may be installed and updated manually or automatically.

なお、ネットワークNは、例えば、有線ネットワーク(近距離通信網(LAN)、広域通信網(WAN)、又は付加価値通信網(VAN)等)と無線ネットワーク(移動通信網、衛星通信網、ブルートゥース(Bluetooth(登録商標))、WiFi(Wireless Fidelity)、HSDPA(High Speed Downlink Packet Access)等)が混在して構成される通信網である。   The network N includes, for example, a wired network (a short-range communication network (LAN), a wide-area communication network (WAN), a value-added communication network (VAN), etc.) and a wireless network (mobile communication network, satellite communication network, Bluetooth ( Bluetooth (registered trademark)), WiFi (Wireless Fidelity), HSDPA (High Speed Downlink Packet Access), etc.).

記憶資源12は、物理デバイス(例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体)の記憶領域が提供する論理デバイスであり、情報端末10の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス13を制御するための入出力デバイスドライバプログラム、入力デバイス15を制御するための入力デバイスドライバプログラム、表示デバイス16を制御するための表示デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス13は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。   The storage resource 12 is a logical device provided by a storage area of a physical device (for example, a computer-readable recording medium such as a semiconductor memory), and an operating system program, a driver program, various data, etc. used for processing of the information terminal 10 Is stored. Examples of the driver program include an input / output device driver program for controlling the audio input / output device 13, an input device driver program for controlling the input device 15, and a display device driver program for controlling the display device 16. Can be mentioned. Furthermore, the voice input / output device 13 is, for example, a general microphone and a sound player capable of reproducing sound data.

通信インターフェイス14は、例えばサーバ20との接続インターフェイスを提供するものであり、無線通信インターフェイス及び/又は有線通信インターフェイスから構成される。また、入力デバイス15は、例えば、表示デバイス16に表示されるアイコン、ボタン、仮想キーボード等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末10に外付けされる各種入力装置を例示することができる。   The communication interface 14 provides a connection interface with the server 20, for example, and is configured from a wireless communication interface and / or a wired communication interface. The input device 15 provides an interface for accepting an input operation by a tap operation such as an icon, a button, or a virtual keyboard displayed on the display device 16, and is externally attached to the information terminal 10 in addition to the touch panel. Various input devices can be exemplified.

表示デバイス16は、画像表示インターフェイスとして各種の情報をユーザや、必要に応じて対話者(会話の相手方)に提供するものであり、例えば、有機ELディスプレイ、液晶ディスプレイ、CRTディスプレイ等が挙げられる。また、カメラ17は、種々の被写体の静止画や動画を撮像するためのものである。   The display device 16 provides various types of information as an image display interface to a user or a dialoguer (conversation partner) as necessary. Examples thereof include an organic EL display, a liquid crystal display, and a CRT display. The camera 17 is for capturing still images and moving images of various subjects.

サーバ20は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される(図示においては単数で示すが、これに限定されない)。そして、各サーバ20は、プロセッサ21、通信インターフェイス22、及び記憶資源23を備える。   The server 20 is constituted by, for example, a host computer having a high arithmetic processing capability, and expresses a server function by operating a predetermined server program in the host computer, for example, a speech recognition server, a translation server, And a single or a plurality of host computers functioning as a speech synthesis server (in the drawing, it is indicated by a single, but is not limited thereto). Each server 20 includes a processor 21, a communication interface 22, and a storage resource 23.

プロセッサ21は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成され、記憶資源23に格納されているプログラムP20を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス22は、ネットワークNを介して情報端末10に接続するためのハードウェアモジュールであり、例えば、ISDNモデム、ADSLモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。   The processor 21 is composed of an arithmetic and logic unit for processing arithmetic operations, logical operations, bit operations and the like and various registers (program counter, data register, instruction register, general-purpose register, etc.), and is stored in the storage resource 23. P20 is interpreted and executed, and a predetermined calculation processing result is output. The communication interface 22 is a hardware module for connecting to the information terminal 10 via the network N. For example, the communication interface 22 is a modulation / demodulation device such as an ISDN modem, an ADSL modem, a cable modem, an optical modem, or a soft modem.

記憶資源23は、例えば、物理デバイス(ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等)の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数のプログラムP20、各種モジュールL20、各種データベースD20、及び各種モデルM20が格納されている。また、記憶資源23には、ユーザが対話者へ話しかけるために予め用意された複数の質問定型文(例えば後述する日本語テキストT3)と、それらの複数の質問定型文のそれぞれに対する複数の言語による訳文(例えば後述する外国語テキストT6,T11)も記憶されている。このとおり、記憶資源23が「記憶部」として機能する。   The storage resource 23 is a logical device provided by, for example, a storage area of a physical device (a computer-readable recording medium such as a disk drive or a semiconductor memory), and each includes one or a plurality of programs P20, various modules L20, and various databases. D20 and various models M20 are stored. Further, the storage resource 23 includes a plurality of question templates (for example, Japanese text T3 to be described later) prepared in advance for the user to speak to a conversation person, and a plurality of languages for each of the plurality of question templates. Translations (for example, foreign language texts T6 and T11 described later) are also stored. As described above, the storage resource 23 functions as a “storage unit”.

プログラムP20は、サーバ20のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールL20は、情報端末10から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムP10の動作中に適宜呼び出されて実行されるソフトウェアモジュール(モジュール化されたサブプログラム)である。かかるモジュールL20としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。   The program P20 is the above-described server program that is the main program of the server 20. In addition, the various modules L20 perform a series of information processing related to requests and information transmitted from the information terminal 10, so that they are appropriately called and executed during the operation of the program P10 (moduleized subprograms). ). Examples of the module L20 include a speech recognition module, a translation module, and a speech synthesis module.

また、各種データベースD20としては、音声翻訳処理のために必要な各種コーパス(例えば、日本語と英語の音声翻訳の場合、日本語音声コーパス、英語音声コーパス、日本語文字(語彙)コーパス、英語文字(語彙)コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等)、音声データベース、ユーザに関する情報を管理するための管理用データベース等が挙げられる。また、各種モデルM20としては、音声認識に使用する音響モデルや言語モデル等が挙げられる。   The various databases D20 include various corpora required for speech translation processing (for example, in the case of Japanese and English speech translation, a Japanese speech corpus, an English speech corpus, a Japanese character (vocabulary) corpus, an English character) (Vocabulary) Corpus, Japanese dictionary, English dictionary, Japanese-English bilingual dictionary, Japanese-English bilingual corpus, etc.), voice database, management database for managing information about users, and the like. Examples of the various models M20 include acoustic models and language models used for speech recognition.

以上のとおり構成された音声翻訳装置100における、音声翻訳処理の操作及び動作の一例について、以下に更に説明する。   An example of operations and operations of speech translation processing in the speech translation apparatus 100 configured as described above will be further described below.

(第1実施形態)
図4は、第1実施形態の音声翻訳装置100における処理の流れ(の一部)の一例を示すフローチャートである。また、図5(A)乃至(D)、並びに、図6(A)及び(B)は、第1実施形態による情報端末10の画面表示における遷移(の一部)の一例を示す平面図である。ここでは、情報端末10のユーザが日本語を話す店員であり、対話者(会話の相手)が英語、中国語(例えば書体により2種類)、又はハングル語を話す外国人である場合の会話を想定する(但し、言語はこれに限定されない)。
(First embodiment)
FIG. 4 is a flowchart showing an example of (a part of) the processing flow in the speech translation apparatus 100 of the first embodiment. 5A to 5D and FIGS. 6A and 6B are plan views showing an example of (a part of) transitions in the screen display of the information terminal 10 according to the first embodiment. is there. Here, the conversation is performed when the user of the information terminal 10 is a salesclerk who speaks Japanese, and the conversation person (conversation partner) is a foreigner who speaks English, Chinese (for example, two types of typefaces), or Korean. Assumes (however, the language is not limited to this).

まず、ユーザ(店員)が当該アプリケーションを起動する(ステップSU1)と、情報端末10の表示デバイス16に、図5(A)に示す対話者の言語選択画面が表示される(ステップSJ1)。この言語選択画面には、対話者に当該アプリケーションを使用して会話することを勧める旨、及び、後記の言語ボタンを選択することにより当該アプリケーションのプライバシーポリシーに同意することを示す英語テキストT1、並びに、会話のイメージを表すイラスト51が表示される。また、この言語選択画面における英語テキストT1の下方には、想定される複数の代表的な言語(英語、中国語2種類、及びハングル語)を示す言語ボタン52(言語選択手段)が表示され、さらにその下方には、言語選択画面を閉じて当該アプリケーションを終了するためのキャンセルボタンB1も表示される。   First, when the user (store clerk) starts the application (step SU1), the language selection screen for the conversation person shown in FIG. 5A is displayed on the display device 16 of the information terminal 10 (step SJ1). The language selection screen includes an English text T1 indicating that the conversation person is encouraged to talk using the application, and that the user agrees to the privacy policy of the application by selecting a language button described later. Then, an illustration 51 representing the conversation image is displayed. Further, below the English text T1 on the language selection screen, a language button 52 (language selection means) indicating a plurality of typical languages (English, Chinese, and Korean) is displayed. Further below that, a cancel button B1 for closing the language selection screen and ending the application is also displayed.

次に、この時点では、対話者が話す又は理解することができる言語が不明であるため、ユーザが言語ボタン52(言語選択手段)のなかから、差し当たり、例えば「英語」の部分をタップして英語を選択すると、サーバ20のプロセッサ21及び情報端末10のプロセッサ11により、ホーム画面として、日本語と英語の音声入力の待機画面が表示デバイス16に表示される(図5(B);ステップSJ2)。この待機画面には、ユーザと対話者の言語の何れを発話するかを問う日本語テキストT2、並びに、日本語の音声入力を行うための日本語入力ボタン53a及び英語の音声入力を行うための英語入力ボタン53bが表示される。このとおり、プロセッサ11,21及び表示デバイス16が「言語選択手段提示部」として機能する。   Next, at this point, since the language that the interlocutor can speak or understand is unknown, the user taps the “English” portion of the language button 52 (language selection means) for the time being, for example. When English is selected, the processor 21 of the server 20 and the processor 11 of the information terminal 10 display a standby screen for voice input in Japanese and English on the display device 16 as a home screen (FIG. 5 (B); Step SJ2). On this standby screen, the Japanese text T2 asking which of the user's language and the talker's language is to be spoken, the Japanese input button 53a for inputting Japanese speech, and the English speech input. An English input button 53b is displayed. As described above, the processors 11 and 21 and the display device 16 function as a “language selection unit presenting unit”.

また、この待機画面には、予め設定されている複数の質問定型文のリスト表示を選択するためのお声がけボタン54、図5(A)の言語選択画面に戻って対話者の言語を切り替える(言語選択をやり直す)ための言語選択ボタン55、これまでになされた音声入力内容の履歴表示を選択するための履歴ボタン56、及び当該アプリケーションソフトの各種設定を行うための設定ボタン57も表示される。   Also, on this standby screen, a voice button 54 for selecting a list display of a plurality of preset canned sentences, the language selection screen shown in FIG. Also displayed are a language selection button 55 for redoing the language selection, a history button 56 for selecting a history display of the audio input contents made so far, and a setting button 57 for performing various settings of the application software. The

ここで、図4には、これ以降の処理として、ユーザがお声掛けボタン54をタップするか否かに着目した場合分け(ステップSU2)のフローを示すが、通常の音声翻訳処理においては、図5(B)に示す待機画面から音声入力を行うことができる。ここでは、その通常の音声翻訳処理(つまり、ステップSU2において「No」)の流れについて先に説明する。   Here, FIG. 4 shows a flow of dividing the case (step SU2) when attention is paid to whether or not the user taps the voice call button 54 as the subsequent processing. In normal speech translation processing, Voice input can be performed from the standby screen shown in FIG. Here, the flow of the normal speech translation process (that is, “No” in step SU2) will be described first.

[通常の音声翻訳処理]
すなわち、この待機画面において、ユーザが日本語入力ボタン53aをタップして日本語の音声入力を選択すると、その音声入力が可能な状態となる。この状態で、ユーザが対話者への伝達事項等を発話すると、音声入出力デバイス13を通して音声入力が行われる(ステップSJ3)。情報端末10のプロセッサ11は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。このとおり、情報端末10自体、又はプロセッサ11及び音声入出力デバイス13が「入力部」として機能する。
[Normal speech translation processing]
That is, when the user taps the Japanese input button 53a and selects Japanese voice input on this standby screen, the voice input is enabled. In this state, when the user utters a matter to be communicated to the interlocutor, voice input is performed through the voice input / output device 13 (step SJ3). The processor 11 of the information terminal 10 generates an audio signal based on the audio input, and transmits the audio signal to the server 20 through the communication interface 14 and the network N. As described above, the information terminal 10 itself, or the processor 11 and the voice input / output device 13 function as an “input unit”.

サーバ20のプロセッサ21は、通信インターフェイス22を通してその音声信号を受信し、音声認識処理を行う(ステップSJ4)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等)を呼び出し、入力音声の「音」を「読み」(文字)へ変換する。このとおり、プロセッサ21、又は、サーバ20が全体として「音声認識サーバ」として機能する。   The processor 21 of the server 20 receives the voice signal through the communication interface 22 and performs voice recognition processing (step SJ4). At this time, the processor 21 calls the necessary module L20, database D20, and model M20 (speech recognition module, Japanese speech corpus, acoustic model, language model, etc.) from the storage resource 23, and obtains “sound” of the input speech. Convert to "reading" (character). As described above, the processor 21 or the server 20 functions as a “voice recognition server” as a whole.

ここで、入力音声が認識された場合、プロセッサ21は、認識された音声の「読み」(文字)を他の言語に翻訳する多言語翻訳処理へ移行する(ステップSJ5)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20及びデータベースD20(翻訳モジュール、日本語文字コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等)を呼び出し、認識結果である入力音声の「読み」(文字列)を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する英語を抽出し、それらを英文法に従って並び替えて自然な英語の句、節、文等へと変換する。このとおり、プロセッサ21は、「翻訳部」としても機能し、サーバ20は、全体として「翻訳サーバ」としても機能する。なお、入力音声がうまく認識されなかった場合には、音声の再入力を行うことができる(画面表示を図示せず)。   Here, when the input voice is recognized, the processor 21 shifts to a multilingual translation process for translating the “reading” (characters) of the recognized voice into another language (step SJ5). At this time, the processor 21 calls the necessary module L20 and database D20 (translation module, Japanese character corpus, Japanese dictionary, English dictionary, Japanese-English bilingual dictionary, Japanese-English bilingual corpus, etc.) from the storage resource 23 and recognizes them. The resulting input speech “reading” (character string) is properly sorted and converted into Japanese phrases, clauses, sentences, etc., the English corresponding to the conversion result is extracted, and these are sorted according to the English grammar. To natural English phrases, clauses, sentences, etc. As described above, the processor 21 also functions as a “translation unit”, and the server 20 also functions as a “translation server” as a whole. If the input voice is not recognized well, the voice can be re-input (screen display is not shown).

また、プロセッサ21は、認識された入力音声の内容を記憶資源23に記憶する。次に、多言語翻訳処理、及び、入力音声の内容の記憶処理が完了すると、プロセッサ21は、音声合成処理へ移行する(ステップSJ6)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声合成モジュール、英語音声コーパス、音響モデル、言語モデル等)を呼び出し、翻訳結果である英語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ21は、「音声合成部」としても機能し、サーバ20は、全体として「音声合成サーバ」としても機能する。   Further, the processor 21 stores the content of the recognized input voice in the storage resource 23. Next, when the multilingual translation processing and the input speech content storage processing are completed, the processor 21 proceeds to speech synthesis processing (step SJ6). At this time, the processor 21 calls the necessary module L20, database D20, and model M20 (speech synthesis module, English speech corpus, acoustic model, language model, etc.) from the storage resource 23, and the English phrase that is the translation result, Convert clauses, sentences, etc. to natural speech. As described above, the processor 21 also functions as a “speech synthesizer”, and the server 20 also functions as a “speech synthesizer” as a whole.

次いで、プロセッサ21は、合成された音声に基づいて音声出力用の音声信号を生成し、通信インターフェイス22及びネットワークNを通して、情報端末10へ送信する。情報端末10のプロセッサ11は、通信インターフェイス14を通してその音声信号を受信し、音声入出力デバイス13を用いて、音声出力処理を行う(ステップSJ7)。このとおり、プロセッサ11及び音声入出力デバイス13が、「出力部」として機能する。   Next, the processor 21 generates a voice signal for voice output based on the synthesized voice, and transmits the voice signal to the information terminal 10 through the communication interface 22 and the network N. The processor 11 of the information terminal 10 receives the audio signal through the communication interface 14, and performs an audio output process using the audio input / output device 13 (step SJ7). As described above, the processor 11 and the voice input / output device 13 function as an “output unit”.

[お声がけ機能による処理]
一方、図5(B)に示す待機画面において、ユーザがお声がけボタン54をタップする(ステップSU2において「Yes」)と、情報端末10のプロセッサ11は、対話者へ話しかけるために用意された複数の質問定型文の一覧を表示するための指令信号をサーバ20へ送信する。その指令信号を受信したサーバ20のプロセッサ21は、記憶資源23に記憶保持された複数の質問定型文を読み出し、例えば図5(C)に示す定型文表示画面を表示デバイス16に表示する(ステップSJ8)。この定型文表示画面には、複数の質問定型文の日本語テキストT3が横書きで画面縦方向にリスト表示され、ユーザが各質問定型文のテキスト部分をタップすることにより、所望の質問定型文(特定の定型文)を選択することができる。このとおり、プロセッサ11,21及び表示デバイス16は「定型文提示部」としても機能する。
[Processing by voice function]
On the other hand, when the user taps the voice button 54 on the standby screen shown in FIG. 5B (“Yes” in step SU2), the processor 11 of the information terminal 10 is prepared to talk to the conversation person. A command signal for displaying a list of a plurality of question fixed phrases is transmitted to the server 20. Upon receiving the command signal, the processor 21 of the server 20 reads a plurality of question fixed phrases stored and held in the storage resource 23 and displays, for example, a fixed phrase display screen shown in FIG. SJ8). On the standard sentence display screen, Japanese text T3 of a plurality of question standard sentences is displayed in a list in horizontal writing in the vertical direction on the screen, and the user taps the text part of each question standard sentence, so that a desired question standard sentence ( A specific fixed phrase) can be selected. As described above, the processors 11 and 21 and the display device 16 also function as a “standard sentence presentation unit”.

また、この定型文表示画面において、日本語テキストT3のリストの上方及び下方には、それぞれ、図5(A)の言語選択画面において対話者の言語として選択された言語(つまり対訳言語)が英語であることを示す日本語テキストT4、及び、定型文表示画面を閉じて図5(B)の待機画面へ戻るための閉じるボタンB2も表示される。   In the fixed sentence display screen, the language selected as the language of the conversation person (that is, the bilingual language) is English above and below the list of the Japanese text T3 in the language selection screen of FIG. And a close button B2 for closing the fixed sentence display screen and returning to the standby screen of FIG. 5B.

次に、ユーザが、定型文表示画面にリストされた質問定型文の日本語テキストT3のなかから、所望の質問定型文(特定の定型文)として、例えば「どうされましたか?」と記載された日本語テキストT5を選択する(ステップSU3において「Yes」)と、情報端末10のプロセッサ11からその指令信号がサーバ20へ送信される。その指令信号を受信したサーバ20のプロセッサ21は、選択された日本語テキストT5の内容に関連付けて記憶資源23に記憶されている複数の言語(英語、中国語2種類、及びハングル語)の訳文を呼び出し、それらの内容を含むテキスト信号を生成し、通信インターフェイス22及びネットワークNを通して、情報端末10へ送信する。情報端末10のプロセッサ11は、通信インターフェイス14を通してそのテキスト信号を受信し、図5(D)に示す訳文表示画面を表示デバイス16に表示する(ステップSJ9)。このとおり、プロセッサ11,21及び表示デバイス16は「訳文提示部」としても機能する。   Next, from the Japanese text T3 of the question template sentence listed on the template sentence display screen, the user describes, for example, “How was it done?” As a desired question phrase sentence (specific phrase). When the Japanese text T5 is selected (“Yes” in step SU3), the command signal is transmitted from the processor 11 of the information terminal 10 to the server 20. Upon receiving the command signal, the processor 21 of the server 20 translates a plurality of languages (English, Chinese, and Korean) stored in the storage resource 23 in association with the content of the selected Japanese text T5. Is generated, and a text signal including the contents is generated and transmitted to the information terminal 10 through the communication interface 22 and the network N. The processor 11 of the information terminal 10 receives the text signal through the communication interface 14 and displays the translated text display screen shown in FIG. 5D on the display device 16 (step SJ9). As described above, the processors 11 and 21 and the display device 16 also function as a “translation sentence presentation unit”.

この訳文表示画面には、ユーザによって選択された特定の定型文の日本語テキストT5とともに、各言語による訳文を示す複数の外国語テキストT6が横書きで画面縦方向にリスト表示される。ユーザは、この訳文表示画面を対話者に提示することにより、対話者に対して複数の言語で「どうされましたか?」と問いかけることができる。また、その訳文表示画面において、外国語テキストT6の下方には、その質問に対する返答を行うための複数の返答ボタン58a,58b(何れも返答手段)が、プロセッサ11,21によって表示される。すなわち、「YES」及び「Please」と記載された返答ボタン58a、は、補助や支援をユーザに要求するためのものであり、「NO」及び「Thank you」と記載された返答ボタン58bは、ユーザによる支援又は補助が不要であることを表明するためのものである。対話者は、返答ボタン58a,58bの何れかをタップして選択する(ステップSU4)ことができる。このとおり、プロセッサ11,21及び表示デバイス16は「返答手段提示部」としても機能する。   On this translated text display screen, a plurality of foreign language texts T6 indicating translated texts in each language are displayed in a list in the vertical direction on the screen along with Japanese text T5 of a specific fixed phrase selected by the user. The user can ask the dialogue person "How did you do it?" In multiple languages by presenting the translated text display screen to the dialogue person. In the translated text display screen, below the foreign language text T6, a plurality of response buttons 58a and 58b (both are response means) for responding to the question are displayed by the processors 11 and 21. That is, the response buttons 58a described as “YES” and “Please” are for requesting the user for assistance or support, and the response buttons 58b described as “NO” and “Thank you” It is for expressing that the support or assistance by the user is unnecessary. The interlocutor can select one of the reply buttons 58a and 58b by tapping (step SU4). As described above, the processors 11 and 21 and the display device 16 also function as a “response means presenting unit”.

例えば、対話者が外国語テキストT6の何れかを理解することができ、かつ、ユーザによる補助や支援が必要であった場合、対話者は「YES」の返答ボタン58aをタップする(ステップSU4において「YES」選択)。そうすると、表示デバイス16には、先述の図5(A)に示す言語選択画面が再表示され(ステップSJ10)、この時点で、対話者が自ら言語を選択することができる。対話者による言語選択が完了すると、表示デバイス16には、図5(B)に示す音声入力の待機画面が表示される。なお、前述の如く図5(B)には英語入力ボタン53bが表示されているが、対話者が選択した言語が英語以外の場合には、英語入力ボタン53bに代えて、その選択された言語の入力ボタンが表示される。   For example, when the dialogue person can understand any of the foreign language texts T6 and needs assistance or support by the user, the dialogue person taps the “YES” reply button 58a (in step SU4). Select “YES”). Then, the language selection screen shown in FIG. 5A is redisplayed on the display device 16 (step SJ10), and at this point, the dialog person can select the language himself. When the language selection by the dialogue person is completed, a voice input standby screen shown in FIG. 5B is displayed on the display device 16. As described above, the English input button 53b is displayed in FIG. 5B. However, if the language selected by the conversation person is other than English, the selected language is used instead of the English input button 53b. The input button is displayed.

次いで、図5(B)に示す音声入力の待機画面において、対話者が英語入力ボタン53b(又は他の言語の入力ボタン)をタップして音声入力を選択すると、音声入力が可能な状態となる。この状態で、対話者がユーザへの伝達事項(補助や支援が必要な内容等)を発話する(ステップSJ3)と、上述した[通常の音声翻訳処理]と同様にして(ただし日本語に代えて英語又は他の言語の処理となる)、音声認識処理(ステップSJ4)、多言語翻訳処理(ステップSJ5)、音声合成処理(ステップSJ6)、及び音声出力処理(ステップSJ7)が順次実行され、ユーザと対話者の会話が進行する。   Next, on the voice input standby screen shown in FIG. 5B, when the conversation person taps the English input button 53b (or another language input button) and selects the voice input, the voice input is enabled. . In this state, when the conversation person utters a matter to be communicated to the user (contents that require assistance or support) (step SJ3), it is the same as the above-mentioned [normal speech translation processing] (however, instead of Japanese) The speech recognition process (step SJ4), the multilingual translation process (step SJ5), the speech synthesis process (step SJ6), and the speech output process (step SJ7) are sequentially executed. The conversation between the user and the talker progresses.

一方、例えば、対話者が外国語テキストT6の何れかを理解することができ、かつ、ユーザによる補助や支援が不要である場合、対話者は「NO」の返答ボタン58bをタップする(ステップSU4において「NO」選択)。そうすると、情報端末10のプロセッサ11からその指令信号がサーバ20へ送信される。その指令信号を受信したサーバ20のプロセッサ21は、対話者の音声入力が不要であると判断し、対話者への返答として、記憶資源23に記憶されている例えば「ごゆっくりどうぞ」という定型文、及び、複数の言語によるその訳文の内容を含むテキスト信号を生成し、通信インターフェイス22及びネットワークNを通して、情報端末10へ送信する。   On the other hand, for example, when the conversation person can understand any of the foreign language texts T6 and the assistance or support by the user is unnecessary, the conversation person taps the “NO” reply button 58b (step SU4). "NO" selection). Then, the command signal is transmitted from the processor 11 of the information terminal 10 to the server 20. The processor 21 of the server 20 that has received the command signal determines that the voice input of the conversation person is unnecessary, and, for example, a standard sentence “Please Slowly” stored in the storage resource 23 as a reply to the conversation person. And a text signal including the contents of the translations in a plurality of languages is generated and transmitted to the information terminal 10 through the communication interface 22 and the network N.

情報端末10のプロセッサ11は、通信インターフェイス14を通してそのテキスト信号を受信し、図6(A)に示す返答表示画面を表示デバイス16に表示する(ステップSJ11)。この返答表示画面には、「ごゆっくりどうぞ」という定型文の日本語テキストT7とともに、その内容のイメージを表すイラスト61、及び、各言語による訳文を示す複数の外国語テキストT8が横書きで画面縦方向にリスト表示される。   The processor 11 of the information terminal 10 receives the text signal through the communication interface 14 and displays a response display screen shown in FIG. 6A on the display device 16 (step SJ11). In this response display screen, along with the Japanese text T7 of the standard sentence “Please Slowly”, the illustration 61 representing the image of the contents and a plurality of foreign language texts T8 indicating the translations in each language are written horizontally. Listed in direction.

なお、ユーザに対して、お声がけ機能の内容を説明するために、例えば図6(B)に示すチュートリアル(説明)画面を、上述した適宜の画面から遷移して表示するようにしてもよい。例えば、図5(D)に示すヘルプボタンHを、適宜の画面に表示しておき、ユーザがそのヘルプボタンHをタップしたときに、チュートリアル画面が表示されてもよい。このチュートリアル画面には、例えば、お声がけ機能の内容又は概要を説明するための日本語テキストT9、及び、その内容のイメージを表すイラスト62が表示される。   In order to explain the contents of the voice function to the user, for example, the tutorial (explanation) screen shown in FIG. 6B may be displayed by transitioning from the appropriate screen described above. . For example, the help button H shown in FIG. 5D may be displayed on an appropriate screen, and when the user taps the help button H, the tutorial screen may be displayed. On this tutorial screen, for example, Japanese text T9 for explaining the content or outline of the voice call function and an illustration 62 representing an image of the content are displayed.

(第2実施形態)
図7は、第2実施形態の音声翻訳装置100における処理の流れ(の一部)の一例を示すフローチャートである。また、図8(A)及び(B)は、第2実施形態による情報端末10の画面表示における遷移(の一部)の一例を示す平面図である。この第2実施形態の処理フローは、第1実施形態における図4に示すステップSU4に代えて図7に示すステップSU5を実行し、同図4に示すステップSJ10,SJ11を実行せず、かつ、第1実施形態における図5(C)及び(D)に示す画面に代えて、それぞれ図8(A)及び(B)に示す画面が表示されること以外は、第1実施形態における処理フローと同等の手順で実行される。
(Second Embodiment)
FIG. 7 is a flowchart illustrating an example of (a part of) a processing flow in the speech translation apparatus 100 according to the second embodiment. FIGS. 8A and 8B are plan views showing an example of (a part of) transitions in the screen display of the information terminal 10 according to the second embodiment. In the processing flow of the second embodiment, step SU5 shown in FIG. 7 is executed instead of step SU4 shown in FIG. 4 in the first embodiment, steps SJ10 and SJ11 shown in FIG. 4 are not executed, and The processing flow in the first embodiment, except that the screens shown in FIGS. 8A and 8B are displayed in place of the screens shown in FIGS. 5C and 5D in the first embodiment, respectively. Performed in an equivalent procedure.

すなわち、ここでは、図7に示すステップSJ8において、図8(A)に示す定型文表示画面が表示され、ユーザが、定型文表示画面にリストされた質問定型文の日本語テキストT3のなかから、所望の質問定型文(特定の定型文)として、例えば「日本はいかがですか?」と記載された日本語テキストT10を選択する(ステップSU3において「Yes」)。   That is, here, in step SJ8 shown in FIG. 7, the standard sentence display screen shown in FIG. 8 (A) is displayed, and the user starts from the Japanese text T3 of the question fixed phrase listed on the standard sentence display screen. For example, the Japanese text T10 in which “How is Japan?” Is selected as a desired question template (specific template) (“Yes” in step SU3).

これにより、情報端末10のプロセッサ11からその指令信号がサーバ20へ送信され、サーバ20のプロセッサ21は、選択された特定の質問定型文と、複数言語によるその訳文を含むテキスト信号を生成し、通信インターフェイス22及びネットワークNを通して、情報端末10へ送信する。情報端末10のプロセッサ11は、通信インターフェイス14を通してそのテキスト信号を受信し、図8(B)に示す訳文表示画面を表示デバイス16に表示する(ステップSJ9)。   Thereby, the command signal is transmitted from the processor 11 of the information terminal 10 to the server 20, and the processor 21 of the server 20 generates a text signal including the selected specific question fixed phrase and its translation in a plurality of languages, The data is transmitted to the information terminal 10 through the communication interface 22 and the network N. The processor 11 of the information terminal 10 receives the text signal through the communication interface 14 and displays the translated text display screen shown in FIG. 8B on the display device 16 (step SJ9).

この訳文表示画面には、ユーザによって選択された特定の定型文の日本語テキストT10とともに、各言語による訳文を示す複数の外国語テキストT11が横書きで画面縦方向にリスト表示される。ユーザは、この訳文表示画面を対話者に提示することにより、対話者に対して複数の言語で「日本はいかがですか?」と問いかけることができる。また、その訳文表示画面において、外国語テキストT11のそれぞれに隣接するように、その質問に対して応答する旨の意思表示を行うための複数の返答ボタン71(返答手段)が表示され、対話者がその何れかをタップして選択することができる。   On the translated text display screen, a plurality of foreign language texts T11 indicating translated texts in each language are displayed in a list in the vertical direction on the screen along with the Japanese text T10 of a specific fixed phrase selected by the user. The user can ask the conversation person “How is Japan?” In a plurality of languages by presenting the translated text display screen to the conversation person. In addition, a plurality of response buttons 71 (response means) for displaying an intention to respond to the question are displayed so as to be adjacent to each of the foreign language texts T11 on the translated text display screen. Can be selected by tapping any of them.

この問いかけに対し、対話者が外国語テキストT11の何れかを理解することができ、かつ、ユーザに対して何らかの返答を行う場合、対話者は、自分が話す又は理解することができる言語(特定の言語)による対訳が記載された返答ボタン71をタップする(ステップSU4)。情報端末10のプロセッサ11は、その言語の返答ボタン71の選択が行われたことを示す指令信号をサーバ20のプロセッサ21へ送信し、プロセッサ21は、その指令信号に基づいて、対話者が話す又は理解することができる言語を判別する。   In response to this question, if the interlocutor can understand any of the foreign language texts T11 and give some response to the user, the interlocutor will be able to speak or understand the language (specific The reply button 71 in which the bilingual translation is written is tapped (step SU4). The processor 11 of the information terminal 10 transmits a command signal indicating that the response button 71 of the language has been selected to the processor 21 of the server 20, and the processor 21 speaks based on the command signal. Or, determine the language that can be understood.

それから、プロセッサ21は、情報端末10の表示デバイス16に、第1実施形態における図5(B)に示す音声入力の待機画面を表示する。例えば、対話者の言語が英語であると判断された場合、ユーザの言語である日本語入力ボタン53aと対話者の言語である英語入力ボタン53bを含む待機画面(つまり図5(B)の画面)が表示される。同様に、対話者の言語が他の言語であると判断された場合には、日本語入力ボタン53aと他の言語入力ボタンを含む待機画面が表示される。そして、これ以降の処理、すなわち、対話者による音声入力(ステップSJ3)、音声認識処理(ステップSJ4)、多言語翻訳処理(ステップSJ5)、音声合成処理(ステップSJ6)、及び音声出力処理(ステップSJ7)は、上述した[通常の音声翻訳処理]と同様にして順次実行される。   Then, the processor 21 displays the voice input standby screen shown in FIG. 5B in the first embodiment on the display device 16 of the information terminal 10. For example, when it is determined that the language of the conversation person is English, the standby screen including the Japanese input button 53a that is the user's language and the English input button 53b that is the language of the conversation person (that is, the screen of FIG. 5B). ) Is displayed. Similarly, when it is determined that the language of the conversation person is another language, a standby screen including a Japanese input button 53a and another language input button is displayed. Then, the subsequent processes, that is, voice input by a conversation person (step SJ3), voice recognition process (step SJ4), multilingual translation process (step SJ5), voice synthesis process (step SJ6), and voice output process (step) SJ7) is sequentially executed in the same manner as the above-mentioned [normal speech translation processing].

以上のように構成された音声翻訳装置100及びそれを用いた音声翻訳方法並びに音声翻訳プログラムによれば、ユーザが対話者へ話しかけるために予め用意された複数の質問定型文(日本語テキストT3)と、それらの複数の質問定型文のそれぞれに対する複数の言語による訳文(例えば外国語テキストT6,T11)が記憶されており、ユーザがそれらのなかから適宜の「特定の定型文」を選択することができる。その際、情報端末10の表示デバイス16に、選択された特定の定型文の複数の言語による訳文が表示されるので、それを対話者に提示することにより、対話者との会話の契機を得ることができる。これにより、ユーザは、対話者に気軽に話しかけることができ、対話者との会話による円滑なコミュニケーションが可能となる。   According to the speech translation apparatus 100 configured as described above, the speech translation method using the speech translation apparatus, and the speech translation program, a plurality of question template sentences (Japanese text T3) prepared in advance for the user to speak to the conversation person. And translations in a plurality of languages (for example, foreign language texts T6 and T11) for each of the plurality of question template sentences are stored, and the user selects an appropriate “specific template sentence” from them. Can do. At that time, since the translation of the selected specific fixed sentence in a plurality of languages is displayed on the display device 16 of the information terminal 10, by presenting it to the conversation person, an opportunity for conversation with the conversation person is obtained. be able to. As a result, the user can easily talk to the interlocutor, and smooth communication by the conversation with the interlocutor becomes possible.

また、第1実施形態の如く、例えば図5(D)に示す特定の定型文(日本語テキストT5)に対する複数の言語による訳文が表示された訳文表示画面の後に、対話者の必要に応じて、図5()に示す言語選択画面が表示され、対話者が話す又は理解することができる所望の言語を選択することができる。したがって、対話者の言語選択を自然な会話の流れのなかで行うことが可能となる。
Further, as in the first embodiment, for example, after a translated text display screen on which translated texts in a plurality of languages for a specific fixed sentence (Japanese text T5) shown in FIG. A language selection screen shown in FIG. 5 ( A ) is displayed, and a desired language that can be spoken or understood by the interlocutor can be selected. Therefore, the language selection of the conversation person can be performed in a natural conversation flow.

さらに、第2実施形態の如く、例えば図8(B)に示す特定の定型文(日本語テキストT10)に対する複数の言語による訳文が表示された訳文表示画面において、各訳文の外国語テキストT11に隣接するように、その質問に対して返答する旨を表明するための回答ボタン71が表示される。そして、対話者がその何れかをタップして選択することにより、対話者が話す又は理解することができる言語が判別判断されるので、かかる手順によっても、対話者の言語選択を自然な会話の流れのなかで行うことが可能となる。   Further, as in the second embodiment, for example, on the translation display screen on which translations in a plurality of languages for the specific fixed sentence (Japanese text T10) shown in FIG. 8B are displayed, the foreign language text T11 of each translation is displayed. An answer button 71 for expressing that the question is answered is displayed so as to be adjacent. Then, when the conversation person taps and selects one of them, the language that the conversation person can speak or understand is discriminated and determined. This can be done in the flow.

なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース(ハードウェア資源又はソフトウェア資源)を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。   Note that, as described above, each of the above embodiments is an example for explaining the present invention, and is not intended to limit the present invention to the embodiment. The present invention can be variously modified without departing from the gist thereof. For example, those skilled in the art can replace the resources (hardware resources or software resources) described in the embodiments with equivalents, and such replacements are also included in the scope of the present invention.

また、上記各実施形態では、音声認識、翻訳、及び音声合成の各処理をサーバ20によって実行する例について記載したが、これらの処理を情報端末10において実行するように構成してもよい。この場合、それらの処理に用いるモジュールL20は、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。さらに、音声データベースであるデータベースD20、及び/又は、音響モデル等のモデルM20も、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。このとおり、音声翻訳装置は、ネットワークN及びサーバ20を備えなくてもよい。   Moreover, although each said embodiment described the example which performs each process of speech recognition, translation, and a speech synthesis by the server 20, you may comprise so that these processes may be performed in the information terminal 10. FIG. In this case, the module L20 used for these processes may be stored in the storage resource 12 of the information terminal 10 or may be stored in the storage resource 23 of the server 20. Furthermore, the database D20 that is a voice database and / or a model M20 such as an acoustic model may be stored in the storage resource 12 of the information terminal 10 or may be stored in the storage resource 23 of the server 20. . As described above, the speech translation apparatus may not include the network N and the server 20.

さらに、例えば図5(D)や図8(B)の訳文表示画面にリストされた複数の言語による訳文(外国語テキストT6,T11)の全部又は一部を音声で読み上げるようにしてもよい。この場合、音声出力する訳文をユーザ又は対話者が選択するようにしてもよいし、選択することなく自動で読み上げるようにしてもよい。またさらに、図5(D)や図8(B)の訳文表示画面にリストされた複数の言語による訳文(外国語テキストT6,T11)のそれぞれが、返答ボタン58a,58b,71を兼ねるように構成してもよい。この場合、対話者が訳文(外国語テキストT6,T11)のそれぞれをタップして選択することにより、サーバ20のプロセッサ21が、その対話者の言語を判別するようにしても好適である。   Furthermore, for example, all or part of the translations (foreign language texts T6 and T11) in a plurality of languages listed on the translation display screens of FIGS. 5D and 8B may be read out by voice. In this case, the user or the conversation person may select the translated sentence to be output as voice, or may automatically read it out without selecting it. Furthermore, each of the translations (foreign language texts T6 and T11) in a plurality of languages listed on the translation display screens of FIGS. 5D and 8B also serves as the reply buttons 58a, 58b, and 71. It may be configured. In this case, it is also preferable that the processor 21 of the server 20 discriminates the language of the conversation person by tapping and selecting each of the translated sentences (foreign language texts T6 and T11).

また、情報端末10とネットワークNとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末10は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。   Of course, a gateway server for converting a communication protocol between the information terminal 10 and the network N may be interposed. The information terminal 10 is not limited to a portable device, and may be a desktop personal computer, a notebook personal computer, a tablet personal computer, a laptop personal computer, or the like.

本発明によれば、対話者たる外国人との会話の契機を得ることができ、かつ、自然な会話の流れのなかで対話者の言語を選択する又は選択させることが可能となるので、例えば、互いの言語を理解できない人同士の会話に関するサービスの提供分野における、プログラム、装置、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。   According to the present invention, it is possible to obtain an opportunity for conversation with a foreigner who is a conversation person, and to select or select a conversation person language in a natural conversation flow. It can be widely used for activities such as design, manufacture, provision, and sales of programs, devices, systems, and methods in the field of providing services related to conversations between people who cannot understand each other's languages.

10 情報端末
11 プロセッサ
12 記憶資源
13 音声入出力デバイス
14 通信インターフェイス
15 入力デバイス
16 表示デバイス
17 カメラ
20 サーバ
21 プロセッサ
22 通信インターフェイス
23 記憶資源
51 イラスト
52 言語ボタン
53a 日本語入力ボタン
53b 英語入力ボタン
54 お声がけボタン
55 言語選択ボタン
56 履歴ボタン
57 設定ボタン
58a,58b 返答ボタン
61 イラスト
62 イラスト
71 返答ボタン
100 音声翻訳装置
B1 キャンセルボタン
B2 閉じるボタン
D20 データベース
H ヘルプボタン
L20 モジュール
M20 モデル
N ネットワーク
P10 プログラム
P20 プログラム
T1 英語テキスト
T2 日本語テキスト
T3 日本語テキスト
T4 日本語テキスト
T5 日本語テキスト
T6 外国語テキスト
T7 日本語テキスト
T8 外国語テキスト
T9 日本語テキスト
T10 日本語テキスト
T11 外国語テキスト
10 information terminal 11 processor 12 storage resource 13 voice input / output device 14 communication interface 15 input device 16 display device 17 camera 20 server 21 processor 22 communication interface 23 storage resource 51 illustration 52 language button 53a Japanese input button 53b English input button 54 Voice button 55 Language selection button 56 History button 57 Setting button 58a, 58b Reply button 61 Illustration 62 Illustration 71 Reply button 100 Speech translation device B1 Cancel button B2 Close button D20 Database H Help button L20 Module M20 Model N Network P10 Program P20 Program T1 English text T2 Japanese text T3 Japanese text T4 Japanese text T5 Japanese text T6 Foreign language text Kist T7 Japanese text T8 Foreign language text T9 Japanese text T10 Japanese text T11 Foreign language text

Claims (6)

ユーザの音声を入力するための入力部、入力音声の内容を異なる言語の内容に翻訳する翻訳部、及び、前記入力音声の翻訳内容を音声及び/又はテキストで出力する出力部を備える音声翻訳装置であって、
複数の質問定型文、及び該複数の質問定型文のそれぞれに対する複数の言語による訳文を記憶する記憶部と、
前記ユーザが前記複数の質問定型文のなかから特定の質問定型文を選択するために、該複数の質問定型文を表示する定型文提示部と、
前記特定の質問定型文が選択されたときに、該特定の質問定型文に対する前記複数の言語による訳文を表示する訳文提示部と、
前記特定の質問定型文に対する前記複数の言語による訳文の表示の後に、又は、該訳文の表示とともに、前記対話者が前記特定の質問定型文に対して返答するための返答手段を提示する返答手段提示部と、
前記対話者が前記返答手段を操作した後に、前記対話者が前記複数の言語のなかから所望の言語を選択するための言語選択手段を表示する言語選択手段提示部と、
前記対話者が前記所望の言語を選択したときに、前記ユーザの言語と前記対話者の言語による音声入力の待機画面を表示する音声入力待機画面表示部と、
を更に備える音声翻訳装置。
A speech translation apparatus comprising: an input unit for inputting a user's speech; a translation unit that translates the content of the input speech into content of a different language; and an output unit that outputs the translation content of the input speech as speech and / or text Because
A storage unit for storing a plurality of question template sentences and translations in a plurality of languages for each of the plurality of question template sentences;
For the user to select a specific questions fixed phrase from the multiple question fixed text, and fixed text presentation unit for displaying a question boilerplate plurality of,
When the specific question template sentence is selected, a translated sentence presenting unit that displays a translation of the specific question template sentence in the plurality of languages;
Response means for presenting a response means for the interrogator to respond to the specific question template after the display of the translation in the plurality of languages for the specific question template, or together with the display of the translation A presentation unit;
A language selection means presenting unit for displaying a language selection means for the conversation person to select a desired language from among the plurality of languages after the conversation person operates the response means ;
A voice input standby screen display unit that displays a standby screen for voice input in the language of the user and the language of the dialog person when the dialog person selects the desired language;
A speech translation device further comprising:
ユーザの音声を入力するための入力部、入力音声の内容を異なる言語の内容に翻訳する翻訳部、及び、前記入力音声の翻訳内容を音声及び/又はテキストで出力する出力部を備える音声翻訳装置であって、A speech translation apparatus comprising: an input unit for inputting a user's speech; a translation unit that translates the content of the input speech into content of a different language; and an output unit that outputs the translation content of the input speech as speech and / or text Because
複数の質問定型文、及び該複数の質問定型文のそれぞれに対する複数の言語による訳文を記憶する記憶部と、A storage unit for storing a plurality of question template sentences and translations in a plurality of languages for each of the plurality of question template sentences;
前記ユーザが前記複数の質問定型文のなかから特定の質問定型文を選択するために、該複数の質問定型文を表示する定型文提示部と、In order for the user to select a specific question template sentence from the plurality of question template sentences, a template sentence presentation unit that displays the plurality of question template sentences;
前記特定の質問定型文が選択されたときに、該特定の質問定型文に対する前記複数の言語による訳文を表示する訳文提示部と、When the specific question template sentence is selected, a translated sentence presenting unit that displays a translation of the specific question template sentence in the plurality of languages;
前記特定の質問定型文に対する前記複数の言語による訳文の表示の後に、又は、該訳文の表示とともに、前記対話者が前記特定の質問定型文に対して返答する意思表示を行うための、前記それぞれの訳文の言語による返答手段を提示する返答手段提示部と、After each of the translations in the plurality of languages with respect to the specific question template, or together with the display of the translation, each of the above-mentioned dialogues for indicating the intention to respond to the specific question template A reply means presenting section for presenting reply means in the language of the translation of
前記対話者が前記返答手段を操作した後に、該返答手段に対応する言語を、前記対話者の言語であると判別し、前記ユーザの言語と前記対話者の言語による音声入力の待機画面を表示する音声入力待機画面表示部と、After the conversation person operates the reply means, the language corresponding to the reply means is determined as the language of the talker, and a standby screen for voice input in the language of the user and the language of the talker is displayed. Voice input standby screen display
を更に備える音声翻訳装置。A speech translation device further comprising:
前記出力部は、前記特定の質問定型文に対する前記複数の言語による訳文の全部又は一部を音声で出力する、The output unit outputs all or part of the translated sentences in the plurality of languages for the specific question fixed phrase by voice;
請求項1又は2記載の音声翻訳装置。The speech translation apparatus according to claim 1 or 2.
前記特定の質問定型文に対する前記複数の言語による訳文が、前記返答手段の機能を兼ねており、The translations in the plurality of languages corresponding to the specific question fixed phrase also serve as the function of the response means,
前記音声入力待機画面表示部は、前記対話者が前記訳文を操作した後に、該訳文に対応する言語を、前記対話者の言語であると判別し、前記ユーザの言語と前記対話者の言語による音声入力の待機画面を表示する、The voice input standby screen display unit determines that the language corresponding to the translated sentence is the language of the conversation person after the conversation person operates the translated sentence, and depends on the language of the user and the language of the conversation person Display the voice input standby screen,
請求項1乃至3の何れか記載の音声翻訳装置。The speech translation apparatus according to any one of claims 1 to 3.
入力部、翻訳部、出力部、記憶部、定型文提示部、訳文提示部、返答手段提示部、言語選択手段提示部、及び音声入力待機画面表示部を備える音声翻訳装置を用い、
前記入力部が、ユーザの音声を入力するステップと、
前記翻訳部が、入力音声の内容を異なる言語の内容に翻訳するステップと、
前記出力部が、翻訳内容を音声及び/又はテキストで出力するステップと、
前記記憶部が、複数の質問定型文、及び該複数の質問定型文のそれぞれに対する複数の言語による訳文を記憶するステップと、
前記定型文提示部が、前記ユーザが前記複数の質問定型文のなかから特定の質問定型文を選択するために、該複数の質問定型文を表示するステップと、
前記訳文提示部が、前記特定の質問定型文が選択されたときに、該特定の質問定型文に対する前記複数の言語による訳文を表示するステップと、
前記返答手段提示部が、前記特定の質問定型文に対する前記複数の言語による訳文の表示の後に、又は、該訳文の表示とともに、前記対話者が前記特定の質問定型文に対して返答するための返答手段を提示するステップと、
前記言語選択手段提示部が、前記対話者が前記返答手段を操作した後に、前記対話者が前記複数の言語のなかから所望の言語を選択するための言語選択手段を表示するステップと、
前記音声入力待機画面表示部が、前記対話者が前記所望の言語を選択したときに、前記ユーザの言語と前記対話者の言語による音声入力の待機画面を表示するステップと、
を含む音声翻訳方法。
Using a speech translation device including an input unit, a translation unit, an output unit, a storage unit, a fixed phrase presentation unit, a translation presentation unit, a response unit presentation unit, a language selection unit presentation unit, and a voice input standby screen display unit ,
The input unit inputs a user's voice;
The translation unit translating the content of the input speech into content of a different language;
The output unit outputting the translated content in speech and / or text;
The storage unit stores a plurality of question template sentences and translations in a plurality of languages for each of the plurality of question template sentences;
The typical sentence presentation unit is, for the user to select a specific questions fixed phrase from the multiple question fixed sentence, and displaying the questions boilerplate plurality of,
The translated sentence presenting unit, when the specific question template sentence is selected, displaying the translated sentences in the plurality of languages for the specific question template sentence;
The response means presenting section is for the dialog person to reply to the specific question template after the display of the translation in the plurality of languages with respect to the specific question template, or together with the display of the translation Presenting a response means;
The language selection means presenting unit displaying a language selection means for the conversation person to select a desired language from the plurality of languages after the conversation person operates the response means ;
The voice input standby screen display unit displaying a standby screen for voice input in the language of the user and the language of the conversation when the conversation person selects the desired language;
Speech translation method including
コンピュータを、
ユーザの音声を入力するための入力部と、
入力音声の内容を異なる言語の内容に翻訳する翻訳部と、
翻訳内容を音声及び/又はテキストで出力する出力部と、
複数の質問定型文、及び該複数の質問定型文のそれぞれに対する複数の言語による訳文を記憶する記憶部と、
前記ユーザが前記複数の質問定型文のなかから特定の質問定型文を選択するために、該複数の質問定型文を表示する定型文提示部と、
前記特定の質問定型文が選択されたときに、該特定の質問定型文に対する前記複数の言語による訳文を表示する訳文提示部と、
前記特定の質問定型文に対する前記複数の言語による訳文の表示の後に、又は、該訳文の表示とともに、前記対話者が前記特定の質問定型文に対して返答するための返答手段を提示する返答手段提示部と、
前記対話者が前記返答手段を操作した後に、前記対話者が前記複数の言語のなかから所望の言語を選択するための言語選択手段を表示する言語選択手段提示部と、
前記対話者が前記所望の言語を選択したときに、前記ユーザの言語と前記対話者の言語による音声入力の待機画面を表示する音声入力待機画面表示部と、
して機能させる音声翻訳プログラム。
Computer
An input unit for inputting the user's voice;
A translation unit that translates the content of the input speech into a different language
An output unit that outputs the translated content in audio and / or text;
A storage unit for storing a plurality of question template sentences and translations in a plurality of languages for each of the plurality of question template sentences;
For the user to select a specific questions fixed phrase from the multiple question fixed text, and fixed text presentation unit for displaying a question boilerplate plurality of,
When the specific question template sentence is selected, a translated sentence presenting unit that displays a translation of the specific question template sentence in the plurality of languages;
Response means for presenting a response means for the interrogator to respond to the specific question template after the display of the translation in the plurality of languages for the specific question template, or together with the display of the translation A presentation unit;
A language selection means presenting unit for displaying a language selection means for the conversation person to select a desired language from among the plurality of languages after the conversation person operates the response means ;
A voice input standby screen display unit that displays a standby screen for voice input in the language of the user and the language of the dialog person when the dialog person selects the desired language;
Speech translation program that works
JP2016067710A 2016-03-30 2016-03-30 Speech translation device, speech translation method, and speech translation program Expired - Fee Related JP6110539B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016067710A JP6110539B1 (en) 2016-03-30 2016-03-30 Speech translation device, speech translation method, and speech translation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016067710A JP6110539B1 (en) 2016-03-30 2016-03-30 Speech translation device, speech translation method, and speech translation program

Publications (2)

Publication Number Publication Date
JP6110539B1 true JP6110539B1 (en) 2017-04-05
JP2017182397A JP2017182397A (en) 2017-10-05

Family

ID=58666383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016067710A Expired - Fee Related JP6110539B1 (en) 2016-03-30 2016-03-30 Speech translation device, speech translation method, and speech translation program

Country Status (1)

Country Link
JP (1) JP6110539B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021002838A1 (en) * 2019-07-01 2021-01-07 Google Llc Adaptive diarization model and user interface
JP2025144810A (en) * 2024-03-21 2025-10-03 ブラザー工業株式会社 Computer program for a terminal device, terminal device, and method executed by a terminal device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10134061A (en) * 1997-12-01 1998-05-22 Omron Corp Language conversion switch support method/device, language conversion method/device, document compiling method/device and language conversion switch method/ device
JP2002073514A (en) * 2000-08-31 2002-03-12 Hiroichi Yoshida Method of exchanging information while utilizing communication network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10134061A (en) * 1997-12-01 1998-05-22 Omron Corp Language conversion switch support method/device, language conversion method/device, document compiling method/device and language conversion switch method/ device
JP2002073514A (en) * 2000-08-31 2002-03-12 Hiroichi Yoshida Method of exchanging information while utilizing communication network

Also Published As

Publication number Publication date
JP2017182397A (en) 2017-10-05

Similar Documents

Publication Publication Date Title
US11942082B2 (en) Facilitating communications with automated assistants in multiple languages
US9355094B2 (en) Motion responsive user interface for realtime language translation
US9805718B2 (en) Clarifying natural language input using targeted questions
JP6141483B1 (en) Speech translation device, speech translation method, and speech translation program
TW200416567A (en) Multimodal speech-to-speech language translation and display
CN104850543A (en) Voice conversation support apparatus and voice conversation support method
US20080195375A1 (en) Echo translator
JP6449181B2 (en) Speech translation system, speech translation method, and speech translation program
JP6290479B1 (en) Speech translation device, speech translation method, and speech translation program
JP6353860B2 (en) Speech translation device, speech translation method, and speech translation program
JP6310950B2 (en) Speech translation device, speech translation method, and speech translation program
JP6383748B2 (en) Speech translation device, speech translation method, and speech translation program
JP6110539B1 (en) Speech translation device, speech translation method, and speech translation program
JP6250209B1 (en) Speech translation device, speech translation method, and speech translation program
WO2019225028A1 (en) Translation device, system, method, program, and learning method
JP5998298B1 (en) Speech translation device, speech translation method, and speech translation program
JP6198879B1 (en) Speech translation device, speech translation method, and speech translation program
WO2017086434A1 (en) Speech translation program, speech translation device, and control method for same
US20070244687A1 (en) Dialog supporting device
JP6334589B2 (en) Fixed phrase creation device and program, and conversation support device and program
JP6174746B1 (en) Speech translation device, speech translation method, and speech translation program
JP2018173910A (en) Voice translation system and voice translation program
JP6147387B1 (en) Speech translation system, control method thereof, and speech translation program
JP6298806B2 (en) Speech translation system, control method therefor, and speech translation program
Weber et al. Unexplored directions in spoken language technology for development

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170309

R150 Certificate of patent or registration of utility model

Ref document number: 6110539

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees