KR20140072670A

KR20140072670A - 사용자 음성 처리용 인터페이스 장치 및 방법

Info

Publication number: KR20140072670A
Application number: KR1020120140446A
Authority: KR
Inventors: 김기현; 김상훈; 윤승
Original assignee: 한국전자통신연구원
Priority date: 2012-12-05
Filing date: 2012-12-05
Publication date: 2014-06-13
Also published as: US20140156256A1

Abstract

본 발명은 사용자가 음성 인식이나 자동 통역에 기여할 수 있게 다양한 정보를 효과적으로 출력하는 사용자 음성 처리용 인터페이스 장치 및 방법을 제안한다. 이를 위해 본 발명은 사용자의 발화를 입력하는 발화 입력부; 입력되는 발화의 종료를 인식하는 발화 종료 인식부; 및 종료된 발화의 음성인식 결과, 번역 결과 및 통역 결과 중 적어도 하나의 결과를 출력하는 발화 결과 출력부를 포함하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 장치를 제안한다.

Description

사용자 음성 처리용 인터페이스 장치 및 방법 {Interface device for processing voice of user and method thereof}

본 발명은 음성 처리용 인터페이스 장치 및 방법에 관한 것이다. 보다 상세하게는, 음성 인식이나 자동 통역을 위한 사용자 음성 처리용 인터페이스 장치 및 방법에 관한 것이다.

기존의 음성 인식용 사용자 인터페이스(user interface)는 하나의 창(window)에 한 언어의 음성 인식을 한 후에 번역을 하면 다른 창에 그 내용이 출력되는 형태였다.

이와 같은 사용자 인터페이스는 번역될 내용과 번역된 내용 간 연결 관계를 찾기가 쉽지 않고, 사용자들에게 친숙하지 않아 사용자들이 적응하는 데에 많은 시간과 에너지를 소비해야 하며, 정확하지 못한 음성 인식과 자동 통역 결과물이 도출되는 문제점이 있었다.

그리고 이러한 기존의 사용자 인터페이스는 해당 음성 인식에 대한 다양한 정보를 효과적으로 보여주지 못함으로써, 사용자가 더 나은 음성 인식 및 자동 통역의 기능을 효율적으로 이용할 수 없는 문제점이 있었다.

음성 인식용 사용자 인터페이스와 관련된 선행기술로 미국공개특허 제2009-0228273호가 있다. 그런데 이 선행기술은 음성 인식 결과물을 도출한 뒤 그 결과물을 검증하여 오류를 수정하는 방법을 개시하고 있어 오류 없는 최종 결과물을 도출하기까지 많은 시간이 소요되는 문제점이 있다.

본 발명은 상기한 문제점을 해결하기 위해 안출된 것으로서, 사용자가 음성 인식이나 자동 통역에 기여할 수 있게 다양한 정보를 효과적으로 출력하는 사용자 음성 처리용 인터페이스 장치 및 방법을 제안함을 목적으로 한다.

그러나 본 발명의 목적은 상기에 언급된 사항으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명은 상기한 목적을 달성하기 위해 안출된 것으로서, 사용자의 발화를 입력하는 발화 입력부; 입력되는 발화의 종료를 인식하는 발화 종료 인식부; 및 종료된 발화의 음성인식 결과, 번역 결과 및 통역 결과 중 적어도 하나의 결과를 출력하는 발화 결과 출력부를 포함하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 장치를 제안한다.

바람직하게는, 상기 사용자 음성 처리용 인터페이스 장치는 상기 입력되는 발화의 음량에 대한 정보를 출력하는 음량 정보 출력부를 더욱 포함한다.

바람직하게는, 상기 음량 정보 출력부는 상기 입력되는 발화의 음량이 적절한지 여부를 그림이나 그래프 상에 색깔로 구분하여 출력하거나, 적절한 음량의 범위와 상기 입력되는 발화의 현재 음량을 함께 출력한다.

바람직하게는, 상기 음량 정보 출력부는 상기 음량에 대한 정보를 실시간으로 출력한다.

바람직하게는, 상기 사용자 음성 처리용 인터페이스 장치는 상기 사용자에 의해 선택된 캐릭터를 이용하여 미리 정해진 시기마다 상기 입력되는 발화의 음성인식 진행 상황, 번역 진행 상황 및 통역 진행 상황 중 적어도 하나의 진행 상황을 출력하는 진행 상황 출력부; 또는 상기 사용자의 발화 시작이나 상기 사용자의 발화 종료를 출력하는 발화 시작/종료 출력부를 더욱 포함한다.

바람직하게는, 상기 진행 상황 출력부는 상기 입력되는 발화를 문장 단위로 구분하여 그 문장에 대한 음성인식 결과, 번역 결과 및 통역 결과 중 어느 하나의 결과를 상기 진행 상황으로 출력한다.

바람직하게는, 상기 발화 결과 출력부는 상기 음성인식 결과, 상기 번역 결과 및 상기 통역 결과가 각각 복수개일 때 상기 복수개 중에서 선택된 적어도 두개를 선행 출력하며, 상기 사용자의 선택에 따라 선행 출력된 결과들 중에서 어느 하나의 결과를 최종 출력한다.

바람직하게는, 상기 발화 결과 출력부는 상기 번역 결과를 출력할 때 상기 번역 결과를 상기 사용자의 모국어로 발음 표기하여 함께 출력한다.

바람직하게는, 상기 발화 종료 인식부는 상기 사용자의 종료 입력에 따라 발화 종료를 인식하거나, 미리 정해진 시간동안 입력되던 발화가 더이상 입력되지 않으면 상기 발화 종료를 인식한다.

바람직하게는, 상기 발화 결과 출력부는 상기 입력되는 발화와 그 발화에 대한 결과를 서로 연결지어 하나의 창에 출력한다.

바람직하게는, 상기 사용자 음성 처리용 인터페이스 장치는 상기 사용자가 휴대한 모바일 기기에 장착된다.

또한 본 발명은 사용자의 발화를 입력하는 발화 입력 단계; 입력되는 발화의 종료를 인식하는 발화 종료 인식 단계; 및 종료된 발화의 음성인식 결과, 번역 결과 및 통역 결과 중 적어도 하나의 결과를 출력하는 발화 결과 출력 단계를 포함하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 방법을 제안한다.

바람직하게는, 상기 발화 입력 단계와 상기 발화 종료 인식 단계 사이에, 상기 입력되는 발화의 음량에 대한 정보를 출력하는 음량 정보 출력 단계를 더욱 포함한다.

바람직하게는, 상기 음량 정보 출력 단계는 상기 입력되는 발화의 음량이 적절한지 여부를 그림이나 그래프 상에 색깔로 구분하여 출력하거나, 적절한 음량의 범위와 상기 입력되는 발화의 현재 음량을 함께 출력한다.

바람직하게는, 상기 음량 정보 출력 단계는 상기 음량에 대한 정보를 실시간으로 출력한다.

바람직하게는, 상기 발화 입력 단계와 상기 발화 종료 인식 단계 사이에, 상기 사용자에 의해 선택된 캐릭터를 이용하여 미리 정해진 시기마다 상기 입력되는 발화의 음성인식 진행 상황, 번역 진행 상황 및 통역 진행 상황 중 적어도 하나의 진행 상황을 출력하는 진행 상황 출력 단계를 더욱 포함하거나, 상기 발화 입력 단계 이전에, 상기 사용자의 발화 시작을 출력하는 발화 시작 출력 단계를 더욱 포함하거나, 또는 상기 발화 종료 인식 단계 이후에, 상기 사용자의 발화 종료를 출력하는 발화 종료 출력 단계를 더욱 포함한다.

바람직하게는, 상기 진행 상황 출력 단계는 상기 입력되는 발화를 문장 단위로 구분하여 그 문장에 대한 음성인식 결과, 번역 결과 및 통역 결과 중 어느 하나의 결과를 상기 진행 상황으로 출력한다.

바람직하게는, 상기 발화 결과 출력 단계는 상기 음성인식 결과, 상기 번역 결과 및 상기 통역 결과가 각각 복수개일 때 상기 복수개 중에서 선택된 적어도 두개를 선행 출력하며, 상기 사용자의 선택에 따라 선행 출력된 결과들 중에서 어느 하나의 결과를 최종 출력한다.

바람직하게는, 상기 발화 결과 출력 단계는 상기 번역 결과를 출력할 때 상기 번역 결과를 상기 사용자의 모국어로 발음 표기하여 함께 출력한다.

바람직하게는, 상기 발화 종료 인식 단계는 상기 사용자의 종료 입력에 따라 발화 종료를 인식하거나, 미리 정해진 시간동안 입력되던 발화가 더이상 입력되지 않으면 상기 발화 종료를 인식한다.

바람직하게는, 상기 발화 결과 출력 단계는 상기 입력되는 발화와 그 발화에 대한 결과를 서로 연결지어 하나의 창에 출력한다.

바람직하게는, 상기 사용자 음성 처리용 인터페이스 방법은 상기 사용자가 휴대한 모바일 기기에서 수행된다.

본 발명은 상기한 목적에 따라 다음과 같은 효과를 얻을 수 있다.

첫째, 본 발명은 사용자로 하여금 음성 인식에 기여하게 하여 정확도가 향상된 음성 인식 기능을 지원하는 사용자 인터페이스를 제공한다.

둘째, 진행중인 음성 인식과 통역에 대한 상황 또는 가능한 상황을 효율적으로 파악하여 사용자가 쉽게 다양하고 더 정확한 음성 인식 및 통역 기능을 이용할 수 있게 한다.

세째, 사용자의 상대방에게 직접적으로 접근할 수 없거나 예상 밖의 상황에서도 차선책을 이용하여 사용자가 자동 통역기를 사용할 수 있게 됨으로써, 더욱 높은 활용도를 가질 수 있다.

도 1은 본 발명의 바람직한 실시예에 따른 음성 인식 및 자동 통역 시스템을 개략적으로 도시한 블록도이다.
도 2는 본 발명의 바람직한 실시예에 따른 인터페이스 장치의 내부 구성을 개략적으로 도시한 블록도이다.
도 3은 음성 인식(또는 자동 통역) 전체 과정에서 각 프로세스별 순서와 정보의 흐름을 나타낸 상세도이다.
도 4는 도 3을 보완 설명하기 위한 것으로서, 음성 인식 과정에서 발화가 시작되어 끝나기까지 사용자와 코어 엔진 간의 정보의 흐름과 순서, Action들에 대한 상세도이다.
도 5는 도 4를 보완 설명하기 위한 것으로서, 음성 입력에 따른 정보의 출력 및 사용자의 행위를 유도하기 위한 사용자 인터페이스의 예시도이다.
도 6은 도 3을 보완하기 위한 것으로서, 음성 인식 종료 후에 음성 인식 문장에 대한 정보 출력과 현재 상황에서 가능한 기능을 표시한 사용자 인터페이스의 예시도이다.
도 7은 도 3을 보완 설명하기 위한 것으로서, 현재 상황에서 가능한 기능을 표시한 사용자 인터페이스의 또 다른 예시도이다.
도 8은 도 3을 보완 설명하기 위한 것으로서, 자동 통역된 결과물에 대해 현재 상황에서 가능한 기능을 표시한 사용자 인터페이스의 또 다른 예시도이다.
도 9는 자동 통역된 문장에 대해 발음 기호를 직접 표시하는 사용자 인터페이스의 예시도이다.
도 10은 본 발명의 바람직한 실시예에 따른 인터페이스 방법을 개략적으로 도시한 흐름도이다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.

도 1은 본 발명의 바람직한 실시예에 따른 시스템을 개략적으로 도시한 블록도이다. 도 1에 따르면, 시스템(100)은 사용자 단말(110), 서버(120) 및 인터페이스 장치(130)를 포함한다.

시스템(100)은 음성 인식과 관련된 음성 인식 시스템, 번역이나 통역과 관련된 번역/통역 시스템 등을 포함하는 개념이다.

사용자 단말(110)은 사용자가 휴대하거나 접속하는 단말이다.

서버(120)는 사용자의 음성을 인식하는 음성 인식 서버, 사용자의 음성을 번역하거나 통역하는 음성 번역/통역 서버 등을 포함하는 개념이다.

인터페이스 장치(130)는 음성 인식, 번역, 통역 등과 관련된 각종 정보를 출력하는 장치로서, 본 실시예에서는 사용자가 음성 인식이나 자동 통역에 기여할 수 있게 다양한 정보를 효과적으로 출력하는 기능을 수행한다. 이하 도 2를 참조하여 이 인터페이스 장치(130)에 대하여 보다 자세하게 설명한다.

도 2는 본 발명의 바람직한 실시예에 따른 인터페이스 장치의 내부 구성을 개략적으로 도시한 블록도이다. 도 2에 따르면, 인터페이스 장치(130)는 사용자 음성 처리용 장치로서, 발화 입력부(210), 발화 종료 인식부(220), 발화 결과 출력부(230), 전원부(240) 및 주제어부(250)를 포함한다.

인터페이스 장치(130)는 핸드폰, 스마트폰, PDA, Laptop 등 휴대가 가능한 모바일 기기에서 사용하는 음성 인식의 인터페이스이다. 본 발명에서 인터페이스 장치(130)는 올바른 자동 통역을 위하여 사용자에게 정확한 음성 인식을 유도하는 사용자 인터페이스를 제공하고, 모바일 기기의 스크린을 통해 사용자에게 음성 인식이나 자동 통역에 따른 결과물이나 그와 관련된 다양한 정보들을 효과적으로 출력함으로써 정확도가 종전보다 많이 향상된 결과를 얻을 수 있도록 한다.

발화 입력부(210)는 사용자의 발화를 입력하는 기능을 수행한다.

발화 종료 인식부(220)는 입력되는 발화의 종료를 인식하는 기능을 수행한다. 발화 종료 인식부(220)는 사용자의 종료 입력에 따라 발화 종료를 인식하거나 미리 정해진 시간동안 입력되던 발화가 더이상 입력되지 않으면, 이를 발화 종료로 인식할 수 있다.

발화 결과 출력부(230)는 종료된 발화의 음성인식 결과, 번역 결과 및 통역 결과 중 적어도 하나의 결과를 출력하는 기능을 수행한다. 발화 결과 출력부(230)는 음성인식 결과, 번역 결과 및 통역 결과가 각각 복수개일 때 복수개 중에서 선택된 적어도 두개를 선행 출력하며, 사용자의 선택에 따라 선행 출력된 결과들 중에서 어느 하나의 결과를 최종 출력할 수 있다. 이에 더하여, 발화 결과 출력부(230)는 번역 결과를 출력할 때 번역 결과를 사용자의 모국어로 발음 표기하여 함께 출력할 수 있다. 또한, 발화 결과 출력부(230)는 입력되는 발화와 그 발화에 대한 결과를 서로 연결지어 하나의 창에 출력할 수 있다.

전원부(240)는 인터페이스 장치(130)를 구성하는 각 구성에 전원을 공급하는 기능을 수행한다.

주제어부(250)는 인터페이스 장치(130)를 구성하는 각 구성의 전체 작동을 제어하는 기능을 수행한다.

인터페이스 장치(130)는 음량 정보 출력부(260), 진행 상황 출력부(270) 및 발화 시작/종료 출력부(280) 중 적어도 하나의 구성을 더욱 포함할 수 있다.

음량 정보 출력부(260)는 입력되는 발화의 음량에 대한 정보를 출력하는 기능을 수행한다. 음량 정보 출력부(260)는 입력되는 발화의 음량이 적절한지 여부를 그림이나 그래프 상에 색깔로 구분하여 출력하거나, 적절한 음량의 범위와 입력되는 발화의 현재 음량을 함께 출력할 수 있다. 이에 더하여, 음량 정보 출력부(260)는 음량에 대한 정보를 실시간으로 출력할 수 있다.

진행 상황 출력부(270)는 사용자에 의해 선택된 캐릭터를 이용하여 미리 정해진 시기마다 입력되는 발화의 음성인식 진행 상황, 번역 진행 상황 및 통역 진행 상황 중 적어도 하나의 진행 상황을 출력하는 기능을 수행한다. 진행 상황 출력부(270)는 입력되는 발화를 문장 단위로 구분하여 그 문장에 대한 음성인식 결과, 번역 결과 및 통역 결과 중 어느 하나의 결과를 진행 상황으로 출력할 수 있다.

발화 시작/종료 출력부(280)는 사용자의 발화 시작이나 발화 종료를 출력하는 기능을 수행한다.

다음으로, 도 1과 도 2의 시스템과 인터페이스 장치의 일실시예를 설명한다. 먼저 본 발명에 따른 사용자 인터페이스의 특징을 요약해 보면 다음과 같다.

첫째, 음성 인식의 정확도를 높이기 위하여 가장 큰 과제인 끝점 추출을 사용자를 통해 효과적으로 할 수 있도록 하는 사용자 인터페이스를 구성한 것이 특징이다.

둘째, 현재 인식되고 있는 음량을 기반으로 하여 정확한 음성 인식에 도움이 되도록 사용자에게 효과적으로 표현함으로써, 적당한 크기의 음량으로 녹음하여 음성 인식에 사용할 수 있도록 한다.

세째, 사용자에게 친숙한 캐릭터가 사용자에게 현재 음성 인식과 통역 진행 상황 또는 가능한 상황에 대한 설명을 해줌으로써, 효과적인 음성 인식 및 자동 통역을 돕는다.

네째, 인식된 문장에 대한 번역 결과물들을 효율적으로 여러 개 출력함으로써, 사용자에게 다양한 번역의 기회를 제공하는 것이 특징이다.

다섯째, 번역된 문장에 대하여 자동 한글 발음 변환 및 표시 기능을 제공함으로써, 사용자의 상대방이 해당 화면을 보거나 듣지 못할 때에 사용자가 직접 발음할 수 있도록 도와주는 것이 특징이다.

이상 설명한 사용자 인터페이스의 특징들을 중심으로 이하에서는 본 발명의 일실시예를 설명한다. 도 3은 음성 인식(또는 자동 통역) 전체 과정에서 각 프로세스별 순서와 정보의 흐름을 나타낸 상세도이다.

사용자(User; 310)는 사용자 인터페이스(User Interface)를 통해 발화를 시작하고 그 발화에 대하여 녹음을 진행한다(Start Utterance; 320). 녹음된 발화의 일부를 입력받은 ASR + 번역 엔진(ASR + Translation Engine; 350)은 사용자 인터페이스를 통해 녹음된 발화를 디스플레이한다(Display Recording Info; 360). 이때 ASR + 번역 엔진(350)은 끝점 추출에 대한 정보나 음량 정보를 함께 디스플레이할 수 있다(End Point Detection or Speech Volume Level; ②).

이후 사용자는 음량 정보를 바탕으로 알맞게 배경 잡음을 통제하거나 자신의 목소리를 제어하여 발화를 계속한다(Continue Utterance; 330). 또한 발화를 마쳤을 때, 해당 발화에 대한 완료되었음을 알리는 디스플레이의 정보에 따라 직접 발화의 끝을 지정하여 줄 수도 있다(Finish Utterance; 340).

발화 종료(340) 이후, 녹음된 발화의 전부를 입력받은 ASR + 번역 엔진(350)은 음성 인식 결과(Speech Recognition Result)나 자동 통역 결과를 생성하여 디스플레이한다(Display Result; 380). 한편 발화 계속(330) 중에, 녹음된 발화의 일부를 입력받은 ASR + 번역 엔진(350)은 음성 인식의 중간 결과(Status of Recognition Progress)나 자동 통역의 중간 결과와 관련하여 현재의 진행 상황이나 가능한 상황들을 디스플레이할 수 있다(Progress with other option; 380). 그러면 사용자 인터페이스를 통한 사용자의 개입(Involving; ①)으로 더욱 향상된 음성 인식 결과나 자동 통역 결과를 얻을 수 있다(Better Result by Involving; 370).

도 4는 도 3을 보완 설명하기 위한 것으로서, 음성 인식 과정에서 발화가 시작되어 끝나기까지 사용자와 코어 엔진 간의 정보의 흐름과 순서, Action들에 대한 상세도이다. 도 4에서 정보의 흐름은 시간 순서에 따라 위에서 아래로 나열되어 있다.

사용자(User; 410)는 코어 엔진(Core Engine; 420)과 여러 단계에 걸쳐 상호 작용하며 정확도가 향상된 음성 인식 결과물(또는 자동 통역 결과물)을 도출해낸다. 코어 엔진(420)은 ASR 엔진(ASR Engine), 콘텍스트 분석기(Context Analyzer), 번역 엔진(Translate Engine) 등을 통합한 엔진을 말한다.

사용자가 발화를 시작하면(Start Utterance Using Microphone; S431), 코어 엔진(420)이 이 발화의 시작을 감지하여 시작 및 관련 정보를 사용자에게 알려준다(Detect & Notify Beginning of Speech; S432). 이를 바탕으로 사용자는 알맞게 상황을 제어하며 발화를 계속하고(Continue the Utterance; S433), 코어 엔진(420)은 계속되는 발화에서 녹음되는 음성에 대한 정보(음량 등)를 사용자에게 알려준다(Notify Volume Level of Speech; S434). 사용자는 이러한 정보를 바탕으로 음성 인식에 알맞게 발화를 계속한다. 마지막으로 사용자가 발화를 마치면(Finish the Utterance; S435), 발화가 끝났음을 감지하여 사용자에게 발화의 끝이 인식되었음을 알리고(Detect & Notify End of Speech; S436), 사용자의 개입을 유도하여 녹음을 종료한다(Finish the Recording By User; S437). 이렇게 사용자에 의해 지정된 EPD(End Point Designation)를 이용하여 음성 인식 결과를 사용자에게 보여준다(Auto Speech Recognition Result Based on the EPD by user; S438).

도 5는 도 4를 보완 설명하기 위한 것으로서, 음성 입력에 따른 정보의 출력 및 사용자의 행위를 유도하기 위한 사용자 인터페이스의 예시도이다.

사용자로부터 음성 신호를 받게 되면 입력받은 신호를 파형으로 나타내어 디스플레이함으로써(510), 사용자에게 음성 신호 입력이 정상적으로 시작되었음을 알려준다. 그리고, 입력된 음성 신호의 데시벨(Decibel) 값을 사용자가 알기 쉽도록 색깔을 통해 적절함을 표시함으로써(520) 사용자에게 음성 신호의 세기를 알려주어 사용자의 알맞은 음성 입력을 유도한다. 마지막으로, 음성 입력이 끝났음을 감지하면(또는 음성 신호가 시작되고 끝날 때쯤이 되면), 사용자에게 녹음 종료 버튼을 반복적으로 점멸시켜(530) 사용자의 녹음 종료를 유도하여 음성 신호의 끝점을 추출함으로써, 자동 끝점 추출보다 더 나은 성능을 유도한다. 음성 인식이 실행되는 도중에는 음성 신호 정보를 출력하고 음성 인식 명령에 관계된 사용자 인터페이스 이외에는 모두 어둡게 출력하여(540) 사용자의 집중을 유도한다.

도 6은 도 3을 보완하기 위한 것으로서, 음성 인식 종료 후에 음성 인식 문장에 대한 정보 출력과 현재 상황에서 가능한 기능을 표시한 사용자 인터페이스의 예시도이다.

사용자의 현재 콘텍스트(Context)를 파악하여 알맞은 가능한 다음 상황으로 유도하기 위한 사용자 인터페이스를 제공한다(610). 먼저, 캐릭터가 마지막으로 인식된(또는 자동 통역된) 문장에 대한 정보와 가능한 추가 기능을 알려주어(620) 사용자로 하여금 그 기능을 이용할 수 있도록 유도한다. 또한, 마지막으로 인식된(또는 자동 통역된) 문장에 대한 정보를 바탕으로 다음 음성 인식될 가능성이 높은 언어에 대한 음성 인식 버튼을 반복적으로 점멸함으로써(630), 사용자가 잘못된 언어에 대한 음성 인식을 실행하는 것을 막는다. 그리고, 음성 인식이 불가한 상황을 위하여 사용자에게 텍스트 입력도 가능함을 알려주기 위하여 텍스트 입력을 유도하는 사용자 인터페이스를 구성하였다(640).

도 7은 도 3을 보완 설명하기 위한 것으로서, 현재 상황에서 가능한 기능을 표시한 사용자 인터페이스의 또 다른 예시도이다.

음성 인식도 가능하지만 텍스트 입력도 가능하다는 것을 사용자에게 알리고 음성 인식이 불가한 상황에서 텍스트 입력을 유도하기 위하여 문구를 삽입하였다(710). 또한, 캐릭터가 현재 상황에서 알맞은 기능을 제시하여 사용자로 하여금 어려움 없이 바로 사용이 가능하도록 유도한다(720).

도 8은 도 3을 보완 설명하기 위한 것으로서, 자동 통역된 결과물에 대해 현재 상황에서 가능한 기능을 표시한 사용자 인터페이스의 또 다른 예시도이다.

1차적 음성 인식 또는 자동 통역이 완료된 문장에 대하여, 가능한 추가적인 기능을 표시한다. 이 예제에서는 해당 인식된 문장에 대하여 유사한 문장의 개수를 인식된 문장 옆에 출력함으로써(810), 사용자로 하여금 추가적인 기능을 이용할 수 있도록 유도한다. 또한, 현재 선택된 문장을 하이라이트(Highlighted) 표시함으로써(820), 현재 진행 상황을 표시하여 사용자가 알도록 한다. 또한 현재 상황(음성 인식 또는 자동 통역이 완료된 상황)에서 추가적으로 진행 가능한 기능을 표시함으로써 사용자로 하여금 다음 단계로 넘어가도록 한다(830).

도 9는 자동 통역된 문장에 대해 발음 기호를 직접 표시하는 사용자 인터페이스의 예시도이다.

통역된 문장에 대한 TTS 재생이 불가한 상황에 대해서는 해당 문장에 대한 발음을 사용자가 사용하는 언어로 표현함으로써(910), 사용자가 해당 문장을 듣지 않아도 발음이 가능하도록 한다.

이상 도 3 내지 도 9를 참조하여 일실시예를 들어 설명한 사용자 인터페이스에 대하여 정리하면 다음과 같다.

- 음성을 입력하는 음성 신호 입력부와, 입력된 음성을 처리 분석하는 음성 분석부와, 언어 모델과 음향 모델을 이용하여 음성 분석 결과에 대해 음성인식 처리를 수행하는 음성 인식부를 갖는 음성 인식 시스템에 있어서, 음성 인식부의 결과인 음성 인식 결과물을 모바일 기기 상에 출력(표시)한다.

- 음성 신호 입력부에서 음성 인식을 돕기 위하여 진행 상황 또는 가능한 방법 및 상황을 모바일 기기 상에 출력(표시)한다.

- 음성 인식 결과물에 대한 다양한 2차 (번역 또는 통역) 결과물 및 존재 여부를 모바일 기기 상에 출력(표시)한다.

- 번역 및 통역 결과물에 대한 발음 방법을 모바일 기기 상에 출력(표시)한다.

- 음성 신호 입력부에서 음성 인식을 돕기 위하여 음성의 크기(음량)을 모바일 기기 상에 출력(표시)한다.

- 음성의 크기(음량)에 따라 음성 인식에 대해 적절한 정도를 색깔, 그래프 또는 그림을 통해 사용자에게 전달하고자 모바일 기기 상에 출력(표시)한다.

- 음성의 크기(음량)에 따른 전달 사항을 시간 순으로 나열하여, 해당 발화 전체의 적절성을 모바일 기기 상에 출력(표시)한다.

- 음성 신호 입력부에서 음성 인식을 돕기 위하여 음성 인식의 진행 상황 및 가능한 방법과 상황을 모바일 기기 상에 출력(표시)한다.

- 음성 신호 입력부에서 사용자의 음성 신호가 시작되고, 끝났음을 인식하여 모바일 기기 상에 출력(표시)한다.

- 인식된 음성 신호의 시작점과 끝점에 따라 사용자에게 다음 행동을 유도하도록 하는 내용 또는 그림을 모바일 기기 상에 출력(표시)한다.

- 음성 인식 결과물을 얻기 위한 방법, 음성 인식 결과물을 활용하기 위한 방법, 현재 음성 인식 또는 통역 상황, 그리고 현재 상황에서 적절하거나 가능한 기능 및 방법을 계산하고, 사용자에게 알려주는 내용 또는 그림을 모바일 기기 상에 출력(표시)한다.

- 사용자에게 친숙한 캐릭터 또는 그림을 말풍선 등의 형태로 출력하여 사용자에게 전달할 사항을 모바일 기기 상에 출력(표시)한다.

- 음성 인식 결과물 또는 번역(통역) 결과물에 대한 다른 결과물의 개수를 모바일 기기 상에 출력(표시)한다.

- 음성 인식 결과물 또는 번역(통역) 결과물에 대한 다른 결과물의 개수를 가능한 기능으로써 사용자에게 알려주는 내용 또는 그림을 모바일 기기 상에 출력(표시)한다.

- 음성 인식 결과물에 대해서 의문문과 평서문 간의 전환을 가능하게 하는 기능을 제공하고, 이를 모바일 기기 상에 출력(표시)한다.

다음으로, 도 2에 도시된 인터페이스 장치의 인터페이스 방법에 대하여 설명한다. 도 10은 본 발명의 바람직한 실시예에 따른 인터페이스 방법을 개략적으로 도시한 흐름도이다. 이하 설명은 도 2와 도 10을 참조한다.

먼저 발화 입력부(210)가 사용자의 발화를 입력한다(S10). S10 단계 이전에, 발화 시작/종료 출력부(280)는 사용자의 발화 시작을 출력할 수 있다.

S10 단계 이후, 음량 정보 출력부(260)가 입력되는 발화의 음량에 대한 정보를 출력할 수 있다(S15). 음량 정보 출력부(260)는 입력되는 발화의 음량이 적절한지 여부를 그림이나 그래프 상에 색깔로 구분하여 출력하거나, 적절한 음량의 범위와 입력되는 발화의 현재 음량을 함께 출력할 수 있다. 또한 음량 정보 출력부(260)는 음량에 대한 정보를 실시간으로 출력할 수 있다.

S15 단계 이후, 발화 종료 인식부(220)가 입력되는 발화의 종료를 인식한다(S20). 발화 종료 인식부(220)는 사용자의 종료 입력에 따라 발화 종료를 인식하거나 미리 정해진 시간동안 입력되던 발화가 더이상 입력되지 않으면, 이를 발화 종료로 인식할 수 있다. 발화가 종료된 것으로 인식되면, 발화 시작/종료 출력부(280)는 사용자의 발화 종료를 출력할 수 있다.

S20 단계에서 발화가 종료된 것으로 인식되면, 발화 결과 출력부(230)가 종료된 발화의 음성인식 결과, 번역 결과 및 통역 결과 중 적어도 하나의 결과를 출력한다(S30). 발화 결과 출력부(230)는 음성인식 결과, 번역 결과 및 통역 결과가 각각 복수개일 때 복수개 중에서 선택된 적어도 두개를 선행 출력하며, 사용자의 선택에 따라 선행 출력된 결과들 중에서 어느 하나의 결과를 최종 출력할 수 있다. 또한 발화 결과 출력부(230)는 번역 결과를 출력할 때 번역 결과를 사용자의 모국어로 발음 표기하여 함께 출력할 수 있다. 한편 발화 결과 출력부(230)는 입력되는 발화와 그 발화에 대한 결과를 서로 연결지어 하나의 창에 출력할 수도 있다.

한편 S15 단계와 동시에, 진행 상황 출력부(270)가 사용자에 의해 선택된 캐릭터를 이용하여 미리 정해진 시기마다 입력되는 발화의 음성인식 진행 상황, 번역 진행 상황 및 통역 진행 상황 중 적어도 하나의 진행 상황을 출력할 수 있다. 진행 상황 출력부(270)는 입력되는 발화를 문장 단위로 구분하여 그 문장에 대한 음성인식 결과, 번역 결과 및 통역 결과 중 어느 하나의 결과를 진행 상황으로 출력할 수 있다. 진행 상황 출력부(270)가 수행하는 상기 단계는 S10 단계와 S15 단계 사이에 수행되거나 S15 단계와 S20 단계 사이에 수행되는 것도 가능하다.

이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.

또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

100 : 시스템 110 : 사용자 단말
120 : 서버 130 : 인터페이스 장치

Claims

사용자의 발화를 입력하는 발화 입력부;
입력되는 발화의 종료를 인식하는 발화 종료 인식부; 및
종료된 발화의 음성인식 결과, 번역 결과 및 통역 결과 중 적어도 하나의 결과를 출력하는 발화 결과 출력부
를 포함하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 장치.
제 1 항에 있어서,
상기 입력되는 발화의 음량에 대한 정보를 출력하는 음량 정보 출력부
를 더욱 포함하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 장치.
제 2 항에 있어서,
상기 음량 정보 출력부는 상기 입력되는 발화의 음량이 적절한지 여부를 그림이나 그래프 상에 색깔로 구분하여 출력하거나, 적절한 음량의 범위와 상기 입력되는 발화의 현재 음량을 함께 출력하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 장치.
제 3 항에 있어서,
상기 음량 정보 출력부는 상기 음량에 대한 정보를 실시간으로 출력하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 장치.
제 1 항에 있어서,
상기 사용자에 의해 선택된 캐릭터를 이용하여 미리 정해진 시기마다 상기 입력되는 발화의 음성인식 진행 상황, 번역 진행 상황 및 통역 진행 상황 중 적어도 하나의 진행 상황을 출력하는 진행 상황 출력부; 또는
상기 사용자의 발화 시작이나 상기 사용자의 발화 종료를 출력하는 발화 시작/종료 출력부
를 더욱 포함하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 장치.
제 5 항에 있어서,
상기 진행 상황 출력부는 상기 입력되는 발화를 문장 단위로 구분하여 그 문장에 대한 음성인식 결과, 번역 결과 및 통역 결과 중 어느 하나의 결과를 상기 진행 상황으로 출력하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 장치.
제 1 항에 있어서,
상기 발화 결과 출력부는 상기 음성인식 결과, 상기 번역 결과 및 상기 통역 결과가 각각 복수개일 때 상기 복수개 중에서 선택된 적어도 두개를 선행 출력하며, 상기 사용자의 선택에 따라 선행 출력된 결과들 중에서 어느 하나의 결과를 최종 출력하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 장치.
제 1 항에 있어서,
상기 발화 결과 출력부는 상기 번역 결과를 출력할 때 상기 번역 결과를 상기 사용자의 모국어로 발음 표기하여 함께 출력하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 장치.
제 1 항에 있어서,
상기 발화 종료 인식부는 상기 사용자의 종료 입력에 따라 발화 종료를 인식하거나, 미리 정해진 시간동안 입력되던 발화가 더이상 입력되지 않으면 상기 발화 종료를 인식하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 장치.
제 1 항에 있어서,
상기 발화 결과 출력부는 상기 입력되는 발화와 그 발화에 대한 결과를 서로 연결지어 하나의 창에 출력하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 장치.
제 1 항에 있어서,
상기 사용자 음성 처리용 인터페이스 장치는 상기 사용자가 휴대한 모바일 기기에 장착되는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 장치.
사용자의 발화를 입력하는 발화 입력 단계;
입력되는 발화의 종료를 인식하는 발화 종료 인식 단계; 및
종료된 발화의 음성인식 결과, 번역 결과 및 통역 결과 중 적어도 하나의 결과를 출력하는 발화 결과 출력 단계
를 포함하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 방법.
제 12 항에 있어서,
상기 입력되는 발화의 음량에 대한 정보를 출력하는 음량 정보 출력 단계
를 더욱 포함하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 방법.
제 13 항에 있어서,
상기 음량 정보 출력 단계는 상기 입력되는 발화의 음량이 적절한지 여부를 그림이나 그래프 상에 색깔로 구분하여 출력하거나, 적절한 음량의 범위와 상기 입력되는 발화의 현재 음량을 함께 출력하거나, 또는 상기 음량에 대한 정보를 실시간으로 출력하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 방법.
제 12 항에 있어서,
상기 사용자에 의해 선택된 캐릭터를 이용하여 미리 정해진 시기마다 상기 입력되는 발화의 음성인식 진행 상황, 번역 진행 상황 및 통역 진행 상황 중 적어도 하나의 진행 상황을 출력하는 진행 상황 출력 단계; 또는
상기 사용자의 발화 시작이나 상기 사용자의 발화 종료를 출력하는 발화 시작/종료 출력 단계
를 더욱 포함하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 방법.
제 12 항에 있어서,
상기 발화 결과 출력 단계는 상기 음성인식 결과, 상기 번역 결과 및 상기 통역 결과가 각각 복수개일 때 상기 복수개 중에서 선택된 적어도 두개를 선행 출력하며, 상기 사용자의 선택에 따라 선행 출력된 결과들 중에서 어느 하나의 결과를 최종 출력하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 방법.
제 12 항에 있어서,
상기 발화 결과 출력 단계는 상기 번역 결과를 출력할 때 상기 번역 결과를 상기 사용자의 모국어로 발음 표기하여 함께 출력하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 방법.
제 12 항에 있어서,
상기 발화 결과 출력 단계는 상기 입력되는 발화와 그 발화에 대한 결과를 서로 연결지어 하나의 창에 출력하는 것을 특징으로 하는 사용자 음성 처리용 인터페이스 방법.