KR20130105725A

KR20130105725A - 콘텐츠의 양 손 제어에 기반한 컴퓨터 비전

Info

Publication number: KR20130105725A
Application number: KR1020137020409A
Authority: KR
Inventors: 아미르 카플란; 에란 에이라트; 하임 페르스키
Original assignee: 포인트그랩 엘티디.
Priority date: 2011-01-06
Filing date: 2012-01-05
Publication date: 2013-09-25
Also published as: CN103797513A; WO2012093394A2; GB2490199B; US20130335324A1; GB2490199A; GB201204543D0; WO2012093394A3; US20130285908A1

Abstract

컴퓨터 비전에 기반한 특정 손 자세를 이용함으로써 디스플레이된 콘텐츠를 조작하기 위한 시스템 및 방법. 일 실시예에서, 모드는 콘텐츠가 일반적으로 양 손 조작으로 조작(줌 또는 회전과 같은)될 수 있는 것을 가능하게 한다.

Description

콘텐츠의 양 손 제어에 기반한 컴퓨터 비전{COMPUTER VISION BASED TWO HAND CONTROL OF CONTENT}

본 발명은 전자 장치의 제어에 기반하는 자세(posture) 및 제스쳐(gesture)의 범위(field)와 관련되어 있다. 특히, 본 발명은 손 자세 및 손 제스쳐 인식에 기반한 컴퓨터 비전과 관련되어 있다.

더 편리한 필요로, 우리 일상 생활에 더 보급되고 있는 컴퓨터들 및 다른 전자 기기들과 같은 직관적이고 휴대 가능한 입력 장치가 증가한다. 포인팅 장치(pointing device)는 컴퓨터들 및 전자 디스플레이들과 관련된 다른 전자 장치들과의 상호 작용을 위해 일반적으로 사용되는 입력 장치의 일 유형이다. 알려진 포인팅 장치들 및 기계 제어 메커니즘들(machine controlling mechanisms)은 전자 마우스, 트랙볼, 포인팅 스틱과 터치패드, 터치 스크린 및 다른 것들을 포함한다. 알려진 포인팅 장치들은 상기 연관된 전자 디스플레이 상에 디스플레이된 커서의 위치 및/또는 움직임을 제어하기 위해 사용된다. 포인팅 장치들은 포인팅 장치 상에 스위치들을 작동시킴으로써 명령들을 전달할 수 있다. 예를 들어, 명령들은 위치 특정 명령들이다.

몇몇 사례들에서는 전자 장치들을 멀리서 제어할 필요가 있다. 이러한 경우에서, 사용자는 장치를 터치할 필요가 없다. 이러한 사례들의 몇몇의 예는 TV 시청, PC 상의 비디오 시청 등을 포함한다. 이러한 경우들에 사용되는 하나의 해결책은 원격 제어 장치이다.

최근에, 손 제스쳐링(hand gesturing)과 같은 사람 제스쳐링(human gesturing)이 제어 장치(controlled device)로부터 다소 떨어진 거리에서도 사용될 수 있는 사용자 인터페이스 입력 툴(input tool)로 제안되고 있다. 일반적으로, 손의 자세(posture) 또는 제스쳐는 카메라에 의해 검출되고, 특정한 명령으로 번역(translate)된다.

줌 인/아웃(zooming in/out)과 같은 디스플레이된 콘텐츠의 조작은 손 제스쳐링에 기반한 컴퓨터 비전(computer vision)에 의해 또한 가능하다. 일반적으로, 손들의 움직임이 스크린 상의 콘텐츠의 움직임, 회전 또는 줌 인/아웃을 유발한다. 그러나, 조작을 멈추고, 다른 명령들을 생성하기 위해 상기 사용자는 반드시 그의 손들을 상기 카메라의 시계(field of view) 밖으로 움직여야 하고, 그 뒤에 손들을 다시 상기 시계 내로 가져와야 한다. 따라서, 최근에 알려진 조작의 방법들은 사용자가 디스플레이된 콘텐츠를 자유롭게 조작할 수 있게 하는 완전한 해결책을 제공하지 않는다.

본 발명의 실시예들은 사용자가 다른 명령들 사이에 부드럽고 직관적인 교대를 가능하게 하는 손 자세 및 제스쳐에 기반하여 쉽게 장치를 제어하기 위한 시스템 및 방법을 제공한다.

일 실시예에서, 시스템 및 방법은 특정한 손 자세("조작 자세")를 사용함으로써 디스플레이된 콘텐츠를 조작하는 것을 포함한다. 일 실시예에서, 모드("조작 모드")는 조작 자세를 이용함으로써 콘텐츠가 일반적으로 양 손 조작으로 조작(줌 또는 회전과 같은)될 수 있는 것을 가능하게 한다.

본 발명은 발명이 더욱 완전히 이해될 수 있도록 다음의 예시 도면들을 참조함으로써 특정한 예들 및 실시예들과 관련하여 설명될 것이다.
도 1은 본 발명의 일 실시예에 따라 작동될 수 있는 시스템을 개략적으로 도시한다.
도 2는 일 실시예에 따른 디스플레이된 콘텐츠의 양 손들 제어(two hand control)에 기반한 컴퓨터 비전에 대한 방법을 개략적으로 도시한다.
도 3은 본 발명의 일 실시예에 따른 커서의 양 손들 제어에 기반한 컴퓨터 비전에 대한 방법을 개략적으로 도시한다.
도 4a 내지 도 4d는 손 자세들 및 제스쳐들의 컴퓨터 비전 식별에 기반하여 제어될 수 있는 장치의 몇몇의 실시예들을 개략적으로 도시한다.
도 5a 내지 도 5b는 본 발명의 두 실시예에 따른 장치 및 그래픽적 유저 인터페이스(GUI)를 개략적으로 도시한다.
도 6은 본 발명의 다른 실시예에 따른 장치 및 그래픽적 유저 인터페이스를 개략적으로 도시한다.
도 7은 본 발명의 일 실시예에 따른 그래픽적 유저 인터페이스 상의 그래픽적 요소를 제어하기 위한 방법을 개략적으로 도시한다.
도 8은 본 발명의 일 실시예에 따른 장치의 제어에 기반한 컴퓨터 비전에 대한 방법을 개략적으로 도시한다.

본 발명의 일 실시예에 따르면, 디스플레이를 갖고 장치 및 프로세서와 통신하는 이미지 센서를 갖는 장치를 포함하는 사용자-장치 상호작용을 위한 시스템이 제공된다. 이미지 센서는 이미지 데이터를 획득한다. 그리고 이미지 센서는 이미지 데이터를 이미지 데이터로부터 사용자의 손을 검출 및 추적하기 위해 이미지 분석을 수행하고, 장치, 일반적으로 디스플레이된 콘텐츠를 제어하기 위한 사용자의 자세(posture)를 검출하기 위해 프로세서에 전송한다.

본 발명의 일 실시예에 따르면, 특정한 손 자세 또는 제스쳐의 검출 또는 양 손들의 검출은(한 손의 검출보다), 사용자의 손(들)의 움직임에 따라 디스플레이된 콘텐츠를 조작하기 위한 명령으로써의 손 제스쳐들을 해석하도록 시스템에 유발한다(디스플레이된 콘텐츠를 선택하고 사용자 손 움직임에 따라 상기 선택된 콘텐츠를 조작하기 위한 사용자의 손을 추적하기 위한 일부 실시예들). 그래픽적 유저 인터페이스(Graphical User Interface;GUI) 상에 시각적으로 디스플레이된 콘텐츠의 선택 또는 그래픽적 요소의 선택은 사용자가 디스플레이된 콘텐츠 또는 그래픽적 요소를 조작하는 것을 가능하게 한다. 상기 조작은 상기 콘텐츠 또는 상기 요소를 움직이는 것, 이미지들 또는 이미지들의 부분들을 확장(stretch)하는 것, 스크린 또는 스크린의 부분을 줌 인 또는 아웃 하는 것, 선택된 콘텐츠를 회전하는 것 등과 같다.

이제, 본 발명의 일 실시예 따른 시스템(100)을 개략적으로 도시하는 도 1이 참조된다. 시스템(100)은 시계(field of view; FOV)(104)의 이미지들을 얻기 위한 이미지 센서(103)를 포함한다. 이미지 센서(103)는 일반적으로 프로세서(102)와 연관되어 있고, 이미지 데이터를 저장하기 위한 저장 장치(107)와 선택적(optionally)으로 연관되어 있다. 저장 장치(107)는 이미지 센서(103) 내부에 통합(integrate)될 수 있거나 또는 이미지 센서(103) 외부에 있을 수 있다. 일부 실시예들에 따라 이미지 데이터는 상기 프로세서(102)에 저장될 수 있다. 예를 들어, 캐시 메모리에 이미지 데이터가 저장될 수 있다.

시계(FOV)(104)의 이미지 데이터는 분석을 위해 프로세서(102)에 전송된다. 시계(104) 내의 사용자의 손(105)은 상기 이미지 분석에 기반하여 검출되고 추적된다. 그리고 손의 자세 및 제스쳐는 이미지 분석에 기반하여 프로세서(102)에 의해 식별될 수 있다. 일부 실시예들에 따라 시스템(100)에 하나 이상의 프로세서가 사용될 수 있다.

장치(101)는 프로세서(102)와 통신을 한다. 장치(101)는 전자 디스플레이(106)를 갖거나 또는 전자 디스플레이(106)와 연결된 어떠한 전자 장치가 될 수 있다. 전자 디스플레이(106)는 선택적으로 그래픽적 사용자 인터페이스(GUI)를 갖는다. 예를 들어, 전자 디스플레이(106)는 텔레비전(TV), 디브이디 플레이어(DVD player), 컴퓨터(PC), 휴대폰, 카메라, 셋탑박스(Set Top Box; STB), 스트리머(streamer) 등 이다.

일 실시예에 따르면, 장치(101)는 통합된 표준 2 디멘젼(Dimenstion; D) 카메라를 함께 사용하게 할 수 있는 장치이다. 다른 실시예에 따르면, 카메라는 상기 장치의 외부 부대용품(accessory)이다. 일부 실시예들에 따르면, 하나 이상의 2D 카메라는 3D 정보를 획득하게 할 수 있도록 제공된다. 일부 실시예들에 따르면, 상기 시스템은 3D 카메라를 포함한다.

프로세서(102)는 이미지 센서(103)에 내장될 수 있다. 또한 프로세서(102)는 이미지 센서(103)와 별도의 유닛(separate unit)일 수 있다. 대신에, 프로세서(102) 상기 장치(101) 내에 통합될 수 있다. 다른 실시예들에 따르면, 제1 프로세서는 이미지 센서(103)내에 통합될 수 있고, 제2 프로세서는 장치(101)내에 통합될 수 있다.

이미지 센서(103) 및 프로세서(102) 간의 통신 및/또는 프로세서(102) 및 장치(101) 간의 통신은 유선 또는 적외선(IR) 통신, 라디오 전송(radio transmission, 블루투스(Bluetooth) 기술 및 다른 적절한 통신 경로들 및 프로토콜들과 같은 무선 링크(wireless link)를 통해 이루어 질 수 있다.

일 실시예에 따르면, 이미지 센서(103)는 전면(forward facing)의 카메라이다. 이미지 센서(103)는 일반적으로 PC 또는 전자 장치들에 설치된, 웹캠(webcam)과 같은 표준의 2D 카메라 또는 다른 표준의 비디오 캡쳐 장치일 수 있다. 일부 실시예들에 따르면, 이미지 센서(103)는 적외선에 민감할 수 있다.

프로세서(102)는 사용자의 손(105)을 식별하고, 사용자의 손(105)을 더 추적하기 위해 움직임 검출 및 형상 인식 알고리즘들과 같은 이미지 분석 알고리즘들을 적용할 수 있다.

일부 실시예에 따르면, 전자 디스플레이(106)는 장치(101)와 별개의 유닛일 수 있다.

시스템(100)은 하기에 설명된 일부 실시예들, 방법들에 따라 작동할 수 있다.

일 실시예에 따른, 디스플레이된 콘텐츠의 양 손들 제어에 기반한 컴퓨터 비전에 대한 방법은 도 2에 개략적으로 도시되어 있다. 단계(202)에서, 시계의 이미지 또는 일련의 이미지들이 예를 들어, 형상 인식 알고리즘들이 적용된 프로세서(예컨데, 프로세서(102))에 의해 얻어진다. 그리고 단계(204)에서, 이미지들의 적어도 하나의 이미지 내의 양 손들이 상기 프로세서에 의해 식별된다. 손들의 적어도 한 손의 자세가, 예를 들어 검출된 손의 형상을 손 자세 모델들의 목록(library)과 비교함으로써 검출된다. 단계(206)에서, 검출된 자세가 특정한 미리 정의된 자세(206)(예컨데, 조작 자세)에 부합하면, 단계(208)에서, 예를 들어 디스플레이(106)에 디스플레이된 콘텐츠를 조작하기 위한 명령이 생성된다.

일 실시예에 따르면, 시계 내의 제2 손의 존재는 "조작 모드"를 가능하게 한다. 따라서, 일 실시예에 따르면, 미리 정의된 손 자세(조작 자세)는 양 손들이 존재할 때에 디스플레이된 콘텐츠의 특정 조작을 가능하게 한다. 예를 들어, 한 손의 존재 내에서 조작 자세가 수행될 때, 콘텐츠 또는 그래픽적 요소는 사용자의 한 손 움직임을 따라 드래그 될 수 있다. 그러나 제2 손의 출연(appearance)에 대응하여, 조작 자세의 수행은 사용자의 양 손들의 움직임들에 기반하여 콘텐츠의 회전, 콘텐츠의 줌(zooming) 또는 콘텐츠의 다른 조작과 같은 조작을 유발할 수 있다.

일부 실시예들에 따르면, 사용자의 손들의 위치(position)와 연관되는 아이콘 또는 심볼(symbol)이 디스플레이 될 수 있다. 사용자는 그/그녀의 손을 움직임으로써 디스플레이 상에 원하는 위치에 디스플레이된 콘텐츠를 조작하기 위해 상기 원하는 위치로 심볼을 돌아다니게(navigate) 할 수 있다.

일 실시예에 따르면, 디스플레이된 콘텐츠는 검출된 양 손들의 위치에 기반하여 조작될 수 있다. 일부 실시예들에 따르면, 상기 콘텐츠는 한 손의 다른 손에 비교된 상대적 위치에 기반하여 조작될 수 있다. 콘텐츠의 조작은 예를 들어, 선택된 콘테츠를 움직이는 것, 콘텐츠의 줌, 콘텐츠의 회전, 콘텐츠의 확장 또는 이러한 조작들의 조합을 포함할 수 있다. 예를 들어, 양 손들의 존재 내에서 조작하는 자세가 수행될 때, 사용자는 이미지를 확장하거나 또는 줌 아웃 하기 위해 양 손들을 따로 움직일 수 있다. 확장 또는 줌은 일반적으로 손 들의 서로의 거리에 비례할 것이다.

콘텐츠는 제1 자세가 검출되는 동안 계속적으로 조작될 수 있다. 단계(210)에서, 콘텐츠의 조작을 풀어(release)주기 위해 양 손들의 적어도 한 손의 제2 자세가 검출된다. 그리고 단계(212)에서, 제2 자세의 검출에 기반하여 상기 조작 명령이 비활성화 되고, 디스플레이된 콘텐츠는 조작이 풀어진다. 따라서, 예를 들어, 사용자는 원하는 비율로 이미지가 확장되면, 사용자는 그/그녀의 손들의 한 손 또는 양 손의 자세를 미리 정의된 "조작 풀림 자세"인 제2의 자세로 변경할 수 있다. 그리고 사용자가 그/그녀의 손들을 움직이더라도 콘텐츠는 더 이상 조작될 수 없다.

일 실시예에 따르면, 조작 자세는 모든 손가락들의 끝들이 터치되거나 또는 서로 간에 거의 터치되도록 상기 끝들이 모아진 손을 포함한다. 일 실시예에 따르면, 조작 자세는 콘텐츠를 선택 및/또는 선택된 콘텐츠를 조작하기 위해 사용된다. 예를 들어, 조작 자세는 콘텐츠를 드래그하기 위해 사용된다.

손을 식별하는 것 및/또는 자세를 식별하는 것은 알려진 방법들, 예를 들어 형상 및/또는 윤곽(contour) 검출 알고리즘을 적용하는 방법들을 이용함으로써 이루어 질 수 있다. 일 실시예에 따르면, 윤곽 검출기는 이미지화된 객체(일반적으로 사용자의 손)의 윤곽 특징들을 찾기 위해 시계의 이미지들이 적용될 수 있다. 윤곽 객체의 특징들은 비교 등급(comparison grade)들의 벡터를 획득하기 위해 손의 윤곽 모델과 비교될 수 있다. 그리고 기계 학습 알고리즘(machine learning algorithm)이 숫자의 가중치들의 벡터를 얻기 위해 적용될 수 있다. 숫자의 가중치들의 벡터로부터 최종 등급이 계산될 수 있다. 최종 등급이 소정의 임계값보다 위(above)인 경우 상기 객체는 손으로써 식별된다. 그리고 최종 등급이 소정의 임계값보다 아래(below)인 경우 추가적인 이미지들이 처리된다.

일 실시예에 따르면, 객체 및 손의 윤곽 모델 모두 특징들의 셋트들로 나타내질 수 있다. 각 특징은 지향된(oriented) 에지(edge) 픽셀들의 세트이다. 손의 윤곽 모델을 생성하기 위해, 기계 학습 기술들을 사용하여, 손의 윤곽 모델은 모델 손들의 특징들을 획득하고 - 모델 손들은 손의 모델을 생성하기 위해 사용되는 다수의(multiple) 손들의 모음(collection)이다. -, 모델 손의 특징들을 임의적으로 교란하고, 특징들을 정렬하고, 모델 손의 특징들 중에서 가장 다른 특징들을 선택함으로써(예를 들어, 1000개의 특징들 중에서 가장 상이한 100개의 특징들을 선택) 생성될 수 있다. 예를 들어, 객체의 에지 지도(edge map)와 모델의 에지 지도를 매칭함으로써(예를 들어, 지향된(oriented) 챔퍼처리된(chamferd) 매칭), 윤곽 모델에 대한 객체의 비교가 이루어 질 수 있다. 매칭은 거리 함수(distance function)를 적용하는 것을 포함할 수 있다. 예를 들어, 관심 영역(region of interest) 내로부터의 객체의 윤곽의 지점은 상기 양자 간의 거리를 획득하기 위해 중심에 있는 모델(centered model)과 비교될 수 있다. 그리고 평균 거리는 측정된 모든 거리들을 평균함으로써 계산될 수 있다. 상기 거리가 상기 특징을 위해 계산된 임계값보다 낮은 경우, 상기 특징의 가중치가 상기 매칭의 전체 순위에 더해진다. 전체 순위가 특정 임계치 보다 위인 경우, 상기 객체는 손으로 식별된다.

일부 실시예들에 따르면, 시스템이 "조작 모드"인 경우에만 자세는 "조작 자세"로 식별될 수 있다. 특정 제스쳐 또는 자세 또는 다른 신호가 조작 모드를 시작하기 위해 확인되는 것이 필요할 수 있다. 예를 들어, 자세는 "조작 자세"로써 확인될 수 있다. 그리고 양 손들이 검출된 경우에만 조작 자세에 기반하여 콘텐츠가 조작될 수 있다.

일부 실시예들은 양 손들이 단일 사용자에 속하는 확률을 높이는 의미일 수 있다. 일 실시예에 따르면, 양 손들은 반드시 왼손 및 오른손으로 식별되야 한다. 다른 일 실시예에 따르면, 검출된 양 손들은 반드시 거의 같은 크기이다. 또 다른 일 실시예에 따르면, 상기 방법은 얼굴을 검출하는 것을 포함할 수 있다. 그리고 상기 얼굴이 상기 왼손 및 오른 손에 위치하는 경우, 상기 방법은 미리 정의된 자세의 검출에 기반하여 디스플레이된 콘텐츠를 선택하고, 상기 디스플레이된 콘텐츠를 조작한다.

일 실시예에서, "조작 모드"는 한 손의 다른 손과 연관된 미리 정의된 움직임과 같은 초기화 제스쳐(initialization gesture)의 검출에 의해 시작된다. 예를 들어 미리 정의된 움직임은 한 손이 다른 손으로 가까워지는 움직임 또는 한 손이 다른 손으로부터 멀어지는 움직임이다. 일부 실시예들에 따르면, 시작하는 제스쳐는 손가락들이 펴져 있는 양 손들, 앞으로 직면하는 손바닥들을 포함한다. 다른 일 실시예에서, 특정 어플리케이션들은 "조작 모드"의 권한(enablement)에 대한 신호가 될 수 있다. 예를 들어, 서비스 어플리케이션들에 기반하는 지도를 꺼내는(bringing up) 것은 특정 자세가 디스플레이된 지도들을 조작하기 위한 명령을 생성하게 하는 것을 가능하게 할 수 있다.

본 발명의 실시예들은 커서 또는 다른 아이콘, 심볼 또는 디스플레이된 콘텐츠의 양 손들 제어에 기반하는 컴퓨터 비전에 대한 방법을 또한 제공한다. 도 3에 개략적으로 도시된 일 실시예에 따르면, 단계(302)에서, 방법은 시계의 이미지를 획득하는 것을 포함한다. 단계(304)에서, 상기 방법은 이미지 내의 양 손들을 인식한다. 단계(306)에서, 상기 방법은 각 다른 손에 대한 양 손들의 상대적인 위치를 결정한다. 그리고 단계(304)에서, 상기 방법은 양 손들 간의 중심 지점(middle point)을 결정한다. 단계(308)에서, 상기 방법은 상기 중심 지점에, 예를 들어 커서를 디스플레이 한다. 일 실시예에 따르면, 양 손들의 검출은 커서를 선택하기 위한 명령을 생성할 수 있다. 커서가 디스플레이 되면, 한 손 또는 양 손들의 선택된 움직임이 커서를 움직일 수 있다. 한 손 또는 양 손들의 특정 자세들은 커서의 특정 조작을 명령할 수 있다.

일부 실시예들에 따르면, 커서는 양 손들 간의 상이한 소정의 지점에 디스플레이 될 수 있다. 커서는 양 손들 간의 중간 점에 디스플레이 될 필요는 없을 수 있다.

본 발명의 일 실시예에 따르면, 손 자세들 및 제스쳐들의 컴퓨터 비전 인식에 기반하여 제어될 수 있는 장치가 제공된다. 도 4a에 개략적으로 도시된 일 실시예에 따르면, 프로세서(402) 및 디스플레이(406)를 갖는 장치가 제공된다. 디스플레이는 그래픽적 사용자 인터페이스(GUI)를 갖는다.

프로세서(402)는 이미지들을 획득하기 위해 이미지 센서(이미지 센서(103)와 같은)와 통신을 한다. 그리고 프로세서(402) 또는 다른 프로세싱 유닛(processing unti)은 상기 이미지들로부터 사용자의 손(415)를 검출할 수 있고, 추적할 수 있다.

사용자의 손의 추적은 알려진 추적 방법에 의해 이루어 질 수 있다. 예를 들어, 추적은 일반적으로 연속 이미지들인, 두 이미지들의 유사한 움직임 및 유사한 위치 특성들을 갖는 픽셀들의 무더기(cluster)들을 선택하는 것을 포함할 수 있다. 손 형상은 검출될 수 있다(예를 들어, 상기에 설명된 것처럼). 관심 지점들(픽셀들)은 검출된 손 형상 영역 내로부터 선택될 수 있다. 상기의 선택은 다른 파라미터들 중에서 변화(높은 변화를 갖는 지점들이 보통 선호된다)에 기반한다. 지점들의 움직임은 n번째 프레임부터 n+1번째 프레임까지 지점들을 추적함으로써 결정될 수 있다. 지점들의 역 광학의 흐름(reverse optical flow)은 계산될 수 있다(n+1번째 프레임부터 n번째 프레임까지 각 지점의 이론적인 변위(theoretical displacement)). 그리고 상기 계산은 무관한 지점(irrelevant point)들을 걸러내기 위해 이용될 수 있다. 유사한 움직임 및 위치 파라미터들을 갖는 지점들의 그룹은 정의될 수 있고, 이 지점들은 추적을 위해 사용될 수 있다.

일 실시예에 따르면, 심볼(403)은 디스플레이(406) 상에 표시될 수 있다. 상기 심볼은 사용자의 손과 연관된다. 심볼(403)은 손의 아이콘 또는 다른 그래픽적 요소일 수 있다. 심볼(403)은 일반적으로 이미지화된 사용자 손 움직임의 움직임에 따라 디스플레이(406) 상에서 움직인다.

형상 검출 알고리즘들 또는 다른 적당한 알고리즘들을 적용함으로써, 프로세서 또는 다른 프로세싱 유닛은 사용자의 손의 미리 정의된 자세를 검출할 수 있다. 그리고 미리 정의된 자세의 상기 검출에 기반하여, 심볼(403)은 GUI 상에서 다른 심볼(403')로 변경된다. 일 실시예에 따르면, 미리 정의된 자세는 손의 "붙잡는(grab)" 자세와 유사하다(손은 모든 손가락들의 끝들이 터치되거나 또는 서로 간에 거의 터치되도록 끝들이 모아짐을 가진다). 그리고 심볼(403')은 "붙잡는 심볼"이다. 예를 들어, 손의 아이콘은 모든 손가락들의 끝들이 터치되거나 또는 서로 간에 거의 터치되도록 끝들이 모아짐을 가진다.

심볼(403')은 제2 자세(일반적으로 "조작 풀림 자세(release manipulation posture")의 검출에 기반하여 원래의 심볼(403)로 변경될 수 있다. 예를 들어, 제2 자세는 카메라를 직면(facing)하는 모든 손가락들이 펴진(extended) 손바닥 자세이다.

도 4b에 개략적으로 도시된 다른 일 실시예에 따르면, 프로세서(402)는 양 손들(415 및 415')을 확인할 수 있다. 그리고 GUI는 제1 손(415)을 나타내는 제1 심볼(413) 및 제2 손(415')을 나타내는 제2 심볼(413')을 포함할 수 있다. 심볼들(413 및 413')은 사용자의 제1 손(415) 및 사용자의 제2 손(415')의 상대적 위치에 비례하여 디스플레이(406) 상에 상대적으로 배치(positioned)될 수 있다. 심볼(413)은 사용자의 제1 손(415)의 움직임에 따라 디스플레이(406) 상에서 움직일 수 있다. 그리고 제2 심볼(413')은 사용자의 제2 손(415')의 움직임에 따라 디스플레이(406) 상에서 움직일 수 있다. 사용자의 제1 손(415)은 프로세서(402)에 의해 오른손으로 식별될 수 있다. 그리고 사용자의 제2 손(415')은 프로세서(402)에 의해 왼손으로 식별될 수 있고, 그 반대의 경우도 마찬가지이다.

왼손 및 오른손의 식별은 에지 검출 및 특징 추출에 기반할 수 있다. 예를 들어, 잠재적(potential) 손 영역은 식별될 수 있고, 잠재적 손 영역은 손 모델인 왼손 및/또는 오른손과 비교될 수 있다.

일 실시예에 따르면, 심볼(403 또는 413 또는 413') 근처에 디스플레이 되는 콘텐츠는 심볼(403, 413 및/또는 413')의 움직임에 기반하여 선택되고 조작될 수 있다. 조작하는 것은 시각적 콘텐츠를 움직이는 것, 줌(zoom)하는 것, 회전하는 것, 확장하는 것 또는 시각적 콘텐츠의 다른 조작들을 포함할 수 있다.

일 실시예에 따르면, 손들의 움직임, 또는 손들의 상대적인 움직임은 이미지 내에서 움직여지는 픽셀들의 개수에 직접적으로 정규화 되기보다 손의 크기에 정규화 될 수 있다. 예를 들어, 두 개의 "손 크기들"의 움직임은 객체를 두 배로 확장할 수 있다. 이 방법은, 사용자가 그의 손들을 떨어뜨리거나 가까이 움직일 수 있다. 움직임의 거리는 이미지 센서 또는 디스플레이로부터의 사용자의 손들의 거리와는 무관(independent)하다.

손 제스쳐링에 기반한 더 강직한 조작(rigid manipulation)과는 반대로, 심볼(심볼들(413 및 413')과 같은)을 움직이는 것에 기반하여 콘텐츠를 조작하는 것은 콘텐츠 내의 심볼의 위치에 기반하여 유연한 조작(flexible manipulation)을 가능하게 할 수 있다. 예를 들어, 도 4c에 개략적으로 도시되어 있듯이, 이미지가 디스플레이 되는 경우, "조작 모드"가 활성화되면(예를 들어, 양 손들(445 및 446)의 존재에 의해), 사용자는 이미지의 조작을 할 수 있게 하는 자세를 수행할 수 있다. 예를 들어 이미지의 조작은 이미지의 확장(줌 아웃)이다. 거리 D1 및 거리 D2에 의한 사용자의 손들의 한 손 또는 양 손들의 움직임은 사용자의 손(들)에 의해 움직인 거리에 따라 비례적으로 이미지를 확장할 것이다(도면에서, 이미지의 확장 후에 실선으로 그려진 객체들이 점선들의 객체들이 그려진 곳에 위치한다). 도 4d에 개략적으로 도시된 경우에, 양 손들(465 및 475)은 디스플레이에 디스플레이된 각각 연관되는 심볼(465' 및 475')을 갖는다. 심볼들(465' 및 475')의 움직임(손들(465 및 475)의 움직임과 연관된)은 상기 심볼들의 주변에 있는 콘텐츠(예를 들어, 삼각형(4005) 및 원(4004))의 움직임을 초래(result in)한다. 이미지(4006) 자체는 확장되는 반면 이미지(4006)의 프레임 내의 콘텐츠들의 좌표들은 동일하게 유지된다(실선의 객체들은 손들의 움직임 전의 콘텐츠를 나타내고, 점선의 객체는 손들의 움직임 후의 같은 콘텐츠를 나타낸다). 이 확장의 방법 또는 반드시 비례적이 아닌 다른 조작이 미리 형성될 수 있다.

도 5a 및 도 5b에 개략적으로 도시된 일부 실시예들에 따르면, 프로세서(502) 및 디스플레이(506)를 갖는 장치가 제공된다. 디스플레이는 그래픽적 사용자 인터페이스(GUI)를 갖는다.

프로세서(502)는 이미지들을 획득하기 위해 이미지 센서(이미지 센서(103)와 같은)와 통신을 한다. 프로세서(502) 또는 다른 프로세싱 유닛은 이미지들 내의 사용자의 손을 검출하고 추적할 수 있다.

도 5a 및 도 5b의 일 실시예에 따르면, GUI는 프로세서가 한 손(515)을 검출하면 제1 그래픽적 요소를 디스플레이 한다. 그리고 GUI는 프로세서가 양 손들(525 및 526)을 검출하면 제2 그래픽적 요소를 포함한다. 상기 제1 그래픽 요소는 상기 제2 그래픽적 요소와는 상이하다.

일 실시예에 따르면, 제1 그래픽적 요소는 메뉴(530)이고, 제2 그래픽적 요소는 적어도 하나의 커서(532)(또는 다른 아이콘 또는 심볼)이다. 따라서, 사용자가 한 손으로만 장치를 제어하려고 할 때, 메뉴는 사용자에게 디스플레이 된다. 시계(FOV)에 사용자가 다른 손을 추가할 때, 상기 메뉴는 사라지고 커서가 디스플레이에 표시된다. 예를 들어, 상기에서 설명한 바와 같이, 커서(하나 또는 두 개의 커서들)은 제어될 수 있다.

일 실시예에 따르면, 프로세서(502)는 사용자의 왼손 및 사용자의 오른손을 검출할 수 있다. 제2 그래픽적 요소는 왼손 커서(532) 및 오른손 커서(532')를 포함할 수 있다. 왼손 커서(532)는 사용자의 왼손(525)에 따라 조작될 수 있다. 그리고 오른손 커서(532')는 사용자의 오른손(526)에 따라 조작될 수 있다.

일부 실시예들에 따르면, 이미지(550) 또는 이미지의 일부(550')와 같은 왼손 커서(532) 및 오른손 커서(532') 사이에 디스플레이된 콘텐츠는 조작될 수 있다.

예를 들어 상기 조작은 전체 이미지(550)를 조작하는 것이 아닌, 양 커서들(532 및 532')에 의해 또는 양 커서들에 의해 정의된 경계(560)에 의해 정의된, 콘텐츠 만을 움직이는 것, 확장하는 것, 회전하는 것, 줌하는 것에 의해 조작될 수 있다.

도 6에 개략적으로 도시된 다른 일 실시예에 따르면, 프로세서(602) 및 디스플레이(606)를 갖는 장치가 제공된다. 디스플레이는 그래픽적 사용자 인터페이스(GUI)를 갖는다.

프로세서(602)는 이미지들을 획득하기 위해 이미지 센서(이미지 센서(103)와 같은)와 통신한다. 그리고 프로세서(602) 또는 다른 프로세싱 유닛은 이미지들로부터 사용자의 손을 검출하고 추적할 수 있다.

일 실시예에 따르면, 제1 손 자세(615)(모든 손가락들이 펴진 손 또는 손바닥과 같은)가 검출되면 GUI는 화살표 방향 심볼(arrows navigating symbol)(630)과 비슷한 키보드와 같은 제1 그래픽적 요소를 디스플레이 한다. 제2 손 자세(616)(모든 손가락들의 상기 끝들이 터치되거나 또는 서로 간에 거의 터치되도록 상기 끝들이 모아진 손)가 검출되면 GUI는 메뉴(631)와 같은 제2 그래픽적 요소를 디스플레이 한다.

본 발명의 일 실시예에 따르면, GUI의 그래픽적 요소에 명령을 적용하기 위한 방법이 제공된다. 도 7에 개략적으로 도시된 일 실시예에 따르면, 단계(702)에서, 상기 방법은 사용자의 손의 제1 이미지 및 제2 이미지를 얻는 것을 포함한다. 단계(704)에서, 제1 이미지로부터 사용자의 손의 제1 자세를 검출하고, 제2 이미지로부터 사용자의 손의 제2 자세를 검출한다. 단계(711)에서, 제1 이미지 및 제2 이미지 간의 손의 움직임이 검출되면, 단계(713)에서, 그래픽적 요소가 손의 움직임에 따라 움직여진다. 그러나 단계(710)에서, 제1 이미지 및 제2 이미지 간의 사용자의 손의 자세의 변경이 검출되면, 단계(710)에서, 선택된 그래픽적 요소의 움직임을 멈추는 명령이 적용된다.

일 실시예에 따르면, 그래픽적 요소는 커서이다. 따라서, 사용자가 특정 손 자세(예를 들어, 상기에 설명된 바와 같이)를 이용함으로써 커서를 선택하면, 그/그녀의 상기 특정 자세의 손을 유지하는 동안, 그/그녀의 손의 움직임은 추적되고, 상기 커서는 사용자의 손의 움직임에 따라 디스플레이 상에 움직여진다. 사용자가 손의 자세를 변경할 때, 예를 들어, 사용자가 마우스 클릭들(예를 들어, 좌 클릭)을 수행하기 위해 또는 객체를 선택 및/또는 드래그하기 위해, 붙잡는 자세와 같은 그/그녀의 손을 오무리는(close) 것을 원할 수 있다. 붙잡는 자세와 같은 자세의 스위칭 인/아웃(switching in/out)에 기인하는 커서 움직임은 회피될 필요가 있다. 따라서, 자세의 변경(반대로, 동일한 자세 동안의 손의 움직임)이 검출될 때, 커서를 움직이는 명령을 종료하는 것은 자세가 변화되는 동안 손의 일부의 움직임의 경우, 커서가 실수로(unintentionally) 움직여지지 않는 것을 보장한다.

일 실시예에 따르면, 제1 이미지 및 제2 이미지 간에 사용자의 손의 자세가 변경되는 경우 및/또는 제1 이미지 또는 제2 이미지 간의 손의 움직임이 있는 경우의 검출은 사용자의 손의 제1 이미지 및 제2 이미지 간의 변화(transformation)를 체크하는 것을 포함한다. 손의 자세의 변경은 일반적으로 비-강직(non-rigid) 변화의 이미지 내의 픽셀들의 상대적인 움직임을 초래할 것이다. 반면에, 손 전체의 움직임(동일한 자세를 유지하는 동안)은 일반적으로 강직 변화를 초래할 것이다.

따라서, 일 실시예에 따르면, 상기 변화가 비-강직 변화인 경우 상기 방법은 선택된 그래픽적 요소(예를 들어, 커서)를 움직이는 명령을 종료하는 것을 포함한다. 그리고 상기 변화가 강직 변화인 경우 상기 방법은 손의 움직임에 따라 그래픽적 요소(예를 들어, 커서)를 움직이는 명령을 적용하는 것을 포함한다.

사용자의 손의 제1 이미지 및 제2 이미지 간의 변화를 체크하는 것은 또한 유익하게(beneficially) 예를 들어, 계산 시간을 줄이기 위해 사용될 수 있다. 예를 들어, 일 실시예에 따르면, 손 자세를 검출하는 것은 손의 형상을 손 자세 모델들의 목록(library)과 비교하는 것을 포함한다. 본 발명의 실시예에 따르면, 계속적으로 비교를 적용하는 것 대신에, 사용자가 손의 자세를 변경하는 것 같은 경우에만 이 비교를 시작 하는 것이 가능하다. 본 발명의 실시예는 도 8에 개략적으로 도시되어 있다.

장치의 제어에 기반한 컴퓨터 비전에 대한 방법은, 사용자의 손의 제1 이미지 및 제2 이미지를 획득하는 단계(802), 제1 이미지 및 제2 이미지 간의 변화를 체크하는 단계(804)를 포함한다. 상기 방법은 단계(806)에서, 변화가 강직 변화인 경우, 장치를 제어하는 제1 명령을 생성하는 단계(808)를 포함한다. 그리고 상기 방법은 단계(807)에서, 변화가 비-강직 변화인 경우, 장치를 제어하는 제2 명령을 생성하는 단계(809)를 포함한다.

제1 명령은 사용자의 손의 움직임에 따라 선택된 그래픽적 요소(예를 들어, 커서)를 움직일 수 있다. 제2 명령은 그래픽적 요소를 움직이는 명령이 종료될 수 있는 후에, 자세에 대한 검색(예를 들어, 모델들의 목록과 비교함으로써)의 처리를 시작할 수 있다.

Claims

디스플레이된 콘텐츠의 제어에 기반하는 컴퓨터 비전(computer vision)에 대한 방법에 있어서,
시계(field of view)의 이미지를 획득하는 단계;
상기 이미지 내의 사용자의 손을 식별하는 단계;
상기 손의 제1 자세(posture)를 검출하는 단계;
상기 손의 상기 제1 자세의 상기 검출에 기반하여, 디스플레이된 콘텐츠를 조작하는 명령을 생성하는 단계;
상기 손의 제2 자세를 검출하는 단계 - 상기 제2 자세는 상기 제1자세와 상이함 -; 및
상기 제2 자세의 검출에 기반하여, 상기 디스플레이된 콘텐츠를 조작하는 상기 명령을 비활성화(disable)하는 단계
를 포함하는 컴퓨터 비전을 위한 방법.
제1항에 있어서,
상기 손을 추적하는 단계
를 포함하고,
상기 디스플레이된 콘텐츠의 상기 조작은 상기 추적된 손의 움직임에 따르는 컴퓨터 비전에 대한 방법.
제2항에 있어서,
상기 제1 자세가 검출된 동안에만 상기 추적된 손의 움직임에 따라 상기 디스플레이된 콘텐츠를 조작하는 단계
를 포함하는 컴퓨터 비전에 대한 방법.
제2항에 있어서,
상기 손의 상기 위치와 연관된 위치에 아이콘을 디스플레이 하는 단계; 및
상기 손의 움직임에 따라 상기 아이콘을 움직이는 것을 가능하게 하는 단계
를 포함하는 컴퓨터 비전에 대한 방법.
제4항에 있어서,
상기 제1 자세가 검출될 때 제1 아이콘을 디스플레이 하는 단계; 및
상기 제2 자세가 검출될 때 제2 아이콘을 디스플레이 하는 단계
를 포함하는 컴퓨터 비전에 대한 방법.
제1항에 있어서,
상기 제1 자세의 상기 검출에 기반하여 디스플레이된 콘텐츠를 선택하는 명령을 생성하는 단계
를 포함하는 컴퓨터 비전에 대한 방법.
제1항에 있어서,
상기 제1 자세는 모든 손가락들의 상기 끝들이 터치되거나 또는 서로 간에 거의 터치되도록 상기 끝들이 모아진 손을 포함하고,
상기 제2 자세는 모든 손가락들이 펴진(extended) 손바닥을 포함하는 컴퓨터 비전에 대한 방법.
제1항에 있어서,
상기 디스플레이된 콘텐츠는 스크린에 디스플레이된 모든 콘텐츠 또는 스크린에 디스플레이된 콘텐츠의 선택된 부분을 포함하는 컴퓨터 비전에 대한 방법.
제1항에 있어서,
디스플레이된 콘텐츠의 상기 조작은 콘텐츠를 움직이는 것, 콘텐츠의 줌인(zooming in) 및/또는 줌아웃(zooming out), 콘텐츠의 회전, 콘텐츠 또는 콘텐츠의 조합의 확장(stretching)을 포함하는 컴퓨터 비전에 대한 방법.
제1항에 있어서,
상기 이미지 내의 사용자의 양 손들을 식별하는 단계
를 포함하고,
디스플레이된 콘텐츠를 조작하는 상기 명령은 상기 제1 자세의 상기 검출 및 사용자의 양 손들의 상기 검출에 기반하여 생성되는 컴퓨터 비전에 대한 방법.
제10항에 있어서,
상기 사용자의 양 손들을 추적하는 단계
를 포함하고,
상기 디스플레이된 콘텐츠의 상기 조작은 한 손의 다른 손에 비교된 상대 위치에 기반하는 컴퓨터 비전에 대한 방법.
디스플레이된 콘텐츠의 제어에 기반한 컴퓨터 비전(computer vision)을 위한 방법에 있어서,
시계(field of view)의 이미지를 획득하는 단계;
상기 이미지 내의 사용자의 양 손들을 검출하는 단계;
상기 손들의 적어도 하나에서 제1 자세를 검출하는 단계; 및
상기 제1 자세의 상기 검출 및 제1 자세 및 상기 양 손의 상기 검출에 기반하여, 디스플레이된 콘텐츠를 조작하는 명령을 생성하는 단계
를 포함하는 컴퓨터 비전에 대한 방법.
제12항에 있어서,
상기 손들의 적어도 하나의 제2 자세를 검출하는 단계 - 상기 제2 자세는 상기 제1 자세와 상이함 -; 및
상기 제2 자세의 상기 검출에 기반하여, 상기 디스플레이된 콘텐츠를 조작하는 상기 명령을 비활성화하는 단계
를 포함하는 컴퓨터 비전에 대한 방법.
제12항에 있어서,
상기 제1자세는 모든 손가락들의 상기 끝들이 터치되거나 또는 서로 간에 거의 터치되도록 상기 끝들이 모아진 손을 포함하는 컴퓨터 비전에 대한 방법.
제13항에 있어서,
상기 제2 자세는 모든 손가락들이 펴진 손바닥을 포함하는 컴퓨터 비전에 대한 방법.
제12항에 있어서,
상기 사용자의 양 손들을 추적하는 단계
를 포함하고,
상기 디스플레이된 콘텐츠의 상기 조작은 한 손의 다른 손에 비교된 상대 위치에 기반하는 컴퓨터 비전에 대한 방법.
제12항에 있어서,
상기 디스플레이된 콘텐츠의 상기 조작은 상기 콘텐츠의 줌인 및/또는 줌아웃, 또는 상기 콘텐츠 또는 상기 콘텐츠의 조합의 회전을 포함하는 컴퓨터 비전에 대한 방법.
제12항에 있어서,
상기 사용자의 양 손들 중의 하나의 상기 위치와 연관된 위치에 적어도 하나의 아이콘을 디스플레이 하는 단계; 및
상기 손의 움직임에 따라 상기 아이콘을 움직이는 것을 가능하게 하는 단계
를 포함하는 컴퓨터 비전에 대한 방법.
제13항에 있어서,
상기 제1 자세가 검출될 때 제1 아이콘을 디스플레이 하는 단계; 및
상기 제2 자세가 검출될 때 제2 아이콘을 디스플레이 하는 단계
를 포함하고,
상기 제1 아이콘 및 상기 제2 아이콘은 상기 사용자의 양 손들 중에 하나의 위치와 관련 있는 상기 위치에 표시되는 컴퓨터 비전에 대한 방법.
제12항에 있어서,
상기 사용자의 제1 손의 상기 위치와 연관된 위치에 하나의 아이콘을 디스플레이하고, 상기 사용자의 제2 손의 상기 위치와 연관된 위치에 다른 아이콘을 디스플레이 하는 단계
를 포함하는 컴퓨터 비전에 대한 방법.
제20항에 있어서,
상기 사용자의 제1 손의 상기 위치와 연관된 상기 위치에 디스플레이된 상기 아이콘은 상기 사용자의 제2 손과 연관된 위치에 디스플레이된 상기 아이콘과는 다른 컴퓨터 비전에 대한 방법.