JP7057959B2 - Motion analysis device - Google Patents
Motion analysis device Download PDFInfo
- Publication number
- JP7057959B2 JP7057959B2 JP2017153215A JP2017153215A JP7057959B2 JP 7057959 B2 JP7057959 B2 JP 7057959B2 JP 2017153215 A JP2017153215 A JP 2017153215A JP 2017153215 A JP2017153215 A JP 2017153215A JP 7057959 B2 JP7057959 B2 JP 7057959B2
- Authority
- JP
- Japan
- Prior art keywords
- motion
- neural network
- image
- depth image
- motion analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、物体の動作を解析するための動作解析装置、方法及びプログラム、並びに物体の動作を解析するためのモデルを構築するモデル構築装置、方法及びプログラムに関し、特に、ゴルフスイングを解析するのに適した装置、方法及びプログラムに関する。 The present invention relates to a motion analysis device, method and program for analyzing the motion of an object, and a model building device, method and program for constructing a model for analyzing the motion of an object, and particularly analyzes a golf swing. With respect to suitable equipment, methods and programs.
従来より、ゴルフスイングをカメラで撮影し、このときの画像に基づいてゴルフスイングを解析する装置が公知である(特許文献1,2等)。解析の結果は、ゴルファーに適したゴルフクラブのフィッティングや、ゴルファーのフォームの改善、ゴルフ用品の開発等、様々な用途で利用される。以上のようなゴルフスイングの解析においては、しばしば、画像に写るゴルフクラブのグリップやヘッド、ゴルファーの関節等、注目部位の三次元計測が行われる。特許文献1,2は、複数台のカメラにより複数の方向からゴルフスイングを撮影し、三角測量法やDLT法等に基づいて注目部位の三次元計測を行うことを開示している。
Conventionally, a device for photographing a golf swing with a camera and analyzing the golf swing based on the image at this time has been known (
また、近年では、二次元カメラに加え、距離画像センサを備えたkinect(登録商標)と呼ばれる三次元計測が可能なデバイスが普及しており、同装置を用いた人物の動作解析の研究が盛んである(例えば、特許文献3,4等)。
In recent years, in addition to two-dimensional cameras, a device called kinect (registered trademark) equipped with a range image sensor that enables three-dimensional measurement has become widespread, and research on motion analysis of people using this device has been active. (For example,
しかしながら、特許文献1,2のようなカメラの構成は、設備を大型化させ得る。一方、特許文献3,4のような、距離画像センサからの深度画像に基づく動作の解析技術については、未だ発展段階であり、解析の精度のさらなる向上が望まれる。
However, the camera configuration as in
本発明は、簡易かつ高精度に物体の動作を解析することができる動作解析装置、方法及びプログラム、並びに物体の動作を解析するためのモデルを構築するモデル構築装置、方法及びプログラムを提供することを目的とする。 The present invention provides a motion analysis device, a method and a program capable of analyzing the motion of an object easily and with high accuracy, and a model building device, a method and a program for constructing a model for analyzing the motion of an object. With the goal.
第1観点に係る動作解析装置は、物体の動作を解析するための動作解析装置であって、取得部と、導出部とを備える。前記取得部は、前記物体の動作を距離画像センサにより撮影した深度画像を取得する。前記導出部は、前記物体の動作を定量的に表す動作値を出力とするニューラルネットワークに、前記取得部により取得された前記深度画像を入力することにより、前記動作値を導出する。 The motion analysis device according to the first aspect is a motion analysis device for analyzing the motion of an object, and includes an acquisition unit and a derivation unit. The acquisition unit acquires a depth image obtained by capturing the movement of the object with a distance image sensor. The derivation unit derives the operation value by inputting the depth image acquired by the acquisition unit into a neural network that outputs an operation value that quantitatively represents the operation of the object.
第2観点に係る動作解析装置は、第1観点に係る動作解析装置であって、前記深度画像は、ゴルフスイングを撮影した画像である。 The motion analysis device according to the second aspect is the motion analysis device according to the first aspect, and the depth image is an image obtained by photographing a golf swing.
第3観点に係る動作解析装置は、第2観点に係る動作解析装置であって、前記動作値は、ゴルファーの腰の回転角度である。 The motion analysis device according to the third aspect is the motion analysis device according to the second aspect, and the motion value is the rotation angle of the golfer's waist.
第4観点に係る動作解析装置は、第3観点に係る動作解析装置であって、前記取得部は、前記距離画像センサにより計測された人体の骨組みを表すスケルトンデータをさらに取得する。前記導出部は、前記スケルトンデータに基づいて、前記深度画像から前記腰の近傍の腰領域を抽出した後、前記腰領域の画像を前記ニューラルネットワークに入力する。 The motion analysis device according to the fourth aspect is the motion analysis device according to the third aspect, and the acquisition unit further acquires skeleton data representing the skeleton of the human body measured by the distance image sensor. The derivation unit extracts the waist region in the vicinity of the waist from the depth image based on the skeleton data, and then inputs the image of the waist region to the neural network.
第5観点に係る動作解析装置は、第3観点又は第4観点に係る動作解析装置であって、前記ニューラルネットワークは、前記深度画像から前記ゴルファーの腕を表す腕領域を無効化するドロップアウト層を有する。 The motion analysis device according to the fifth aspect is the motion analysis device according to the third aspect or the fourth aspect, and the neural network is a dropout layer that invalidates the arm region representing the golfer's arm from the depth image. Has.
第6観点に係る動作解析装置は、第2観点に係る動作解析装置であって、前記動作値は、ゴルファーの体重移動を表す値である。 The motion analysis device according to the sixth aspect is the motion analysis device according to the second aspect, and the motion value is a value representing the weight shift of the golfer.
第7観点に係る動作解析装置は、第6観点に係る動作解析装置であって、前記取得部は、前記距離画像センサにより計測された人体の骨組みを表すスケルトンデータをさらに取得する。前記導出部は、前記スケルトンデータに基づいて、前記深度画像から前記ゴルファーの近傍のゴルファー領域を抽出した後、前記ゴルファー領域の画像を前記ニューラルネットワークに入力する。 The motion analysis device according to the seventh aspect is the motion analysis device according to the sixth aspect, and the acquisition unit further acquires skeleton data representing the skeleton of the human body measured by the distance image sensor. The derivation unit extracts a golfer region in the vicinity of the golfer from the depth image based on the skeleton data, and then inputs the image of the golfer region to the neural network.
第8観点に係る動作解析装置は、第2観点に係る動作解析装置であって、前記動作値は、ゴルファーの肩の回転角度である。 The motion analysis device according to the eighth aspect is the motion analysis device according to the second aspect, and the motion value is the rotation angle of the golfer's shoulder.
第9観点に係る動作解析装置は、第8観点に係る動作解析装置であって、前記取得部は、前記距離画像センサにより計測された人体の骨組みを表すスケルトンデータをさらに取得する。前記導出部は、前記スケルトンデータに基づいて、前記深度画像から前記肩の近傍の肩領域を抽出した後、前記肩領域の画像を前記ニューラルネットワークに入力する。 The motion analysis device according to the ninth aspect is the motion analysis device according to the eighth aspect, and the acquisition unit further acquires skeleton data representing the skeleton of the human body measured by the distance image sensor. The derivation unit extracts a shoulder region in the vicinity of the shoulder from the depth image based on the skeleton data, and then inputs the image of the shoulder region to the neural network.
第10観点に係る動作解析装置は、第1観点から第9観点のいずれかに係る動作解析装置であって、前記ニューラルネットワークは、畳み込み層を有する。 The motion analysis device according to the tenth viewpoint is the motion analysis device according to any one of the first to ninth viewpoints, and the neural network has a convolution layer.
第11観点に係る動作解析装置は、第1観点から第10観点のいずれかに係る動作解析装置であって、前記取得部は、時系列の前記深度画像を取得する。前記導出部は、前記ニューラルネットワークに前記時系列の深度画像を入力することにより、時系列の前記動作値を導出する。 The motion analysis device according to the eleventh viewpoint is a motion analysis device according to any one of the first to tenth viewpoints, and the acquisition unit acquires the depth image in time series. The derivation unit derives the operation value of the time series by inputting the depth image of the time series into the neural network.
第12観点に係る動作解析装置は、第1観点、第2観点、第10観点及び第11観点のいずれかに係る動作解析装置であって、前記取得部は、前記距離画像センサにより計測された人体の骨組みを表すスケルトンデータをさらに取得する。前記導出部は、前記スケルトンデータに基づいて、前記深度画像から前記物体の注目部位の近傍の注目領域を抽出した後、前記注目領域の画像を前記ニューラルネットワークに入力する。 The motion analysis device according to the twelfth viewpoint is a motion analysis device according to any one of the first viewpoint, the second viewpoint, the tenth viewpoint and the eleventh viewpoint, and the acquisition unit is measured by the distance image sensor. Further acquire skeleton data representing the skeleton of the human body. Based on the skeleton data, the derivation unit extracts a region of interest in the vicinity of the region of interest of the object from the depth image, and then inputs an image of the region of interest to the neural network.
第13観点に係る動作解析装置は、第1観点、第2観点及び第10観点~第12観点のいずれかに係る動作解析装置であって、前記ニューラルネットワークは、前記深度画像から前記物体の注目していない部位を表す非注目領域を無効化するドロップアウト層を有する。 The motion analysis device according to the thirteenth viewpoint is a motion analysis device according to any one of the first viewpoint, the second viewpoint and the tenth viewpoint to the twelfth viewpoint, and the neural network pays attention to the object from the depth image. It has a dropout layer that nullifies non-focused areas that represent areas that are not.
第14観点に係るモデル構築装置は、物体の動作を解析するためのモデルを構築するモデル構築装置であって、第1取得部と、第2取得部と、学習部とを備える。前記第1取得部は、前記物体の動作を距離画像センサにより撮影した多数の深度画像を取得する。前記第2取得部は、前記多数の深度画像にそれぞれ対応する、前記物体の動作を定量的に表す多数の動作値を取得する。前記学習部は、前記第1取得部により取得された前記多数の深度画像に基づいて、前記第2取得部により取得された前記多数の動作値を教師信号として、前記深度画像を入力とし、前記動作値を出力とするニューラルネットワークを学習する。 The model building apparatus according to the fourteenth aspect is a model building device for constructing a model for analyzing the motion of an object, and includes a first acquisition unit, a second acquisition unit, and a learning unit. The first acquisition unit acquires a large number of depth images obtained by capturing the movement of the object with a distance image sensor. The second acquisition unit acquires a large number of motion values that quantitatively represent the motion of the object, respectively, corresponding to the large number of depth images. The learning unit uses the large number of operation values acquired by the second acquisition unit as a teacher signal based on the large number of depth images acquired by the first acquisition unit, and inputs the depth image to the learning unit. Learn a neural network that outputs operation values.
第15観点に係るモデル構築装置は、第14観点に係るモデル構築装置であって、前記第2取得部は、前記物体に取り付けられた角速度センサの出力値から前記物体の回転角度を表す前記多数の動作値を取得する。 The model building apparatus according to the fifteenth viewpoint is the model building device according to the fourteenth viewpoint, and the second acquisition unit represents the rotation angle of the object from the output value of the angular velocity sensor attached to the object. Get the operation value of.
第16観点に係るモデル構築装置は、第14観点に係るモデル構築装置であって、前記第2取得部は、前記物体が乗る床反力計の出力値から前記物体の重心の位置を表す前記多数の動作値を取得する。 The model building device according to the 16th viewpoint is the model building device according to the 14th viewpoint, and the second acquisition unit represents the position of the center of gravity of the object from the output value of the floor reaction force meter on which the object is placed. Get a large number of operation values.
第17観点に係る動作解析システムは、物体の動作を解析するための動作解析システムであって、距離画像センサと、動作解析装置とを備える。前記距離画像センサは、前記物体の動作を捉えた深度画像を撮影する。前記動作解析装置は、前記物体の動作を定量的に表す動作値を出力とするニューラルネットワークに、前記距離画像センサにより撮影された前記深度画像を入力することにより、前記動作値を導出する。 The motion analysis system according to the seventeenth aspect is a motion analysis system for analyzing the motion of an object, and includes a distance image sensor and a motion analysis device. The distance image sensor captures a depth image that captures the movement of the object. The motion analysis device derives the motion value by inputting the depth image captured by the distance image sensor into a neural network that outputs an motion value that quantitatively represents the motion of the object.
第18観点に係る動作解析方法は、物体の動作を解析するための動作解析方法であって、以下のステップを含む。
(1)距離画像センサにより前記物体の動作を捉えた深度画像を撮影するステップ。
(2)前記物体の動作を定量的に表す動作値を出力とするニューラルネットワークに、前記距離画像センサにより撮影された前記深度画像を入力することにより、前記動作値を導出するステップ。
The motion analysis method according to the eighteenth aspect is a motion analysis method for analyzing the motion of an object, and includes the following steps.
(1) A step of taking a depth image that captures the movement of the object by a distance image sensor.
(2) A step of deriving the operation value by inputting the depth image captured by the distance image sensor into a neural network that outputs an operation value that quantitatively represents the operation of the object.
第19観点に係る動作解析プログラムは、物体の動作を解析するための動作解析プログラムであって、以下のステップをコンピュータに実行させる。
(1)前記物体の動作を距離画像センサにより撮影した深度画像を取得するステップ。
(2)前記物体の動作を定量的に表す動作値を出力とするニューラルネットワークに、前記取得された深度画像を入力することにより、前記動作値を導出するステップ。
The motion analysis program according to the nineteenth aspect is a motion analysis program for analyzing the motion of an object, and causes a computer to execute the following steps.
(1) A step of acquiring a depth image of the movement of the object taken by a distance image sensor.
(2) A step of deriving the operation value by inputting the acquired depth image into a neural network that outputs an operation value that quantitatively represents the operation of the object.
第1観点によれば、物体の動作を距離画像センサにより撮影した深度画像が取得され、当該深度画像がニューラルネットワークに入力され、当該ニューラルネットワークの出力として物体の動作を定量的に表す動作値が導出される。つまり、ニューラルネットワークにより、深度画像から直接的に、物体の動作を定量的に評価することができる。以上より、簡易かつ高精度に物体の動作を解析することができる。 According to the first aspect, a depth image obtained by capturing the movement of an object with a distance image sensor is acquired, the depth image is input to a neural network, and an operation value that quantitatively represents the movement of the object is output as an output of the neural network. Derived. That is, the neural network can quantitatively evaluate the movement of the object directly from the depth image. From the above, it is possible to analyze the movement of an object easily and with high accuracy.
以下、図面を参照しつつ、本発明の幾つかの実施形態に係る動作解析装置、方法及びプログラム、並びにモデル構築装置、方法及びプログラムについて説明する。以下の実施形態は、ゴルフスイングを解析する場面を例に説明される。 Hereinafter, the motion analysis device, the method and the program, and the model building device, the method and the program according to some embodiments of the present invention will be described with reference to the drawings. The following embodiment will be described by taking a scene of analyzing a golf swing as an example.
<1.第1実施形態>
<1-1.動作解析システムの概要>
図1及び図2に、本実施形態に係る動作解析装置1を含む動作解析システム100の全体構成図を示す。動作解析システム100は、ゴルファー7によるゴルフクラブ5のスイング動作を動画として撮影し、当該動画に基づいてスイング動作を解析するためのシステムである。以上の撮影は、距離画像センサ2により行われる。動作解析装置1は、距離画像センサ2とともに動作解析システム100を構成し、距離画像センサ2により取得される深度画像を含む画像データを解析することにより、スイング動作を解析する。動作解析装置1による解析の結果は、ゴルファー7に適したゴルフクラブ5のフィッティングや、ゴルファー7のフォームの改善、ゴルフ用品の開発等、様々な用途で利用される。
<1. First Embodiment>
<1-1. Overview of motion analysis system>
1 and 2 show an overall configuration diagram of an
スイング動作の解析は、深度画像を入力とするニューラルネットワーク8(図3参照)に基づいて行われる。ニューラルネットワーク8は、スイング動作を解析するためのモデルであり、スイング動作を定量的に表す動作値を出力する。ニューラルネットワーク8は、事前学習により構築される。以下、動作解析システム100の各部の詳細について述べた後、ニューラルネットワーク8のモデル構成、ニューラルネットワーク8に基づく動作解析方法、及びニューラルネットワーク8の学習方法について順に説明する。
The analysis of the swing motion is performed based on the neural network 8 (see FIG. 3) that inputs the depth image. The
<1-2.各部の詳細>
<1-2-1.距離画像センサ>
距離画像センサ2は、ゴルファー7がゴルフクラブ5を試打する様子を二次元画像として撮影するとともに、被写体までの距離を測定する測距機能を有する三次元計測カメラである。従って、距離画像センサ2は、二次元画像とともに、深度画像を出力することができる。なお、ここでいう二次元画像とは、撮影空間の像をカメラの光軸に直交する平面内へ投影した画像である。また、深度画像とは、カメラの光軸方向の被写体の奥行きのデータ(深度データ)を、二次元画像と略同じ撮像範囲内の画素に割り当てた画像である。
<1-2. Details of each part>
<1-2-1. Distance image sensor>
The
本実施形態で使用される距離画像センサ2は、二次元画像を赤外線画像(以下、IR画像という)として撮影する。また、深度画像は、赤外線を用いたタイムオブフライト方式やドットパターン投影方式等の方法により得られる。従って、図1に示すように、距離画像センサ2は、赤外線を前方に向けて発光するIR発光部21と、IR発光部21から照射され、被写体に反射して戻ってきた赤外線を受光するIR受光部22とを有する。IR受光部22は、光学系及び撮像素子等を有するカメラである。ドットパターン投影方式では、IR発光部21から照射された赤外線のドットパターンをIR受光部22で読み取り、距離画像センサ2内部での画像処理によりドットパターンを検出し、これに基づいて奥行きが計算される。本実施形態では、IR発光部21及びIR受光部22は、同じ筐体20内に収容され、筐体20の前方に配置されている。本実施形態では、距離画像センサ2は、ゴルファー7を正面側から撮影すべく、ゴルファー7の前方に設置され、IR発光部21及びIR受光部22がゴルファー7に向けられている。
The
距離画像センサ2には、距離画像センサ2の動作全体を制御するCPU23の他、撮影された画像データを少なくとも一時的に記憶するメモリ24が内蔵されている。距離画像センサ2の動作を制御する制御プログラムは、メモリ24内に格納されている。また、距離画像センサ2には、通信部25も内蔵されており、通信部25は、撮影された画像データを有線又は無線の通信線17を介して、動作解析装置1等の外部のデバイスへと出力することができる。本実施形態では、CPU23及びメモリ24も、IR発光部21及びIR受光部22とともに、筐体20内に収納されている。なお、動作解析装置1への画像データの受け渡しは、必ずしも通信部25を介して行う必要はない。例えば、メモリ24が着脱式であれば、これを筐体20内から取り外し、動作解析装置1のリーダー(後述する通信部15に対応)に挿入する等して、動作解析装置1で画像データを読み出すことができる。
In addition to the
<1-2-2.動作解析装置>
図2を参照しつつ、動作解析装置1の構成について説明する。動作解析装置1は、ハードウェアとしては汎用のコンピュータであり、例えば、デスクトップ型コンピュータ、ノート型コンピュータ、タブレットコンピュータ、スマートフォンとして実現される。動作解析装置1は、CD-ROM、USBメモリ等のコンピュータで読み取り可能な記録媒体30から、或いはインターネット等のネットワークを介して、動作解析プログラム3を汎用のコンピュータにインストールすることにより製造される。動作解析プログラム3は、距離画像センサ2から送られてくる画像データに基づいてゴルフスイングを解析するためのソフトウェアであり、動作解析装置1に後述する動作を実行させる。
<1-2-2. Motion analysis device>
The configuration of the
動作解析装置1は、表示部11、入力部12、記憶部13、制御部14及び通信部15を備える。これらの部11~15は、互いにバス線16を介して接続されており、相互に通信可能である。表示部11は、液晶ディスプレイ等で構成することができ、ゴルフスイングの解析の結果等をユーザに対し表示する。なお、ここでいうユーザとは、ゴルファー7自身やそのインストラクター、ゴルフ用品の開発者等、ゴルフスイングの解析の結果を必要とする者の総称である。入力部12は、マウス、キーボード、タッチパネル等で構成することができ、動作解析装置1に対するユーザからの操作を受け付ける。
The
記憶部13は、ハードディスク等で構成することができる。記憶部13内には、動作解析プログラム3が格納されている他、距離画像センサ2から送られてくる画像データが保存される。また、記憶部13内には、後述する学習処理で学習され、後述する動作解析処理で使用されるニューラルネットワーク8を定義する情報が格納される。制御部14は、CPU、ROMおよびRAM等から構成することができる。制御部14は、記憶部13内の動作解析プログラム3を読み出して実行することにより、仮想的に第1取得部14a、第2取得部14b、導出部14c、学習部14d及び表示制御部14eとして動作する。各部14a~14eの動作の詳細については、後述する。通信部15は、距離画像センサ2等の外部のデバイスから通信線17を介してデータを受信する通信インターフェースとして機能する。
The
<1-3.ニューラルネットワークのモデル構成>
次に、図3を参照しつつ、後述する動作解析処理の中で使用されるニューラルネットワーク8のモデル構成について説明する。ニューラルネットワーク8は、上述したとおり、深度画像を入力とし、スイング動作を定量的に表す動作値を出力とするネットワークである。本実施形態では、ニューラルネットワーク8により、スイング動作中のゴルファー7の腰の回転動作が定量的に解析され、より具体的には、腰の回転角度が定量的に導出される。
<1-3. Neural network model configuration>
Next, the model configuration of the
図3に示すとおり、本実施形態に係るニューラルネットワーク8は、畳み込みニューラルネットワークであり、識別部81と、識別部81の入力側に接続される特徴抽出部82とを有する。識別部81は、多層パーセプトロンである。特徴抽出部82は、第1中間層83及び第2中間層84を有する多層構造に形成されており、深度画像の特徴量を抽出する。第1中間層83は、畳み込み層83A、プーリング層83B及び正規化層83Cを有し、同様に、第2中間層84も、畳み込み層84A、プーリング層84B及び正規化層84Cを有する。従って、ニューラルネットワーク8では、複数の中間層83,84を通過することにより、畳み込み、プーリング及び正規化の処理が複数回繰り返される。
As shown in FIG. 3, the
また、本実施形態に係るニューラルネットワーク8は、特徴抽出部82の入力側にドロップアウト層85を有する。一般的なドロップアウト層とは、多層ネットワークのユニットを確率的に選別し、学習した層であり、選別されたユニット以外を無効化、すなわち、存在しないかのように扱う。これにより、学習時にネットワークの自由度を強制的に小さくし、過学習を回避することができる。一方、本実施形態に係るドロップアウト層85は、解析の対象となる入力画像において、解析の妨げとなる領域を除去する層である。ニューラルネットワーク8の入力は、深度画像である。本実施形態では、ドロップアウト層85に入力される深度画像においては、後述するとおり、予め解析の妨げとなると分かっている背景及び腕の領域に対応する画素の画素値が所定の画素値(本実施形態では、「0」)に設定されている。そして、ドロップアウト層85は、入力される深度画像(図3の例では、64×32ピクセル)の所定の画素値「0」の画素のユニットを無効化するような層であり、出力画像(図3の例では、64×32ピクセル)を出力する。つまり、ドロップアウト層85は、無効化されるユニットを確率的に選別するのではなく、予め解析の妨げとなると分かっている領域を選別して無効化する。具体的には、ドロップアウト層85は、「0」以外の部分を使って重みを決定し、「0」が含まれていたフィルタ応答値の重みを嵩上げして補償する層である。
Further, the
その後、ドロップアウト層85からの出力画像に対し、多数の重みフィルタG1,G2,・・・,GNによる畳み込み処理が実行される(Nは、2以上の整数。図3の例では、N=16)。その結果、N枚の特徴マップA1,A2,・・・,ANが生成される。特徴マップA1,A2,・・・,ANは、畳み込み層83Aを構成するN個のユニットにそれぞれ入力される。具体的には、入力画像と重みフィルタGnとの内積がラスタスキャンで繰り返し計算され、入力画像に重みフィルタGnが畳み込まれてゆくことにより、特徴マップAnが算出される(n=1,2,・・・,N)。図3の例では、重みフィルタGnが5×5ピクセルであり、特徴マップAnのサイズは、60×28ピクセルとなる。
After that, the output image from the
重みフィルタG1,G2,・・・,GNは、フィルタカーネルとも呼ばれ、深度画像に比べて微細な画像(又は値の配列)であり、各々、入力画像に含まれる一定のパターン(特徴)を検出し、強調するためのフィルタである。特徴マップAnは、重みフィルタGnの特徴に反応し、入力画像において重みフィルタGnの特徴が強調された画像(又は値の配列)である。ここで、入力画像のサイズをH1×H2ピクセルとし、入力画像の画素をインデックス(i,j)で表し(i=0,1,・・・,H1-1,j=0,1,・・・,H2-1)、入力画像の画素(i,j)の画素値をxi,jと表す。また、重みフィルタGnのサイズをH×Hピクセルとし、重みフィルタGnの画素をインデックス(p,q)で表し(p=0,1,・・・,H-1,q=0,1,・・・,H-1)、重みフィルタGnの画素(p,q)の画素値をhp,qと表す。このとき、入力画像の画素(i,j)に畳み込まれた、特徴マップAnの画素値ti,jは、以下のように算出することができる。
次に、特徴マップA1,A2,・・・,ANの各々に対しプーリング処理が実行され、その結果、N枚の特徴マップB1,B2,・・・,BNが生成される。特徴マップB1,B2,・・・,BNは、プーリング層83Bを構成するN個のユニットにそれぞれ入力される。プーリング処理とは、特徴マップAnに含まれる小領域を代表する応答値を出力することにより、特徴マップAnを新たな特徴マップBnに変換する処理である。このプーリング処理により、特徴マップAnのサイズを縮小することができる。また、プーリング処理では、入力画像Anの小領域に含まれる多数の画素値が応答値に集約されるため、出力画像Bnにおいて位置感度が若干低下する。そのため、検出しようとする特徴の位置が深度画像において若干変化したとしても、当該変化を吸収することができ、プーリング処理後の出力画像Bnを一定に近づけることができる。
Next, pooling processing is executed for each of the feature maps A 1 , A 2 , ..., AN, and as a result, N feature maps B 1 , B 2 , ..., BN are generated. The map. The feature maps B 1 , B 2 , ..., BN are input to the N units constituting the
より具体的には、プーリング処理では、入力画像Anが小領域に分割され、各小領域に含まれる画素値に基づいて応答値となる1つの画素値が決定される。図3の例では、特徴マップAnが2×2ピクセルの小領域に分割され、1/2のサイズに縮小される。従って、特徴マップBnのサイズは、図3の例では、30×14ピクセルとなる。応答値の決定方法は様々考えられ、例えば、小領域内の画素値の平均値を応答値とすることもできるし(平均プーリング)、最大値を応答値とすることもできる(最大プーリング)。また、Lpプーリングと呼ばれる方法のように、小領域内の大きな画素値の影響を大きくし、小さな画素値の影響もある程度残すように応答値を決定することもできる。 More specifically, in the pooling process, the input image Ann is divided into small areas, and one pixel value as a response value is determined based on the pixel values included in each small area. In the example of FIG. 3, the feature map Ann is divided into small areas of 2 × 2 pixels and reduced to 1/2 the size. Therefore, the size of the feature map B n is 30 × 14 pixels in the example of FIG. Various methods for determining the response value can be considered. For example, the average value of the pixel values in the small area can be used as the response value (mean pooling), or the maximum value can be used as the response value (maximum pooling). Further, as in the method called Lp pooling, the response value can be determined so as to increase the influence of the large pixel value in the small region and leave the influence of the small pixel value to some extent.
続いて、特徴マップB1,B2,・・・,BNの各々が正規化され、その結果、N枚の特徴マップC1,C2,・・・,CNが生成される。特徴マップC1,C2,・・・,CNは、正規化層83Cを構成するN個のユニットにそれぞれ入力される。ここでいう正規化とは、局所コントラスト正規化であり、本実施形態では、減算正規化が実行される。この正規化により、入力画像Bn上において周辺部の画素値に対して変化の大きな画素値が検出され、出力画像Cn上において当該画素値が強調される。
Subsequently, each of the feature maps B 1 , B 2 , ..., BN is normalized, and as a result, N feature maps C 1 , C 2 , ..., CN are generated. The feature maps C 1 , C 2 , ..., CN are input to the N units constituting the
以上より、第1中間層83での処理が終了し、第2中間層84での処理に移行し、2回目の畳み込み処理が実行される。2回目の畳み込み処理では、第1中間層83から出力されるN枚の特徴マップC1,C2,・・・,CNの中から、所定枚数の、本実施形態では4枚の特徴マップをランダムに選択して1組とし、このような組をM組作成する(図3の例では、M=256)。また、多数の重みフィルタL1,L2,・・・,LRを新たに用意し(Rは、2以上の整数。本実施形態では、R=16)、これらの重みフィルタL1,L2,・・・,LRの中から、特徴マップの1つの組に含まれる特徴マップの枚数と同数の、すなわち、本実施形態では4枚の重みフィルタをランダムに選択して1組とし、このような組をM組作成する。こうして選択された特徴マップの組に対し、重みフィルタの組を1対1で対応させ、畳み込みを行う。より具体的には、ある組に含まれる4枚の特徴マップと、当該組に対応する組に含まれる4枚の重みフィルタを1対1で対応させ、この対応関係に従って、畳み込みを行う。本実施形態では、ここでの重みフィルタLrは、5×5ピクセルである(r=1,2,・・・,R)。なお、畳み込みの方法は、第1中間層83での処理と同じである。そして、重みフィルタLrが畳み込まれた特徴マップが組毎に平均され、その結果、M枚の特徴マップD1,D2,・・・,DMが生成される。特徴マップD1,D2,・・・,DMは、畳み込み層84Aを構成するM個のユニットにそれぞれ入力される。特徴マップDmのサイズ(m=1,2,・・・,M)は、図3の例では、26×10ピクセルとなる。
From the above, the processing in the first
その後、特徴マップD1,D2,・・・,DMの各々に対し、第1中間層83での処理と同様のプーリング処理が実行され、その結果、M枚の特徴マップE1,E2,・・・,EMが生成される。特徴マップE1,E2,・・・,EMは、プーリング層84Bを構成するM個のユニットにそれぞれ入力される。続いて、特徴マップE1,E2,・・・,EMの各々に対し、第1中間層83での処理と同様の正規化が実行され、その結果、M枚の特徴マップF1,F2,・・・,FMが生成される。特徴マップF1,F2,・・・,FMは、正規化層84Cを構成するM個のユニットにそれぞれ入力される。特徴マップEm,Fmのサイズは、図3の例では、13×5ピクセルとなる。特徴マップF1,F2,・・・,FMは、特徴抽出部82の最終的な出力画像となり、識別部81に入力される。
After that, the same pooling process as the process in the first
識別部81は、入力層86、中間層87及び出力層88を有し、これらの層86~88は、全結合層を構成している。出力画像F1,F2,・・・,FMに含まれる全ての画素値U1,U2,・・・,UI1は、入力層86を構成するI1個の入力ユニットにそれぞれ入力される。図3の例では、I1=13×5(ピクセル数)×256(画像の枚数)=16640である。
The
中間層87は、I2個の中間ユニットから構成され、図3の例では、I2=1000に設定されている。i番目の中間ユニットには、入力ユニットに含まれる値U1,U2,・・・,UI1に基づいて算出される値Viが入力される(i=1,2,・・・,I2)。Viは、以下の式に従って、算出される。なお、下式中のui,1,ui,2,・・・,ui,I1は、重み係数であり、biは、バイアスである。
出力層88は、I3個の出力ユニットから構成され、本実施形態では、I3=1である。出力ユニットには、中間ユニットに含まれる値V1,V2,・・・,VI2に基づいて算出される値W1が入力され、本実施形態では、ゴルファー7の腰の回転角度を定量的に表す動作値W1が入力される。W1は、以下の式に従って、算出される。なお、下式中のv1,v2,・・・,vI2は、重み係数であり、bは、バイアスである。
<1-4.ニューラルネットワークに基づく動作解析処理>
以下、図4を参照しつつ、ゴルフスイングの動作解析処理について説明する。既に述べたとおり、本実施形態では、ニューラルネットワーク8に基づいて、スイング動作中のゴルファー7の腰の回転角度を定量的に表す動作値W1が導出される。なお、解析の対象となる画像データは、動画である。従って、以下、IR画像及び深度画像を、それぞれIRフレーム、深度フレームということがあり、単にフレームということもある。
<1-4. Motion analysis processing based on neural network>
Hereinafter, the motion analysis process of the golf swing will be described with reference to FIG. 4. As described above, in the present embodiment, the motion value W 1 that quantitatively represents the rotation angle of the waist of the golfer 7 during the swing motion is derived based on the
動作解析処理を実行するための準備として、まず、ゴルファー7にゴルフクラブ5を試打させ、その様子を距離画像センサ2により動画として撮影する。距離画像センサ2により撮影された時系列のIRフレーム及び深度フレームは、距離画像センサ2から動作解析装置1に送られる。動作解析装置1側では、第1取得部14aが、距離画像センサ2からの時系列のIRフレーム及び深度フレームを取得し、記憶部13内に格納する(ステップS1)。
As a preparation for executing the motion analysis process, first, the golfer 7 is made to try out the
また、ステップS1では、距離画像センサ2によりゴルファー7の身体の骨組みを表す時系列のスケルトンデータが計測され、このスケルトンデータが距離画像センサ2から動作解析装置1に送られる。スケルトンデータとは、人体の主要な関節の位置(三次元座標)を表すデータであり、深度フレームから導出可能である。距離画像センサの1つであるKinect(登録商標)は、深度フレームからスケルトンデータを導出し、これを深度フレームとともに出力する機能を有している。第1取得部14aは、距離画像センサ2からの時系列のスケルトンデータについても取得し、記憶部13内に格納する。なお、スケルトンデータが出力されないような距離画像センサ2が使用される場合には、第1取得部14aが、深度フレームからこれを取得するようにしてもよい。具体的には、第1取得部14aは、記憶部13内に格納されているスイング動作中の時系列の深度フレームを読み出し、これらのフレームに基づいて、スイング動作中の各タイミングでのスケルトンデータを取得する。Kinect(登録商標)には、深度画像からスケルトンデータを導出するためのライブラリが提供されており、このとき、これを使用してスケルトンデータを取得することができる。
Further, in step S1, the
続いて、導出部14cは、スイング動作中の各タイミングでの深度フレームを正規化する(ステップS2)。ここでいう正規化とは、ゴルファー7を含む被写体の深度に合わせて、深度フレームの階調のスケール変換を行う処理である。具体的には、導出部14cは、記憶部13内に格納されているスイング動作中の時系列の深度フレームを読み出す。このとき、深度フレームの画素値である深度データは、距離画像センサ2の規格に従う階調を有しており、本実施形態では、1画素に16ビットが割り当てられており、各画素は、0~65535の画素値をとる。また、距離画像センサ2の奥行き方向の撮像範囲も、距離画像センサ2の規格により定められている。一方で、ゴルファー7の腰の回転角度を推定するために、ゴルファー7以外の深度データは特に必要とされない。そのため、深度フレームの中からゴルファー7を捉えた領域(以下、人物領域という)に含まれる画素値が0~65535の範囲内の値をとるように、深度フレームの階調をスケール変換する。
Subsequently, the
距離画像センサ2の設置位置及びゴルファー7の立ち位置は、固定されている。従って、人物領域において深度データが取り得る値の範囲(以下、人物深度範囲という)が、予め設定されている。本実施形態では、導出部14cは、深度フレーム内の各画素の画素値(深度データ)を下式に従って、スケール変換する。ただし、人物深度範囲をminz~maxzとし、右辺のzを深度フレーム内の各画素の画素値とする。左辺のzは、変換後の画素値である。
以上のスケール変換は、深度フレームから人物深度範囲内の画素値を有する領域を抽出する処理である。図5は、以上のスケール変換後のある特定のタイミングでの深度フレームである。同図から分かるように、スケール変換後の深度フレーム内では、主としてゴルファー7以外を捉えた領域、すなわち、背景領域には、画素値「0」(黒色)が与えられる。その結果、以上のスケール変換により、人物領域が抽出される。なお、図6は、図5のタイミングに対応する、Kinect(登録商標)により計測されたスケルトンデータを示している。 The above scale conversion is a process of extracting a region having a pixel value within the person depth range from the depth frame. FIG. 5 is a depth frame at a specific timing after the above scale conversion. As can be seen from the figure, in the depth frame after the scale conversion, the pixel value "0" (black) is given to the region that mainly captures the region other than the golfer 7, that is, the background region. As a result, the person area is extracted by the above scale conversion. Note that FIG. 6 shows skeleton data measured by Kinect (registered trademark) corresponding to the timing of FIG.
続いて、導出部14cは、ステップS1で取得されたスケルトンデータに基づいて、ステップS2で正規化された深度フレームから、スイング動作中の各タイミングでのゴルファー7の腰の近傍の領域(以下、腰領域)を抽出する(ステップS3)。具体的には、導出部14cは、スケルトンデータから、深度フレーム内での腰の座標を取得する。そして、深度フレームから、この腰の座標を基準とする所定のサイズの領域を、腰領域として切り出す。図7は、図5のような深度フレームから切り出されたスイング動作中の時系列の腰領域の画像を示している。この例では、図5の画像は、512×214ピクセルであり、図7の画像は、腰を中心又は略中心とする128×64ピクセルの画像である。
Subsequently, the
注目される腰の動きと、肩や足、腕等の他の部位の動きとは独立的である。従って、人体全体が写っている画像に基づいてニューラルネットワークを学習すると、腰の見え方に対応した特徴の検出の精度が低下する虞がある。また、画像のサイズが大き過ぎると、ニューラルネットワークによる解析が困難になり得る。ステップS3は、ニューラルネットワークに基づいて腰の動作の特徴を精度よく検出できるように、解析の対象となる深度フレームから、腰領域を抽出している。 The movement of the hips that attracts attention is independent of the movements of other parts such as the shoulders, legs, and arms. Therefore, learning a neural network based on an image showing the entire human body may reduce the accuracy of detecting features corresponding to the appearance of the waist. Also, if the size of the image is too large, it may be difficult to analyze by the neural network. In step S3, the waist region is extracted from the depth frame to be analyzed so that the characteristics of the movement of the waist can be accurately detected based on the neural network.
続いて、導出部14cは、ステップS1で取得されたスケルトンデータに基づいて、ステップS3で取得された腰領域の画像から、スイング動作中の各タイミングでのゴルファー7の腕を表す領域(以下、腕領域)を除去する(ステップS4)。具体的には、導出部14cは、腰領域の画像から腕領域を抽出し、腕領域に含まれる画素の画素値を所定の画素値(本実施形態では、0)に設定する。腕領域の抽出は、スケルトンデータに含まれる3つの関節(本実施形態では、左肩、右肩及び左手の手首)の三次元座標に基づいて行われる。より具体的には、導出部14cは、これらの3つの関節の三次元座標を通る平面Kを導出し、腰領域の画像内の任意の点(画素)から平面Kまでの垂線距離dを導出する。なお、任意の点(画素)の三次元座標は、深度画像である腰領域の画像から取得される。また、平面K及び垂線距離dは、幾何学計算により算出することができる。次に、導出部14cは、垂線距離dが所定の範囲内に含まれるか否かを判定し、所定の範囲内に含まれる場合には、当該垂線距離dに対応する点(画素)を腕領域に含まれるものと判定し、所定の範囲外である場合には、腕領域に含まれないものと判定する。図8は、図7のスイング動作中の時系列の腰領域の画像から、腕領域を除去した画像を示している。同図では、腕領域の画素の画素値が「0」(黒色)に変換されている。
Subsequently, the
ステップS4は、後述するステップS5でニューラルネットワーク8に画像が入力されたときに、ドロップアウト層85において腕領域が無効化されるようにするための処理である。すなわち、ステップS4は、ニューラルネットワーク8に基づく解析の対象となる深度フレームから、解析の妨げとなる領域を除去するステップである。なお、本実施形態では、ステップS2においても、解析の妨げとなる領域、すなわち、背景領域が除去されている。
Step S4 is a process for invalidating the arm region in the
続くステップS5では、導出部14cは、ステップS4で取得されたスイング動作中の時系列の腰領域の画像を、順次、ニューラルネットワーク8に入力する。これにより、ニューラルネットワーク8の出力ユニットからは、順次、スイング動作を定量的に表す動作値W1、本実施形態では、ゴルファー7の腰の回転角度W1が出力される。ただし、本実施形態では、ステップS4までで取得された128×64ピクセルの画像は、64×32ピクセルのサイズまで圧縮された後、ニューラルネットワーク8へ入力される。
In the following step S5, the
続いて、導出部14cは、ステップS5で導出された回転角度W1の時系列データの平滑化及び補間を行う(ステップS6)。図9は、5点の移動平均により平滑化し、33ms間隔のデータを1ms間隔のデータに変換するスプライン補間を行った例を示している。これにより、平滑化及び補間された滑らかな回転角度W1の時系列データが取得される。
Subsequently, the
その後、表示制御部14eは、ステップS6で導出されたスイング動作中の時系列の回転角度W1及びその時系列変化、並びに図9に示すようなこれらのグラフを表示部11上に表示させる(ステップS7)。これにより、ユーザは、ゴルファー7の腰の回転の動作を把握することができる。
After that, the
<1-5.ニューラルネットワークの学習方法>
次に、図10を参照しつつ、ニューラルネットワーク8の学習方法について説明する。以下では、ニューラルネットワーク8を構築するための学習用データセットについて説明した後、当該データセットに基づく学習処理の流れについて説明する。
<1-5. Neural network learning method >
Next, the learning method of the
<1-5-1.学習用データセット>
学習用データセットは、距離画像センサ2により撮影される深度フレーム及びスケルトンデータと、当該深度フレーム及びスケルトンデータの撮影のタイミングでのゴルファー7の腰の回転角度(真値)との対のデータであり、このような学習用データセットが多数収集される。学習用データセットに含まれる回転角度(真値)は、ニューラルネットワーク8の学習時の教師信号となる。
<1-5-1. Data set for training >
The training data set is a pair of data of the depth frame and skeleton data captured by the
本実施形態では、ゴルファー7の腰の回転角度に関する教師信号は、ゴルファー7の腰に取り付けられた角速度センサ4(図1及び図2参照)により取得される。角速度センサ4により計測された角速度データは、有線又は無線の通信線を介して、角速度センサ4から動作解析装置1へ出力される。
In the present embodiment, the teacher signal regarding the rotation angle of the golfer 7's waist is acquired by the angular velocity sensor 4 (see FIGS. 1 and 2) attached to the golfer 7's waist. The angular velocity data measured by the
なお、教師信号は、ニューラルネットワーク8の学習の場面では必要とされるが、ニューラルネットワーク8に基づく動作解析の場面においては特に必要とされない。従って、ニューラルネットワーク8が学習され、記憶部13内に保存された後においては、角速度センサ4は、動作解析システム100から省略することができる。また、動作解析システム100と、ニューラルネットワーク8のモデルを構築するモデル構築システムは、異なるハードウェアにより実現することもできる。すなわち、動作解析システム100は、別のシステムで学習されたニューラルネットワーク8を取得し、これを解析に使用してもよい。ただし、本実施形態に係る動作解析システム100は、ニューラルネットワーク8のモデルを構築するモデル構築システムの役割も兼ねている。
The teacher signal is required in the learning scene of the
<1-5-2.学習処理の流れ>
次に、図10を参照しつつ、ニューラルネットワーク8の学習処理について説明する。まず、学習用データセットを取得するために、角速度センサ4を腰に取り付けたゴルファー7にゴルフクラブ5を試打させ、その様子を距離画像センサ2により動画として撮影する。このとき、好ましくは、学習の効果を高めるために、複数人のゴルファー7により多数回のスイング動作が実施される。そして、ステップS1と同様に、第1取得部14aが、距離画像センサ2から送られてくる時系列のIRフレーム、深度フレーム及びスケルトンデータを取得し、記憶部13内に格納する(ステップS21)。また、ステップS21では、スイング動作中の角速度センサ4により計測された時系列の角速度データも、動作解析装置1に送信される。そして、第2取得部14bが、この時系列の角速度データを取得し、これを時系列の腰の回転角度を表すデータ(腰の回転角度データ)に変換した後、記憶部13内に格納する。記憶部13内には、多数回のスイング動作に対応するIRフレーム、深度フレーム、スケルトンデータ及び回転角度データが格納される。このとき、IRフレーム、深度フレーム及びスケルトンデータと、回転角度データとの同期が取られ、同じタイミングでのデータは、互いに対応付けられて記憶部13内に格納される。
<1-5-2. Flow of learning process>
Next, the learning process of the
続いて、学習部14dは、ステップS21で取得された多数回のスイング動作に対応する時系列の深度フレームに対し、ステップS22~S24を実行する。ステップS22~S24は、ステップS21で取得された深度フレームから、ニューラルネットワーク8に入力されるべき図8のような腰領域の画像を切り出すステップである。なお、ステップS22~S24は、上述したステップS2~S4と同様のステップであるため、ここでは詳細な説明を省略する。
Subsequently, the
続くステップS25では、学習部14dは、ステップS24で取得された腰領域の画像を入力とし、ステップS21で取得された腰の回転角度データを教師信号として、ニューラルネットワーク8を学習させる。より具体的には、学習部14dは、腰領域の画像を現在のニューラルネットワーク8に入力し、出力値として回転角度W1を取得し、この回転角度W1と腰の回転角度データとの誤差を最小化するように、ニューラルネットワーク8のパラメータを更新する。ここでいう学習の対象となるパラメータとは、上述した重みフィルタG1,G2,・・・,GN,L1,L2,・・・,LR、重み係数ui,1,ui,2,・・・,ui,I1、重み係数v1,v2,・・・,vI2、バイアスbi,b等である。そして、このようにして、次々と学習用データセットを適用させながら、ニューラルネットワーク8を最適化してゆく。ニューラルネットワーク8の教師付き学習方法は、様々なもの公知であるため、ここでは詳細な説明を省略するが、例えば、誤差逆伝播法を用いた確率的勾配降下法を用いることができる。以上により、学習処理が終了する。
In the following step S25, the
<2.第2実施形態>
図11及び図12に、本実施形態に係る動作解析システム101の全体構成図を示す。これらの図をそれぞれ図1及び図2と比較すれば明らかなように、第2実施形態に係る動作解析システム101は、第1実施形態に係る動作解析システム100と多くの点で共通する。以下では、簡単のため、第1実施形態と共通の要素には同じ参照符号を付し、第1実施形態との相違点を中心に説明する。
<2. 2nd Embodiment>
11 and 12 show an overall configuration diagram of the
第1及び第2実施形態の主な相違点について述べると、第1実施形態では、スイング動作中のゴルファー7の腰の回転動作が定量的に解析されるのに対し、第2実施形態では、これに加えて、スイング動作中のゴルファー7の身体の体重移動及び肩の回転動作も定量的に解析される。本実施形態では、図13に示すニューラルネットワーク108により、ゴルファー7の動作を定量的に表す動作値として、ゴルファー7の身体の体重移動を表す重心移動量が定量的に導出される。重心移動量は、重心の位置を表す動作値である。また、図14に示すニューラルネットワーク208により、ゴルファー7の動作を定量的に表す動作値として、肩の回転角度が定量的に導出される。これらのニューラルネットワーク108,208も、ニューラルネットワーク8と同様に、深度画像を入力とする。以下、ニューラルネットワーク108,208のモデル構成、ニューラルネットワーク108,208に基づく動作解析方法、及びニューラルネットワーク108,208の学習方法について順に説明する。
The main differences between the first and second embodiments will be described. In the first embodiment, the rotation motion of the golfer 7's waist during the swing motion is quantitatively analyzed, whereas in the second embodiment, the rotation motion is quantitatively analyzed. In addition to this, the weight shift of the golfer 7 during the swing motion and the rotational motion of the shoulder are also quantitatively analyzed. In the present embodiment, the
<2-1.ニューラルネットワークのモデル構成>
図3と図13とを比較すれば明らかなとおり、ニューラルネットワーク8,108は、類似の構成を有する。両者の主たる相違点について述べると、ニューラルネットワーク108では、ゴルファー7の身体の重心移動量が2次元的に評価されるため、出力層88が2個の出力ユニットから構成される。一方の出力ユニットには、X方向(ゴルフボールの飛球線方向)の重心移動量を定量的に表す動作値W101が入力され、他方の出力ユニットには、Y方向(ゴルファー7の背から腹に向かう方向)の重心移動量を定量的に表す動作値W102が入力される。W101,W102は、以下の式に従って算出される。なお、下式中のv1,1,v1,2,・・・,v1,I2及びv2,1,v2,2,・・・,v2,I2は、重み係数であり、b101,b102は、バイアスである。
As is clear from comparing FIGS. 3 and 13, the
また、ニューラルネットワーク108は、ドロップアウト層85を有さないが、勿論、ドロップアウト層85を有するように構成することもできる。さらに、特徴マップのサイズや層を形成するユニット数等が、適宜変更されている。
Further, although the
また、図3と図14とを比較すれば明らかなとおり、ニューラルネットワーク8,208も、類似の構成を有する。両者の主たる相違点は、ニューラルネットワーク208がドロップアウト層85を有さないことであるが、勿論、ニューラルネットワーク208がドロップアウト層85を有するように構成することもできる。ニューラルネットワーク208の出力層88は、1個の出力ユニットから構成される。出力ユニットには、ゴルファー7の肩の回転角度を定量的に表す動作値W201が入力される。W201は、W1と同様に、数3の式に従って算出される。なお、腰の回転角度、肩の回転角度及び重心移動量を導出するためのニューラルネットワーク8,108,208の説明において、Viやbi等のように、しばしば同じ記号が用いられることがあるが、最終的に出力される解析対象が異なり、入力される画像データも異なるため、当然に各記号の表す具体的な値は異なる。
Further, as is clear from comparing FIGS. 3 and 14, the
なお、第1実施形態及び第2実施形態で開示されるニューラルネットワーク8,108,208の構成は例示である。よって、各ニューラルネットワーク8,108,208の各層を形成するユニット数や、特徴マップの数及びサイズ、フィルタの数及びサイズ等は、適宜変更することができる。
The configurations of the
<2-2.ニューラルネットワークに基づく動作解析処理>
次に、図15を参照しつつ、第2実施形態に係るゴルフスイングの動作解析処理について説明する。既に述べたとおり、ここでは、ニューラルネットワーク8に基づいて、スイング動作中のゴルファー7の腰の回転角度を定量的に表す動作値W1が導出されるとともに、ニューラルネットワーク108に基づいて、スイング動作中のゴルファー7の身体の重心移動量を定量的に表す動作値W101,W102が導出される。さらに、ニューラルネットワーク208に基づいて、スイング動作中のゴルファー7の腰の回転角度を定量的に表す動作値W201も導出される。以下、図15の処理について説明するが、図15の処理は図4の処理を含み、新たなステップS102,S103,S105,S106,S203,S205,S206も図4の処理の一部のステップに類似する。よって、以下では、図4の説明を参照しつつ、主に両処理の相違点についての説明を行う。
<2-2. Motion analysis processing based on neural network>
Next, the operation analysis process of the golf swing according to the second embodiment will be described with reference to FIG. As described above, here, the motion value W 1 that quantitatively represents the rotation angle of the golfer 7 during the swing motion is derived based on the
まず、図4の処理と同様に、ステップS1及びステップS2が実行される。すなわち、距離画像センサ2により、ゴルファー7がゴルフクラブ5をスイングする様子が撮影され、時系列のIRフレーム、深度フレーム及びスケルトンデータが取得され、動作解析装置1の記憶部13内に格納される。なお、本実施形態のステップS1では、距離画像センサ2により、深度フレームの撮像範囲内においてゴルファー7の身体の占める範囲を表す人物領域画像が作成され、この人物領域画像が距離画像センサ2から動作解析装置1に送られる。人物領域画像は、人物の占める領域とそれ以外の領域とを二値的に区別する画像であり、図16Aにされるような二値画像である。人物領域画像は、深度フレームから導出可能であり、距離画像センサの1つであるKinect(登録商標)は、深度フレームから人物領域画像を導出し、これを深度フレームとともに出力する機能を有している。第1取得部14aは、距離画像センサ2からの時系列の人物領域画像についても取得し、記憶部13内に格納する。なお、人物領域画像が出力されないような距離画像センサ2が使用される場合には、第1取得部14aが、深度フレームからこれを取得するようにしてもよい。具体的には、第1取得部14aは、記憶部13内に格納されているスイング動作中の時系列の深度フレームを読み出し、これらのフレームに基づいて、スイング動作中の各タイミングでの人物領域画像を作成する。
First, step S1 and step S2 are executed in the same manner as in the process of FIG. That is, the
続くステップS2では、深度フレームが正規化される。そして、ステップS2が終わると、図4の処理と同様にステップS3~S6が実行され、その結果、時系列の腰の回転角度W1が算出され、これに対し平滑化及びスプライン補間が実行される。一方、ステップS3~S6と並列に、時系列の身体の重心移動量W101,W102を導出するためのステップS102,S103,S105,S106と、時系列の肩の回転角度W201を導出するステップS203,S205,S206とが実行される。なお、ステップS3~S6と、ステップS102,S103,S105,S106と、ステップS203,S205,S206とは、並列に実行される必要はなく、例えば、適当な順番で順に実行されてもよい。 In the following step S2, the depth frame is normalized. Then, when step S2 is completed, steps S3 to S6 are executed in the same manner as in the process of FIG. 4, and as a result, the rotation angle W1 of the waist in the time series is calculated, and smoothing and spline interpolation are executed for this. To. On the other hand, in parallel with steps S3 to S6, steps S102, S103, S105, S106 for deriving the amount of movement of the center of gravity of the body in time series W 101, W 102 and the rotation angle W 201 of the shoulder in time series are derived. Steps S203, S205, and S206 are executed. It should be noted that steps S3 to S6, steps S102, S103, S105, and S106 and steps S203, S205, and S206 do not need to be executed in parallel, and may be executed in an appropriate order, for example.
まず、重心移動量W101,W102を導出するためのステップS102,S103,S105,S106について説明する。ステップS102では、導出部14cは、スイング動作中の各タイミングでのステップS2で正規化された深度フレームから、ゴルファー7の占める領域だけを切り取った画像(以下、切り取り画像)を作成する。上記のとおり、正規化された深度フレームは、主にゴルファー7の深度の情報のみを含む画像であるが、厳密にはゴルファー7の足元付近の地面の深度の情報も含む。ステップS102では、このような地面の深度の情報を除去するべく、ステップS1で取得された人物領域画像に基づいて、ステップS2で正規化された深度フレームから、ゴルファー7の占める領域だけを切り取る。図16Bは、図5に示す正規化された深度フレームから、図16Aの人物領域画像を用いて作成された切り取り画像を示している。
First, steps S102, S103, S105, and S106 for deriving the center of gravity movement amounts W 101 and W 102 will be described. In step S102, the
続くステップS103では、導出部14cは、ステップS1で取得されたスケルトンデータに基づいて、切り取り画像から、ゴルファー7の近傍の領域(以下、ゴルファー領域)を抽出する。具体的には、導出部14cは、スケルトンデータから、深度フレーム内での鳩尾の座標を取得する。そして、深度フレームから、この鳩尾の座標を基準とする所定のサイズの領域を、ゴルファー領域として切り出す。図17の左側の画像は、鳩尾を基準とするゴルファー領域の設定方法の例を示しており、図17の右側の画像は、この設定方法の例に従って、図16Bの切り取り画像から切り出されたゴルファー領域の画像を示している。
In the following step S103, the
身体の重心の位置を評価しようとするとき、地面の情報は不要となり得る。従って、地面の深度の情報を含む画像に基づいてニューラルネットワークを学習すると、重心の検出の精度が低下する虞がある。また、画像のサイズが大き過ぎると、ニューラルネットワークによる解析が困難になり得る。ステップS102,S103は、ニューラルネットワークに基づいて身体の重心の位置を精度よく検出できるように、解析の対象となる深度フレームから、ゴルファー領域を抽出している。 Information on the ground may not be needed when trying to assess the position of the center of gravity of the body. Therefore, learning a neural network based on an image containing information on the depth of the ground may reduce the accuracy of detecting the center of gravity. Also, if the size of the image is too large, it may be difficult to analyze by the neural network. In steps S102 and S103, the golfer region is extracted from the depth frame to be analyzed so that the position of the center of gravity of the body can be accurately detected based on the neural network.
続くステップS105では、導出部14cは、ステップS103で取得されたスイング動作中の時系列のゴルファー領域の画像を、順次、ニューラルネットワーク108に入力する。これにより、ニューラルネットワーク108の出力ユニットからは、順次、スイング動作中の時系列のゴルファー7の身体の重心移動量W101,W102が出力される。ただし、本実施形態では、ステップS103までで取得された348×192ピクセルの画像は、最近傍補間等により116×64ピクセルのサイズまで圧縮された後、ニューラルネットワーク108へ入力される。
In the following step S105, the
続いて、導出部14cは、ステップS105で導出された重心移動量W101,W102の時系列データの平滑化及び補間を行う(ステップS106)。図18A及び図18Bは、それぞれ重心移動量W101,W102の時系列データを5点の移動平均により平滑化し、33ms間隔のデータを1ms間隔のデータに変換するスプライン補間を行った例を示している。これにより、滑らかな重心移動量W101,W102の時系列データが取得される。図18Cは、X方向及びY方向の重心移動量W101,W102を組み合わせて作成した、平面視における身体の重心の軌跡のグラフである。
Subsequently, the
次に、肩の回転角度W201を導出するためのステップS203,S205,S206について説明する。まず、導出部14cは、ステップS1で取得されたスケルトンデータに基づいて、ステップS2で正規化された深度フレームから、スイング動作中の各タイミングでのゴルファー7の肩の近傍の領域(以下、肩領域)を抽出する(ステップS203)。具体的には、導出部14cは、スケルトンデータから深度フレーム内での両肩の座標を取得し、両肩の中央(以下、肩中央)の座標を特定する。そして、深度フレームから、この肩中央の座標を基準とする所定のサイズの領域を、肩領域として切り出す。図19の左側の画像は、肩中央を基準とする肩領域の設定方法の例を示しており、図19の右側の画像は、この設定方法の例に従って、図16Bの切り取り画像から又は図5のような深度フレームから切り出された肩領域の画像を示している。
Next, steps S203, S205, and S206 for deriving the shoulder rotation angle W 201 will be described. First, the
注目される肩の動きと、腰や足、腕等の他の部位の動きとは独立的である。従って、人体全体が写っている画像に基づいてニューラルネットワークを学習すると、肩の見え方に対応した特徴の検出の精度が低下する虞がある。また、画像のサイズが大き過ぎると、ニューラルネットワークによる解析が困難になり得る。ステップS203は、ニューラルネットワークに基づいて肩の動作の特徴を精度よく検出できるように、解析の対象となる深度フレームから、肩領域を抽出している。 The movement of the shoulder that is noticed is independent of the movement of other parts such as the waist, legs, and arms. Therefore, learning a neural network based on an image showing the entire human body may reduce the accuracy of detecting features corresponding to the appearance of the shoulder. Also, if the size of the image is too large, it may be difficult to analyze by the neural network. In step S203, the shoulder region is extracted from the depth frame to be analyzed so that the characteristics of the shoulder movement can be accurately detected based on the neural network.
続くステップS205では、導出部14cは、ステップS203で取得されたスイング動作中の時系列の肩領域の画像を、順次、ニューラルネットワーク208に入力する。これにより、ニューラルネットワーク208の出力ユニットからは、順次、ゴルファー7の肩の回転角度W201が出力される。ただし、本実施形態では、ステップS203までで取得された128×64ピクセルの画像は、最近傍補間等により64×32ピクセルのサイズまで圧縮された後、ニューラルネットワーク208へ入力される。
In the following step S205, the
続いて、導出部14cは、ステップS205で導出された肩の回転角度W201の時系列データの平滑化及び補間を行う(ステップS206)。図20は、肩の回転角度W201の時系列データを5点の移動平均により平滑化し、33ms間隔のデータを1ms間隔のデータに変換するスプライン補間を行った例を示している。これにより、滑らかな肩の回転角度W201の時系列データが取得される。
Subsequently, the
その後、表示制御部14eは、ステップS6で導出されたスイング動作中の時系列の腰の回転角度W1及びその時系列変化、並びに図9に示すようなグラフを表示部11上に表示させる(ステップS7)。また、本実施形態のステップS7では、表示制御部14eは、ステップS106で導出されたスイング動作中の時系列の身体の重心移動量W101,W102及びその時系列変化、並びに図18A~18Cに示すようなグラフを表示部11上に表示させる。さらに、表示制御部14eは、ステップS206で導出されたスイング動作中の時系列の肩の回転角度W201及びその時系列変化、並びに図20に示すようなグラフを表示部11上に表示させる。これにより、ユーザは、ゴルファー7の腰及び肩の回転の動作、並びにゴルファー7の体重移動を詳細に把握することができる。
After that, the
<2-3.ニューラルネットワークの学習方法>
次に、図21及び図22を参照しつつ、ニューラルネットワーク108,208の学習方法について説明する。以下では、ニューラルネットワーク108,208のそれぞれを構築するための学習用データセットについて説明するとともに、各データセットに基づく学習処理の流れについて説明する。
<2-3. Neural network learning method >
Next, the learning method of the
<2-3-1.学習用データセット(身体の重心移動量)>
ニューラルネットワーク108を構築するための学習用データセットは、距離画像センサ2により取得される深度フレーム、スケルトンデータ及び人物領域画像と、これらが取得されるタイミングでのゴルファー7の重心移動量(真値)との対のデータであり、このような学習用データセットが多数収集される。学習用データセットに含まれる重心移動量(真値)は、ニューラルネットワーク108の学習時の教師信号となる。
<2-3-1. Data set for learning (movement of the center of gravity of the body)>
The training data set for constructing the
本実施形態では、ゴルファー7の重心移動量に関する教師信号は、ゴルファー7の足元に設置される床反力計104(図11及び図12参照)の出力値(床反力データ)に基づいて取得される。床反力計104は、左右一対のフォースプレート104L,104Rから構成される。ゴルフスイング時、ゴルファー7はフォースプレート104L,104R上に乗る。このとき、ゴルファー7の左足はフォースプレート104L上に位置決めされ、右足はフォースプレート104R上に位置決めされる。
In the present embodiment, the teacher signal regarding the amount of movement of the center of gravity of the golfer 7 is acquired based on the output value (floor reaction force data) of the floor reaction force meter 104 (see FIGS. 11 and 12) installed at the foot of the golfer 7. Will be done. The floor
フォースプレート104L,104Rは、各々、複数の力センサ121を有する。力センサ121は、フォースプレート104L,104Rの板状のケース内に分散して配置され(例えば、四隅に配置され)、ゴルファー7の体重を受け取ってフォースプレート104L,104R上に作用する床反力を検出する。フォースプレート104L,104Rは、動作解析装置1に通信接続されており、力センサ121より検出された床反力データは、有線又は無線の通信線を介して、フォースプレート104L,104Rから動作解析装置1へ出力される。
The
なお、ニューラルネットワーク108が学習され、記憶部13内に保存された後においては、床反力計104は、動作解析システム101から省略することができる。また、動作解析システム101と、ニューラルネットワーク108のモデルを構築するモデル構築システムは、異なるハードウェアにより実現することもできる。
After the
<2-3-2.学習処理の流れ(身体の重心移動量)>
次に、図21を参照しつつ、ニューラルネットワーク108の学習処理について説明する。まず、ニューラルネットワーク108を構築するための学習用データセットを取得するために、床反力計104上に乗ったゴルファー7にゴルフクラブ5を試打させ、その様子を距離画像センサ2により動画として撮影する。このとき、好ましくは、学習の効果を高めるために、複数人のゴルファー7により多数回のスイング動作が実施される。そして、ステップS1と同様に、第1取得部14aが、距離画像センサ2から送られてくる時系列のIRフレーム、深度フレーム、スケルトンデータ及び人物領域画像を取得し、記憶部13内に格納する(ステップS121)。また、ステップS121では、床反力計104により計測された時系列の床反力データも、動作解析装置1に送信される。そして、第2取得部14bが、この時系列の床反力データに基づいて、ゴルファー7の身体の重心移動量のデータ(以下、重心位置データ)を取得し、記憶部13内に格納する。このとき、IRフレーム、深度フレーム、スケルトンデータ及び人物領域画像と、重心位置データとの同期が取られ、同じタイミングでのデータは、互いに対応付けられて記憶部13内に格納される。
<2-3-2. Flow of learning process (movement of the center of gravity of the body)>
Next, the learning process of the
続いて、学習部14dは、ステップS121で取得された多数回のスイング動作に対応する時系列の深度フレームに対し、ステップS122,S132,S133を実行する。ステップS122,S132,S133は、ステップS121で取得された深度フレームから、ニューラルネットワーク108に入力されるべきゴルファー領域の画像を切り出すステップである。なお、ステップS122,S132,S133は、上述したステップS2,S102,S103と同様のステップであるため、ここでは詳細な説明を省略する。
Subsequently, the
続くステップS135では、学習部14dは、ステップS133で取得されたゴルファー領域の画像を入力とし、ステップS121で取得された重心位置データを教師信号として、ニューラルネットワーク108を学習させる。より具体的には、学習部14dは、ゴルファー領域の画像を現在のニューラルネットワーク108に入力し、出力値として重心移動量W101,W102を取得し、この重心移動量W101,W102と重心位置データとの誤差を最小化するように、ニューラルネットワーク108のパラメータを更新する。ここでいう学習の対象となるパラメータとは、上述した重みフィルタG1,G2,・・・,GN,L1,L2,・・・,LR、重み係数ui,1,ui,2,・・・,ui,I1、v1,1,v1,2,・・・,v1,I2及びv2,1,v2,2,・・・,v2,I2、バイアスbi,b101,b102等である。そして、このようにして、次々と学習用データセットを適用させながら、ニューラルネットワーク108を最適化してゆく。ニューラルネットワーク108の教師付き学習方法は、様々なもの公知であるため、ここでは詳細な説明を省略するが、例えば、誤差逆伝播法を用いた確率的勾配降下法を用いることができる。以上により、学習処理が終了する。
In the following step S135, the
<2-3-3.学習用データセット(肩の回転角度)>
ニューラルネットワーク208を構築するための学習用データセットは、距離画像センサ2により取得される深度フレーム及びスケルトンデータと、これらが取得されるタイミングでのゴルファー7の肩の回転角度(真値)との対のデータであり、このような学習用データセットが多数収集される。学習用データセットに含まれる肩の回転角度(真値)は、ニューラルネットワーク208の学習時の教師信号となる。
<2-3-3. Data set for learning (shoulder rotation angle)>
The training data set for constructing the
本実施形態では、ゴルファー7の肩の回転角度に関する教師信号は、ゴルファー7の肩中央に取り付けられた角速度センサ204(図11及び図12参照)により取得される。角速度センサ204により計測された角速度データは、有線又は無線の通信線を介して、角速度センサ204から動作解析装置1へ出力される。
In the present embodiment, the teacher signal regarding the rotation angle of the shoulder of the golfer 7 is acquired by the angular velocity sensor 204 (see FIGS. 11 and 12) attached to the center of the shoulder of the golfer 7. The angular velocity data measured by the
なお、ニューラルネットワーク208が学習され、記憶部13内に保存された後においては、角速度センサ204は、動作解析システム101から省略することができる。また、動作解析システム101と、ニューラルネットワーク208のモデルを構築するモデル構築システムは、異なるハードウェアにより実現することもできる。
After the
<2-3-4.学習処理の流れ(肩の回転角度)>
図22は、ニューラルネットワーク208の学習処理の流れを示すフローチャートである。まず、ニューラルネットワーク208を構築するための学習用データセットを取得するために、角速度センサ204を肩に取り付けたゴルファー7にゴルフクラブ5を試打させ、その様子を距離画像センサ2により動画として撮影する。このとき、好ましくは、学習の効果を高めるために、複数人のゴルファー7により多数回のスイング動作が実施される。そして、ステップS1と同様に、第1取得部14aが、距離画像センサ2から送られてくる時系列のIRフレーム、深度フレーム及びスケルトンデータを取得し、記憶部13内に格納する(ステップS221)。また、ステップS221では、スイング動作中の角速度センサ204により計測された時系列の角速度データも、動作解析装置1に送信される。そして、第2取得部14bが、この時系列の角速度データを取得し、これを時系列の肩の回転角度を表すデータ(肩の回転角度データ)に変換した後、記憶部13内に格納する。記憶部13内には、多数回のスイング動作に対応するIRフレーム、深度フレーム、スケルトンデータ及び肩の回転角度データが格納される。このとき、IRフレーム、深度フレーム及びスケルトンデータと、回転角度データとの同期が取られ、同じタイミングでのデータは、互いに対応付けられて記憶部13内に格納される。
<2-3-4. Flow of learning process (shoulder rotation angle)>
FIG. 22 is a flowchart showing the flow of the learning process of the
続いて、学習部14dは、ステップS221で取得された多数回のスイング動作に対応する時系列の深度フレームに対し、ステップS222,S223を実行する。ステップS222,S223は、ステップS221で取得された深度フレームから、ニューラルネットワーク208に入力されるべき図19に示されるような肩領域の画像を切り出すステップである。なお、ステップS222,S223は、上述したステップS2,S203と同様のステップであるため、ここでは詳細な説明を省略する。
Subsequently, the
続くステップS225では、学習部14dは、ステップS223で取得された肩領域の画像を入力とし、ステップS221で取得された肩の回転角度データを教師信号として、ニューラルネットワーク208を学習させる。より具体的には、学習部14dは、肩領域の画像を現在のニューラルネットワーク208に入力し、出力値として肩の回転角度W201を取得し、この肩の回転角度W201と肩の回転角度データとの誤差を最小化するように、ニューラルネットワーク208のパラメータを更新する。ここでいう学習の対象となるパラメータとは、上述した重みフィルタG1,G2,・・・,GN,L1,L2,・・・,LR、重み係数ui,1,ui,2,・・・,ui,I1、重み係数v1,v2,・・・,vI2、バイアスbi,b等である。そして、このようにして、次々と学習用データセットを適用させながら、ニューラルネットワーク208を最適化してゆく。ニューラルネットワーク208の教師付き学習方法は、様々なもの公知であるため、ここでは詳細な説明を省略するが、例えば、誤差逆伝播法を用いた確率的勾配降下法を用いることができる。以上により、学習処理が終了する。
In the following step S225, the
<3.変形例>
以上、本発明のいくつかの実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、その趣旨を逸脱しない限りにおいて、種々の変更が可能である。例えば、以下の変更が可能である。また、以下の変形例の要旨は、適宜組み合わせることができる。
<3. Modification example>
Although some embodiments of the present invention have been described above, the present invention is not limited to the above embodiments, and various modifications can be made without departing from the spirit of the present invention. For example, the following changes are possible. In addition, the gist of the following modifications can be combined as appropriate.
<3-1>
動作解析処理において導出される動作値は、注目部位の回転角度や位置(座標)に限られず、例えば、回転速度、回転加速度等であってもよいし、速度及び加速度等であってもよい。また、注目部位も、ゴルファー7の腰、肩及び重心に限らず、ゴルファー7の腕、頭等であってもよい。また、ゴルフスイングに限らず、任意の対象の任意の動作を解析することもできる。
<3-1>
The motion value derived in the motion analysis process is not limited to the rotation angle and position (coordinates) of the region of interest, and may be, for example, a rotation speed, a rotation acceleration, or the like, or may be a speed, an acceleration, or the like. Further, the region of interest is not limited to the waist, shoulders and center of gravity of the golfer 7, and may be the arm, head, or the like of the golfer 7. Further, not only the golf swing but also any movement of any object can be analyzed.
<3-2>
距離画像センサは、深度画像のみを撮影するものであってもよいし、IR画像に代えてカラー画像を撮影するものであってもよい。後者の場合、距離画像センサには、可視光を受光する可視光受光部(例えば、RGBカメラ)を搭載すればよい。
<3-2>
The distance image sensor may capture only a depth image, or may capture a color image instead of an IR image. In the latter case, the distance image sensor may be equipped with a visible light receiving unit (for example, an RGB camera) that receives visible light.
<3-3>
第1実施形態では、腰の回転角度が算出され、第2実施形態では、腰の回転角度、肩の回転角度及び重心移動量が算出された。しかしながら、腰の回転角度、肩の回転角度及び重心移動量の3つの中から任意に選択される1又は複数の要素を算出するようにすることができる。例えば、腰の回転角度及び肩の回転角度のみを算出してもよいし、肩の回転角度及び重心移動量のみを算出してもよい。
<3-3>
In the first embodiment, the rotation angle of the waist was calculated, and in the second embodiment, the rotation angle of the waist, the rotation angle of the shoulder, and the amount of movement of the center of gravity were calculated. However, it is possible to calculate one or more elements arbitrarily selected from the three of the rotation angle of the waist, the rotation angle of the shoulder, and the amount of movement of the center of gravity. For example, only the rotation angle of the waist and the rotation angle of the shoulder may be calculated, or only the rotation angle of the shoulder and the amount of movement of the center of gravity may be calculated.
1 動作解析装置(モデル構築装置)
2 距離画像センサ
3 動作解析プログラム
4,204 角速度センサ
104 床反力計
5 ゴルフクラブ
7 ゴルファー(物体)
8,108,208 ニューラルネットワーク
81 識別層
82 特徴抽出部
83A,84A 畳み込み層
85 ドロップアウト層
14a 第1取得部(取得部)
14b 第2取得部
14c 導出部
14d 学習部
100,101 動作解析システム
1 Motion analysis device (model construction device)
2
8,108,208
14b
Claims (21)
前記物体の動作を距離画像センサにより撮影した深度画像を取得する取得部と、
前記物体の動作を定量的に表す動作値を出力とするニューラルネットワークに、前記取得部により取得された前記深度画像を入力することにより、前記動作値を導出する導出部と
を備え、
前記深度画像は、ゴルフスイングを撮影した画像である、
動作解析装置。 It is a motion analysis device for analyzing the motion of an object.
An acquisition unit that acquires a depth image of the movement of the object taken by a distance image sensor, and
A neural network that outputs an operation value that quantitatively represents the operation of the object is provided with a derivation unit that derives the operation value by inputting the depth image acquired by the acquisition unit .
The depth image is an image of a golf swing.
Motion analysis device.
請求項1に記載の動作解析装置。 The operation value is the rotation angle of the golfer's waist.
The motion analysis device according to claim 1 .
前記導出部は、前記スケルトンデータに基づいて、前記深度画像から前記腰の近傍の腰領域を抽出した後、前記腰領域の画像を前記ニューラルネットワークに入力する、
請求項2に記載の動作解析装置。 The acquisition unit further acquires skeleton data representing the skeleton of the human body measured by the distance image sensor.
The derivation unit extracts the waist region near the waist from the depth image based on the skeleton data, and then inputs the image of the waist region to the neural network.
The motion analysis device according to claim 2 .
請求項2又は3に記載の動作解析装置。 The neural network has a dropout layer that nullifies the arm region representing the golfer's arm from the depth image.
The motion analysis device according to claim 2 or 3 .
請求項1に記載の動作解析装置。 The operation value is a value representing the weight shift of the golfer.
The motion analysis device according to claim 1 .
前記導出部は、前記スケルトンデータに基づいて、前記深度画像から前記ゴルファーの近傍のゴルファー領域を抽出した後、前記ゴルファー領域の画像を前記ニューラルネットワークに入力する、
請求項5に記載の動作解析装置。 The acquisition unit further acquires skeleton data representing the skeleton of the human body measured by the distance image sensor.
The derivation unit extracts a golfer region in the vicinity of the golfer from the depth image based on the skeleton data, and then inputs the image of the golfer region to the neural network.
The motion analysis device according to claim 5 .
請求項1に記載の動作解析装置。 The operation value is the rotation angle of the golfer's shoulder.
The motion analysis device according to claim 1 .
前記導出部は、前記スケルトンデータに基づいて、前記深度画像から前記肩の近傍の肩領域を抽出した後、前記肩領域の画像を前記ニューラルネットワークに入力する、
請求項7に記載の動作解析装置。 The acquisition unit further acquires skeleton data representing the skeleton of the human body measured by the distance image sensor.
The derivation unit extracts a shoulder region in the vicinity of the shoulder from the depth image based on the skeleton data, and then inputs the image of the shoulder region to the neural network.
The motion analysis device according to claim 7 .
請求項1から8のいずれかに記載の動作解析装置。 The neural network has a convolution layer.
The motion analysis device according to any one of claims 1 to 8 .
前記導出部は、前記ニューラルネットワークに前記時系列の深度画像を入力することにより、時系列の前記動作値を導出する、
請求項1から9のいずれかに記載の動作解析装置。 The acquisition unit acquires the depth image in time series and obtains the depth image.
The derivation unit derives the operation value of the time series by inputting the depth image of the time series into the neural network.
The motion analysis device according to any one of claims 1 to 9 .
前記導出部は、前記スケルトンデータに基づいて、前記深度画像から前記物体の注目部位の近傍の注目領域を抽出した後、前記注目領域の画像を前記ニューラルネットワークに入力する、
請求項1、9及び10のいずれかに記載の動作解析装置。 The acquisition unit further acquires skeleton data representing the skeleton of the human body measured by the distance image sensor.
The derivation unit extracts a region of interest in the vicinity of the region of interest of the object from the depth image based on the skeleton data, and then inputs the image of the region of interest to the neural network.
The motion analysis device according to any one of claims 1, 9 and 10 .
請求項1及び9~11のいずれかに記載の動作解析装置。 The neural network has a dropout layer that nullifies non-focused areas representing unfocused parts of the object from the depth image.
The operation analysis device according to any one of claims 1 and 9 to 11 .
前記物体の動作を距離画像センサにより撮影した深度画像を取得する取得部と、 An acquisition unit that acquires a depth image of the movement of the object taken by a distance image sensor, and
前記物体の動作を定量的に表す動作値を出力とするニューラルネットワークに、前記取得部により取得された前記深度画像を入力することにより、前記動作値を導出する導出部と A derivation unit that derives the operation value by inputting the depth image acquired by the acquisition unit into a neural network that outputs an operation value that quantitatively represents the operation of the object.
を備え、Equipped with
前記ニューラルネットワークは、前記深度画像から前記物体の注目していない部位を表す非注目領域を無効化するドロップアウト層を有する、 The neural network has a dropout layer that nullifies non-focused areas representing unfocused parts of the object from the depth image.
動作解析装置。Motion analysis device.
前記物体の動作を距離画像センサにより撮影した多数の深度画像を取得する第1取得部と、
前記多数の深度画像にそれぞれ対応する、前記物体の動作を定量的に表す多数の動作値を取得する第2取得部と、
前記第1取得部により取得された前記多数の深度画像に基づいて、前記第2取得部により取得された前記多数の動作値を教師信号として、前記深度画像を入力とし、前記動作値を出力とするニューラルネットワークを学習する学習部と
を備え、
前記第2取得部は、前記物体に取り付けられた角速度センサの出力値から前記物体の回転角度を表す前記多数の動作値を取得する、
モデル構築装置。 A model building device that builds a model for analyzing the movement of an object.
A first acquisition unit that acquires a large number of depth images obtained by capturing the movement of the object with a distance image sensor, and
A second acquisition unit that acquires a large number of motion values that quantitatively represent the motion of the object, respectively, corresponding to the large number of depth images.
Based on the large number of depth images acquired by the first acquisition unit, the large number of operation values acquired by the second acquisition unit are used as a teacher signal, the depth image is input, and the operation value is output. Equipped with a learning unit to learn neural networks
The second acquisition unit acquires a large number of operation values representing the rotation angle of the object from the output values of the angular velocity sensor attached to the object.
Model building equipment.
前記物体の動作を距離画像センサにより撮影した多数の深度画像を取得する第1取得部と、
前記多数の深度画像にそれぞれ対応する、前記物体の動作を定量的に表す多数の動作値を取得する第2取得部と、
前記第1取得部により取得された前記多数の深度画像に基づいて、前記第2取得部により取得された前記多数の動作値を教師信号として、前記深度画像を入力とし、前記動作値を出力とするニューラルネットワークを学習する学習部と
を備え、
前記第2取得部は、前記物体が乗る床反力計の出力値から前記物体の重心の位置を表す前記多数の動作値を取得する、
モデル構築装置。 A model building device that builds a model for analyzing the movement of an object.
A first acquisition unit that acquires a large number of depth images obtained by capturing the movement of the object with a distance image sensor, and
A second acquisition unit that acquires a large number of motion values that quantitatively represent the motion of the object, respectively, corresponding to the large number of depth images.
Based on the large number of depth images acquired by the first acquisition unit, the large number of operation values acquired by the second acquisition unit are used as a teacher signal, the depth image is input, and the operation value is output. With a learning unit that learns neural networks
Equipped with
The second acquisition unit acquires a large number of operation values representing the position of the center of gravity of the object from the output value of the floor reaction force meter on which the object rides.
Model building equipment.
前記物体の動作を捉えた深度画像を撮影する距離画像センサと、
前記物体の動作を定量的に表す動作値を出力とするニューラルネットワークに、前記距離画像センサにより撮影された前記深度画像を入力することにより、前記動作値を導出する動作解析装置と
を備え、
前記深度画像は、ゴルフスイングを撮影した画像である、
システム。 It is a motion analysis system for analyzing the motion of an object.
A distance image sensor that captures a depth image that captures the movement of the object,
A neural network that outputs an operation value that quantitatively represents the operation of the object is provided with an operation analysis device that derives the operation value by inputting the depth image taken by the distance image sensor .
The depth image is an image of a golf swing.
system.
前記物体の動作を捉えた深度画像を撮影する距離画像センサと、 A distance image sensor that captures a depth image that captures the movement of the object,
前記物体の動作を定量的に表す動作値を出力とするニューラルネットワークに、前記距離画像センサにより撮影された前記深度画像を入力することにより、前記動作値を導出する動作解析装置と An motion analysis device that derives the motion value by inputting the depth image captured by the distance image sensor into a neural network that outputs an motion value that quantitatively represents the motion of the object.
を備え、Equipped with
前記ニューラルネットワークは、前記深度画像から前記物体の注目していない部位を表す非注目領域を無効化するドロップアウト層を有する、 The neural network has a dropout layer that nullifies non-focused areas representing unfocused parts of the object from the depth image.
システム。system.
距離画像センサにより前記物体の動作を捉えた深度画像を撮影するステップと、
前記物体の動作を定量的に表す動作値を出力とするニューラルネットワークに、前記距離画像センサにより撮影された前記深度画像を入力することにより、前記動作値を導出するステップと
を含み、
前記深度画像は、ゴルフスイングを撮影した画像である、
動作解析方法。 It is a motion analysis method for analyzing the motion of an object.
A step of taking a depth image that captures the movement of the object with a distance image sensor,
A step of deriving the motion value by inputting the depth image captured by the distance image sensor into a neural network that outputs an motion value that quantitatively represents the motion of the object is included.
The depth image is an image of a golf swing.
Motion analysis method.
距離画像センサにより前記物体の動作を捉えた深度画像を撮影するステップと、 A step of taking a depth image that captures the movement of the object with a distance image sensor,
前記物体の動作を定量的に表す動作値を出力とするニューラルネットワークに、前記距離画像センサにより撮影された前記深度画像を入力することにより、前記動作値を導出するステップと A step of deriving the motion value by inputting the depth image captured by the distance image sensor into a neural network that outputs an motion value that quantitatively represents the motion of the object.
を含み、Including
前記ニューラルネットワークは、前記深度画像から前記物体の注目していない部位を表す非注目領域を無効化するドロップアウト層を有する、 The neural network has a dropout layer that nullifies non-focused areas representing unfocused parts of the object from the depth image.
動作解析方法。Motion analysis method.
前記物体の動作を距離画像センサにより撮影した深度画像を取得するステップと、
前記物体の動作を定量的に表す動作値を出力とするニューラルネットワークに、前記取得された深度画像を入力することにより、前記動作値を導出するステップと
をコンピュータに実行させ、
前記深度画像は、ゴルフスイングを撮影した画像である、
動作解析プログラム。 A motion analysis program for analyzing the motion of an object.
A step of acquiring a depth image of the movement of the object taken by a distance image sensor, and
By inputting the acquired depth image into a neural network that outputs an operation value that quantitatively represents the operation of the object, a computer is made to execute a step of deriving the operation value .
The depth image is an image of a golf swing.
Motion analysis program.
前記物体の動作を距離画像センサにより撮影した深度画像を取得するステップと、 A step of acquiring a depth image of the movement of the object taken by a distance image sensor, and
前記物体の動作を定量的に表す動作値を出力とするニューラルネットワークに、前記取得された深度画像を入力することにより、前記動作値を導出するステップと A step of deriving the motion value by inputting the acquired depth image into a neural network that outputs an motion value that quantitatively represents the motion of the object.
をコンピュータに実行させ、Let the computer run
前記ニューラルネットワークは、前記深度画像から前記物体の注目していない部位を表す非注目領域を無効化するドロップアウト層を有する、 The neural network has a dropout layer that nullifies non-focused areas representing unfocused parts of the object from the depth image.
動作解析プログラム。Motion analysis program.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016156842 | 2016-08-09 | ||
| JP2016156842 | 2016-08-09 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018026131A JP2018026131A (en) | 2018-02-15 |
| JP7057959B2 true JP7057959B2 (en) | 2022-04-21 |
Family
ID=61195290
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017153215A Active JP7057959B2 (en) | 2016-08-09 | 2017-08-08 | Motion analysis device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7057959B2 (en) |
Families Citing this family (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6904651B2 (en) * | 2018-02-20 | 2021-07-21 | Kddi株式会社 | Programs, devices and methods that recognize a person's behavior using multiple recognition engines |
| JP6544551B1 (en) * | 2018-03-25 | 2019-07-17 | 柏熊 誠治 | Swing determination device, swing determination method, and program. |
| CN109325972B (en) * | 2018-07-25 | 2020-10-27 | 深圳市商汤科技有限公司 | Laser radar sparse depth map processing method, device, equipment and medium |
| CN120199456A (en) * | 2018-09-10 | 2025-06-24 | 京瓷株式会社 | Estimation device, estimation method, and system |
| JP7014304B2 (en) * | 2018-10-22 | 2022-02-01 | 富士通株式会社 | Recognition method, recognition program, recognition device and learning method |
| JP7241517B2 (en) * | 2018-12-04 | 2023-03-17 | 三菱電機株式会社 | Navigation device, navigation parameter calculation method and program |
| JP6737368B1 (en) * | 2019-03-20 | 2020-08-05 | 株式会社タダノ | crane |
| JP7344510B2 (en) | 2019-11-05 | 2023-09-14 | テンソル・コンサルティング株式会社 | Motion analysis system, motion analysis method, and motion analysis program |
| US20210185284A1 (en) * | 2019-12-13 | 2021-06-17 | Sony Semiconductor Solutions Corporation | EBS/ToF/RGB CAMERA FOR SMART SURVEILLANCE AND INTRUDER DETECTION |
| JP7482471B2 (en) * | 2019-12-23 | 2024-05-14 | 住友ゴム工業株式会社 | How to generate a learning model |
| WO2021241676A1 (en) * | 2020-05-28 | 2021-12-02 | 学校法人慶應義塾 | Movement analysis device, system, storage medium, and rehabilitation system |
| CN111685773B (en) * | 2020-06-04 | 2024-04-09 | 北京荟健科技有限公司 | Pregnant woman movement monitoring method, pregnant woman movement monitoring device, computer equipment and storage medium |
| US11514605B2 (en) * | 2020-09-29 | 2022-11-29 | International Business Machines Corporation | Computer automated interactive activity recognition based on keypoint detection |
| JP7555802B2 (en) * | 2020-11-27 | 2024-09-25 | ブリヂストンスポーツ株式会社 | Estimation device and estimation method |
| CN118159187A (en) * | 2021-08-26 | 2024-06-07 | 株式会社CaTe | Program, information processing device, and information processing method |
| CN114504777B (en) * | 2022-04-19 | 2022-07-15 | 西南石油大学 | Exercise Intensity Calculation System and Method Based on Neural Network and Fuzzy Comprehensive Evaluation |
| JP7496858B2 (en) * | 2022-08-08 | 2024-06-07 | 基礎地盤コンサルタンツ株式会社 | Particle size distribution prediction device, machine learning device, particle size distribution prediction method, and machine learning method |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004164563A (en) | 2002-09-26 | 2004-06-10 | Toshiba Corp | Image analysis method, image analysis device, image analysis program |
| JP2014521139A (en) | 2011-06-27 | 2014-08-25 | シュン・ヘン・チャン | How to analyze sports motion video |
| WO2015033576A1 (en) | 2013-09-06 | 2015-03-12 | 日本電気株式会社 | Security system, security method, and non-temporary computer-readable medium |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH06147895A (en) * | 1992-11-10 | 1994-05-27 | Fujitsu Ltd | Position measuring equipment for object |
-
2017
- 2017-08-08 JP JP2017153215A patent/JP7057959B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004164563A (en) | 2002-09-26 | 2004-06-10 | Toshiba Corp | Image analysis method, image analysis device, image analysis program |
| JP2014521139A (en) | 2011-06-27 | 2014-08-25 | シュン・ヘン・チャン | How to analyze sports motion video |
| WO2015033576A1 (en) | 2013-09-06 | 2015-03-12 | 日本電気株式会社 | Security system, security method, and non-temporary computer-readable medium |
Non-Patent Citations (2)
| Title |
|---|
| Ayan Sinha et al,DeepHand: Robust Hand Pose Estimation by Completing a Matrix Imputed with Deep Features,2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),米国,IEEE,2016年06月30日,4150-4158,https://ieeexplore.ieee.org/document/7780819 |
| 渡辺 嘉二郎 他,スポーツを支える計測・情報システム,計測と制御,日本,社団法人計測自動制御学会,1999年04月10日,第38巻 第4号,249~254 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2018026131A (en) | 2018-02-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7057959B2 (en) | Motion analysis device | |
| US11747898B2 (en) | Method and apparatus with gaze estimation | |
| JP6116784B1 (en) | 3D model generation system, 3D model generation method, and program | |
| CN113850865A (en) | Human body posture positioning method and system based on binocular vision and storage medium | |
| CN112434679B (en) | Rehabilitation exercise evaluation method and device, equipment and storage medium | |
| US20210286983A1 (en) | Estimation method, and computer-readable recording medium recording estimation program | |
| CN113609999B (en) | Human body model building method based on gesture recognition | |
| WO2024060978A1 (en) | Key point detection model training method and apparatus and virtual character driving method and apparatus | |
| KR20180110443A (en) | Apparatus and method for providing calorie information | |
| US20250037482A1 (en) | Method and apparatus for optical detection and analysis in a movement environment | |
| KR101636171B1 (en) | Skeleton tracking method and keleton tracking system using the method | |
| CN112438722A (en) | Method and apparatus for evaluating muscle degeneration and storage medium | |
| JP7480001B2 (en) | Learning device, processing device, learning method, posture detection model, program, and storage medium | |
| Chamola et al. | Advancements in Yoga Pose Estimation Using Artificial Intelligence: A Survey | |
| CN113111743A (en) | Personnel distance detection method and device | |
| JP6525179B1 (en) | Behavior estimation device | |
| JP6525180B1 (en) | Target number identification device | |
| KR20230010164A (en) | Method and apparatus for calculating fat mass using images of head and neck | |
| Nguyen et al. | Vision-based global localization of points of gaze in sport climbing | |
| JP7482471B2 (en) | How to generate a learning model | |
| CN118155279A (en) | A real-time martial arts 3D human posture estimation method and system based on multi-view | |
| CN117352126A (en) | Muscle force visualization method, device, computer equipment and storage medium | |
| CN117115255A (en) | Three-dimensional human body key point detection method based on RGB-D camera in injury point scene | |
| JP7673869B2 (en) | Learning program, generation program, learning method and generation method | |
| US20240404195A1 (en) | Training device, processing device, training method, pose detection model, and storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| AA64 | Notification of invalidation of claim of internal priority (with term) |
Free format text: JAPANESE INTERMEDIATE CODE: A241764 Effective date: 20170829 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170830 |
|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20180207 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200619 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210728 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210817 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211013 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220322 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220329 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7057959 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |