[go: up one dir, main page]

WO2023063542A1 - 딥러닝 기반의 낙상 감지 및 활동 인식 장치와 방법 및 이를 위한 컴퓨터 판독가능 프로그램 - Google Patents

딥러닝 기반의 낙상 감지 및 활동 인식 장치와 방법 및 이를 위한 컴퓨터 판독가능 프로그램 Download PDF

Info

Publication number
WO2023063542A1
WO2023063542A1 PCT/KR2022/010948 KR2022010948W WO2023063542A1 WO 2023063542 A1 WO2023063542 A1 WO 2023063542A1 KR 2022010948 W KR2022010948 W KR 2022010948W WO 2023063542 A1 WO2023063542 A1 WO 2023063542A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
term context
activity
fall
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/KR2022/010948
Other languages
English (en)
French (fr)
Inventor
한동석
응우옌티호아이투
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industry Academic Cooperation Foundation of KNU
Original Assignee
Industry Academic Cooperation Foundation of KNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industry Academic Cooperation Foundation of KNU filed Critical Industry Academic Cooperation Foundation of KNU
Publication of WO2023063542A1 publication Critical patent/WO2023063542A1/ko
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • G08B21/04Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons
    • G08B21/0407Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons based on behaviour analysis
    • G08B21/043Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons based on behaviour analysis detecting an emergency event, e.g. a fall
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • G08B21/04Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • G08B21/04Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons
    • G08B21/0438Sensor means for detecting
    • G08B21/0446Sensor means for detecting worn on the body to detect changes of posture, e.g. a fall, inclination, acceleration, gait
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • G08B21/04Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons
    • G08B21/0438Sensor means for detecting
    • G08B21/0476Cameras to detect unsafe condition, e.g. video cameras

Definitions

  • the present invention relates to a deep learning-based fall detection and activity recognition apparatus and method, and a computer program therefor, and more particularly, to a deep learning-based fall detection and recognition activity based on a hierarchical deep learning algorithm. It relates to a running-based fall detection and activity recognition device and method, and a computer program therefor.
  • Human Activity Recognition technology is a technology that has many uses in the fields of monitoring, smart environment, and healthcare technology. These human activity recognition technologies largely include vision sensor-based, radio-based, and wearable sensor-based technologies.
  • wearable sensor-based HAR technology consists of preprocessing, feature extraction, and classification, and various machine learning algorithms such as KNNs (k-nearest neighbors), NB (Native Bayes), and SVM (Support Vector Machine) will be employed.
  • KNNs k-nearest neighbors
  • NB Nearest Bayes
  • SVM Small Vector Machine
  • conventional wearable sensor-based HAR technology focuses on predicting a person's activity associated with a corresponding window based only on individual windows without considering the relationship between adjacent windows. More specifically, the conventional wearable sensor-based HAR technology is one-to-one context independent, that is, activity is inferred using only corresponding window data at the current time.
  • actual human activities are time-series, and transitions between activities cannot be considered. In other words, sensor data about actual human activity has long-term dependencies.
  • a fall is defined as an activity in which a person inadvertently leans on the ground or the floor or other low-level place. Therefore, according to the conventional wearable sensor-based HAR technology, the activity of falling ('fall') is often divided into an activity of lying down ('lying down'), an activity of going down stairs ('stair descension'), and an activity of jumping ('jumping'). may be misclassified as the same activity.
  • a method of detecting all fall scenarios using a window having a length of 2 s to 15 s may be considered.
  • large-sized windows can cause multi-class window problems, as multiple activities can be included in one window.
  • the technical problem to be solved by the present invention is to generate short-term context vectors for each single window, learn long-term context dependencies in a window sequence by learning the association between short-term contexts based on the short-term context vectors for each single window, and learn the long-term context dependencies in the window sequence. Based on this, it is intended to provide a deep learning-based fall detection and activity recognition apparatus and method for determining whether a fall has occurred within a user's activity associated with a single window and a window sequence.
  • An apparatus for detecting and recognizing falls based on deep learning includes a collection unit that collects sensor data for detecting a user's activity and a fall, and displays the sensor data in a plurality of single windows having preset sizes.
  • a pre-processing unit generating a window sequence by dividing and arranging the single windows, a first processing unit generating short-term context vectors for each single window included in the window sequence, and a plurality of short-term context vectors generated from each single window Based on this, long-term context dependencies during the time of the window sequence are learned, and based on this, it is determined whether or not a fall has occurred to the user during the time of the window sequence, or the user's activity for each single window is classified. It includes a second processing unit that does.
  • the first processing unit includes a deep neural network unit for extracting local space-time feature information of the single window, a conversion unit for converting a data format of the local space-time feature information, and a plurality of interactive time feature information from the converted local space-time feature information. and a bidirectional-temporal feature extraction unit outputting a plurality of output hidden states of , and a short-term context vector generator generating a short-term context vector by applying weights to the plurality of output hidden states, respectively.
  • the second processing unit is a long-term context dependency learning unit that learns long-term context dependencies for a period of time in the window sequence.
  • the long-term context dependency learner for outputting output hidden states
  • a user activity classification unit for classifying user activity associated with the single window based on each of the plurality of output hidden states
  • a fall determination unit may be included to determine whether or not the user's fall has occurred during the time period in the window sequence.
  • the user activity classification unit applies a softmax activation function to a batch normalization unit that batch-normalizes the plurality of output hidden states and each of the plurality of batch-normalized output hidden states to determine the user activity associated with the single window.
  • a dense unit for classifying activities may be included.
  • the fall determination unit may include a dense unit inputting the plurality of output hidden states to a fully connected layer, a batch normalization unit batch normalizing outputs of the dense unit, and the A long-term context vector generating unit generating a long-term context vector by applying weights to each of the plurality of batch-normalized output hidden states, and an activation function applying unit determining whether a person falls by applying a sigmoid activation function to the long-term context vector.
  • a collection unit collects sensor data for detecting a user's activity and a fall;
  • a pre-processing unit divides the sensor data into a plurality of single windows having preset sizes, aligns the single windows to generate a window sequence, and a first processing unit generates a short-term context vector for each single window included in the window sequence.
  • a second processing unit learns long-term context dependencies during the time of the window sequence based on a plurality of short-term context vectors generated from each single window, and determines whether a fall occurred during the time of the window sequence based on this. or classifying the activity of the user for each of the single windows.
  • generating a short-term context vector for each single window included in the window sequence in the first processing unit extracts local space-time feature information for the single window in the deep neural network unit, and extracts the local space-time feature information in the conversion unit.
  • the data format of is converted, the temporal feature extraction unit extracts a plurality of bi-directional temporal feature information from the converted local space-time feature information, and the short-term context vector generation unit applies weights to the plurality of bi-directional temporal feature information, respectively. This may include creating a context vector.
  • learning the long-term context dependency during the time of the window sequence based on the plurality of short-term context vectors generated from each single window in the second processing unit takes the short-term context vector for each single window as an input.
  • a plurality of output hidden states are output, and the second processing unit determines whether a fall has occurred during the window sequence time period in the window sequence by collecting the plurality of output hidden states in the fall determination unit. determining whether the user's fall occurred during the fall, and classifying the user's activity for each single window in the second processing unit based on each of the plurality of output hidden states in the user activity classifying unit. The activity of the user associated with the single window may be classified.
  • Classifying the user's activity in the user activity classification unit may include batch normalizing the plurality of output hidden states in a batch norm unit, and batch normalizing the plurality of output hidden states in a dense unit. It may include classifying the user's activity associated with the single window by applying a softmax activation function to each window.
  • the fall determination unit determines whether the user's fall has occurred by inputting the plurality of output hidden states to a fully connected layer in a dense unit, respectively, and performing batch normalization.
  • norm unit batch-normalizes the output of the dense unit
  • a long-term context vector generator generates a long-term context vector by applying weights to each of the batch-normalized output hidden states
  • an activation function application unit Falls can be determined by applying the sigmoid activation function to the long-term context vector.
  • another embodiment of the present invention may be a computer readable program stored in a computer readable recording medium configured to execute a method for detecting a fall and recognizing an activity based on deep learning.
  • FIG. 1 is a conceptual diagram of an exemplary system in which a deep learning-based fall detection and activity recognition device according to an embodiment of the present invention may be employed.
  • FIG. 2 is a block diagram of a fall detection and activity recognition device based on deep learning according to an embodiment of the present invention.
  • FIG. 3 is a detailed block diagram of the first processing unit shown in FIG. 2;
  • FIG. 4 is a detailed block diagram of a second processing unit shown in FIG. 2;
  • FIG. 5 is a diagram showing an example of how sensor data is divided in the pre-processing unit shown in FIG. 2 .
  • FIG. 6 is a schematic diagram of a first processing unit and a second processing unit shown in FIG. 2 .
  • FIG. 7 is a diagram illustrating a process of generating a short-term context vector in the short-term context vector unit shown in FIG. 3 .
  • FIG. 8 is a flowchart of a fall detection and activity recognition method based on deep learning according to another embodiment of the present invention.
  • FIG. 9 is a graph showing the accuracy of activity classification in the apparatus for detecting and recognizing falls based on deep learning according to the present invention.
  • FIG. 1 is a conceptual diagram of an exemplary system in which a deep learning-based fall detection and activity recognition device according to an embodiment of the present invention may be employed.
  • a fall detection and activity device based on deep learning can be adopted. Other related organizations may be notified.
  • the environment to which the embodiments can be applied is not limited to the above system, and the present invention can be applied to any system that detects a user's fall and activity and provides necessary services through this.
  • the system shown in FIG. 1 includes a monitoring device 100, a fall detection and activity recognition device 2000, an emergency service providing device 300, and a network.
  • the monitoring device 100 may have a form of a wearable sensor device that can be worn on the user's body or a mobile terminal that can be carried by the user.
  • the monitoring device 100 generates sensor data for detecting a user's fall and activity and transmits it to the fall detection and activity recognition device 2000 .
  • the sensor employed in the monitoring device 100 may include an acceleration sensor.
  • the acceleration sensor is a sensor capable of detecting acceleration information and tilt information, and may be, for example, a 3-axis acceleration sensor that senses 3-axis acceleration information and tilt information according to a user's movement.
  • an acceleration sensor is taken as an example as a sensor employed in the monitoring device 100, it is not limited thereto, and a gyro sensor, an altitude sensor, a temperature/humidity sensor, and a body temperature/pulse sensor are sensors capable of detecting a user's fall and activity.
  • biosignal sensors such as may be included.
  • the fall detection and activity recognition device 2000 is a device that collects sensor data from the monitoring device 100 and recognizes a fall and a user's activity based thereon, and is employed by a person or institution that wants to monitor a user's fall and activity. It is a device. As shown in FIG. 1 , the fall detection and activity recognition device 2000 may take the form of a server or a mobile terminal such as a smart phone or a smart note.
  • a help request alarm may be transmitted to the preset emergency service providing device 300 through a network.
  • the emergency service providing device 300 may have a form of a mobile terminal of a friend or family member set in advance or an emergency center server of a designated hospital. Equipped to provide emergency services.
  • the network is a component that supports communication between the monitoring device 100, the fall detection and activity recognition device 2000, and the emergency service providing device 300, and includes a mobile radio communication network, a satellite communication network, Bluetooth, It can be implemented in all types of wireless networks such as Wibro (Wireless Broadband Internet), HSDPA (High Speed Downlink Packet Access), and the like.
  • Wibro Wireless Broadband Internet
  • HSDPA High Speed Downlink Packet Access
  • FIG. 2 is a block diagram of a fall detection and activity recognition device based on deep learning according to an embodiment of the present invention.
  • 3 is a detailed block diagram of the first processing unit shown in FIG. 2
  • FIG. 4 is a detailed block diagram of the second processing unit shown in FIG. 2
  • FIG. 6 is a schematic diagram of the first processing unit and the second processing unit shown in FIG. 2
  • FIG. 7 shows a process of generating a short-term context vector in the short-term context vector unit shown in FIG. 3. It is an illustrated drawing.
  • a deep learning-based fall detection and activity recognition device 2000 is a device capable of detecting a fall and activity of a user based on a hierarchical deep learning algorithm.
  • the deep learning-based fall detection and activity recognition device 2000 includes a collection unit 2100, a control unit 2200, and a storage unit 2300.
  • the collection unit 2100 is a communication module that collects data from the outside and collects sensor data.
  • the sensor data is data sensed by a sensor employed to detect the user's activity and fall, and may be, for example, acceleration data according to the user's movement for a certain period of time detected by an acceleration sensor.
  • the controller 2200 is a component that detects a user's fall and activity based on the sensor data collected by the collection unit 2100. detect falls and recognize their activity.
  • the control unit 2200 includes a pre-processing unit 2210, a first processing unit 2220, and a second processing unit 2230.
  • the pre-processor 2210 divides the sensor data from the collection unit 2100 into a plurality of single windows having preset sizes, and arranges the single windows to generate a window sequence.
  • the pre-processing unit 2210 divides raw sensor data before processing into single windows of a fixed size (eg, length). As shown in FIG. 5, the pre-processing unit 2210 increases the number of samples of learning data and prevents missing activity transitions by dividing a single window so that overlap exists between adjacent single windows. It can be prevented.
  • a fixed size eg, length
  • a single window at time t processed by the preprocessor 2210 may be defined as a two-dimensional matrix having a size of (N ⁇ K) as shown in Equation 1 below.
  • the column vector is the sequence data of sensor k at time t, is the transpose operator, K is the number of sensor sequences, and N is the length of the window.
  • the pre-processing unit 2210 generates a window sequence by arranging such single windows, and the window sequence may be defined as Equation 2 below.
  • T is the length of the window sequence, is a single window Indicates the activity label corresponding to .
  • the first processing unit 2220 generates a short-term context vector for each single window included in the window sequence generated by the pre-processing unit 2210.
  • the first processing unit 2220 includes a deep neural network unit 2221, a conversion unit 2222, a bidirectional-temporal feature extraction unit 2223, and a short-term context vector generation unit 2224, as shown in FIG. .
  • the first processing unit 2220 processes the processing of the deep neural network unit 2221, the conversion unit 2222, the bidirectional-temporal feature extraction unit 2223, and the short-term context vector generation unit 2224 for each individual single window.
  • a plurality of single windows ( ,..., ) can be composed of a plurality of parallel processors applied.
  • the deep neural network unit 2221 is a 2D convolutional neural network (CNN) block including a set of 2D convolution layers and pooling layers in order to extract local space-time feature information from preprocessed data.
  • CNN 2D convolutional neural network
  • Equation 3 a single window preprocessed as shown in Equation 3 below ( ) can be entered.
  • N is the length of the window and K is the number of sensor data.
  • the structure of the 2D CNN block applied to the deep neural network unit 2221 follows Table 1 below.
  • the deep neural network unit 2221 may be a 2D CNN block composed of a plurality of 2D convolution layers, 1D convolution layers, and MaxPool layers.
  • the 2D CNN block first includes two 2D convolution layers. These 2D convolution layers have a filter of (3 ⁇ 3) size, so that local space-time features and multimodal Relational information can be extracted.
  • the same padding is used for the 2D convolution layer, thereby increasing not only the edge information of the input data but also the spatial size of the input data. can be preserved.
  • the 2D CNN block further includes MaxPool(2,1), Conv(3,1), and MaxPool(2,2) layers, and these last three layers refine and calculate deep features by not adopting padding. cost can be reduced.
  • the 2D CNN block according to the present embodiment can reduce the size of feature maps and reduce the risk of overfitting by applying an active map for each layer without overlapping.
  • the conversion unit 2222 converts the format of output data of the deep neural network unit 2221. More specifically, since the output of the last MaxPool layer of the 2D CNN block of the deep neural network unit 2221 follows the 3D tensor (N' ⁇ K' ⁇ 32), the conversion unit 2222 converts the 2D tensor (N' ⁇ (K' ⁇ 32)), and inputs the data to the bidirectional-temporal feature extraction unit 2223.
  • the bidirectional-temporal feature extraction unit 2223 extracts a plurality of bi-directional temporal feature information in both forward and backward directions from the local spatio-temporal feature information of the deep neural network unit 2221.
  • the bi-temporal feature extraction unit 2223 follows the structure of BiGRU, where the structure of BiGRU is a structure in which state neurons of RNN (Recurrent Neural Network) are divided into two state neurons.
  • the structure of BiGRU follows a structure in which two state neurons have the same mutual structure but opposite directions as forward and backward directions, and the outputs of the two state neurons are combined into a merging node.
  • the forward direction means a positive time direction
  • the backward direction means a negative time direction.
  • the output of the bi-temporal feature extraction unit 2223 is the output hidden states for a single window. ), which is defined as in Equation 4 below.
  • ⁇ L> means a local stage (see FIG. 6)
  • N' means the dimension of the output tensor from the convolution block
  • pay is each hidden state
  • R means the number of hidden units of BiGRU.
  • the short-term context vector generator 2224 generates a short-term context vector by applying weights to the plurality of output hidden states output from the bi-temporal feature extractor 2223, respectively.
  • the short-term context vector generator 2224 applies weights to all output hidden states based on input data and a previous short-term context vector, derives the sum of the weighted output hidden states, and derives a short-term context vector. yields a vector
  • the short-term context vector generator 2224 first sets an alignment score defined by Equation 5 below. ) is calculated.
  • the ith hidden state denotes the last hidden state, Is a sorting function and means one hidden layer in a feed forward network.
  • the short-term context vector generator 2224 uses the softmax function of the alignment score as a weight (as shown in Equation 6 below) ) can be calculated.
  • the short-term context vector generator 2224 applies the weight calculated as described above to each of the output hidden states, and the short-term context vector for the single window as the sum of the weighted output hidden states as shown in Equation 7 below ( ) to create
  • a processing result of the first processing unit 2220 processing each single window is a short-term context vector for a window sequence, which may be input to the second processing unit 2230.
  • the short-term context vector for the window sequence ( ) is a short-term context vector for a single window as shown in Equation 8 below ( ,..., ) can be defined as a set of
  • the short-term context vector for the window sequence described above is input to the second processing unit 2230.
  • the second processing unit 2230 learns long-term context dependencies during the time of the window sequence based on a plurality of short-term context vectors generated from each single window, and based on this, a fall occurs to the user during the time of the window sequence. It is determined whether or not the activity of the user for each of the single windows is classified.
  • the second processing unit 2230 includes a long-term context dependency learning unit 2231, a user activity classification unit 2232, and a fall determination unit 2233, as shown in FIG. 4 .
  • the long-term context dependency learner 2231 learns long-term context dependencies during the time of the window sequence.
  • the long-term context dependency learner 2231 has a BiGRU structure, and as shown in Equation 9 below, the short-term context vector for the window sequence of the first processing unit 2220 ( ,..., ) as an input, a plurality of output hidden states in the global stage ( ,..., ) is output.
  • the long-term context dependency learner 2231 takes short-term context vectors for each of a plurality of single windows as an input and outputs a plurality of output hidden states. For the plurality of output hidden states output in this way, an input value of a first branch (dotted line) for predicting an activity associated with each single window or a second branch (dotted dashed line) for determining a user's fall within a window sequence is do.
  • the user activity classification unit 2232 classifies the activity of the user associated with the single window based on each of a plurality of output hidden states. That is, as shown in FIG. 6 , the user activity classification unit 2232 may be configured with a plurality of parallel processors to classify the user activity for each single window. More specifically, the user activity classification unit 2232 is a component following the process in the first branch, and each single window ( ,..., ), the activity (Activity 1, Activity 2,..., Activity T) for the single window is predicted based on the output hidden state, which is the result of learning the long-term context dependency.
  • the user activity classification unit 2232 includes a batch normalization unit 2232-1 that performs batch normalization on each of the plurality of output hidden states and the plurality of batch normalized outputs.
  • a dense unit 2232-2 classifies user activities related to the single window by applying a softmax activation function to each of the hidden states.
  • the fall determination unit 2233 collects the plurality of output hidden states and determines whether or not the fall of the user occurred during the time period in the window sequence. That is, as shown in FIG. 6, the fall determination unit 2233, as a component following the process in the second branch, collects (attention) all output hidden states that are the result of learning long-term context dependencies for each single window, It is to determine whether the user falls (Fall/Not Fall) within the sequence.
  • the fall determination unit 2233 includes a dense unit 2233-1 inputting the plurality of output hidden states to a fully connected layer, and a dense unit ( 2233-1), a batch normalization unit 2233-2 that batch-normalizes the output, and a long-term context vector that generates a long-term context vector by applying a weight to each of the batch-normalized output hidden states.
  • a loss function application unit (not shown) may be further included after the second processing unit 2230 so that the loss function may be applied to the results of user activity classification and fall determination, which are processing results of the second processing unit 2230.
  • the loss function applicator may apply a categorical cross entropy loss function to calculate a loss of user activity classification, and may apply a binary cross entropy loss function to a loss for a fall determination result.
  • the loss function application unit calculates the final loss value as the sum of the loss for each user activity category and the loss for the result of the fall judgment.
  • the loss value calculation process in the loss function application unit follows Equation 10 below.
  • B is a mini-batch size, and denotes the ground truth label and the predicted value of the ith sample.
  • FIG. 8 is a flowchart of a fall detection and activity recognition method based on deep learning according to another embodiment of the present invention.
  • the fall detection and activity recognition method based on deep learning is the method in the fall detection and activity recognition apparatus shown in FIGS. 2 to 4 .
  • the collection unit collects sensor data for detecting the user's activity and fall (S10), and the pre-processing unit collects the sensor data in advance. dividing the single windows into a plurality of single windows having a set size and arranging the single windows to generate a window sequence (S20); generating a short-term context vector for each single window included in the window sequence in a first processing unit; (S30), a second processing unit learns long-term context dependencies during the time of the window sequence based on a plurality of short-term context vectors generated from each single window, and determines whether a fall occurred during the time of the window sequence based on this. or determining whether or not, or classifying the user's activity for each of the single windows (S40, S50).
  • the local space-time feature information for the single window is extracted from the deep neural network unit, and the conversion unit
  • the data format of the local space-time feature information is converted
  • a temporal feature extraction unit extracts a plurality of interactive temporal feature information from the converted local space-time feature information
  • a short-term context vector generator generates each of the plurality of bi-directional temporal feature information. It involves generating short-term context vectors by applying weights.
  • step of learning the long-term context dependency for the time of the window sequence based on the plurality of short-term context vectors generated from each single window in the second processing unit, the short-term context vector for each single window To output a plurality of output hidden states by taking as an input,
  • step S50 of determining whether a fall has occurred during the window sequence in the second processor the fall determination unit collects the plurality of output hidden states and the fall of the user occurred during the window sequence.
  • the user activity classifying unit classifies the single window and the single window based on each of the plurality of output hidden states. It is to classify the activities of related users.
  • classifying the user activity in the user activity classification unit batch normalizes the plurality of output hidden states in a batch norm unit
  • the fall determination unit determines whether the user's fall has occurred by inputting the plurality of output hidden states to a fully connected layer in a dense unit, respectively, and performing batch normalization.
  • norm batch-normalizes the output of the dense unit
  • a long-term context vector generator generates a long-term context vector by applying weights to each of the batch-normalized output hidden states
  • an activation function application unit It includes determining whether or not to fall by applying a sigmoid activation function to the long-term context vector.
  • An operation by the deep learning-based fall detection and activity recognition method according to the embodiments described above may be at least partially implemented as a computer program and recorded on a computer-readable recording medium.
  • a program for implementing an operation by a deep learning-based super-resolution image processing method according to embodiments is recorded and a computer-readable recording medium includes all types of recording devices in which data readable by a computer is stored.
  • Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage devices.
  • computer-readable recording media may be distributed in computer systems connected through a network, and computer-readable codes may be stored and executed in a distributed manner.
  • functional programs, codes, and code segments for implementing this embodiment can be easily understood by those skilled in the art to which this embodiment belongs.
  • FIG. 9 is a graph showing the accuracy of activity classification in the deep learning-based fall detection and activity recognition device according to the present invention.
  • the deep learning-based fall detection and activity recognition device according to the present invention It can be seen that the activity classification result of (Farnet-8) predicts according to the ground truth compared to the conventional technique (Subnet CNN-BiGRU).

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Emergency Management (AREA)
  • Business, Economics & Management (AREA)
  • Gerontology & Geriatric Medicine (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Social Psychology (AREA)
  • Psychology (AREA)
  • Psychiatry (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

본 발명에 따른 딥러닝 기반의 낙상 감지 및 활동 인식 장치는 싱글 윈도우에 대해 단기 컨텍스트 벡터를 각각 생성하고, 싱글 윈도우 별 단기 컨텍스트 벡터를 기초로 단기 컨텍스트 간의 연관관계를 학습하여 윈도우 시퀀스에서의 장기 컨텍스트 종속성을 학습하고, 이를 기초로 싱글 윈도우와 연관된 사용자의 활동과 윈도우 시퀀스 내에서 낙상이 발생하였는지를 판단하고, 사람의 활동이 갖는 장기적 종속성을 학습하여 이를 기초로 싱글 윈도우와 연관된 활동인식을 수행하므로, 개별 활동인식에 있어 정확도를 높일 수 있고, 더불어 윈도우 시퀀스 전체에 대해 낙상감지를 하기 때문에 낙상감지의 오분류 문제를 줄일 수 있다. [대표도] 도 2

Description

딥러닝 기반의 낙상 감지 및 활동 인식 장치와 방법 및 이를 위한 컴퓨터 판독가능 프로그램
본 발명은 딥러닝 기반의 낙상 감지 및 활동 인식 장치와 방법 및 이를 위한 컴퓨터 프로그램에 관한 것으로, 보다 상세하게는, 계층적 딥러닝 알고리즘을 기반으로 사용자의 낙상을 감지하고 그 활동을 인식하는, 딥러닝 기반의 낙상 감지 및 활동 인식 장치와 방법 및 이를 위한 컴퓨터 프로그램에 관한 것이다.
휴먼 액티비티 인지(Human Activity Recognition;HAR) 기술은 감시, 스마트 환경 및 헬스케어 기술분야에 있어 많은 유용성이 있는 기술이다. 이러한 휴먼 액티비티 인지 기술은 크게 비전센서 기반, 라디오 기반 및 웨어러블 센서 기반 기술이 있다.
특히, 웨어러블 센서 기반의 HAR 기술은 전처리, 특징 추출 및 분류의 과정으로 이루어지며, 이때 KNNs(k-nearest neighbours), NB(Native Bayes), SVM(Support Vector Machine) 등 다양한 머신러닝 알고리즘이 채용될 수 있다.
그러나, 종래의 웨어러블 센서 기반 HAR 기술은 인접 윈도우간의 관계에 대한 고려없이 개별적인 윈도우만을 기초로 해당 윈도우와 연관된 사람의 활동을 예측하는데 초점을 두고 있다. 보다 구체적으로, 종래의 웨어러블 센서 기반 HAR 기술은 one-to-one context independent, 즉, 현재 시간에 해당 윈도우 데이터만 사용하여 활동을 추론하는 것이다. 그러나, 실제 사람의 활동은 시계열적이며 활동간 트랜지션(transition)이 고려되지 않을 수 없다. 즉, 실제 사람의 활동에 관한 센서 데이터는 장기적 종속성을 갖는 것이다.
한편, 낙상(fall)이란, WHO(World Health Organization)에 따르면, 사람이 부주의하게 땅 또는 바닥 또는 다른 낮은 레벨의 장소에 기대는 활동으로 정의된다. 따라서, 종래의 웨어러블 센서 기반 HAR 기술에 따르면, 낙상의 활동('fall') 이 종종 눕는 활동('lying down'), 계단을 내려가는 활동('stair descension'), 뛰는 활동('jumping')과 같은 활동으로 오분류될 수 있다.
이러한 오분류되는 문제를 해결하기 위해, 2s 내지 15s 의 길이를 갖는 윈도우를 사용하여 낙상의 전체 시나리오를 검출하는 방법을 고려해 볼 수 있다. 그러나, 큰 사이즈의 윈도우는 하나의 윈도우에서 여러 활동들이 포함되어 있을 수 있으므로, 멀티-클래스 윈도우 문제를 야기할 수 있다.
[선행기술문헌]
[특허문헌]
한국공개특허 제10-2016-0004679호(2016.01.13)
본 발명이 해결하고자 하는 기술적 과제는 싱글 윈도우에 대해 단기 컨텍스트 벡터를 각각 생성하고, 싱글 윈도우 별 단기 컨텍스트 벡터를 기초로 단기 컨텍스트 간의 연관관계를 학습하여 윈도우 시퀀스에서의 장기 컨텍스트 종속성을 학습하고, 이를 기초로 싱글 윈도우와 연관된 사용자의 활동과 윈도우 시퀀스 내에서 낙상이 발생하였는지를 판단하는 딥러닝 기반의 낙상 감지 및 활동 인식 장치 및 방법을 제공하고자 한다.
본 발명의 일 실시예에 따른 딥러닝 기반의 낙상 감지 및 활동 인식 장치 는 사용자의 활동 및 낙상을 감지하기 위한 센서 데이터를 수집하는 수집부, 상기 센서 데이터를 미리 설정된 사이즈를 갖는 복수의 싱글 윈도우로 분할하고, 상기 싱글 윈도우를 정렬하여 윈도우 시퀀스를 생성하는 전처리부, 상기 윈도우 시퀀스에 포함된 싱글 윈도우 각각에 대해 단기 컨텍스트 벡터를 생성하는 제 1 처리부 및 각각의 싱글 윈도우로부터 생성된 복수의 단기 컨텍스트 벡터를 기초로 상기 윈도우 시퀀스의 시간 동안의 장기 컨텍스트 종속성을 학습하고, 이를 기초로 상기 윈도우 시퀀스의 시간 동안에 상기 사용자에게 낙상이 발생하였는지 여부를 판단하거나, 상기 싱글 윈도우 각각에 대한 상기 사용자의 활동을 분류하는 제 2 처리부를 포함한다.
한편, 제 1 처리부는 상기 싱글 윈도우에 대한 로컬 시공간 특징 정보를 추출하는 심층신경망부, 상기 로컬 시공간 특징정보의 데이터 형식을 변환하는 변환부, 상기 변환된 로컬 시공간 특징정보로부터 복수의 양방향 시간특징정보인 복수의 출력 히든 스테이트들을 출력하는 양방향-시간특징추출부 및 상기 복수의 출력 히든 스테이트들에 각각 가중치를 적용하여 단기 컨텍스트 벡터를 생성하는 단기 컨텍스트 벡터 생성부를 포함할 수 있다.
또한, 제 2 처리부는, 상기 윈도우 시퀀스에서의 시간 동안의 장기 컨텍스트 종속성을 학습하는 장기 컨텍스트 종속성 학습부로서, 상기 장기 컨텍스트 종속성 학습부는 상기 싱글 윈도우 각각에 대한 상기 단기 컨텍스트 벡터를 입력으로하여 복수의 출력 히든 스테이트들을 출력하는, 상기 장기 컨텍스트 종속성 학습부, 상기 복수의 출력 히든 스테이트들 각각을 기초로 상기 싱글 윈도우와 연관된 사용자의 활동을 분류하는 사용자 활동 분류부 및 상기 복수의 출력 히든 스테이트들을 취합하여 상기 윈도우 시퀀스에서의 시간 동안에 상기 사용자의 낙상이 발생하였는지 여부를 판단하는 낙상 판단부를 포함할 수 있다.
또한, 사용자 활동 분류부는, 상기 복수의 출력 히든 스테이트들을 배치 정규화하는 배치 정규화(batch norm)부 및 상기 배치 정규화된 복수의 출력 히든 스테이트들 각각에 softmax 활성함수를 적용하여 상기 싱글 윈도우와 연관된 사용자의 활동을 분류하는 덴스(dense)부를 포함할 수 있다.
또한, 낙상 판단부는, 상기 복수의 출력 히든 스테이트들을 각각 풀리 커넥티드 레이어(fully connected layer) 로 입력시키는 덴스(dense)부, 상기 덴스부의 출력에 대해 배치 정규화하는 배치 정규화(batch norm)부, 상기 배치 정규화된 복수의 출력 히든 스테이트들 각각에 대해 가중치를 적용하여 장기 컨텍스트 벡터를 생성하는 장기 컨텍스트 벡터 생성부 및 상기 장기 컨텍스트 벡터에 sigmoid 활성함수를 적용하여 낙상 여부를 판단하는 활성함수 적용부를 포함할 수 있다.
본 발명의 다른 실시예에 따른 딥러닝 기반의 낙상 감지 및 활동 인식 장치에서의 딥러닝 기반의 낙상 감지 및 활동 인식 방법은, 수집부에서 사용자의 활동 및 낙상을 감지하기 위한 센서 데이터를 수집하고, 전처리부에서 상기 센서 데이터를 미리 설정된 사이즈를 갖는 복수의 싱글 윈도우로 분할하고, 상기 싱글 윈도우를 정렬하여 윈도우 시퀀스를 생성하고, 제 1 처리부에서 상기 윈도우 시퀀스에 포함된 싱글 윈도우 각각에 대해 단기 컨텍스트 벡터를 생성하고, 제 2 처리부에서 각각의 싱글 윈도우로부터 생성된 복수의 단기 컨텍스트 벡터를 기초로 상기 윈도우 시퀀스의 시간 동안의 장기 컨텍스트 종속성을 학습하고, 이를 기초로 상기 윈도우 시퀀스의 시간 동안에 낙상이 발생하였는지 여부를 판단하거나, 상기 싱글 윈도우 각각에 대한 상기 사용자의 활동을 분류하는 것을 포함한다.
한편, 제 1 처리부에서 상기 윈도우 시퀀스에 포함된 싱글 윈도우 각각에 대해 단기 컨텍스트 벡터를 생성하는 것은, 심층신경망부에서 상기 싱글 윈도우에 대한 로컬 시공간 특징 정보를 추출하고, 변환부에서 상기 로컬 시공간 특징정보의 데이터 형식을 변환하고, 시간특징추출부에서 상기 변환된 로컬 시공간 특징정보로부터 복수의 양방향 시간특징정보를 추출하고, 단기 컨텍스트 벡터 생성부에서 상기 복수의 양방향 시간특징정보에 각각 가중치를 적용하여 단기 컨텍스트 벡터를 생성하는 것을 포함할 수 있다.
또한, 제 2 처리부에서 각각의 싱글 윈도우로부터 생성된 복수의 단기 컨텍스트 벡터를 기초로 상기 윈도우 시퀀스의 시간 동안의 장기 컨텍스트 종속성을 학습하는 것은, 상기 싱글 윈도우 각각에 대한 상기 단기 컨텍스트 벡터를 입력으로 하여 복수의 출력 히든 스테이트들을 출력하는 것이고, 상기 제 2 처리부에서 상기 윈도우 시퀀스의 시간 동안에 낙상이 발생하였는지 여부를 판단하는 것은, 낙상 판단부에서 상기 복수의 출력 히든 스테이트들을 취합하여 상기 윈도우 시퀀스에서의 시간 동안에 상기 사용자의 낙상이 발생하였는지 여부를 판단하는 것이고, 상기 제 2 처리부에서 상기 싱글 윈도우 각각에 대한 상기 사용자의 활동을 분류하는 것은, 사용자 활동 분류부에서 상기 복수의 출력 히든 스테이트들 각각을 기초로 상기 싱글 윈도우와 연관된 사용자의 활동을 분류하는 것일 수 있다.
또한, 사용자 활동 분류부에서 사용자의 활동을 분류하는 것은, 배치 정규화(batch norm)부에서 상기 복수의 출력 히든 스테이트들을 배치 정규화하고, 덴스(dense)부에서 상기 배치 정규화된 복수의 출력 히든 스테이트들 각각에 softmax 활성함수를 적용하여 상기 싱글 윈도우와 연관된 사용자의 활동을 분류하는 것을 포함할 수 있다.
또한, 낙상 판단부에서 상기 사용자의 낙상이 발생하였는지 여부를 판단하는 것은, 덴스(dense)부에서 상기 복수의 출력 히든 스테이트들을 각각 풀리 커넥티드 레이어(fully connected layer)로 입력시키고, 배치 정규화(batch norm)부에서 상기 덴스부의 출력에 대해 배치 정규화하고, 장기 컨텍스트 벡터 생성부에서 상기 배치 정규화된 복수의 출력 히든 스테이트들 각각에 대해 가중치를 적용하여 장기 컨텍스트 벡터를 생성하고, 활성함수 적용부에서 상기 장기 컨텍스트 벡터에 sigmoid 활성함수를 적용하여 낙상 여부를 판단할 수 있다.
또한, 본 발명의 또 다른 실시예는 딥러닝 기반의 낙상 감지 및 활동 인식 방법을 실행하도록 구성된, 컴퓨터로 판독가능한 기록매체에 저장된 컴퓨터 판독가능 프로그램일 수 있다.
상술한 본 발명의 일측면에 따르면, 사람의 활동이 갖는 장기적 종속성을 학습하여 이를 기초로 싱글 윈도우와 연관된 활동인식을 수행하므로, 개별 활동인식에 있어 정확도를 높일 수 있고, 더불어 윈도우 시퀀스 전체에 대해 낙상감지를 하기 때문에 낙상감지의 오분류 문제가 감소될 수 있다.
또한, 싱글 윈도우의 사이즈를 늘리지 않고 낙상감지 및 활동인식을 하므로 멀티 클래스 윈도우 문제가 방지될 수 있다.
또한, 하나의 모델로 낙상감지 및 활동인식의 두가지 결과가 도출될 수 있으므로, 매개변수 수와 계산 비용이 크게 감소될 수 있다.
도 1 은 본 발명의 일 실시예에 따른 딥러닝 기반의 낙상 감지 및 활동 인식 장치가 채용될 수 있는 예시적인 시스템의 개념도이다.
도 2 는 본 발명의 일 실시예에 따른 딥러닝 기반의 낙상 감지 및 활동 인식 장치의 블록도이다.
도 3 은 도 2 에 도시된 제 1 처리부의 상세 블록도이다.
도 4 는 도 2 에 도시된 제 2 처리부의 상세 블록도이다.
도 5 는 도 2 에 도시된 전처리부에서 센서데이터를 분할하는 모습의 일 예를 도시한 도면이다.
도 6 은 도 2 에 도시된 제 1 처리부와 제 2 처리부의 모식도이다.
도 7 은 도 3 에 도시된 단기 컨텍스트 벡터부에서 단기 컨텍스트 벡터를 생성하는 과정을 도시한 도면이다.
도 8 은 본 발명의 다른 실시예에 따른 딥러닝 기반의 낙상 감지 및 활동 인식 방법의 순서도이다.
도 9 는 본 발명에 따른 딥러닝 기반의 낙상 감지 및 활동 인식 장치에서의 활동 분류의 정확도를 도시한 그래프이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.
도 1 은 본 발명의 일 실시예에 따른 딥러닝 기반의 낙상 감지 및 활동 인식 장치가 채용될 수 있는 예시적인 시스템의 개념도이다.
도 1 을 참조하면, 본 발명에 따른 딥러닝 기반의 낙상 감지 및 활동장치가 채용될 수 있는 시스템으로서, 상기 시스템은 웨어러블 센서 디바이스를 이용하여 사용자의 낙상 및 활동을 감지하고, 이를 미리 설정된 지인이나 다른 연계기관에 알림할 수 있다. 그러나, 실시예들이 적용될 수 있는 환경은 상기 시스템에 한정되는 것은 아니며 사용자의 낙상 및 활동을 감지하여 이를 통해 필요한 서비스를 제공하는 시스템이라면 모두 본 발명이 적용될 수 있음은 물론이다.
보다 구체적으로, 도 1 에 도시된 시스템은 모니터링 장치(100)와, 낙상 감지 및 활동 인식 장치(2000)와, 응급 서비스 제공장치(300)와, 네트워크를 포함한다.
모니터링 장치(100)는 사용자의 신체에 착용가능한 형태의 웨어러블 센서장치 또는 사용자가 휴대할 수 있는 이동 단말기의 형태를 가질 수 있다. 이러한 모니터링 장치(100)는 사용자의 낙상과 활동을 감지하기 위한 센서 데이터를 생성하고 이를 낙상 감지 및 활동 인식 장치(2000) 측으로 전송한다.
또한, 모니터링 장치(100)에 채용되는 센서는 가속도 센서를 포함할 수 있다. 가속도 센서는 가속도 정보와 기울기 정보를 감지할 수 있는 센서로서, 예컨대, 사용자의 움직임에 따라 3축 가속도 정보와 기울기 정보를 센싱하는 3축 가속도 센서일 수 있다. 한편, 모니터링 장치(100)에 채용되는 센서로서 가속도 센서를 예시로 들었으나, 이에 한정되지 않으며, 사용자의 낙상과 활동을 감지할 수 있는 센서라면 자이로센서, 고도센서, 온습도센서, 체온/맥박센서와 같은 생체신호 센서도 포함될 수 있음은 물론이다.
낙상 감지 및 활동 인식 장치(2000)는 모니터링 장치(100)로부터 센서 데이터를 수집하고 이를 기초로 낙상과 사용자의 활동을 인식하는 장치로서, 사용자의 낙상과 활동을 모니터링하고자 하는 사람 또는 기관에 채용되는 장치이다. 이러한, 낙상 감지 및 활동 인식 장치(2000)는 도 1 에 도시된 바와 같이, 서버의 형태를 갖거나, 스마트폰, 스마트 노트 등 이동 단말기의 형태를 가질 수 있다.
이러한 낙상 감지 및 활동 인식 장치(2000)로부터 사용자의 낙상 등 미리 설정된 비정상 활동이 감지되면 네트워크를 통해 미리 설정된 응급 서비스 제공장치(300)에 도움요청 알람이 전송될 수 있다.
이때, 응급 서비스 제공장치(300)는 미리 설정된 지인이나 가족들의 이동 단말기, 지정 병원의 응급센터 서버의 형태를 갖을 수 있으며, 응급 서비스 제공장치(300)는 낙상 등 비정상 활동이 감지된 사용자에게 일정 응급 서비스를 제공할 수 있도록 구비된다.
네트워크는 모니터링 장치(100), 낙상 감지 및 활동 인식 장치(2000), 응급 서비스 제공장치(300) 간에 통신을 지원하는 구성으로서, 이동 통신망(mobile radio communication network), 위성 통신망, 블루투스(Bluetooth), Wibro(Wireless Broadband Internet), HSDPA(High Speed Downlink Packet Access) 등과 같은 모든 종류의 무선 네트워크로 구현될 수 있다.
이하에서는, 본 발명의 일 실시예에 따른 낙상 감지 및 활동 인식 장치의 구체적인 구성에 대해 설명한다.
도 2 는 본 발명의 일 실시예에 따른 딥러닝 기반의 낙상 감지 및 활동 인식 장치의 블록도이다. 도 3 은 도 2 에 도시된 제 1 처리부의 상세 블록도이고, 도 4 는 도 2 에 도시된 제 2 처리부의 상세 블록도이고, 도 5 는 도 2 에 도시된 전처리부에서 센서데이터를 분할하는 모습의 일 예를 도시한 도면이며, 도 6 은 도 2 에 도시된 제 1 처리부와 제 2 처리부의 모식도이고, 도 7 은 도 3 에 도시된 단기 컨텍스트 벡터부에서 단기 컨텍스트 벡터를 생성하는 과정을 도시한 도면이다.
도 2 를 참조하면, 본 실시예에 따른 딥러닝 기반의 낙상 감지 및 활동 인식 장치(2000)는 계층적 딥러닝 알고리즘을 기반으로 사용자의 낙상과 활동을 감지할 수 있는 장치이다. 이를 위해, 본 실시예에 따른 딥러닝 기반의 낙상 감지 및 활동 인식 장치(2000)는 수집부(2100), 제어부(2200) 및 저장부(2300)를 포함한다.
수집부(2100)는 외부로부터 데이터를 수집하는 통신모듈로서, 센서 데이터를 수집한다. 이때, 센서 데이터는 사용자의 활동 및 낙상을 감지하기 위해 채용된 센서에서 감지된 데이터로서, 예컨대, 가속도 센서에서 감지된 일정 시간 동안의 사용자의 움직임에 따른 가속도 데이터일 수 있다.
제어부(2200)는 수집부(2100)에서 수집된 센서 데이터를 기초로 사용자의 낙상과 활동을 감지하는 구성으로서, 특히, 본 실시예에 따른 제어부(2200)는 계층적 딥러닝 알고리즘을 기반으로 사용자의 낙상을 감지하고 그 활동을 인식한다. 이를 위해 제어부(2200)는 전처리부(2210), 제 1 처리부(2220) 및 제 2 처리부(2230)를 포함한다.
전처리부(2210)는 수집부(2100)로부터의 센서 데이터를 미리 설정된 사이즈를 갖는 복수의 싱글 윈도우(single window)로 분할하고, 상기 싱글 윈도우를 정렬하여 윈도우 시퀀스(window sequence)를 생성한다.
보다 구체적으로, 전처리부(2210)는 가공전 원시(raw) 센서 데이터를 고정된 사이즈(예컨대, 길이)의 싱글 윈도우로 분할한다. 도 5 에 도시된 바와 같이, 전처리부(2210)는 인접한 싱글 윈도우 사이에 오버랩(overlap)이 존재하도록 싱글 윈도우를 분할함으로써, 학습 데이터의 샘플 수를 증가시키고 활동의 트랜지션(transition)이 누락되는 것을 방지할 수 있다.
한편, 전처리부(2210)에서 처리한 시간 t 에서의 싱글 윈도우는 아래 수학식 1 과 같이, (N × K)의 사이즈를 갖는 2차원 행렬로 정의될 수 있다.
[수학식 1]
Figure PCTKR2022010948-appb-img-000001
여기서, 열벡터
Figure PCTKR2022010948-appb-img-000002
는 시간 t에서의 센서 k 의 시퀀스 데이터이고,
Figure PCTKR2022010948-appb-img-000003
는 transpose 연산자이고, K 는 센서 시퀀스의 수이고, N 은 윈도우의 길이를 의미한다.
또한, 전처리부(2210)는 이와 같은 싱글 윈도우를 정렬하여 윈도우 시퀀스를 생성하는데, 상기 윈도우 시퀀스는 아래 수학식 2 와 같이 정의될 수 있다.
[수학식 2]
Figure PCTKR2022010948-appb-img-000004
여기서 T 는 윈도우 시퀀스의 길이를 의미하고,
Figure PCTKR2022010948-appb-img-000005
는 싱글 윈도우
Figure PCTKR2022010948-appb-img-000006
에 대응하는 활동 라벨을 의미한다.
제 1 처리부(2220)는 전처리부(2210)에서 생성된 윈도우 시퀀스에 포함된 싱글 윈도우 각각에 대해 단기 컨텍스트 벡터를 생성한다.
이를 위해, 제 1 처리부(2220)는 도 3 에서와 같이, 심층신경망부(2221), 변환부(2222), 양방향-시간특징추출부(2223) 및 단기 컨텍스트 벡터 생성부(2224)를 포함한다. 한편, 제 1 처리부(2220)는 개별적인 싱글 윈도우 각각에 대해 심층신경망부(2221), 변환부(2222), 양방향-시간특징추출부(2223) 및 단기 컨텍스트 벡터 생성부(2224)의 프로세싱을 처리하기 위해, 도 6 에서와 같이, 복수의 싱글 윈도우(
Figure PCTKR2022010948-appb-img-000007
,...,
Figure PCTKR2022010948-appb-img-000008
) 적용되는 복수의 병렬 프로세서로 구성될 수 있다.
보다 구체적으로, 심층신경망부(2221)는 전처리된 데이터로부터 로컬 시공간 특징정보를 추출하기 위해, 2D 컨볼루션(convolution) 레이어, 풀링(pooling) 레이어의 세트를 포함하는 2D CNN(Convolutional Neural Network) 블록의 구조를 따른다.
이러한, 심층신경망부(2221)에는 아래 수학식 3 과 같이 전처리된 싱글 윈도우(
Figure PCTKR2022010948-appb-img-000009
)가 입력될 수 있다.
[수학식 3]
Figure PCTKR2022010948-appb-img-000010
여기서, N 은 윈도우의 길이이고, K 는 센서 데이터의 수이다.
구체적인, 심층신경망부(2221)에 적용되는 2D CNN 블록의 구조는 아래 표 1을 따른다.
[표 1]
Figure PCTKR2022010948-appb-img-000011
즉, 본 실시예에 따른 심층신경망부(2221)는 복수의 2D 컨볼루션 레이어, 1D 컨볼루션 레이어 및 MaxPool 레이어로 구성된 2D CNN 블록일 수 있다.
보다 구체적으로, 2D CNN 블록은 먼저, 두개의 2D 컨볼루션 레이어를 포함하는데, 이러한 2D 컨볼루션 레이어는 (3×3) 사이즈의 필터를 갖음으로써, 센서 데이터로부터 로컬 시공간 특징과 멀티모달(multimodal) 관계정보가 추출될 수 있다. 한편, 센서 데이터의 수가 윈도우 길이(K<<N)에 비해 적은 점을 고려하여 2D 컨볼루션 레이어에는 same padding 이 사용되며, 이로써 입력 데이터의 에지(edge) 정보 뿐만 아니라 공간적인 입력 데이터의 사이즈도 보존될 수 있다.
또한, 2D CNN 블록은 MaxPool(2,1), Conv(3,1) 및 MaxPool(2,2) 레이어를 더 포함하는데, 이 마지막 세 개의 레이어는 padding을 채용하지 않음으로써 심층 특징을 정제하고 계산 비용을 줄일 수 있다. 더 나아가, 본 실시예에 따른 2D CNN 블록은 오버랩없이 각각의 레이어별로 활성맵을 적용함으로써 특징맵의 사이즈를 줄이고, 오버피팅(overfitting)의 위험을 감소시킬 수 있다.
변환부(2222)는 심층신경망부(2221)의 출력 데이터의 형식을 변환한다. 보다 구체적으로, 심층신경망부(2221)의 2D CNN 블록의 마지막 MaxPool 레이어의 출력이 3D 텐서(tensor, N'×K'×32)를 따르는 바, 변환부(2222)는 2D 텐서(N'×(K'×32)) 로 데이터 형식을 변환하여 양방향-시간특징추출부(2223)로 데이터를 입력시킨다.
양방향-시간특징추출부(2223)는 심층신경망부(2221)의 로컬 시공간 특징정보로부터 순방향과 역방향 모두에서 복수의 양방향 시간 특징 정보를 추출한다.
이를 위해, 본 실시예에 따른 양방향-시간특징추출부(2223)는 BiGRU의 구조를 따르는데, 여기서 BiGRU의 구조는 RNN(Recurrent Neural Network)의 상태 뉴런을 두 개의 상태 뉴런으로 분할한 구조의 형태를 갖는다. 보다 구체적으로, BiGRU의 구조는, 상호 구조는 동일하지만 방향이 순방향과 역방향으로서 반대인 두 개의 상태 뉴런을 갖고, 상기 두개의 상태 뉴런의 출력이 머징 노드(merging node)로 결합하는 구조를 따른다. 여기서, 순방향은 포지티브 타임 디렉션(positive time direction) 이고, 역방향은 네거티브 타임 디렉션(negative time direction) 을 의미한다.
이러한 양방향-시간특징추출부(2223)의 출력은 싱글 윈도우에 대한 출력 히든 스테이트(output hidden states,
Figure PCTKR2022010948-appb-img-000012
)로서, 아래 수학식 4 와 같이 정의된다.
[수학식 4]
Figure PCTKR2022010948-appb-img-000013
여기서, <L>은 로컬 스테이지(도 6 참조)를 의미하고, N'은 컨볼루션 블록으로부터의 출력 텐서(tensor)의 차원(dimension)을 의미하고,
Figure PCTKR2022010948-appb-img-000014
내지
Figure PCTKR2022010948-appb-img-000015
은 각각의 히든 스테이트이고,
Figure PCTKR2022010948-appb-img-000016
는 transpose 연산자이고, R 은 BiGRU의 히든 유닛의 수를 의미한다.
단기 컨텍스트 벡터 생성부(2224)는 양방향-시간특징추출부(2223)에서 출력된 복수의 출력 히든 스테이트들에 각각 가중치를 적용하여 단기 컨텍스트 벡터를 생성한다.
도 7 을 참조하면, 단기 컨텍스트 벡터 생성부(2224)는 입력 데이터와 이전의 단기 컨텍스트 벡터에 기초하여 모든 출력 히든 스테이트들에 가중치를 적용하고, 가중치가 적용된 출력 히든 스테이트들의 합을 도출하여 단기 컨텍스트 벡터를 산출한다.
보다 구체적으로, 단기 컨텍스트 벡터 생성부(2224)는 먼저, 아래 수학식 5 와 같이 정의되는 정렬 스코어(alignment score,
Figure PCTKR2022010948-appb-img-000017
)를 산출한다.
[수학식 5]
Figure PCTKR2022010948-appb-img-000018
여기서,
Figure PCTKR2022010948-appb-img-000019
는 i번째 히든 스테이트이고,
Figure PCTKR2022010948-appb-img-000020
은 마지막 히든 스테이트를 의미하고,
Figure PCTKR2022010948-appb-img-000021
는 정렬함수로서 피드 포워드 네트워크(feed forward network)에서의 하나의 히든 레이어를 의미한다.
또한, 단기 컨텍스트 벡터 생성부(2224)는 아래 수학식 6 과 같이, 정렬 스코어의 softmax 함수로 가중치(
Figure PCTKR2022010948-appb-img-000022
)를 산출할 수 있다.
[수학식 6]
Figure PCTKR2022010948-appb-img-000023
단기 컨텍스트 벡터 생성부(2224)는 상술한 바와 같이 산출된 가중치를 각각의 출력 히든 스테이트들에 적용시키고, 아래 수학식 7 과 같이 가중치가 적용된 출력 히든 스테이트들의 합으로서 싱글 윈도우에 대한 단기 컨텍스트 벡터(
Figure PCTKR2022010948-appb-img-000024
)를 생성한다.
[수학식 7]
Figure PCTKR2022010948-appb-img-000025
한편, 싱글 윈도우 각각에 대해 프로세싱하는 제 1 처리부(2220)의 처리결과는 결국 윈도우 시퀀스에 대한 단기 컨텍스트 벡터이고, 이는 제 2 처리부(2230)로 입력될 수 있다. 상기 윈도우 시퀀스에 대한 단기 컨텍스트 벡터(
Figure PCTKR2022010948-appb-img-000026
)는 아래 수학식 8 과 같이 싱글 윈도우에 대한 단기 컨텍스트 벡터(
Figure PCTKR2022010948-appb-img-000027
,...,
Figure PCTKR2022010948-appb-img-000028
)의 집합으로 정의될 수 있다.
[수학식 8]
Figure PCTKR2022010948-appb-img-000029
상술한 윈도우 시퀀스에 대한 단기 컨텍스트 벡터는 제 2 처리부(2230)로 입력된다. 제 2 처리부(2230)는 각각의 싱글 윈도우로부터 생성된 복수의 단기 컨텍스트 벡터를 기초로 상기 윈도우 시퀀스의 시간 동안의 장기 컨텍스트 종속성을 학습하고, 이를 기초로 상기 윈도우 시퀀스의 시간 동안에 사용자에게 낙상이 발생하였는지 여부를 판단하거나, 상기 싱글 윈도우 각각에 대한 상기 사용자의 활동을 분류한다.
이를 위해, 제 2 처리부(2230)는 도 4 에서와 같이, 장기 컨텍스트 종속성 학습부(2231), 사용자 활동 분류부(2232) 및 낙상 판단부(2233)를 포함한다.
장기 컨텍스트 종속성 학습부(2231)는 윈도우 시퀀스의 시간 동안의 장기 컨텍스트 종속성을 학습한다.
이를 위해, 본 실시예에 따른 장기 컨텍스트 종속성 학습부(2231)는 BiGRU의 구조를 갖고, 아래 수학식 9 와 같이, 제 1 처리부(2220)의 윈도우 시퀀스에 대한 단기 컨텍스트 벡터(
Figure PCTKR2022010948-appb-img-000030
,...,
Figure PCTKR2022010948-appb-img-000031
)를 입력으로 하여 글로벌 스테이지에서의 복수의 출력 히든 스테이트들(
Figure PCTKR2022010948-appb-img-000032
,...,
Figure PCTKR2022010948-appb-img-000033
)을 출력한다.
[수학식 9]
Figure PCTKR2022010948-appb-img-000034
즉, 장기 컨텍스트 종속성 학습부(2231)는 도 6 에서와 같이, 복수의 싱글 윈도우 각각에 대한 단기 컨텍스트 벡터를 입력으로 하고, 복수의 출력 히든 스테이트들을 출력하는 것이다. 이렇게 출력된 복수의 출력 히든 스테이트들은, 각각의 싱글 윈도우와 연관된 활동을 예측하기 위한 제 1 브랜치(점선) 또는 윈도우 시퀀스 내에서 사용자의 낙상을 판단하기 위한 제 2 브랜치(일점 쇄선)의 입력값이 된다.
사용자 활동 분류부(2232)는 복수의 출력 히든 스테이트들 각각을 기초로 상기 싱글 윈도우와 연관된 사용자의 활동을 각각 분류한다. 즉, 도 6 에서와 같이, 사용자 활동 분류부(2232)는 싱글 윈도우 각각에 대한 사용자의 활동을 분류하기 위해 복수의 병렬 프로세서로 구성될 수 있다. 보다 구체적으로, 사용자 활동 분류부(2232)는 제 1 브랜치에서의 프로세스를 따르는 구성으로서, 각 싱글 윈도우(
Figure PCTKR2022010948-appb-img-000035
,...,
Figure PCTKR2022010948-appb-img-000036
)에 대해 장기 컨텍스트 종속성을 학습한 결과인 출력 히든 스테이트를 기초로 해당 싱글 윈도우에 대한 활동(Activity 1, Activity 2,...,Activity T)을 예측하는 것이다.
이를 위해, 사용자 활동 분류부(2232)는 도 4 에서와 같이, 상기 복수의 출력 히든 스테이트들에 대해 각각 배치 정규화하는 배치 정규화(batch norm)부(2232-1) 및 상기 배치 정규화된 복수의 출력 히든 스테이트들 각각에 softmax 활성함수를 적용하여 상기 싱글 윈도우와 연관된 사용자의 활동을 분류하는 덴스(dense)부(2232-2)를 포함한다.
낙상 판단부(2233)는 상기 복수의 출력 히든 스테이트들을 취합하여 상기 윈도우 시퀀스에서의 시간 동안에 상기 사용자의 낙상이 발생하였는지 여부를 판단한다. 즉, 낙상 판단부(2233)는 도 6 에서와 같이, 제 2 브랜치에서의 프로세스를 따르는 구성으로서, 싱글 윈도우 각각에 대해 장기 컨텍스트 종속성을 학습한 결과인 출력 히든 스테이트들을 모두 취합(Attention)하여 윈도우 시퀀스 내에서의 사용자 낙상여부(Fall/Not Fall) 를 판단하는 것이다.
이를 위해, 낙상 판단부(2233)는 도 4 에서와 같이, 상기 복수의 출력 히든 스테이트들을 각각 풀리 커넥티드 레이어(fully connected layer) 로 입력시키는 덴스(dense)부(2233-1), 덴스부(2233-1)의 출력에 대해 배치 정규화하는 배치 정규화(batch norm)부(2233-2), 상기 배치 정규화된 복수의 출력 히든 스테이트들 각각에 대해 가중치를 적용하여 장기 컨텍스트 벡터를 생성하는 장기 컨텍스트 벡터 생성부(2233-3) 및 상기 장기 컨텍스트 벡터에 sigmoid 활성함수를 적용하여 낙상 여부를 판단하는 활성함수 적용부(2233-4)를 포함한다.
한편, 제 2 처리부(2230) 이후에 손실함수 적용부(미도시)를 더 포함하여 제 2 처리부(2230)에서의 처리 결과인 사용자 활동 분류와 낙상 판단의 결과에 손실함수가 적용될 수 있다.
보다 구체적으로, 손실함수 적용부는 사용자 활동 분류의 손실을 산출하기 위해 categorical cross entropy loss function을 적용하고, 낙상 판단의 결과에 대한 손실에는 binary cross entropy loss function을 적용할 수 있다.
손실함수 적용부는 각각의 사용자 활동 분류의 손실과 낙상 판단의 결과에 대한 손실의 합으로 최종 손실값을 산출한다. 이러한 손실함수 적용부에서의 손실값 산출 과정은 아래 수학식 10 을 따른다.
[수학식 10]
Figure PCTKR2022010948-appb-img-000037
여기서,
Figure PCTKR2022010948-appb-img-000038
은 낙상 판단의 결과에 대한 손실값이고,
Figure PCTKR2022010948-appb-img-000039
는 사용자 활동 분류에 대한 손실값이고,
Figure PCTKR2022010948-appb-img-000040
은 최종 손실값이다. 또한, B 는 mini-batch size 이고,
Figure PCTKR2022010948-appb-img-000041
Figure PCTKR2022010948-appb-img-000042
는 ground truth label 과 i 번째 샘플의 예측된 값을 의미한다.
도 8 은 본 발명의 다른 실시예에 따른 딥러닝 기반의 낙상 감지 및 활동 인식 방법의 순서도이다.
도 8 을 참조하면, 본 실시예에 따른 딥러닝 기반의 낙상 감지 및 활동 인식 방법은 도 2 내지 도 4 에 도시된 낙상 감지 및 활동 인식 장치에서의 방법이다.
보다 구체적으로, 본 실시예에 따른 딥러닝 기반의 낙상 감지 및 활동 인식 방법은 수집부에서 사용자의 활동 및 낙상을 감지하기 위한 센서 데이터를 수집하는 단계(S10), 전처리부에서 상기 센서 데이터를 미리 설정된 사이즈를 갖는 복수의 싱글 윈도우로 분할하고, 상기 싱글 윈도우를 정렬하여 윈도우 시퀀스를 생성하는 단계(S20), 제 1 처리부에서 상기 윈도우 시퀀스에 포함된 싱글 윈도우 각각에 대해 단기 컨텍스트 벡터를 생성하는 단계(S30), 제 2 처리부에서 각각의 싱글 윈도우로부터 생성된 복수의 단기 컨텍스트 벡터를 기초로 상기 윈도우 시퀀스의 시간 동안의 장기 컨텍스트 종속성을 학습하고, 이를 기초로 상기 윈도우 시퀀스의 시간 동안에 낙상이 발생하였는지 여부를 판단하거나, 상기 싱글 윈도우 각각에 대한 상기 사용자의 활동을 분류하는 단계(S40, S50) 를 포함한다.
한편, 상기 제 1 처리부에서 상기 윈도우 시퀀스에 포함된 싱글 윈도우 각각에 대해 단기 컨텍스트 벡터를 생성하는 단계(S30)는, 심층신경망부에서 상기 싱글 윈도우에 대한 로컬 시공간 특징 정보를 추출하고, 변환부에서 상기 로컬 시공간 특징정보의 데이터 형식을 변환하고, 시간특징추출부에서 상기 변환된 로컬 시공간 특징정보로부터 복수의 양방향 시간특징정보를 추출하고, 단기 컨텍스트 벡터 생성부에서 상기 복수의 양방향 시간특징정보에 각각 가중치를 적용하여 단기 컨텍스트 벡터를 생성하는 것을 포함한다.
또한, 상기 제 2 처리부에서 각각의 싱글 윈도우로부터 생성된 복수의 단기 컨텍스트 벡터를 기초로 상기 윈도우 시퀀스의 시간 동안의 장기 컨텍스트 종속성을 학습하는 단계(S40)는 상기 싱글 윈도우 각각에 대한 상기 단기 컨텍스트 벡터를 입력으로 하여 복수의 출력 히든 스테이트들을 출력하는 것이고,
상기 제 2 처리부에서 상기 윈도우 시퀀스의 시간 동안에 낙상이 발생하였는지 여부를 판단하는 단계(S50)는 낙상 판단부에서 상기 복수의 출력 히든 스테이트들을 취합하여 상기 윈도우 시퀀스에서의 시간 동안에 상기 사용자의 낙상이 발생하였는지 여부를 판단하는 것이고, 상기 제 2 처리부에서 상기 싱글 윈도우 각각에 대한 상기 사용자의 활동을 분류하는 단계(S50)은 사용자 활동 분류부에서 상기 복수의 출력 히든 스테이트들 각각을 기초로 상기 싱글 윈도우와 연관된 사용자의 활동을 분류하는 것이다.
한편, 사용자 활동 분류부에서 사용자의 활동을 분류하는 것은, 배치 정규화(batch norm)부에서 상기 복수의 출력 히든 스테이트들을 배치 정규화하고,
덴스(dense)부에서 상기 배치 정규화된 복수의 출력 히든 스테이트들 각각에 softmax 활성함수를 적용하여 상기 싱글 윈도우와 연관된 사용자의 활동을 분류하는 것을 포함한다.
또한, 낙상 판단부에서 상기 사용자의 낙상이 발생하였는지 여부를 판단하는 것은, 덴스(dense)부에서 상기 복수의 출력 히든 스테이트들을 각각 풀리 커넥티드 레이어(fully connected layer)로 입력시키고, 배치 정규화(batch norm)부에서 상기 덴스부의 출력에 대해 배치 정규화하고, 장기 컨텍스트 벡터 생성부에서 상기 배치 정규화된 복수의 출력 히든 스테이트들 각각에 대해 가중치를 적용하여 장기 컨텍스트 벡터를 생성하고, 활성함수 적용부에서 상기 장기 컨텍스트 벡터에 sigmoid 활성함수를 적용하여 낙상 여부를 판단하는 것을 포함한다.
이상에서 설명한 실시예들에 따른 딥러닝 기반의 낙상 감지 및 활동 인식방법에 의한 동작은 적어도 부분적으로 컴퓨터 프로그램으로 구현되고 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 실시예들에 따른 딥러닝 기반의 초해상화 이미지 처리 방법에 의한 동작을 구현하기 위한 프로그램이 기록되고 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 실시예를 구현하기 위한 기능적인 프로그램, 코드 및 코드 세그먼트(segment)들은 본 실시예가 속하는 기술 분야의 통상의 기술자에 의해 용이하게 이해될 수 있을 것이다.
도 9 는 본 발명에 따른 딥러닝 기반의 낙상 감지 및 활동 인식 장치에서의 활동 분류의 정확도를 도시한 그래프로서, 도 9 를 참조하면, 본 발명에 따른 딥러닝 기반의 낙상 감지 및 활동 인식 장치에서의 활동 분류 결과(Farnet-8)가 종래의 기술(Subnet CNN-BiGRU)에 비해 Ground truth 에 맞게 예측하는 것을 알 수 있다.
따라서, 본 발명에 따르면, 사람의 활동이 갖는 장기적 종속성을 학습하여 이를 기초로 싱글 윈도우와 연관된 활동인식을 수행하므로, 개별 활동인식에 있어 정확도를 높일 수 있고, 더불어 윈도우 시퀀스 전체에 대해 낙상감지를 하기 때문에 낙상감지의 오분류 문제를 줄일 수 있다.
또한, 싱글 윈도우의 사이즈를 늘리지 않고 낙상감지 및 활동인식을 하므로 멀티 클래스 윈도우 문제를 방지할 수 있다.
또한, 하나의 모델로 낙상감지 및 활동인식의 두가지 결과가 도출될 수 있으므로, 매개변수 수와 계산 비용이 크게 감소할 수 있다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
[부호의 설명]
2000: 낙상 감지 및 활동 인식 장치
2100: 수집부
2200: 제어부
2300: 저장부

Claims (11)

  1. 사용자의 활동 및 낙상을 감지하기 위한 센서 데이터를 수집하는 수집부;
    상기 센서 데이터를 미리 설정된 사이즈를 갖는 복수의 싱글 윈도우로 분할하고, 상기 싱글 윈도우를 정렬하여 윈도우 시퀀스를 생성하는 전처리부;
    상기 윈도우 시퀀스에 포함된 싱글 윈도우 각각에 대해 단기 컨텍스트 벡터를 생성하는 제 1 처리부; 및
    각각의 싱글 윈도우로부터 생성된 복수의 단기 컨텍스트 벡터를 기초로 상기 윈도우 시퀀스의 시간 동안의 장기 컨텍스트 종속성을 학습하고, 이를 기초로 상기 윈도우 시퀀스의 시간 동안에 상기 사용자에게 낙상이 발생하였는지 여부를 판단하거나, 상기 싱글 윈도우 각각에 대한 상기 사용자의 활동을 분류하는 제 2 처리부를 포함하는 딥러닝 기반의 낙상 감지 및 활동 인식 장치.
  2. 제 1 항에 있어서,
    제 1 처리부는
    상기 싱글 윈도우에 대한 로컬 시공간 특징 정보를 추출하는 심층신경망부;
    상기 로컬 시공간 특징정보의 데이터 형식을 변환하는 변환부;
    상기 변환된 로컬 시공간 특징정보로부터 복수의 양방향 시간특징정보인 복수의 출력 히든 스테이트들을 출력하는 양방향-시간특징추출부; 및
    상기 복수의 출력 히든 스테이트들에 각각 가중치를 적용하여 단기 컨텍스트 벡터를 생성하는 단기 컨텍스트 벡터 생성부를 포함하는 딥러닝 기반의 낙상 감지 및 활동 인식 장치.
  3. 제 1 항에 있어서,
    상기 제 2 처리부는,
    상기 윈도우 시퀀스에서의 시간 동안의 장기 컨텍스트 종속성을 학습하는 장기 컨텍스트 종속성 학습부로서, 상기 장기 컨텍스트 종속성 학습부는 상기 싱글 윈도우 각각에 대한 상기 단기 컨텍스트 벡터를 입력으로하여 복수의 출력 히든 스테이트들을 출력하는, 상기 장기 컨텍스트 종속성 학습부;
    상기 복수의 출력 히든 스테이트들 각각을 기초로 상기 싱글 윈도우와 연관된 사용자의 활동을 분류하는 사용자 활동 분류부; 및
    상기 복수의 출력 히든 스테이트들을 취합하여 상기 윈도우 시퀀스에서의 시간 동안에 상기 사용자의 낙상이 발생하였는지 여부를 판단하는 낙상 판단부를 포함하는 딥러닝 기반의 낙상 감지 및 활동 인식 장치.
  4. 제3항에 있어서,
    상기 사용자 활동 분류부는,
    상기 복수의 출력 히든 스테이트들을 배치 정규화하는 배치 정규화(batch norm)부; 및
    상기 배치 정규화된 복수의 출력 히든 스테이트들 각각에 softmax 활성함수를 적용하여 상기 싱글 윈도우와 연관된 사용자의 활동을 분류하는 덴스(dense)부를 포함하는 딥러닝 기반의 낙상 감지 및 활동 인식 장치.
  5. 제3항에 있어서,
    상기 낙상 판단부는,
    상기 복수의 출력 히든 스테이트들을 각각 풀리 커넥티드 레이어(fully connected layer) 로 입력시키는 덴스(dense)부;
    상기 덴스부의 출력에 대해 배치 정규화하는 배치 정규화(batch norm)부;
    상기 배치 정규화된 복수의 출력 히든 스테이트들 각각에 대해 가중치를 적용하여 장기 컨텍스트 벡터를 생성하는 장기 컨텍스트 벡터 생성부; 및
    상기 장기 컨텍스트 벡터에 sigmoid 활성함수를 적용하여 낙상 여부를 판단하는 활성함수 적용부를 포함하는 딥러닝 기반의 낙상 감지 및 활동 인식 장치.
  6. 딥러닝 기반의 낙상 감지 및 활동 인식 장치에서의 딥러닝 기반의 낙상 감지 및 활동 인식 방법으로서,
    수집부에서 사용자의 활동 및 낙상을 감지하기 위한 센서 데이터를 수집하고,
    전처리부에서 상기 센서 데이터를 미리 설정된 사이즈를 갖는 복수의 싱글 윈도우로 분할하고, 상기 싱글 윈도우를 정렬하여 윈도우 시퀀스를 생성하고,
    제 1 처리부에서 상기 윈도우 시퀀스에 포함된 싱글 윈도우 각각에 대해 단기 컨텍스트 벡터를 생성하고,
    제 2 처리부에서 각각의 싱글 윈도우로부터 생성된 복수의 단기 컨텍스트 벡터를 기초로 상기 윈도우 시퀀스의 시간 동안의 장기 컨텍스트 종속성을 학습하고, 이를 기초로 상기 윈도우 시퀀스의 시간 동안에 낙상이 발생하였는지 여부를 판단하거나, 상기 싱글 윈도우 각각에 대한 상기 사용자의 활동을 분류하는 것을 포함하는 딥러닝 기반의 낙상 감지 및 활동 인식 방법.
  7. 제 6 항에 있어서,
    상기 제 1 처리부에서 상기 윈도우 시퀀스에 포함된 싱글 윈도우 각각에 대해 단기 컨텍스트 벡터를 생성하는 것은,
    심층신경망부에서 상기 싱글 윈도우에 대한 로컬 시공간 특징 정보를 추출하고,
    변환부에서 상기 로컬 시공간 특징정보의 데이터 형식을 변환하고,
    양방향-시간특징추출부에서 상기 변환된 로컬 시공간 특징정보로부터 복수의 양방향 시간특징정보를 추출하고,
    단기 컨텍스트 벡터 생성부에서 상기 복수의 양방향 시간특징정보에 각각 가중치를 적용하여 단기 컨텍스트 벡터를 생성하는 것을 포함하는 딥러닝 기반의 낙상 감지 및 활동 인식 방법.
  8. 제 6 항에 있어서,
    상기 제 2 처리부에서 각각의 싱글 윈도우로부터 생성된 복수의 단기 컨텍스트 벡터를 기초로 상기 윈도우 시퀀스의 시간 동안의 장기 컨텍스트 종속성을 학습하는 것은,
    상기 싱글 윈도우 각각에 대한 상기 단기 컨텍스트 벡터를 입력으로 하여 복수의 출력 히든 스테이트들을 출력하는 것이고,
    상기 제 2 처리부에서 상기 윈도우 시퀀스의 시간 동안에 낙상이 발생하였는지 여부를 판단하는 것은,
    낙상 판단부에서 상기 복수의 출력 히든 스테이트들을 취합하여 상기 윈도우 시퀀스에서의 시간 동안에 상기 사용자의 낙상이 발생하였는지 여부를 판단하는 것이고,
    상기 제 2 처리부에서 상기 싱글 윈도우 각각에 대한 상기 사용자의 활동을 분류하는 것은,
    사용자 활동 분류부에서 상기 복수의 출력 히든 스테이트들 각각을 기초로 상기 싱글 윈도우와 연관된 사용자의 활동을 분류하는 것인 딥러닝 기반의 낙상 감지 및 활동 인식 방법.
  9. 제 8 항에 있어서,
    상기 사용자 활동 분류부에서 사용자의 활동을 분류하는 것은,
    배치 정규화(batch norm)부에서 상기 복수의 출력 히든 스테이트들을 배치 정규화하고,
    덴스(dense)부에서 상기 배치 정규화된 복수의 출력 히든 스테이트들 각각에 softmax 활성함수를 적용하여 상기 싱글 윈도우와 연관된 사용자의 활동을 분류하는 것을 포함하는 딥러닝 기반의 낙상 감지 및 활동 인식 방법.
  10. 제 8 항에 있어서,
    상기 낙상 판단부에서 상기 사용자의 낙상이 발생하였는지 여부를 판단하는 것은,
    덴스(dense)부에서 상기 복수의 출력 히든 스테이트들을 각각 풀리 커넥티드 레이어(fully connected layer)로 입력시키고,
    배치 정규화(batch norm)부에서 상기 덴스부의 출력에 대해 배치 정규화하고,
    장기 컨텍스트 벡터 생성부에서 상기 배치 정규화된 복수의 출력 히든 스테이트들 각각에 대해 가중치를 적용하여 장기 컨텍스트 벡터를 생성하고,
    활성함수 적용부에서 상기 장기 컨텍스트 벡터에 sigmoid 활성함수를 적용하여 낙상 여부를 판단하는 것을 포함하는 딥러닝 기반의 낙상 감지 및 활동 인식 방법.
  11. 제 6 항에 따른 딥러닝 기반의 낙상 감지 및 활동 인식 방법을 실행하도록 구성된, 컴퓨터로 판독가능한 기록매체에 저장된 컴퓨터 판독가능 프로그램.
PCT/KR2022/010948 2021-10-12 2022-07-26 딥러닝 기반의 낙상 감지 및 활동 인식 장치와 방법 및 이를 위한 컴퓨터 판독가능 프로그램 Ceased WO2023063542A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0134903 2021-10-12
KR1020210134903A KR102565463B1 (ko) 2021-10-12 2021-10-12 딥러닝 기반의 낙상 감지 및 활동 인식 장치와 방법 및 이를 위한 컴퓨터 판독가능 프로그램

Publications (1)

Publication Number Publication Date
WO2023063542A1 true WO2023063542A1 (ko) 2023-04-20

Family

ID=85987491

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/010948 Ceased WO2023063542A1 (ko) 2021-10-12 2022-07-26 딥러닝 기반의 낙상 감지 및 활동 인식 장치와 방법 및 이를 위한 컴퓨터 판독가능 프로그램

Country Status (2)

Country Link
KR (1) KR102565463B1 (ko)
WO (1) WO2023063542A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101398217B1 (ko) * 2012-09-03 2014-05-22 경희대학교 산학협력단 대응 추적 알고리즘을 적용한 패턴 인식 장치 및 방법
KR20190098106A (ko) * 2019-08-02 2019-08-21 엘지전자 주식회사 배치 정규화 레이어 트레이닝 방법
KR20190119879A (ko) * 2018-04-13 2019-10-23 성균관대학교산학협력단 낙상 예측 시스템 및 그 방법
JP2021086605A (ja) * 2019-08-01 2021-06-03 富士フイルムビジネスイノベーション株式会社 イベントの防止及び予測のためのシステム及び方法、コンピュータ実施方法、プログラム、及びプロセッサ
KR20210088151A (ko) * 2020-01-06 2021-07-14 가톨릭관동대학교산학협력단 리드 타임을 고려한 낙상 감지 장치 및 그 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101638408B1 (ko) 2014-07-03 2016-07-11 계명대학교 산학협력단 낙상 감지를 위한 웨어러블 모션 센서 장치, 이를 이용한 낙상 감지 시스템 및 낙상 감지 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101398217B1 (ko) * 2012-09-03 2014-05-22 경희대학교 산학협력단 대응 추적 알고리즘을 적용한 패턴 인식 장치 및 방법
KR20190119879A (ko) * 2018-04-13 2019-10-23 성균관대학교산학협력단 낙상 예측 시스템 및 그 방법
JP2021086605A (ja) * 2019-08-01 2021-06-03 富士フイルムビジネスイノベーション株式会社 イベントの防止及び予測のためのシステム及び方法、コンピュータ実施方法、プログラム、及びプロセッサ
KR20190098106A (ko) * 2019-08-02 2019-08-21 엘지전자 주식회사 배치 정규화 레이어 트레이닝 방법
KR20210088151A (ko) * 2020-01-06 2021-07-14 가톨릭관동대학교산학협력단 리드 타임을 고려한 낙상 감지 장치 및 그 방법

Also Published As

Publication number Publication date
KR20230051924A (ko) 2023-04-19
KR102565463B1 (ko) 2023-08-10

Similar Documents

Publication Publication Date Title
Wang et al. Human activity recognition with user-free accelerometers in the sensor networks
WO2017213398A1 (en) Learning model for salient facial region detection
WO2020122432A1 (ko) 전자 장치 및 그의 3d 이미지 표시 방법
WO2021201422A1 (ko) Ar에 적용 가능한 의미적인 분할 방법 및 시스템
WO2019216732A1 (ko) 전자 장치 및 이의 제어 방법
WO2020196985A1 (ko) 비디오 행동 인식 및 행동 구간 탐지 장치 및 방법
WO2019031839A1 (en) SYSTEM AND METHOD FOR NEURAL NETWORKS
WO2020141907A1 (ko) 키워드에 기초하여 이미지를 생성하는 이미지 생성 장치 및 이미지 생성 방법
WO2019132063A1 (ko) 로봇 서비스 학습 시스템 및 그 방법
WO2021246811A1 (ko) 중증도 판단용 뉴럴 네트워크 학습 방법 및 시스템
WO2022182096A1 (en) Real-time limb motion tracking
WO2022139327A1 (en) Method and apparatus for detecting unsupported utterances in natural language understanding
WO2022035190A1 (ko) 딥러닝을 이용한 얼굴 인식 기반 미아 찾기 서비스 제공 장치 및 방법
WO2020256172A1 (ko) 카트 로봇
WO2018117514A1 (ko) 공항용 로봇 및 그의 동작 방법
WO2023182796A1 (ko) 제품 이미지를 기반으로 불량 제품을 감지하는 인공 지능 장치 및 그 방법
WO2019240330A1 (ko) 영상 기반 힘 예측 시스템 및 그 방법
WO2023063542A1 (ko) 딥러닝 기반의 낙상 감지 및 활동 인식 장치와 방법 및 이를 위한 컴퓨터 판독가능 프로그램
Harini et al. A novel static and dynamic hand gesture recognition using self organizing map with deep convolutional neural network
KR102783240B1 (ko) 활동 인식을 위한 양자화된 전이 변화 검출
WO2020184828A1 (ko) 영상 분석 장치, 방법 및 이에 이용되는 영상 분석 모델의 생성 방법
WO2020045903A1 (ko) Cnn을 이용하여 크기 독립적으로 물체를 검출하는 방법 및 장치
WO2023054913A1 (ko) 포스 터치를 확인하는 전자 장치와 이의 동작 방법
WO2023090618A1 (ko) 인공 지능을 이용하여 운전자의 주시 상태를 판단하는 차량 장치 및 그 제어 방법
CN115719509A (zh) 行为分析系统及行为分析方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22881173

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22881173

Country of ref document: EP

Kind code of ref document: A1