WO2017150899A1 - Object reidentification method for global multi-object tracking - Google Patents
Object reidentification method for global multi-object tracking Download PDFInfo
- Publication number
- WO2017150899A1 WO2017150899A1 PCT/KR2017/002222 KR2017002222W WO2017150899A1 WO 2017150899 A1 WO2017150899 A1 WO 2017150899A1 KR 2017002222 W KR2017002222 W KR 2017002222W WO 2017150899 A1 WO2017150899 A1 WO 2017150899A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- patches
- global multi
- extracted
- tracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B13/00—Burglar, theft or intruder alarms
- G08B13/18—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
- G08B13/189—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
- G08B13/194—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
- G08B13/196—Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
Definitions
- the present invention relates to an object re-identification method for global multi-object tracking, and more particularly, to an object re-identification method for global multi-object tracking for global multi-object tracking in cameras without view sharing. .
- An object of the present invention is to provide a method of object identification for view-invariant, global multi-object tracking for global multi-object tracking in cameras without visual field sharing.
- the direction of pedestrians in the image is used to improve the viewpoint invariance of the patch-based method.
- the proposed method estimates the angle of each patch according to the direction of the pedestrian.
- the patches then have cylindrical coordinates and the similarity between the patches is calculated not only based on the shape but also on the angle.
- the proposed method aims to show the viewpoint invariant property by matching the pedestrian image according to the exact coordinates of each local characteristic.
- the human re-identification algorithm allows a local multi-target tracker (which works only for the same camera) to connect a local orbit of the same object in the local multi-target tracker to make one global trajectory, so that a global multi-target tracker (works for the camera network) Be sure to In order to accomplish this, the conventional method considers a still image data set but does not consider video data in a real-world scenario, and therefore aims to solve some problems that the conventional method cannot handle.
- an object re-identification method for global multi-object tracking comprises: extracting an image of one or more objects included in an image received from the outside; a group of pixels constituting the extracted object image Estimating an angular coordinate for each of the first patches; Comparing the angular coordinates of the second patches, which are a group of pixels constituting a previously stored object image, with the estimated angular coordinates; And re-identifying the one or more objects based on the comparison result.
- the extracting may include deleting a background excluding the one or more objects from the frame of the image.
- the estimating of the angular coordinates may include setting a moving direction of the object as a reference angle in the extracted image; And estimating an angular coordinate for each of the first patches according to the reference angle.
- the angular coordinates of the first patch and the angular coordinates of all the second patches may be compared.
- the method may further include extracting color characteristics of the object for each of the first patches and performing a SIFT transform on the first patches.
- the color characteristic extraction may include converting an RGB format into HSV and LAB formats for each of the first patches; And normalizing the element values of the converted format into a single characteristic vector.
- the method may further include calculating a difference between the extracted color characteristic and the color characteristic of the second patches, and a difference between the SIFT transformed value and the SIFT transformed value of the second patches.
- the method may further include obtaining a similarity degree between the object image and the pre-stored image according to a difference value set for each of the first patches.
- the method may further include obtaining a similarity degree between the extracted object image and the pre-stored image through an average of difference values set for each of the first patches.
- the method may further include arranging the pre-stored image according to the obtained rank of similarity.
- the method may further include applying the obtained similarity to a preset Gaussian distribution.
- the method may further include storing an image of the extracted object and assigning a new ID.
- the present invention relates to a method for object re-identification for global multi-object tracking in a camera environment without visual field sharing, and to estimate the angular coordinates using the direction of movement of a person, and to compare the same, thereby recognizing a person who is robust to the change of viewpoint between cameras.
- it has the effect of reliable global multi-object tracking through the process of new detection and sample selection.
- FIG. 1 is a view showing the overall steps of the object re-identification method for global multi-object tracking according to an embodiment of the present invention.
- FIG 3 shows an example of pedestrian separation, grid cell (pixel) separation, patch angle estimation.
- 5 is a diagram illustrating the overall procedure of global multi-object tracking.
- 6 is a graph illustrating two Gaussian distribution functions using a training data set.
- the proposed method improves the viewpoint invariance of the patch-based method by using the pedestrian's direction in the image. If the human body is cylindrical, the proposed method estimates the angle of each patch according to the direction of the pedestrian. The patches then have cylindrical coordinates and the similarity between the patches is calculated not only based on the shape but also on the angle. The proposed method shows the view-invariant properties by matching the pedestrian image according to the exact coordinates of each local characteristic.
- the term global multi-target tracking refers to the tracking of moving objects in different camera fields of a camera network.
- the term local multi-target tracking is defined as representing the tracking of a moving object in a single camera field of view.
- the first is to select a pedestrian image that can identify the person again from the bounding boxes of the local tracker. This is called a sample selection problem.
- An appropriate sample selection method is needed because it is beneficial to use some very useful pedestrian images from all frames obtained as a local tracking result to shorten processing time.
- the second is to check whether the object observed in the camera network has appeared before. This problem is called new detection.
- the first is to devise an invariant point-of-view method using the pedestrian's direction.
- the second is to propose a framework for dealing with global multi-target tracking that works on multiple separate cameras with cameras without vision sharing by adopting the proposed person's re-identification approach.
- Conventional human re-identification uses an appearance-based approach using only images of objects taken from cameras.
- Other methods [12–14], on the other hand, use spatial and temporal relationships between cameras to improve performance as well as appearance. This method first learns the spatial and temporal relationships between cameras, and then uses the relationship information to predict where objects reappear (in the camera network). This method can distinguish objects that are difficult to distinguish from other objects when using the exterior alone, but there is a problem about how to learn spatial and temporal information between cameras.
- Object tracking among existing methods using spatial and temporal information between cameras is used to model spatial and temporal relationships between cameras [12, 13].
- Probability models between camera views are constructed to describe the probability that an object will appear in time and position.
- the brightness transfer function (BTF) can also be used to overcome non-overlapping pixel-to-pixel light variations.
- BTF brightness transfer function
- By clustering the time / end points of object tracking start / end regions are found and visible and invisible links are estimated [12, 16].
- the relationship between cameras can be obtained without tracking an object [14].
- the pattern over time is analyzed. Then we divide the camera view into regions and estimate the connections between regions based on pattern analysis.
- Appearance-based methods can be divided into (i) those who use the new feature descriptors, taking into account the special challenges of human re-identification, and (ii) those who deal with learning algorithms for distance measurement.
- Appearance-based methods basically use the similarity between feature descriptors extracted from the image of an object for human identification. A feature descriptor is calculated from the image to calculate the similarity between the two human images, and then the similarity between the feature descriptors is calculated using the appropriate distance metric.
- the feature descriptor-based approach focuses on constructing new feature descriptors that are useful for human re-identification, while the distance learning-based approach focuses on learning distance metrics more powerfully about changes in the environment between nonoverlapping camera views.
- a Gabor filter is used in [7] and a haar-like feature and dominant color descriptor are used in [8].
- the patch matching method is used in [4].
- the patch matching method splits the pedestrian image into partially overlapping patches and matches the features of the patches.
- the viability of each patch is further estimated and the patch matching results are weighted based on the effectiveness of the patch in [4].
- Salience demonstrates the usefulness of patches for human identification and uses the k-nearest neighbor (KNN) or single-class support vector machine (OCSVM) to learn the importance of each patch.
- KNN k-nearest neighbor
- OCSVM single-class support vector machine
- the distance metric learning approach trains the distance metric to make the distance within the class lower than the distance between classes instead of applying the same metric to all values in the property descriptor.
- Traditional metric learning methods include LMNN-R [9], PRDC [10], and RankSVM [11].
- the proposed method compares local feature descriptors considering local feature descriptors.
- the figures in the image are represented by a cylindrical model and the cylindrical coordinates of the local features are used to calculate the similarity between the local features.
- the angular coordinates of the local patch in the pedestrian image are used to match the local patch of other pedestrian images.
- the similarity of the patches is compared based on the position of the body.
- the pedestrian segmentation is performed first and the pedestrian direction is estimated.
- the proposed method divides the pedestrian image into locally overlapping patches and estimates the angular coordinates for each patch.
- patch matching is performed by considering the difference between each coordinate to calculate the similarity between different pedestrian images.
- the proportion of the body part is used to select the highly reliable sample calculated.
- the new detection is based on two Gaussian distributions in terms of similarity between pedestrian images.
- the two Gaussian distributions were constructed using the similarities of correct matching and wrong matching in the training set.
- the foreground must be separated from the pedestrian image.
- Patches are matched to patches with high similarity of feature descriptors and small angle differences. Similarity between images is obtained by the average of the similarity of the matching patches. Finally, the ranking list is created by sorting in descending order based on similarity. The overall procedure is shown in FIG.
- the pedestrian image is divided into a series of grid cells. Each grid cell is called a patch, and the grid cells partially overlap.
- the grid stage is 4 and the patch size is 10 x 10. Then, the angle from the orientation vector of the pedestrian is estimated, and a feature descriptor is constructed for each local patch.
- Angular coordinates are angles from the direction of movement of the estimated object.
- the reference direction is the direction of the pedestrian in the image.
- Each coordinate of each local patch can be estimated as follows. We know the coordinates of each pixel in the image. In addition, the horizontal distance between the pixel and the horizontal center of the pedestrian divided along the y-axis can be calculated. Therefore, the angle coordinates of each pixel can be calculated by replacing the distance from the center with the given circle equation as follows.
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
Description
본 발명은 전역적 다중 객체 추적을 위한 객체 재식별 방법에 관한 것으로, 보다 구체적으로 시야 공유가 없는 카메라들에서의 전역 다중-객체 추적을 위한 전역적 다중 객체 추적을 위한 객체 재식별 방법에 관한 것이다.The present invention relates to an object re-identification method for global multi-object tracking, and more particularly, to an object re-identification method for global multi-object tracking for global multi-object tracking in cameras without view sharing. .
범죄를 탐지하고 기소하는 것과 같은 보안 목적으로, 비디오 감시에 사용되는 카메라의 수가 증가 추세에 있다. 결과적으로 지능형 비디오 분석을 위한 알고리즘의 요구는 비디오 감시의 효율성을 높이고 방범을 지원할 수 있기 때문에 증가하고 있다. 사람 재식별은 시야 공유가 되지 않는 카메라 네트워크를 통해 관찰된 보행자를 인식하는 작업이다. 이는 하나의 카메라에 적용된 지능형 비디오 분석을 위한 알고리즘을 시야 공유가 되지 않는 다중 카메라에서 작동하도록 만들 수 있기 때문에 중요한 문제이다.For security purposes, such as detecting and prosecuting crimes, the number of cameras used for video surveillance is on the rise. As a result, the demand for algorithms for intelligent video analysis is increasing because it can increase the efficiency of video surveillance and support crime prevention. Re-identification is the task of recognizing pedestrians observed through a network of cameras that do not share their view. This is important because the algorithms for intelligent video analysis applied to one camera can be made to work on multiple cameras with no field of view.
인물 재식별에 대한 관심이 증가하고 인물 재식별을 위한 많은 방법이 제안되었지만, 만족스러운 성능을 갖는 방법은 아직 제안되지 않았다. 이것은 시야 공유가 되지 않는 카메라 네트워크상에서 동작하는 사람의 재식별의 어려움 및 도전에 주로 기인한다. 특히 시야 공유가 되지 않는 카메라 사이에는 중요한 시점, 포즈 및 조명 변화가 있으며 이는 사람을 다시 식별하는 것을 매우 어렵게 만든다. Interest in person re-identification has increased and many methods for character re-identification have been proposed, but a method with satisfactory performance has not yet been proposed. This is mainly due to the difficulties and challenges of re-identification of people operating on camera networks that do not share view. In particular, there are significant viewpoint, pose, and light changes between cameras that do not share their view, making it very difficult to identify people again.
기존의 많은 접근법은 패치 기반의 방법을 사용하여 사람을 포즈와 관점에 대해 불변하게 재식별한다[1-4]. 이러한 접근법은 보행자 이미지를 패치로 분할하고 각 패치에서 특징을 추출한 다음 두 이미지 간의 유사도를 패치의 특징간의 유사성을 사용하여 계산한다. 이 접근법은 전역 기능 대신 로컬 패치의 로컬 기능을 기반으로 하기 때문에 이러한 접근 방식은 포즈 및 시점 불변 속성을 갖는다. 그럼에도 불구하고, 이러한 접근법은 서로 다른 시점에서 관찰된 다른 보행자의 이미지가 비슷한 모습을 보일 때 여전히 잘못된 매칭 결과를 줄 수 있으므로 충분히 시점-불변적이지 않다. Many existing approaches use patch-based methods to invariably re-identify people in terms of poses and perspectives [1-4]. This approach splits a pedestrian image into patches, extracts features from each patch, and then calculates the similarity between the two images using the similarity between the features of the patches. Because this approach is based on the local functionality of local patches instead of global capabilities, this approach has pose and viewpoint invariant properties. Nevertheless, this approach is not sufficiently time-invariant as it can still give false matching results when the images of different pedestrians observed at different points of view look similar.
본 발명은 시야 공유가 없는 카메라들에서 전역 다중 객체 추적을 위한 시점불변의, 전역적 다중 객체 추적을 위한 객체 재식별 방법을 제공함에 목적이 있다.An object of the present invention is to provide a method of object identification for view-invariant, global multi-object tracking for global multi-object tracking in cameras without visual field sharing.
이미지에서 보행자의 방향을 이용하여 패치 기반 방법의 시점 불변성을 향상시킨다. 인체가 원통형인 경우, 제안한 방법은 보행자의 방향에 따라 각 패치의 각도를 추정한다. 그런 다음 패치는 원통형 좌표를 가지며 패치간의 유사도는 형상을 기반으로 계산될 뿐만 아니라 각도를 기반으로 계산된다. 제안한 방법은 각 지역 특성의 정확한 좌표에 따라 보행자 영상을 매칭시킴으로써 시점 불변 속성을 보여주는 것에 목적이 있다.The direction of pedestrians in the image is used to improve the viewpoint invariance of the patch-based method. If the human body is cylindrical, the proposed method estimates the angle of each patch according to the direction of the pedestrian. The patches then have cylindrical coordinates and the similarity between the patches is calculated not only based on the shape but also on the angle. The proposed method aims to show the viewpoint invariant property by matching the pedestrian image according to the exact coordinates of each local characteristic.
사람 재식별 알고리즘은 하나의 글로벌 궤도를 만들기 위해 로컬 다중 표적 추적기 (동일한 카메라에 대해서만 작동하는)가 로컬 다중 표적 추적기에서 동일한 객체의 로컬 궤도를 연결하여 전역 다중 표적 추적기 (카메라 네트워크 용으로 작동)가 되도록 한다. 이를 수행하기 위해 기존의 방법에서는 정지 이미지 데이터 집합을 고려하지만 실제 시나리오에서의 비디오 데이터를 고려하지 않기 때문에 기존 방법에서는 처리하지 못했던 일부 문제를 해결하는 것에 목적이 있다.The human re-identification algorithm allows a local multi-target tracker (which works only for the same camera) to connect a local orbit of the same object in the local multi-target tracker to make one global trajectory, so that a global multi-target tracker (works for the camera network) Be sure to In order to accomplish this, the conventional method considers a still image data set but does not consider video data in a real-world scenario, and therefore aims to solve some problems that the conventional method cannot handle.
본 발명의 일 실시예에 따른 전역적 다중 객체 추적을 위한 객체 재식별 방법은, 외부로부터 수신된 영상에 포함된 하나 이상의 객체의 이미지를 추출하는 단계;상기 추출한 객체의 이미지를 구성하는 픽셀들의 그룹인 제1패치들별로 각도좌표를 추정하는 단계; 기저장된 객체 이미지를 구성하는 픽셀들의 그룹인 제2패치들의 각도좌표와 상기 추정된 각도좌표를 비교하는 단계; 및 상기 비교결과를 기반으로 상기 하나 이상의 객체를 재식별하는 단계를 포함할 수 있다.According to an embodiment of the present invention, an object re-identification method for global multi-object tracking comprises: extracting an image of one or more objects included in an image received from the outside; a group of pixels constituting the extracted object image Estimating an angular coordinate for each of the first patches; Comparing the angular coordinates of the second patches, which are a group of pixels constituting a previously stored object image, with the estimated angular coordinates; And re-identifying the one or more objects based on the comparison result.
상기 추출하는 단계는, 상기 영상을 이루는 프레임에서 상기 하나 이상의 객체를 제외한 배경을 삭제하는 단계를 포함할 수 있다.The extracting may include deleting a background excluding the one or more objects from the frame of the image.
상기 각도좌표를 추정하는 단계는, 상기 추출한 이미지에서 객체의 이동방향을 기준각도로 설정하는 단계; 및 상기 기준각도에 따라 상기 각각의 제1패치들에 대해 각도좌표를 추정하는 단계를 포함할 수 있다.The estimating of the angular coordinates may include setting a moving direction of the object as a reference angle in the extracted image; And estimating an angular coordinate for each of the first patches according to the reference angle.
상기 비교하는 단계에서, 하나의 상기 제1패치의 각도좌표와 모든 제2패치들의 각도좌표를 비교하는 것을 특징으로 할 수 있다.In the comparing, the angular coordinates of the first patch and the angular coordinates of all the second patches may be compared.
상기 각도좌표를 추정하는 단계와 병렬적으로, 상기 제1패치들별로 객체의 색상특성을 추출하고, 상기 제1패치들에 대한 SIFT 변환을 수행하는 단계를 더 포함할 수 있다.In parallel with the step of estimating the angular coordinate, the method may further include extracting color characteristics of the object for each of the first patches and performing a SIFT transform on the first patches.
상기 비교하는 단계는, 상기 추정한 제1패치들의 각도좌표와 상기 제2패치들의 각도좌표를 비교하고, 상기 추출한 제1패치들의 색상특성과 상기 제2패치들의 색상특성을 비교하고, 상기 제1패치들의 SIFT 변환을 수행한 값과 상기 제2패치들의 SIFT 변환을 수행한 값을 비교한 결과에 기반하여 상기 추출한 객체의 이미지와 상기 기저장된 객체 이미지의 유사도를 획득하는 단계를 포함할 수 있다.The comparing may include comparing angular coordinates of the estimated first patches with angular coordinates of the second patches, comparing color characteristics of the extracted first patches with color characteristics of the second patches, and comparing the angular coordinates of the first patches. The method may include obtaining a similarity degree between the extracted object image and the previously stored object image based on a result of comparing the SIFT transform value of the patches with the SIFT transform value of the second patches.
상기 색상특성 추출은, 상기 제1패치들별로 RGB형식을 HSV 및 LAB 형식으로 변환하는 단계; 및 상기 변환된 형식의 엘리먼트 값들을 정규화하여 하나의 특성벡터로 연결시키는 단계를 포함할 수 있다.The color characteristic extraction may include converting an RGB format into HSV and LAB formats for each of the first patches; And normalizing the element values of the converted format into a single characteristic vector.
상기 추출된 색상특성과 상기 제2패치들의 색상특성간의 차이와 상기 SIFT 변환을 수행한 값과 상기 제2패치들에 대해 SIFT 변환을 수행한 값의 차이를 연산하는 단계를 더 포함할 수 있다.The method may further include calculating a difference between the extracted color characteristic and the color characteristic of the second patches, and a difference between the SIFT transformed value and the SIFT transformed value of the second patches.
상기 연산을 수행한 값과 상기 제2패치들의 각도좌표와 상기 추정된 각도좌표를 비교한 차이를 평균내는 단계; 및 상기 평균낸 값의 최소값을 상기 제1패치와 상기 기저장된 이미지의 차이값으로 설정하는 단계를 더 포함할 수 있다.Averaging a difference between the value of the operation and the angle coordinates of the second patches and the estimated angle coordinates; And setting a minimum value of the averaged value as a difference value between the first patch and the pre-stored image.
상기 제1패치들별로 설정된 차이값에 따라 상기 객체 이미지와 상기 기저장된 이미지의 유사도를 획득하는 단계를 더 포함할 수 있다.The method may further include obtaining a similarity degree between the object image and the pre-stored image according to a difference value set for each of the first patches.
상기 제1패치들별로 설정된 차이값들의 평균을 통해 상기 추출한 객체 이미지와 상기 기저장된 이미지의 유사도를 획득하는 단계를 더 포함할 수 있다.The method may further include obtaining a similarity degree between the extracted object image and the pre-stored image through an average of difference values set for each of the first patches.
상기 획득한 유사도의 순위에 따라 상기 기저장된 이미지를 정렬하는 단계를 더 포함할 수 있다.The method may further include arranging the pre-stored image according to the obtained rank of similarity.
상기 획득한 유사도를 기설정된 가우시안분포에 적용시키는 단계를 더 포함할 수 있다.The method may further include applying the obtained similarity to a preset Gaussian distribution.
상기 기설정된 가우시안분포는, 상기 기저장된 객체 이미지 및 기저장되지 않은 객체 이미지에 대응되는 유사도에 따른 확률분포를 특징으로 할 수 있다.The preset Gaussian distribution may be characterized by a probability distribution according to similarity corresponding to the pre-stored object image and the non-pre-stored object image.
상기 적용 결과, 상기 추출한 이미지와 기저장된 이미지가 일치하는 것으로 판단되면, 상기 추출한 이미지의 객체에 상기 기저장된 이미지의 아이디를 부여하는 단계를 더 포함할 수 있다.If it is determined that the extracted image matches the pre-stored image as a result of the application, the method may further include assigning an ID of the pre-stored image to the object of the extracted image.
상기 적용 결과, 상기 추출한 이미지와 기저장된 이미지가 불일치하는 것으로 판단되면, 상기 추출한 객체의 이미지를 저장하고, 신규 아이디를 부여하는 단계를 더 포함할 수 있다.If it is determined that the extracted image and the pre-stored image are inconsistent as a result of the application, the method may further include storing an image of the extracted object and assigning a new ID.
상기 저장시, 상기 추출한 객체의 이미지의 객체를 분할하여 기설정된 신체비율에 맞는 객체의 이미지만 저장할 수 있다.During the storage, the object of the extracted image of the object may be divided to store only the image of the object meeting the preset body ratio.
본 발명은 시야 공유가 없는 카메라 환경에서 전역적 다중 객체 추적을 위한 객체 재식별 방법에 관한 것으로, 사람의 이동 방향을 이용하여 각도좌표를 추정하고, 이를 비교함으로써 카메라 간 시점 변화에 강인한 사람 재식별을 가능하게 하며, 이에 더불어 신규 탐지, 샘플 선택의 과정을 거쳐 신뢰성 높은 전역적 다중 객체 추적이 이루어지는 효과가 있다.The present invention relates to a method for object re-identification for global multi-object tracking in a camera environment without visual field sharing, and to estimate the angular coordinates using the direction of movement of a person, and to compare the same, thereby recognizing a person who is robust to the change of viewpoint between cameras. In addition, it has the effect of reliable global multi-object tracking through the process of new detection and sample selection.
본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.BRIEF DESCRIPTION OF THE DRAWINGS The accompanying drawings, included as part of the detailed description in order to provide a thorough understanding of the present invention, provide embodiments of the present invention and together with the description, describe the technical features of the present invention.
도 1은 본 발명의 일 실시예에 따른 전역적 다중 객체 추적을 위한 객체 재식별 방법의 전반적인 단계들이 도시된 도면이다.1 is a view showing the overall steps of the object re-identification method for global multi-object tracking according to an embodiment of the present invention.
도 2는 배경을 삭제한 결과를 보여준다, (a)는 원래의 이미지, (b)는 모델링 된 배경, (3)은 배경 삭제의 결과이다.2 shows the result of deleting the background, (a) the original image, (b) the modeled background, and (3) the result of the background deletion.
도 3은 보행자 분리, 그리드 셀(픽셀)로의 분리, 패치의 각도 추정의 예시를 보여준다.3 shows an example of pedestrian separation, grid cell (pixel) separation, patch angle estimation.
도 4는 패치에서의 각도 추정의 예시를 도시한다.4 shows an example of angle estimation in a patch.
도 5는 전역적 다중 객체 추적의 전반적인 절차를 도시한 도면이다.5 is a diagram illustrating the overall procedure of global multi-object tracking.
도 6은 트레이닝 데이터 세트를 사용하는 2개의 가우스 분포 함수를 도시한 그래프이다.6 is a graph illustrating two Gaussian distribution functions using a training data set.
도 7은 신체 분할의 결과의 예시를 나타낸 도면이다.7 is a diagram illustrating an example of the results of body segmentation.
도 8은 VIPeR데이터 데이터세트의 예시를 나타낸 도면이다.8 is a diagram illustrating an example of a VIPeR data data set.
도 9는 nAUG의관점에서 성능을 보여주는 도면이다.9 shows performance in terms of nAUG.
도 10 및 11은 3개의 카메라의 배치 및 각각의 카메라의 시야를 보여주는 도면이다.10 and 11 show the arrangement of three cameras and the field of view of each camera.
본 연구에서는 보행자의 방향을 이용하여 사람을 재식별하는 관점 불변 방법을 제안한다. 제안한 방법은 이미지에서 보행자의 방향을 이용하여 패치 기반 방법의 시점 불변성을 향상시킨다. 인체가 원통형인 경우, 제안한 방법은 보행자의 방향에 따라 각 패치의 각도를 추정한다. 그런 다음 패치는 원통형 좌표를 가지며 패치간의 유사도는 형상을 기반으로 계산될 뿐만 아니라 각도를 기반으로 계산된다. 제안한 방법은 각 지역 특성의 정확한 좌표에 따라 보행자 영상을 매칭시킴으로써 시점 불변 속성을 보여준다. In this study, we propose an invariant point of view method to re-identify people using the direction of pedestrians. The proposed method improves the viewpoint invariance of the patch-based method by using the pedestrian's direction in the image. If the human body is cylindrical, the proposed method estimates the angle of each patch according to the direction of the pedestrian. The patches then have cylindrical coordinates and the similarity between the patches is calculated not only based on the shape but also on the angle. The proposed method shows the view-invariant properties by matching the pedestrian image according to the exact coordinates of each local characteristic.
또한, 우리는 사람 재식별을 카메라간 다중 표적 추적에 적용하는 실제적인 문제를 다룬다. 이 작업에서 글로벌 멀티-타켓 트래킹(global multi-target tracking) 이라는 용어는 카메라 네트워크의 여러 카메라 시야에서 움직이는 물체를 추적하는 것을 의미한다. 대조적으로, 로컬 멀티-타켓 트래킹(local multi-target tracking) 이라는 용어는 단일 카메라 시야에서 움직이는 물체의 추적을 나타내는 것으로 정의된다. 사람 재식별 알고리즘은 하나의 글로벌 궤도를 만들기 위해 로컬 다중 표적 추적기 (동일한 카메라에 대해서만 작동하는)가 로컬 다중 표적 추적기에서 동일한 객체의 로컬 궤도를 연결하여 전역 다중 표적 추적기 (카메라 네트워크 용으로 작동)가 되도록 한다. 이를 수행하기 위해 기존의 방법에서는 정지 이미지 데이터 집합을 고려하지만 실제 시나리오에서의 비디오 데이터를 고려하지 않기 때문에 기존 방법에서는 처리하지 못했던 일부 문제를 해결해야 한다. We also address the practical problem of applying human re-identification to multiple target tracking between cameras. In this work, the term global multi-target tracking refers to the tracking of moving objects in different camera fields of a camera network. In contrast, the term local multi-target tracking is defined as representing the tracking of a moving object in a single camera field of view. The human re-identification algorithm allows a local multi-target tracker (which works only for the same camera) to connect a local orbit of the same object in the local multi-target tracker to make one global trajectory, so that a global multi-target tracker (works for the camera network) Be sure to In order to do this, the conventional method considers a still image data set but does not consider video data in a real-world scenario, so some problems that the conventional method cannot solve are solved.
이를 위해서는 두 가지 문제를 처리해야 한다. 첫 번째는 로컬 추적자의 경계 상자(bounding boxes) 중에서 사람을 다시 식별할 수 있는 보행자 이미지를 선택하는 것이다. 이를 샘플 선택 문제라고 한다. 처리 시간을 단축하기 위해 로컬 추적 결과로서 얻어진 모든 프레임으로부터 매우 유용한 일부 보행자 화상을 이용하는 것이 유익하기 때문에 적절한 샘플 선택 방법이 필요하다. 두 번째는 카메라 네트워크에서 관찰된 물체가 이전에 등장했었는지 여부를 확인하는 것이다. 이 문제를 신규 탐지라고 한다.This involves two issues. The first is to select a pedestrian image that can identify the person again from the bounding boxes of the local tracker. This is called a sample selection problem. An appropriate sample selection method is needed because it is beneficial to use some very useful pedestrian images from all frames obtained as a local tracking result to shorten processing time. The second is to check whether the object observed in the camera network has appeared before. This problem is called new detection.
본 연구에서는 두 가지 문제점을 다루기 위한 프레임 워크 (사람간 재식별을 이용한 카메라 간 다중 타겟 추적)를 제안한다. 표본 선정을 위해 머리, 상체, 하체로 구성된 세 부분의 비율에 따라 각 보행자 이미지의 신뢰도를 계산한다. 우리는 [5]에서 비대칭 축을 사용하여 보행자 이미지에서 3개의 신체 부분을 나누고, 사람의 재식별을 위한 높은 신뢰도를 갖는 보행자 이미지를 선택한다. 신규 탐지를 위해 우리는 잘못된 매칭과 정확한 매칭의 유사성에 기반하여 계산된 2개의 가우시안 분포[5]를 사용한다. 물체의 매칭 결과가 주어지면, 잘못된 매칭의 확률이 정확한 매칭의 확률보다 높으면, 그 물체는 새로운 물체로 간주된다.In this paper, we propose a framework to deal with two problems (multi-target tracking between cameras using human re-identification). For sampling, the reliability of each pedestrian image is calculated according to the ratio of three parts: head, upper body and lower body. We divide the three body parts in the pedestrian image using the asymmetric axis in [5], and select the pedestrian image with high reliability for human re-identification. For new detection we use two Gaussian distributions [5] calculated based on the similarity between false and exact matches. Given a match result of an object, if the probability of a bad match is higher than the probability of a correct match, the object is considered a new object.
이를 위해 이 연구의 주된 기여는 다음 두 가지 측면에 있다. 첫 번째는 보행자의 방향을 이용하여 시점 불변인 재식별법을 고안하는 것이다. 두 번째는 제안한 사람의 재식별 접근법을 채택함으로써 시야 공유가 없는 카메라를 가진 다중 분리 카메라에서 작동하는 글로벌 다중 타겟 추적을 처리하기 위한 프레임 워크를 제안하는 것이다.To this end, the main contribution of this study is on two aspects: The first is to devise an invariant point-of-view method using the pedestrian's direction. The second is to propose a framework for dealing with global multi-target tracking that works on multiple separate cameras with cameras without vision sharing by adopting the proposed person's re-identification approach.
<사람 재식별에 관련된 연구><Research on Human Reidentification>
기존의 사람 재식별법[4-11]은 카메라에서 찍은 물체의 이미지만을 사용하여 외형 기반 접근법을 사용한다. 반면 다른 방법들[12-14]은 외관뿐만 아니라 성능을 향상시키기 위해 카메라간의 공간적, 시간적 관계를 활용한다. 이 방법은 먼저 카메라간의 공간적, 시간적 관계를 학습한 다음 관계 정보를 사용하여 객체가 다시 나타나는 위치 (카메라 네트워크에서)를 예측한다. 이 방법은 외관을 단독으로 사용할 때 다른 물체와 구별하기 어려운 물체를 구별할 수 있지만 카메라간의 공간 및 시간 정보를 학습하는 방법에 대한 문제가 있다.Conventional human re-identification [4-11] uses an appearance-based approach using only images of objects taken from cameras. Other methods [12–14], on the other hand, use spatial and temporal relationships between cameras to improve performance as well as appearance. This method first learns the spatial and temporal relationships between cameras, and then uses the relationship information to predict where objects reappear (in the camera network). This method can distinguish objects that are difficult to distinguish from other objects when using the exterior alone, but there is a problem about how to learn spatial and temporal information between cameras.
공간적 및 시간적 관계 기반 접근법Spatial and temporal relationship-based approach
카메라간의 공간 및 시간 정보를 사용하는 기존의 방법 중 객체 추적은 카메라간 공간적 및 시간적 관계를 모델링하는데 사용된다[12, 13]. 시간과 위치에 대해 물체가 나타날 확률을 설명하기 위해 카메라 뷰 사이의 확률 모델이 구성된다. 또한 밝기 전달 함수(BTF)를 사용하여 겹치지 않는 픽셀간 조명 변화를 극복할 수 있다. 객체 추적의 시간/끝 지점을 클러스터링함으로서 시작/끝 영역이 발견되고 가시적인 링크와 보이지 않는 링크가 추정된다[12,16]. 반대로 카메라간 관계는 물체를 추적하지 않고도 얻을 수 있다[14]. 먼저 시간 경과에 따른 패턴이 분석된다. 그런 다음 카메라 뷰를 영역으로 나누고 영역간 연결을 패턴 분석을 기준으로 추정한다.Object tracking among existing methods using spatial and temporal information between cameras is used to model spatial and temporal relationships between cameras [12, 13]. Probability models between camera views are constructed to describe the probability that an object will appear in time and position. The brightness transfer function (BTF) can also be used to overcome non-overlapping pixel-to-pixel light variations. By clustering the time / end points of object tracking, start / end regions are found and visible and invisible links are estimated [12, 16]. In contrast, the relationship between cameras can be obtained without tracking an object [14]. First, the pattern over time is analyzed. Then we divide the camera view into regions and estimate the connections between regions based on pattern analysis.
외형 기반 접근법Appearance-based approach
외형 기반 방법은 (i) 사람 재식별의 특별한 도전을 고려하여 새로운 특징 디스크립터를 이용하는 사람들과 (ii) 거리 측정을 위한 학습 알고리즘을 다루는 사람들로 나눌 수 있다. 외형 기반의 방법은 기본적으로 사람의 재식별을 위해 사물의 이미지로부터 추출된 특징 디스크립터 사이의 유사성을 사용한다. 두 사람의 이미지 사이의 유사도를 계산하기 위해 이미지로부터 특징 디스크립터를 계산한 다음, 적절한 거리 메트릭을 사용하여 특징 디스크립터간의 유사성을 계산한다. 특징 디스크립터 기반 접근법은 사람의 재식별에 유용한 새로운 특징 디스크립터를 구성하는 데 초점을 맞추지만 원거리 학습 기반 접근법은 중첩되지 않는 카메라 뷰 간의 환경 변화에 대해 거리 메트릭을 보다 강력하게 학습하는 데 초점을 맞춘다.Appearance-based methods can be divided into (i) those who use the new feature descriptors, taking into account the special challenges of human re-identification, and (ii) those who deal with learning algorithms for distance measurement. Appearance-based methods basically use the similarity between feature descriptors extracted from the image of an object for human identification. A feature descriptor is calculated from the image to calculate the similarity between the two human images, and then the similarity between the feature descriptors is calculated using the appropriate distance metric. The feature descriptor-based approach focuses on constructing new feature descriptors that are useful for human re-identification, while the distance learning-based approach focuses on learning distance metrics more powerfully about changes in the environment between nonoverlapping camera views.
사람의 대칭축으로부터 더 멀리 있는 픽셀이 배경에 속할 확률이 더 높다는 가정은 [5]에서 사용한다. 먼저, 전경의 픽셀을 비교하여 두 개의 수평 비대칭 축 (사람의 몸을 머리, 상체 및 하체로 나눔)을 추출한다. 그러면 상체와 하체의 두 개의 수직 대칭축이 추정된다. 다음으로 이미지에서 특징을 추출할 때 대칭축에 더 가까운 픽셀의 가중치가 커진다. 특징 디스크립터의 경우, 가중된 HSV 색 히스토그램 [5], 최대 안정 색 영역 (MSCR) [17] 및 반복적인 고차원 패치 (RSHP) [5]가 사용된다. 신체 부위는 [6]의 훈련 데이터를 사용하여 감지된다. 그런 다음 신체 부위를 기준으로 외모를 비교한다. 가장 널리 사용되는 특징인 색 막대 그래프 외에도 다양한 기능이 사람의 재식별에 사용된다. 예를 들어 Gabor 필터가 [7]에서 사용되었고 Haar-like feature와 dominant color descriptor가 [8]에서 사용되었다. 패치 일치 방법은 [4]에서 사용된다. 패치 일치 방법은 보행자 이미지를 부분적으로 겹쳐진 패치로 분할하고 패치의 특징을 일치시킨다. 각 패치의 생존력은 추가로 추정되며 패치 일치 결과는 [4]에서 패치의 유효성을 기반으로 가중치가 부여된다. Salience는 사람 재식별을 위한 패치의 유용성을 나타내고 k-nearest neighbor (KNN) 또는 단일 클래스 지원 벡터 머신 (OCSVM)을 사용하여 각 패치의 중요도를 학습합니다. 독창적인 학습없이 패치 매칭 방법을 사용하고 뷰 포인트 변경에 대한 불변성을 위한 패치의 각도 좌표를 추가적으로 사용한다.The assumption that pixels farther from the human axis of symmetry are more likely to belong to the background is used in [5]. First, the pixels in the foreground are compared to extract two horizontal asymmetric axes (dividing the human body into the head, upper body and lower body). The two vertical axes of symmetry, upper body and lower body, are then estimated. Next, when the feature is extracted from the image, the weight of the pixel closer to the axis of symmetry increases. For feature descriptors, weighted HSV color histograms [5], maximum stable color gamut (MSCR) [17] and repetitive high dimensional patches (RSHP) [5] are used. Body parts are detected using training data from [6]. Then compare appearances based on body parts. In addition to color bar graphs, the most widely used feature, various functions are used to re-identify a person. For example, a Gabor filter is used in [7] and a haar-like feature and dominant color descriptor are used in [8]. The patch matching method is used in [4]. The patch matching method splits the pedestrian image into partially overlapping patches and matches the features of the patches. The viability of each patch is further estimated and the patch matching results are weighted based on the effectiveness of the patch in [4]. Salience demonstrates the usefulness of patches for human identification and uses the k-nearest neighbor (KNN) or single-class support vector machine (OCSVM) to learn the importance of each patch. Use patch matching without any additional learning and additionally use the patch's angular coordinates for invariance to view point changes.
거리 메트릭 학습 접근법은 거리 메트릭을 훈련시켜 특성 디스크립터의 모든 값에 동일한 메트릭을 적용하는 대신 클래스간 거리보다 클래스 내부의 거리를 더 낮게 만든다. 기존의 메트릭 학습 방법으로는 LMNN-R [9], PRDC [10], RankSVM [11] 등이 있다.The distance metric learning approach trains the distance metric to make the distance within the class lower than the distance between classes instead of applying the same metric to all values in the property descriptor. Traditional metric learning methods include LMNN-R [9], PRDC [10], and RankSVM [11].
논의 : 기존의 방법들과 달리, 관점 불변 속성을 보장하기 위해, 본 연구에서 제안된 방법은 국부적 특성 디스크립터들의 위치를 고려한 국부적 특성 디스크립터들을 비교한다. 이를 위해 이미지의 인물은 원통형 모델로 표현되고 로컬 피처의 원통 좌표가 로컬 피처 간의 유사성 계산에 사용된다. Discussion : Unlike existing methods, in order to ensure perspective invariant, the proposed method compares local feature descriptors considering local feature descriptors. For this purpose, the figures in the image are represented by a cylindrical model and the cylindrical coordinates of the local features are used to calculate the similarity between the local features.
본 연구에서는 시점 변화에 강인한 사람 재식별 방법을 제안했다. 보행자 이미지에서 로컬 패치의 각도 좌표를 사용하여 다른 보행자 이미지의 로컬 패치와 매칭시킨다. 이미지에서 매칭된 패치의 각도 좌표 차이에 대해서는 패치의 유사성이 몸체의 위치를 기준으로 비교된다. 이를 위해 보행자 분할이 먼저 수행되고 보행자 방향이 추정된다. 그런 다음, 제안된 방법은 보행자 영상을 국부적으로 겹치는 패치로 나누고 각 패치에 대해 각도 좌표를 추정한다. 마지막으로 패치 매칭은 서로 다른 보행자 이미지간의 유사도를 계산하기 위해 각 좌표 간의 차이를 고려하여 수행된다. In this study, we proposed a method for re-identification that is robust to viewpoint change. The angular coordinates of the local patch in the pedestrian image are used to match the local patch of other pedestrian images. For angular coordinate differences of matched patches in the image, the similarity of the patches is compared based on the position of the body. For this purpose, the pedestrian segmentation is performed first and the pedestrian direction is estimated. Then, the proposed method divides the pedestrian image into locally overlapping patches and estimates the angular coordinates for each patch. Finally, patch matching is performed by considering the difference between each coordinate to calculate the similarity between different pedestrian images.
또한 제안된 방법을 시야 공유가 없는 카메라에서 전역 다중 표적 추적의 실제 적용에 적용했다. 특히, 글로벌 멀티 타겟 트래킹 시스템을 실현하기 위해 샘플 선택과 신규 탐지의 두 가지 주요 어려움이 적절히 처리하였다. The proposed method is also applied to the practical application of global multi-target tracking in cameras without visual sharing. In particular, two major challenges of sample selection and new detection have been properly addressed to realize a global multi-target tracking system.
신체 부위의 비율을 사용하여 계산된 신뢰도가 높은 샘플을 선택한다. 신규 탐지는 보행자 이미지 간의 유사도와 관련하여 두 가지 가우시안 분포를 기반으로 구현되었다. 두 개의 가우시안 분포는 훈련 세트에서 정확한 매칭(Correct Matching)과 잘못된 매칭(Wrong Matching)의 유사점을 사용하여 구성되었다. The proportion of the body part is used to select the highly reliable sample calculated. The new detection is based on two Gaussian distributions in terms of similarity between pedestrian images. The two Gaussian distributions were constructed using the similarities of correct matching and wrong matching in the training set.
우리는 이 연구의 중요성을 검증하기 위해 제안된 방법을 몇 가지 기존 방법과 비교했다. VIPeR 데이터 세트 (사람 재식별을 위한) 및 NLPR_MCT 데이터 세트 (글로벌 다중 타겟 추적)에 대해 수행된 실험. 실험적 연구를 통해 제안된 방법이 정확도 측면에서 기존 방법에 비해 크게 개선될 수 있음을 확인했다. We have compared the proposed method with some existing methods to verify the importance of this study. Experiments performed on VIPeR data set (for human re-identification) and NLPR_MCT data set (global multi-target tracking). Experimental studies show that the proposed method can be significantly improved compared to the existing method in terms of accuracy.
본 연구에서는 인물 재식별을 위해 LAB 색상 히스토그램, HSV 색상 히스토그램 및 SIFT 피처가 사용되었다. 향후 작업으로는 고유한 속성을 가진 다양한 기능을 기능에 통합하여 정확성을 높일 수 있을 것이다. 또한 치수 감소 알고리즘을 사용하여 형상의 차원을 줄임으로써 시간 복잡성을 줄일 수 있다. 제안된 방법은 패치 기반 접근법을 기반으로 하고 있기 때문에, 다른 패치 기반 방법들 (예를 들어, 거리 메트릭 학습)은 제안된 방법과 결합 될 수 있다. 다중 카메라 다중 표적 추적의 경우, 신규 탐지를 위한 임계 값을 추정하기 위해 훈련 세트를 얻는 방법에 관한 문제가 있다. 따라서 보다 일반화된 임계값을 계산하고 강력한 학습을 자동으로 수집하는 방법을 신규 탐지의 성능을 향상시키기 위해 연구할 수 있을 것이다.In this study, LAB color histogram, HSV color histogram, and SIFT features were used to identify people. Future work will increase the accuracy by integrating various features with unique attributes into the function. You can also reduce the time complexity by using dimension reduction algorithms to reduce the dimension of the shape. Since the proposed method is based on a patch-based approach, other patch-based methods (eg distance metric learning) can be combined with the proposed method. In the case of multi-camera multi-target tracking, there is a problem with how to obtain a training set to estimate the threshold for new detection. Thus, methods for calculating more generalized thresholds and automatically gathering strong learning can be studied to improve the performance of new detections.
<시점 불변의 사람 재식별기술><Constant Person Reidentification Technology>
전반적인 절차Overall procedure
등장 인물 재식별 시스템은 식별할 보행자 영상을 수신하고, 입력된 영상과 알려진 사람의 영상으로 구성된 영상리스트 간의 유사성을 계산하여 순위가 매겨진 리스트를 출력한다. 식별이 필요한 사람 이미지를 Probe라고 한다. 알려진 사람의 이미지로 구성된 이미지 목록을 Gallery라고 한다. The character re-identification system receives the pedestrian image to be identified, calculates the similarity between the input image and the image list composed of the image of the known person, and outputs the ranked list. The image of a person who needs identification is called a probe. A list of images consisting of known people's images is called a gallery.
사람을 다시 식별하려면 전경이 보행자 이미지에서 분리되어야 한다. 다음으로, 전경을 부분적으로 겹쳐진 패치로 구성된 패치 세트로 나눈다. To identify people again, the foreground must be separated from the pedestrian image. Next, divide the foreground into a patch set consisting of partially overlapping patches.
그런 다음 각 패치에 대한 특징 디스크립터(feature descriptor)가 만들어지고 각 패치의 각도를 추정한다. 특징 디스크립터와 패치 각도는 보행자 이미지간의 유사도 계산에 사용된다. 상이한 보행자 영상의 특징 디스크립터와 상이한 보행자 영상의 각도 차이 사이의 유사도가 계산된다. 그런 다음 유사점과 차이점을 동시에 고려하여 패치를 매칭시킨다. Then a feature descriptor is created for each patch and the angle of each patch is estimated. Feature descriptors and patch angles are used to calculate the similarity between pedestrian images. The similarity between the feature descriptors of the different pedestrian images and the angular difference of the different pedestrian images is calculated. Then, the patch is matched by considering similarities and differences.
패치는 특징 디스크립터의 유사도가 높고 각도의 차이가 적은 패치와 매칭된다. 매칭된 패치의 유사성의 평균으로 이미지간의 유사성을 얻는다. 마지막으로 순위 목록은 유사도를 기준으로 내림차순으로 정렬하여 만들어진다. 전반적인 절차는 도 1에 도시되었다.Patches are matched to patches with high similarity of feature descriptors and small angle differences. Similarity between images is obtained by the average of the similarity of the matching patches. Finally, the ranking list is created by sorting in descending order based on similarity. The overall procedure is shown in FIG.
보행자 분할 (Pedestrian segmentation)Pedestrian segmentation
일반적으로 사람 식별을 위한 보행자 이미지는 직사각형이며 배경을 포함한다. 정확한 매칭를 위해 보행자가 속한 픽셀을 구분해야 한다. 이러한 목적으로 DDN (Deep decompositional network) [18]을 사용할 수 있다. DDN은 심층 학습을 사용하여 정지 이미지에서 보행자를 파싱하며 사람과 배경을 구별하는 단계를 포함한다. 유망한 성능에도 불구하고 우리는 계산 시간이 복잡하기 때문에 이를 채택하지 않았다. 비디오에서 보행자는 배경 빼기 및 객체 감지를 사용하여 구분할 수 있다. 이를 위해, 우리는 시간의 효율성 때문에 평균 이동 기반의 배경 제거 방법을 사용한다 [10]. 도면 2는 비디오에서 배경 삭제 결과의 예를 보여준다.In general, pedestrian images for person identification are rectangular and include a background. For accurate matching, the pixels that the pedestrian belongs to must be distinguished. Deep decompositional network (DDN) [18] can be used for this purpose. DDN uses deep learning to parse pedestrians from still images and to distinguish between people and the background. Despite the promising performance, we did not adopt it because of the complexity of the computation time. Pedestrians in the video can be distinguished using background subtraction and object detection. To do this, we use an average shift-based background removal method because of time efficiency [10]. 2 shows an example of a background deletion result in a video.
방향 추정 (Orientation estimation)Orientation estimation
제안한 방법은 보행자 이미지의 방향을 사용한다. 보행자의 방향은 0, 45, 90, 135, 180, 225, 270 및 315도를 포함하여 8개의 클래스로 분류한다. 비디오에서 우리는 보행자의 궤도에서 두 점을 사용하여 방향을 얻을 수 있다. 보행자의 이동 방향은 사람이 앞으로 나아갈 것이라는 가정하에 이미지의 방향이다. 정지 영상에서 방향은 기존의 방법으로 얻을 수 있다. 보행자 이미지는 [19]에서 기울기의 막대 그래프 (HoG)를 사용하여 8가지 방향으로 분류한다. 이 작업 전반에 걸친 가정은 정지 영상에 보행자의 방향이 주어졌다는 것이다.The proposed method uses the direction of the pedestrian image. Pedestrian directions are divided into eight classes, including 0, 45, 90, 135, 180, 225, 270 and 315 degrees. In the video we can get directions using two points in the pedestrian track. The direction of movement of the pedestrian is the direction of the image, assuming that a person will move forward. Orientation in still images can be obtained by conventional methods. Pedestrian images are categorized into eight directions using a histogram of slope (HoG) in [19]. The assumption throughout this work is that the still image is given the pedestrian's direction.
그리드 분할 (Division into grid)Division into grid
보행자 이미지는 일련의 그리드 셀로 나뉜다. 각 그리드 셀을 패치라고 하며 그리드 셀은 부분적으로 겹친다. 이 작업에서 격자 단계는 4이고 패치 크기는 10 x 10이다. 그런 다음, 보행자의 방향 벡터(orientation vector)로부터의 각도가 추정되고, 특징 디스크립터가 각각의 로컬 패치에 대해 구성된다.The pedestrian image is divided into a series of grid cells. Each grid cell is called a patch, and the grid cells partially overlap. In this task, the grid stage is 4 and the patch size is 10 x 10. Then, the angle from the orientation vector of the pedestrian is estimated, and a feature descriptor is constructed for each local patch.
패치 각도 추정 (Patch angle estimation)Patch angle estimation
각도 좌표는 상기 추정된 객체의 이동방향으로부터의 각도이다. 기준 방향은 이미지에서 보행자의 방향이다. 각 로컬 패치의 각 좌표는 다음과 같이 추정할 수 있다. 우리는 이미지의 각 픽셀 좌표를 알고 있다. 또한 y축을 따라 분할된 보행자의 수평 중심과 픽셀 사이의 수평 거리를 계산할 수 있다. 따라서 중심으로부터의 거리를 다음과 같이 주어진 원 방정식으로 대체하여 각 픽셀의 각도 좌표를 계산할 수 있다.Angular coordinates are angles from the direction of movement of the estimated object. The reference direction is the direction of the pedestrian in the image. Each coordinate of each local patch can be estimated as follows. We know the coordinates of each pixel in the image. In addition, the horizontal distance between the pixel and the horizontal center of the pedestrian divided along the y-axis can be calculated. Therefore, the angle coordinates of each pixel can be calculated by replacing the distance from the center with the given circle equation as follows.
Claims (17)
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR10-2016-0024674 | 2016-02-29 | ||
| KR20160024674 | 2016-02-29 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| WO2017150899A1 true WO2017150899A1 (en) | 2017-09-08 |
| WO2017150899A9 WO2017150899A9 (en) | 2018-08-02 |
Family
ID=59743054
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/KR2017/002222 Ceased WO2017150899A1 (en) | 2016-02-29 | 2017-02-28 | Object reidentification method for global multi-object tracking |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2017150899A1 (en) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019103208A1 (en) * | 2017-11-24 | 2019-05-31 | ㈜리얼타임테크 | Device for analyzing multiple distributed image data |
| CN110097032A (en) * | 2019-05-15 | 2019-08-06 | 成都电科智达科技有限公司 | A kind of recognition methods again of the pedestrian based on deep learning |
| CN111339849A (en) * | 2020-02-14 | 2020-06-26 | 北京工业大学 | A Pedestrian Re-identification Method Based on Pedestrian Attributes |
| CN111510680A (en) * | 2020-04-23 | 2020-08-07 | 腾讯科技(深圳)有限公司 | Image data processing method, system and storage medium |
| CN112218046A (en) * | 2020-09-27 | 2021-01-12 | 杭州海康威视系统技术有限公司 | Object monitoring method and device |
| CN112906483A (en) * | 2021-01-25 | 2021-06-04 | 中国银联股份有限公司 | Target re-identification method and device and computer readable storage medium |
| CN113344978A (en) * | 2021-06-29 | 2021-09-03 | 北京搜狗科技发展有限公司 | Target tracking method and device for target tracking |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20120188370A1 (en) * | 2011-01-23 | 2012-07-26 | James Bordonaro | Surveillance systems and methods to monitor, recognize, track objects and unusual activities in real time within user defined boundaries in an area |
| JP2012234497A (en) * | 2011-05-09 | 2012-11-29 | Canon Inc | Object identification device, object identification method, and program |
| KR101406334B1 (en) * | 2013-04-18 | 2014-06-19 | 전북대학교산학협력단 | System and method for tracking multiple object using reliability and delayed decision |
| KR20140103046A (en) * | 2013-02-15 | 2014-08-25 | 삼성전자주식회사 | Object Tracing Method and Electronic Device supporting the same |
| KR20150081797A (en) * | 2014-01-07 | 2015-07-15 | 한국전자통신연구원 | Apparatus and method for tracking object |
-
2017
- 2017-02-28 WO PCT/KR2017/002222 patent/WO2017150899A1/en not_active Ceased
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20120188370A1 (en) * | 2011-01-23 | 2012-07-26 | James Bordonaro | Surveillance systems and methods to monitor, recognize, track objects and unusual activities in real time within user defined boundaries in an area |
| JP2012234497A (en) * | 2011-05-09 | 2012-11-29 | Canon Inc | Object identification device, object identification method, and program |
| KR20140103046A (en) * | 2013-02-15 | 2014-08-25 | 삼성전자주식회사 | Object Tracing Method and Electronic Device supporting the same |
| KR101406334B1 (en) * | 2013-04-18 | 2014-06-19 | 전북대학교산학협력단 | System and method for tracking multiple object using reliability and delayed decision |
| KR20150081797A (en) * | 2014-01-07 | 2015-07-15 | 한국전자통신연구원 | Apparatus and method for tracking object |
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019103208A1 (en) * | 2017-11-24 | 2019-05-31 | ㈜리얼타임테크 | Device for analyzing multiple distributed image data |
| CN110097032A (en) * | 2019-05-15 | 2019-08-06 | 成都电科智达科技有限公司 | A kind of recognition methods again of the pedestrian based on deep learning |
| CN110097032B (en) * | 2019-05-15 | 2023-09-08 | 成都电科智达科技有限公司 | Pedestrian re-recognition method based on deep learning |
| CN111339849A (en) * | 2020-02-14 | 2020-06-26 | 北京工业大学 | A Pedestrian Re-identification Method Based on Pedestrian Attributes |
| CN111510680A (en) * | 2020-04-23 | 2020-08-07 | 腾讯科技(深圳)有限公司 | Image data processing method, system and storage medium |
| CN111510680B (en) * | 2020-04-23 | 2021-08-10 | 腾讯科技(深圳)有限公司 | Image data processing method, system and storage medium |
| CN112218046A (en) * | 2020-09-27 | 2021-01-12 | 杭州海康威视系统技术有限公司 | Object monitoring method and device |
| CN112218046B (en) * | 2020-09-27 | 2023-10-24 | 杭州海康威视系统技术有限公司 | Object monitoring method and device |
| CN112906483A (en) * | 2021-01-25 | 2021-06-04 | 中国银联股份有限公司 | Target re-identification method and device and computer readable storage medium |
| CN112906483B (en) * | 2021-01-25 | 2024-01-23 | 中国银联股份有限公司 | Target re-identification method, device and computer readable storage medium |
| CN113344978A (en) * | 2021-06-29 | 2021-09-03 | 北京搜狗科技发展有限公司 | Target tracking method and device for target tracking |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2017150899A9 (en) | 2018-08-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2017150899A1 (en) | Object reidentification method for global multi-object tracking | |
| CN108520226B (en) | A pedestrian re-identification method based on body decomposition and saliency detection | |
| CN104601964B (en) | Pedestrian target tracking and system in non-overlapping across the video camera room of the ken | |
| CN104881637B (en) | Multimodal information system and its fusion method based on heat transfer agent and target tracking | |
| Chen et al. | Object tracking across non-overlapping views by learning inter-camera transfer models | |
| CN112016531A (en) | Model training method, object recognition method, device, equipment and storage medium | |
| WO2017101434A1 (en) | Human body target re-identification method and system among multiple cameras | |
| CN109145742A (en) | A kind of pedestrian recognition method and system | |
| WO2015126031A1 (en) | Person counting method and device for same | |
| CN112101208A (en) | Feature series fusion gesture recognition method and device for elderly people | |
| US20220366570A1 (en) | Object tracking device and object tracking method | |
| CN110490171B (en) | Dangerous posture recognition method and device, computer equipment and storage medium | |
| CN113065568A (en) | Target detection, attribute identification and tracking method and system | |
| KR20230166840A (en) | Method for tracking object movement path based on artificial intelligence | |
| CN116664628A (en) | Target tracking method and device based on feature fusion and loss determination mechanism | |
| Nosheen et al. | Efficient vehicle detection and tracking using blob detection and kernelized filter | |
| KR20230081016A (en) | Device, method and computer program for tracking object using multiple cameras | |
| CN107103301B (en) | Method and system for discriminative color region matching with maximum spatiotemporal stability of video target | |
| CN116912906A (en) | Multi-dimensional identity recognition methods, devices, electronic equipment and program products | |
| Mazzeo et al. | HSV and RGB color histograms comparing for objects tracking among non overlapping FOVs, using CBTF | |
| Aziz et al. | Features-based moving objects tracking for smart video surveillances: A review | |
| CN115100716A (en) | Intelligent community pedestrian tracking and positioning method and system | |
| CN112819859A (en) | Multi-target tracking method and device applied to intelligent security | |
| CN118035484A (en) | Method, system, equipment and storage medium for identifying personnel target identity | |
| De Cecco et al. | Monte Carlo human identification refinement using joints uncertainty |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17760303 Country of ref document: EP Kind code of ref document: A1 |
|
| 32PN | Ep: public notification in the ep bulletin as address of the adressee cannot be established |
Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 05.12.2018) |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 17760303 Country of ref document: EP Kind code of ref document: A1 |