CN111507335A - 自动标注利用于深度学习网络的训练图像的方法和装置 - Google Patents
自动标注利用于深度学习网络的训练图像的方法和装置 Download PDFInfo
- Publication number
- CN111507335A CN111507335A CN202010045702.7A CN202010045702A CN111507335A CN 111507335 A CN111507335 A CN 111507335A CN 202010045702 A CN202010045702 A CN 202010045702A CN 111507335 A CN111507335 A CN 111507335A
- Authority
- CN
- China
- Prior art keywords
- interest
- roi
- specific
- meta
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
- G06V10/7784—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
- G06V10/7788—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Apparatus For Radiation Diagnosis (AREA)
Abstract
本发明提供用于获得高精密度的对待利用于学习神经网络的训练图像进行自动标注(auto‑labeling)的方法,包括:步骤(a),自动标注装置使元感兴趣区域(ROI,Region Of Interest)检测网络输出特征地图,获得特定训练图像上的对象根据各个位置进行分组的n个当前元感兴趣区域;以及步骤(b),自动标注装置通过在特定训练图像上对与n个当前元感兴趣区域相对应的区域进行裁剪(crop)来生成n个加工图像,使对象检测网络分别输出具有分别与n个加工图像有关的各个边界框的n个所自动标注的加工图像,通过合并n个所自动标注的加工图像来生成所自动标注的特定训练图像。方法可利用使用策略梯度算法(policy gradient algorithm)的强化学习、在线学习、连续学习及超参数学习来执行。
Description
技术领域
本发明涉及对利用于学习神经网络的训练图像进行自动标注的方法及装置。
背景技术
近来,对利用机器学习(machine learning)来识别对象的方法等进行研究。通过这种机器学习环节,使利用在输入层与输出层之间具有多个隐含层(hidden layer)的神经网络的深度学习具有高识别性能。
而且,利用上述深度学习的上述神经网络通常通过利用损失的反向传播进行学习。
为了进行这种深度学习网络的学习,需要由标注者(labeler)对个别数据点添加标签(tag),即,标签(label)的训练数据。准备这种训练数据(即,准确分类数据),尤其,在利用大量的训练数据的情况和数据预处理的质量持续不高的情况下,劳动密集、成本高且繁琐。以往的可相互标注的方法成本高而无法导出理想结果。
因此,最近,执行利用基于深度学习的自动标注装置来对训练图像添加标签(tag),即,标签(label)的自动标注,通过检查由检查人员自动标注的训练图像来校正上述标签(tag)或标签(label)。
这种以往的自动标注中,为了准确地检测大小小的对象而放大图像,但在放大上述图像的大小的情况下,存在运算量增加的问题。
与此相反,在为了减少上述运算量而直接使用上述图像的情况下,由于无法准确地检测出大小小的上述对象,因此导致准确性下降。
因此,本发明欲提出维持准确性并能够减少上述运算量的自动标注方法。
发明内容
技术问题
本发明的目的在于,解决以上提及的所有问题。
本发明的再一目的在于,可通过检测位于需要自动标注的图像内的大小小的对象来进行标注。
本发明的另一目的在于,在不增加运算量的情况下,可通过检测位于需要自动标注的上述图像内的大小小的上述对象来进行标注。
本发明的还有一目的在于,在不增加运算量的情况下,可提高自动标注的准确性。
解决问题的手段
为了达成如上所述的本发明的目的,并带来后述的本发明的特征性效果,本发明的特征性结构如下:
根据本发明的一方面,提供对待利用于学习神经网络的一个以上训练图像进行自动标注(auto-labeling)的方法,其特征在于,包括:步骤(a),若获得上述训练图像中的特定训练图像,则自动标注装置使元感兴趣区域(ROI,Region Of Interest)检测网络对上述特定训练图像适用一个以上卷积运算来输出至少一个特征地图,通过参照上述特征地图来获得上述特定训练图像上的对象根据各个位置进行分组的与上述对象的区域相对应的n个当前元感兴趣区域;以及步骤(b),上述自动标注装置通过在上述特定训练图像上对与上述n个当前元感兴趣区域相对应的区域进行裁剪(crop)来生成n个加工图像,使对象检测网络分别输出具有分别与上述n个加工图像有关的各个边界框的n个所自动标注的加工图像,通过合并上述n个所自动标注的加工图像来生成所自动标注的特定训练图像。
一实施例中,本发明的方法的特征在于,在上述步骤(a)中,上述自动标注装置使上述元感兴趣区域检测网络对各个网格单元格内各个上述当前元感兴趣区域的各位置、各大小及各当前元感兴趣区域分数进行计算之后,将与上述当前元感兴趣区域分数中的第一预设阈值以上的特定当前元感兴趣区域分数相对应的特定当前元感兴趣区域判断为上述n个当前元感兴趣区域。
一实施例中,本发明的方法的特征在于,上述训练图像包括用于验证的验证图像,上述第一预设阈值为在通过对应于上述验证图像来获得的验证元感兴趣区域中成为正确答案的概率最高的特定验证元感兴趣区域的特定验证元感兴趣区域分数。
一实施例中,本发明的方法的特征在于,上述特征地图包括用于计算上述当前元感兴趣区域的上述位置的两个以上第一特征地图通道、用于计算上述当前元感兴趣区域的上述大小的两个以上第二特征地图通道以及用于计算上述当前元感兴趣区域分数的至少一个第三特征地图通道。
一实施例中,本发明的方法的特征在于,上述当前元感兴趣区域分数分别为对各个上述当前元感兴趣区域成为正确答案的各个概率适用sigmoid运算的各个结果。
一实施例中,本发明的方法的特征在于,在上述步骤(a)中,上述自动标注装置执行步骤(i)及步骤(ii)中的一个步骤,步骤(i)中,通过缩小上述特定训练图像来生成至少一个缩小的图像之后,使上述元感兴趣区域检测网络对上述缩小的图像适用上述卷积运算来输出上述特征地图,步骤(ii)中,使上述元感兴趣区域检测网络通过缩小上述特定训练图像来生成上述缩小的图像之后,使上述元感兴趣区域检测网络对上述缩小的图像适用上述卷积运算来输出上述特征地图。
一实施例中,本发明的方法的特征在于,上述元感兴趣区域检测网络包括一个以上卷积层。
一实施例中,本发明的方法的特征在于,在上述步骤(b)中,上述自动标注装置在合并上述n个所自动标注的加工图像时,去除上述边界框中的两个以上上述所自动标注的加工图像在从重叠区域的边缘至内侧的特定距离内仅呈现一部分的一个以上特定边界框。
一实施例中,本发明的方法的特征在于,在上述步骤(b)中,上述自动标注装置在合并上述n个所自动标注的加工图像时,对两个以上上述所自动标注的加工图像位于重叠区域内的上述边界框适用非极大值抑制(NMS,Non Maximum Suppression)来获得与位于上述重叠区域内的一个以上特定对象相对应的一个以上特定边界框。
一实施例中,本发明的方法的特征在于,在上述步骤(b)中,上述自动标注装置通过对上述n个加工图像进行调整大小来使它们变为相同大小之后,使上述对象检测网络生成上述边界框。
一实施例中,本发明的方法的特征在于,上述自动标注装置对包括上述边界框的上述相同大小的上述n个加工图像进行调整大小来使它们具有与上述特定训练图像相对应的大小之后,进行合并。
一实施例中,本发明的方法的特征在于,上述元感兴趣区域检测网络通过学习装置处于执行步骤(i)、步骤(ii)、步骤(iii)、步骤(iv)以及步骤(v)的状态,步骤(i)中,若获得预先训练图像中的至少一个特定预先训练图像,则对上述特定预先训练图像适用上述卷积运算来输出至少一个预先学习用特征地图,步骤(ii)中,对上述预先学习用特征地图的各网格单元格内的预先学习用元感兴趣区域进行计算,步骤(iii)中,通过对应于包括上述预先学习用元感兴趣区域的预先学习用元感兴趣区域组来生成根据至少一个规定规则调整的一个以上样品元感兴趣区域组,步骤(iv)中,对各个上述样品元感兴趣区域组的各样品元组分数进行计算,并对上述预先学习用元感兴趣区域组的当前元组分数进行计算之后,对使上述预先学习用元感兴趣区域组的上述当前元组分数向具有高上述样品元组分数的特定样品元感兴趣区域组的方向进行调整的至少一个预先学习用梯度进行计算,步骤(v)中,通过利用上述预先学习用梯度的强化学习来学习上述元感兴趣区域检测网络的一个以上参数中的至少一部分。
一实施例中,本发明的方法的特征在于,上述当前元组分数能够通过准确性(R)+C×效率性(R)来获得,上述准确性(R)为在所有上述预先学习用元感兴趣区域中检测到的对象数占上述特定预先训练图像上的对象的总数量的比率,上述效率性(R)为上述预先学习用元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值,上述C为通过对应于为了验证上述预先训练图像而使用的预先学习用验证图像来获得的验证元组分数和1中的最大值。
一实施例中,本发明的方法的特征在于,上述样品元感兴趣区域组中的任意一个样品元感兴趣区域组的样品元组分数能够通过(R’)+C×效率性(R’)来获得,上述准确性(R’)为在上述样品元感兴趣区域组中的上述任意一个样品元感兴趣区域组的所有样品元感兴趣区域内检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率,上述效率性(R’)为上述样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值,上述C为通过对应于为了验证上述预先训练图像而使用的预先学习用验证图像来获得的验证元组分数和1中的最大值。
一实施例中,本发明的方法的特征在于,上述准确性(R’)为在上述任意一个样品元感兴趣区域组的上述样品元感兴趣区域中的样品元感兴趣区域分数为第二预设阈值以上的特定样品元感兴趣区域中检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率,上述效率性(R’)为在上述特定样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值。
根据本发明的另一方面,提供对待利用于学习神经网络的一个以上训练图像进行自动标注(auto-labeling)的自动标注装置,其特征在于,包括:至少一个存储器,用于存储指令;以及至少一个处理器,执行上述指令来执行步骤(I)及步骤(II),步骤(I)中,若获得上述训练图像中的特定训练图像,使元感兴趣区域(ROI,Region Of Interest)检测网络对上述特定训练图像适用一个以上卷积运算来输出至少一个特征地图,通过参照上述特征地图来获得上述特定训练图像上的对象根据各个位置进行分组的与上述对象的区域相对应的n个当前元感兴趣区域,步骤(II)中,通过在上述特定训练图像上对与上述n个当前元感兴趣区域相对应的区域进行裁剪(crop)来生成n个加工图像,使对象检测网络分别输出具有分别与上述n个加工图像有关的各个边界框的n个所自动标注的加工图像,通过合并上述n个所自动标注的加工图像来生成所自动标注的特定训练图像。
一实施例中,本发明的自动标注装置的特征在于,在上述步骤(I)中,上述处理器使上述元感兴趣区域检测网络对各个网格单元格内各个上述当前元感兴趣区域的各位置、各大小及各当前元感兴趣区域分数进行计算之后,将与上述当前元感兴趣区域分数中的第一预设阈值以上的特定当前元感兴趣区域分数相对应的特定当前元感兴趣区域判断为上述n个当前元感兴趣区域。
一实施例中,本发明的自动标注装置的特征在于,上述训练图像包括用于验证的验证图像,上述第一预设阈值为在通过对应于上述验证图像来获得的验证元感兴趣区域中成为正确答案的概率最高的特定验证元感兴趣区域的特定验证元感兴趣区域分数。
一实施例中,本发明的自动标注装置的特征在于,上述特征地图包括用于计算上述当前元感兴趣区域的上述位置的两个以上第一特征地图通道、用于计算上述当前元感兴趣区域的上述大小的两个以上第二特征地图通道以及用于计算上述当前元感兴趣区域分数的至少一个第三特征地图通道。
一实施例中,本发明的自动标注装置的特征在于,上述当前元感兴趣区域分数分别为对各个上述当前元感兴趣区域成为正确答案的各个概率适用sigmoid运算的各个结果。
一实施例中,本发明的自动标注装置的特征在于,在上述步骤(I)中,上述处理器执行步骤(i)及步骤(ii)中的一个步骤,步骤(i)中,通过缩小上述特定训练图像来生成至少一个缩小的图像之后,使上述元感兴趣区域检测网络对上述缩小的图像适用上述卷积运算来输出上述特征地图,步骤(ii)中,使上述元感兴趣区域检测网络通过缩小上述特定训练图像来生成上述缩小的图像之后,使上述元感兴趣区域检测网络对上述缩小的图像适用上述卷积运算来输出上述特征地图。
一实施例中,本发明的自动标注装置的特征在于,上述元感兴趣区域检测网络包括一个以上卷积层。
一实施例中,本发明的自动标注装置的特征在于,在上述步骤(II)中,上述处理器在合并上述n个所自动标注的加工图像时,去除上述边界框中的两个以上上述所自动标注的加工图像在从重叠区域的边缘至内侧的特定距离内仅呈现一部分的一个以上特定边界框。
一实施例中,本发明的自动标注装置的特征在于,在上述步骤(II)中,上述处理器在合并上述n个所自动标注的加工图像时,对两个以上上述所自动标注的加工图像位于重叠区域内的上述边界框适用非极大值抑制(NMS,Non Maximum Suppression)来获得与位于上述重叠区域内的一个以上特定对象相对应的一个以上特定边界框。
一实施例中,本发明的自动标注装置的特征在于,在上述步骤(II)中,上述处理器通过对上述n个加工图像进行调整大小来使它们变为相同大小之后,使上述对象检测网络生成上述边界框。
一实施例中,本发明的自动标注装置的特征在于,上述处理器对包括上述边界框的上述相同大小的上述n个加工图像进行调整大小来使它们具有与上述特定训练图像相对应的大小之后,进行合并。
一实施例中,本发明的自动标注装置的特征在于,上述元感兴趣区域检测网络通过学习装置处于执行步骤(i)、步骤(ii)、步骤(iii)、步骤(iv)以及步骤(v)的状态,步骤(i)中,若获得预先训练图像中的至少一个特定预先训练图像,则对上述特定预先训练图像适用上述卷积运算来输出至少一个预先学习用特征地图,步骤(ii)中,对上述预先学习用特征地图的各网格单元格内的预先学习用元感兴趣区域进行计算,步骤(iii)中,通过对应于包括上述预先学习用元感兴趣区域的预先学习用元感兴趣区域组来生成根据至少一个规定规则调整的一个以上样品元感兴趣区域组,步骤(iv)中,对各个上述样品元感兴趣区域组的各样品元组分数进行计算,并对上述预先学习用元感兴趣区域组的当前元组分数进行计算之后,对使上述预先学习用元感兴趣区域组的上述当前元组分数向具有高上述样品元组分数的特定样品元感兴趣区域组的方向进行调整的至少一个预先学习用梯度进行计算,步骤(v)中,通过利用上述预先学习用梯度的强化学习来学习上述元感兴趣区域检测网络的一个以上参数中的至少一部分。
一实施例中,本发明的自动标注装置的特征在于,上述当前元组分数能够通过准确性(R)+C×效率性(R)来获得,上述准确性(R)为在所有上述预先学习用元感兴趣区域中检测到的对象数占上述特定预先训练图像上的对象的总数量的比率,上述效率性(R)为上述预先学习用元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值,上述C为通过对应于为了验证上述预先训练图像而使用的预先学习用验证图像来获得的验证元组分数和1中的最大值。
一实施例中,本发明的自动标注装置的特征在于,上述样品元感兴趣区域组中的任意一个样品元感兴趣区域组的样品元组分数能够通过(R’)+C×效率性(R’)来获得,上述准确性(R’)为在上述样品元感兴趣区域组中的上述任意一个样品元感兴趣区域组的所有样品元感兴趣区域内检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率,上述效率性(R’)为上述样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值,上述C为通过对应于为了验证上述预先训练图像而使用的预先学习用验证图像来获得的验证元组分数和1中的最大值。
一实施例中,本发明的自动标注装置的特征在于,上述准确性(R’)为在上述任意一个样品元感兴趣区域组的上述样品元感兴趣区域中的样品元感兴趣区域分数为第二预设阈值以上的特定样品元感兴趣区域中检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率,上述效率性(R’)为在上述特定样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值。
此外,还提供用于存储执行本发明的方法的计算机程序的计算机可读存储介质。
发明的效果
本发明中,仅对图像上的包括对象的区域进行裁剪(crop)来执行自动标注,从而可减少用于自动标注的运算量。
并且,本发明中,对图像上的大小小的对象区域进行裁剪并调整大小来执行自动标注,从而可通过准确地检测大小小的对象来进行标注,进而可提高自动标注的准确性。
并且,本发明中,仅对对象位于图像内的区域进行裁剪并调整大小来执行自动标注,从而可减少自动标注的运算量的同时提高准确性。
附图说明
为了说明本发明的实施例而所附的以下附图只是本发明的实施例中的一部分,本发明所属领域的普通技术人员(以下,“普通技术人员”)可以在不付出创造性劳动的情况下通过该附图得出其他附图。
图1根据本发明一实施例简要示出对待利用于学习神经网络的一个以上训练图像进行自动标注的自动标注装置。
图2根据本发明一实施例简要示出对待利用于学习上述神经网络的上述训练图像进行自动标注的方法。
图3本发明一实施例简要示出在对待利用于学习上述神经网络的上述训练图像进行标注的方法中从元感兴趣区域检测网络获得当前元感兴趣区域的过程。
图4本发明一实施例简要示出在对待利用于学习上述神经网络的上述训练图像进行标注的方法中学习上述元感兴趣区域检测网络的过程。
图5本发明一实施例简要示出在对待利用于学习上述神经网络的上述训练图像进行标注的方法中检测用于自动标注的对象的过程。
具体实施方式
以下,本发明能够实施的特定实施例为例,参照附图对本发明进行详细说明,本发明的目的、技术手段及优点将更加明确。普通技术人员可以参照对这些实施例的详细说明充分实施这些实施例。
并且,本发明的详细说明及权利要求书中,术语“包括”及其变形不排除其他技术特征、附加物、结构要素或步骤等。对普通技术人员而言,本发明的其他目的、优点及特性的一部分可以从本说明书得知,一部分可以在实施本发明的过程中得知。以下例示及附图只是实例,本发明并不局限于此。
进而,本发明包括本说明书中提供的多个实施例的所有组合。本发明的各种实施例虽然不同但不必相互排斥。例如,本文所记载的特定形状、结构及特性,在一实施例中不脱离本发明的思想及范围的情况下还可体现为另一实施例。并且,所公开的各个实施例内的个别结构要素的位置或配置可以在不脱离本发明的思想及范围的情况下进行变更。因此,后述的详细说明并不是限定的意思,只要能适当说明,本发明的范围应根据与权利要求书的范围等同的所有范围和所附的权利要求书而定。附图中类似的附图标记在多个方面指类似的功能。
本发明中提及的各种图像可以包括柏油马路或非柏油马路的相关图像,这种情况下可以假设包括马路环境中可以出现的物体(假如车辆、人、动物、植物、物体、建筑物、飞机或无人机等飞行物、其他障碍物),但并不局限于此。本发明中提及的各种图像还可以为与马路无关的图像(假如非柏油马路、胡同、空地、海、湖、河、山、树林、沙漠、天空、与室内相关的图像),这种情况下可以假设包括非柏油马路、胡同、空地、海、湖、河、山、树林、沙漠、天空、室内环境中可以出现的物体(假如车辆、人、动物、植物、物体、建筑物、飞机或无人机等飞行物、其他障碍物),但并不局限于此。
以下,为了使本发明所属领域的普通技术人员容易实施本发明,参照附图对本发明的优选实施例进行详细说明。
图1根据本发明一实施例简要示出对待利用于学习神经网络的一个以上训练图像进行自动标注(auto-labeling)的自动标注装置,参照图1,上述自动标注装置100可以包括:存储器110,存储用于对上述训练图像进行自动标注的指令;以及处理器120,为了对上述训练图像进行自动标注而执行与存储在上述存储器110的上述指令相对应的步骤。
具体地,上述自动标注装置100典型地利用至少一个计算装置(例如,可包括计算机处理器、存储器、内存、输入装置及输出装置、其他现有的计算装置的结构要素的装置;路由器、开关等电子通信装置;网络附属存储(NAS)及存储区域网络(SAN)等电子信息存储系统)和至少一个计算机软件(即,使得上述计算装置以特定方式运行的指令)的组合来实现所需的系统性能。
并且,上述计算装置的处理器可以包括MPU(Micro Processing Unit)或CPU(Central Processing Unit)、缓存存储器(Cache Memory)、数据总线(Data Bus)等硬件结构。并且,上述计算装置还可包括操作系统及执行特定目的的应用的软件结构。
然而,不排除上述计算装置包括用于实施本发明的处理器、存储器、介质或其他计算用结构要素整合的形态的整合处理器的情况。
以下,参照图2来说明根据本发明一实施例的对待利用于学习利用上述自动标注装置100分析图像的上述神经网络的上述训练图像进行标注的方法。
首先,若获得上述训练图像中的至少一个特定训练图像IM10,则上述自动标注装置100使元感兴趣区域(ROI,Region Of Interest)检测网络20对上述特定训练图像IM10适用一个以上卷积运算来输出至少一个特征地图,通过参照上述特征地图来获得上述特定训练图像IM10上的对象根据各个位置进行分组的与上述对象的区域相对应的n个当前元感兴趣区域。
此时,上述元感兴趣区域检测网络20可包括一个以上卷积层,对上述特定训练图像IM10适用上述卷积运算来输出M×M×L体积的特征地图。
另一方面,上述自动标注装置100为了减少上述运算量而可通过缩小上述特定训练图像IM10来生成至少一个缩小的图像并对上述缩小的图像适用上述卷积运算,而不是使上述元感兴趣区域检测网络20对上述特定训练图像IM10适用上述卷积运算。
作为一例,上述自动标注装置100可通过缩小上述特定训练图像IM10来生成上述缩小的图像之后,使上述元感兴趣区域检测网络20对上述缩小的图像适用上述卷积运算来输出上述特征地图。作为另一例,上述自动标注装置100可使上述元感兴趣区域检测网络20通过缩小上述特定训练图像IM10来生成上述缩小的图像,对上述缩小的图像适用上述卷积运算来输出上述特征地图。
并且,上述训练图像可包括具有固有真标签的验证图像。而且,在附图中,在上述特定训练图像IM10内用虚线表示的框分别为例示性示出的上述对象分别位于上述特定训练图像IM10内的各区域。
而且,以下,参照图3来更详细地说明上述元感兴趣区域检测网络20获得上述n个当前元感兴趣区域的过程。
若获得上述特定训练图像IM10,则上述元感兴趣区域检测网络20通过缩小上述特定训练图像IM10来生成上述缩小的图像,可向上述卷积层21输入上述缩小的图像。此时,如上所述,不缩小上述特定训练图像IM10而可直接输入至上述卷积层21,但是,为了减少运算量,可利用上述缩小的图像,上述自动标注装置100还可以向上述元感兴趣区域检测网络20输入上述缩小的图像。
因此,上述卷积层21对上述缩小的图像适用上述卷积运算来输出上述M×M×L体积的特征地图。
然后,上述元感兴趣区域检测网络20计算M×M×L体积的各个网格单元格内各个上述当前元感兴趣区域的各位置、各大小及各当前元感兴趣区域分数。在图3中,上述特征地图具有3×3×5体积,但是,这仅便于说明,本发明并不限定于此,以下,对利用3×3×5体积的上述特征地图来生成上述当前元感兴趣区域的方法进行说明。
此时,上述特征地图的与各个上述网格单元格有关的输出值,即,可将特征值用oi,j,1、Oi,j,2、Oi,j,3、Oi,j,5、Oi,j,5表示,可将与各个上述网格单元格有关的各个上述当前元感兴趣区域用r1,1、…、r2,2、…、r3,3表示。
而且,与各个上述网格单元格有关的各个上述当前元感兴趣区域(ri,j)可如下述数学式所示:
pi,j=sigmoid(oi,j,5)∈[0,1]。
此时,各个pi,j为各个上述当前元感兴趣区域分数,可以为对各个上述当前元感兴趣区域成为正确答案的各个概率适用sigmoid运算的各个结果。
而且,xi,j和yi,j可表示各个上述当前元感兴趣区域的各位置,wi,j和hi,j可表示各个上述当前元感兴趣区域的各大小。因此,上述特征地图可包括用于计算上述当前元感兴趣区域的各位置的两个以上第一特征地图通道、用于计算上述当前元感兴趣区域的各大小的两个以上第二特征地图通道以及用于计算上述当前元感兴趣区域分数的至少一个第三特征地图通道。
并且,3×3×5体积的上述特征地图可具有9个上述当前元感兴趣区域,M×M×L体积的上述特征地图可具有M×M个上述当前元感兴趣区域。
然后,上述元感兴趣区域检测网络20可将上述特征地图的与各个上述网格单元格有关的与上述当前元感兴趣区域分数中的第一预设阈值以上的特定当前元感兴趣区域分数相对应的特定当前元感兴趣区域特定当前元感兴趣区域判断为上述n个当前元感兴趣区域。
即,上述元感兴趣区域检测网络20可从上述特征地图的各个上述网格单元格内M×M个上述当前元感兴趣区域中选定当前元感兴趣区域分数为上述第一预设阈值以上的上述n个当前元感兴趣区域。
此时,上述训练图像可包括用于验证的上述验证图像,上述第一预设阈值可以为在通过对应于上述验证图像来获得的验证元感兴趣区域中成为正确答案的概率最高的特定验证元感兴趣区域的特定验证元感兴趣区域分数。
另一方面,上述元感兴趣区域检测网络20可处于预先学习的状态,以下,说明学习上述元感兴趣区域检测网络20的方法。
作为参照,在以下的说明中为了避免混淆,与在当前学习步骤之前已完成的预先学习步骤相关的术语中添加“预先训练”或“预先学习用”文句。
若获得预先训练图像中的至少一个特定预先训练图像,学习装置使上述元感兴趣区域检测网络20对上述特定预先训练图像适用上述卷积运算来输出至少一个预先学习用特征地图。此时,如上所述,上述卷积运算可适用于未缩小的上述特定预先训练图像,但是,为了运算量,可利用上述缩小的图像,还可以通过上述学习装置获得缩小上述特定预先训练图像的上述缩小的图像。并且,上述元感兴趣区域检测网络20还可以包括一个以上卷积层。
并且,学习装置可包括:存储器(未图示),存储用于学习上述元感兴趣区域检测网络20的指令;以及处理器(未图示),执行与存储在上述存储器的上述指令相对应的上述元感兴趣区域检测网络20有关的学习。具体地,上述学习装置典型地利用至少一个计算装置(例如,可包括计算机处理器、存储器、内存、输入装置及输出装置、其他现有的计算装置的结构要素的装置;路由器、开关等电子通信装置;网络附属存储(NAS)及存储区域网络(SAN)等电子信息存储系统)和至少一个计算机软件(即,使得上述计算装置以特定方式运行的指令)的组合来实现所需的系统性能。并且,上述计算装置的处理器可以包括MPU(MicroProcessing Unit)或CPU(Central Processing Unit)、缓存存储器(Cache Memory)、数据总线(Data Bus)等硬件结构。并且,上述计算装置还可包括操作系统及执行特定目的的应用的软件结构。然而,不排除上述计算装置包括用于实施本发明的处理器、存储器、介质或其他计算用结构要素整合的形态的整合处理器的情况。
而且,上述学习装置在上述预先学习用特征地图的各个网格单元格内生成预先学习用元感兴趣区域(R={r1,1,...,r2,2,...,r3,3}),通过对应于包括上述预先学习用元感兴趣区域的预先学习用元感兴趣区域组(R)来获得根据规定规则调整的多个样品元感兴趣区域组(R′={r′1,1,...,r′2,2,...,r′3,3})。
作为一例,上述样品元感兴趣区域组(R’)可生成在上述预先学习用元感兴趣区域组(R)的周围。
此时,可将与上述各个网格单元格有关的所调整的输出值用o′i,j,1,...,o′i,j,4~N(o′i,j,k|oi,j,k,σ)表示,可将上述所调整的样品元感兴趣区域分数用p′i,j~Binomial(pi,j)表示,此时,标准偏差(σ)可以为1。
以上,例示性说明了3×3×5体积的上述特征地图,但本发明并不限定于此,可同样适用于M×M×L体积的上述特征地图。
然后,上述学习装置可对各个上述样品元感兴趣区域组(R')的各样品元组分数(S(R'))进行计算,并可对上述预先学习用元感兴趣区域组(R)的当前元组分数(S(R))进行计算。
此时,上述当前元组分数(S(R))可通过准确性(R)+C×效率性(R)来获得,上述准确性(R)可以为在所有上述预先学习用元感兴趣区域中检测到的对象数占上述特定预先训练图像上的对象的总数量的比率,上述效率性(R)可以为上述预先学习用元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值,上述C可以为通过对应于为了验证上述预先训练图像而使用的预先学习用验证图像来获得的验证元组分数和1中的最大值。
即,可由如下式表示:
S(R)=准确性(R)+C×效率性(R),
并且,上述样品元感兴趣区域组中的任意一个样品元感兴趣区域组的样品元组分数可通过(R’)+C×效率性(R’)来获得,上述准确性(R')可以为在上述样品元感兴趣区域组中的上述任意一个样品元感兴趣区域组的所有各个样品元感兴趣区域内检测到的对象数量的总和占上述特定预先训练图像上的对象的总数量的比率,上述效率性(R’)可以为上述样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值,上述C可以为通过对应于为了验证上述预先训练图像而使用的预先学习用验证图像来获得的验证元组分数和1中的最大值。此时,将同时位于上述样品元感兴趣区域组中相同组的第一样品元感兴趣区域和第二样品元感兴趣区域的特定对象不计算为两个。
即,可由如下式表示:
S(R')=准确性(R')+C×效率性(R'),
另一方面,在对上述样品元感兴趣区域组(R')中的任意一个样品元感兴趣区域组的样品元组分数(S(R'))进行计算时,可应用样品元感兴趣区域分数(p′i,j)为第二预设阈值以上的特定样品元感兴趣区域。此时,上述第二预设阈值可以为1,但并不限定于此,可将上述样品元感兴趣区域组(R')的上述样品元组分数(S(R'))中的一部分的值设置为大于上述当前元组分数(S(R))的值。
即,上述准确性(R')可以为在上述任意一个样品元感兴趣区域组的上述样品元感兴趣区域中的上述样品元感兴趣区域分数为上述第二预设阈值以上的上述特定样品元感兴趣区域中检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率,上述效率性(R’)可以为在上述特定样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值。
然后,上述学习装置可向上述样品元组分数(S(R'))变高的上述特定样品元感兴趣区域组(R')的方向对用于调整上述预先学习用元感兴趣区域组(R)的上述当前元组分数(S(R))的至少一个预先学习用梯度进行计算。
此时,上述学习装置可使用下述数学式来计算上述预先学习用梯度(δo(R)):
然后,上述学习装置可通过利用上述预先学习用梯度的强化学习来调整上述元感兴趣区域检测网络20的一个以上参数中的至少一部分。作为一例,上述学习装置可通过利用上述预先学习用梯度的上述强化学习来调整上述元感兴趣区域检测网络中所包括的上述卷积层的一个以上参数中的至少一部分。
即,参照图4,基于上述预先学习用元感兴趣区域组(R)调整的上述样品元感兴趣区域组(R')具有基于上述预先学习用元感兴趣区域组(R)的位置的高斯分布(Gaussiandistribution),以向从分数高的上述样品元感兴趣区域组(R’)导出的上述方向调整预先学习用元感兴趣区域组(R)的方式进行强化学习,从而上述预先学习用元感兴趣区域组(R)的分数随着上述学习逐渐变高,因此,用于获得上述当前元感兴趣区域的准确性也可以随之增加。
再次参照图2,上述自动标注装置100在上述特定训练图像IM20对与上述n个当前元感兴趣区域相对应的区域进行裁剪(crop)来生成n个加工图像IM21,可使对象检测网络30分别输出具有分别与上述n个加工图像IM21有关的各个边界框的n个所自动标注的加工图像IM30。
此时,上述对象检测网络30可由分别与上述n个加工图像IM21相对应的多个网络构成,各个上述多个网络通过生成分别与上述n个加工图像IM21有关的边界框来生成上述n个所自动标注的加工图像IM30,或者通过对上述n个加工图像IM21的大小进行调整大小来使它们变为相同大小之后,可使上述对象检测网络30生成上述相同大小的上述n个所自动标注的加工图像IM30。
另一方面,以下,参照图5来说明上述对象检测网络30在至少一个特定加工图像上生成上述边界框的方法。
若获得上述特定加工图像,上述对象检测网络30使一个以上卷积层31对上述特定加工图像适用上述卷积运算来输出至少一个对象检测用特征地图。此时,上述卷积层31可依次对上述特定加工图像适用上述卷积运算来生成上述对象检测用特征地图。
而且,上述对象检测网络30使区域候选网络(RPN,Region Proposal Network)32输出与预测在上述对象检测用特征地图上包含上述对象的候选区域相对应的候选框。
然后,上述对象检测网络30使至少一个池化层33在上述对象检测用特征地图上对与上述候选框相对应的区域适用一个以上池化运算来输出一个以上特征矢量。
而且,上述对象检测网络30使至少一个对全连接(FC,Fully connected)层34利用上述特征矢量来输出与各个上述候选框相对应的各个对象等级信息35和各个回归值36,从而生成与位于上述特定加工图像上的上述对象相对应的上述边界框。
另一方面,上述对象检测网络30可以为预先学习的状态,即,可以为通过利用一个以上损失的反向传播上述对全连接层34及上述卷积层31的一个以上参数中的至少一部分被调整的状态。并且,上述区域候选网络32也可以为预先学习的状态。
再次参照图2,上述自动标注装置100可通过合并上述n个所自动标注的加工图像IM30来生成所自动标注的特定训练图像IM31。
此时,上述自动标注装置100在合并上述n个所自动标注的加工图像IM30时,可去除上述边界框中的两个以上上述所自动标注的加工图像IM30在从重叠区域的边缘至内侧的特定距离内仅呈现一部分的一个以上特定边界框。作为一例,上述自动标注装置100可去除在上述所自动标注的加工图像IM30中的3的所自动标注的加工图像内仅呈现一部分的的边界框b,并合并上述所自动标注的加工图像IM30。
并且,上述自动标注装置100在合并上述n个所自动标注的加工图像IM30时,可对两个以上上述所自动标注的加工图像位于重叠区域内的上述边界框适用非极大值抑制(NMS,Non Maximum Suppression)来获得与位于上述重叠区域内的一个以上特定对象相对应的一个以上特定边界框。即,在上述重叠区域包括相互重叠的边界框的情况下,可将上述概率最高的特定边界框指定为与特定对象相对应的上述特定边界框,并去除概率低的边界框。
而且,上述自动标注装置100在合并生成上述边界框的上述n个所自动标注的加工图像IM30时,可合并将与上述特定训练图像相对应的上述n个所自动标注的加工图像。尤其,在合并上述相同大小的上述n个所自动标注的加工图像IM30的情况下,可将上述n个所自动标注的加工图像IM30以与各个上述特定训练图像相对应的方式进行调整大小之后,进行合并。
上述方法可利用使用策略梯度算法(policy gradient algorithm)的强化学习、在线学习、连续学习及超参数学习来为了以高精密度分析图像而执行。
并且,以上说明的本发明的实施例能够以通过各种计算机要素执行的程序命令的形态体现并存储在计算机可读存储介质。上述计算机可读存储介质可以包括程序命令、数据文件、数据结构等或它们的组合。上述计算机可读存储介质中存储的程序命令可以是为本发明特殊设计并构成的,或者可以是由计算机软件领域的普通技术人员公知使用的。计算机可读存储介质的例包括硬盘、软盘及磁带等磁介质、CD-ROM、DVD等光存储介质、光磁软盘(floptical disk)等磁光介质(magneto-optical media)、以及ROM、RAM、快闪存储器等为了存储并执行程序命令而特殊构成的硬件装置。程序命令的例包括由编译器制成的机器语言代码以及利用解析器等可由计算机执行的高级语言代码。上述硬件装置能够以一个以上软件模块运行,以便执行本发明的处理,相反情况也一样。
以上,通过限定的实施例及附图对本发明的具体结构要素等特定事项进行了说明,但这仅仅用于提供对本发明的更全面的理解,本发明并不局限于上述实施例,本发明所属领域的普通技术人员可以在这些记载的基础上进行各种修改及变形。
因此,本发明的思想并不局限于所说明的上述实施例,权利要求书及其等同或等价变换的所有内容均属于本发明的思想范畴。
Claims (30)
1.一种方法,对待利用于学习神经网络的一个以上训练图像进行自动标注,其特征在于,包括:
步骤(a),若获得上述训练图像中的特定训练图像,则自动标注装置使元感兴趣区域检测网络对上述特定训练图像适用一个以上卷积运算来输出至少一个特征地图,通过参照上述特征地图来获得上述特定训练图像上的对象根据各个位置进行分组的与上述对象的区域相对应的n个当前元感兴趣区域;以及
步骤(b),上述自动标注装置通过在上述特定训练图像上对与上述n个当前元感兴趣区域相对应的区域进行裁剪来生成n个加工图像,使对象检测网络分别输出具有分别与上述n个加工图像有关的各个边界框的n个所自动标注的加工图像,通过合并上述n个所自动标注的加工图像来生成所自动标注的特定训练图像。
2.根据权利要求1所述的方法,其特征在于,在上述步骤(a)中,上述自动标注装置使上述元感兴趣区域检测网络对各个网格单元格内各个上述当前元感兴趣区域的各位置、各大小及各当前元感兴趣区域分数进行计算之后,将与上述当前元感兴趣区域分数中的第一预设阈值以上的特定当前元感兴趣区域分数相对应的特定当前元感兴趣区域判断为上述n个当前元感兴趣区域。
3.根据权利要求2所述的方法,其特征在于,上述训练图像包括用于验证的验证图像,上述第一预设阈值为在通过对应于上述验证图像来获得的验证元感兴趣区域中成为正确答案的概率最高的特定验证元感兴趣区域的特定验证元感兴趣区域分数。
4.根据权利要求2所述的方法,其特征在于,上述特征地图包括用于计算上述当前元感兴趣区域的上述位置的两个以上第一特征地图通道、用于计算上述当前元感兴趣区域的上述大小的两个以上第二特征地图通道以及用于计算上述当前元感兴趣区域分数的至少一个第三特征地图通道。
5.根据权利要求2所述的方法,其特征在于,上述当前元感兴趣区域分数分别为对各个上述当前元感兴趣区域成为正确答案的各个概率适用sigmoid运算的各个结果。
6.根据权利要求1所述的方法,其特征在于,
在上述步骤(a)中,上述自动标注装置执行步骤(i)及步骤(ii)中的一个步骤,
步骤(i)中,通过缩小上述特定训练图像来生成至少一个缩小的图像之后,使上述元感兴趣区域检测网络对上述缩小的图像适用上述卷积运算来输出上述特征地图,
步骤(ii)中,使上述元感兴趣区域检测网络通过缩小上述特定训练图像来生成上述缩小的图像之后,使上述元感兴趣区域检测网络对上述缩小的图像适用上述卷积运算来输出上述特征地图。
7.根据权利要求1所述的方法,其特征在于,上述元感兴趣区域检测网络包括一个以上卷积层。
8.根据权利要求1所述的方法,其特征在于,在上述步骤(b)中,上述自动标注装置在合并上述n个所自动标注的加工图像时,去除上述边界框中的两个以上上述所自动标注的加工图像在从重叠区域的边缘至内侧的特定距离内仅呈现一部分的一个以上特定边界框。
9.根据权利要求1所述的方法,其特征在于,在上述步骤(b)中,上述自动标注装置在合并上述n个所自动标注的加工图像时,对两个以上上述所自动标注的加工图像位于重叠区域内的上述边界框适用非极大值抑制来获得与位于上述重叠区域内的一个以上特定对象相对应的一个以上特定边界框。
10.根据权利要求1所述的方法,其特征在于,在上述步骤(b)中,上述自动标注装置通过对上述n个加工图像进行调整大小来使它们变为相同大小之后,使上述对象检测网络生成上述边界框。
11.根据权利要求10所述的方法,其特征在于,上述自动标注装置对包括上述边界框的上述相同大小的上述n个加工图像进行调整大小来使它们具有与上述特定训练图像相对应的大小之后,进行合并。
12.根据权利要求1所述的方法,其特征在于,
上述元感兴趣区域检测网络通过学习装置处于执行步骤(i)、步骤(ii)、步骤(iii)、步骤(iv)以及步骤(v)的状态,
步骤(i)中,若获得预先训练图像中的至少一个特定预先训练图像,则对上述特定预先训练图像适用上述卷积运算来输出至少一个预先学习用特征地图,
步骤(ii)中,对上述预先学习用特征地图的各网格单元格内的预先学习用元感兴趣区域进行计算,
步骤(iii)中,通过对应于包括上述预先学习用元感兴趣区域的预先学习用元感兴趣区域组来生成根据至少一个规定规则调整的一个以上样品元感兴趣区域组,
步骤(iv)中,对各个上述样品元感兴趣区域组的各样品元组分数进行计算,并对上述预先学习用元感兴趣区域组的当前元组分数进行计算之后,对使上述预先学习用元感兴趣区域组的上述当前元组分数向具有高上述样品元组分数的特定样品元感兴趣区域组的方向进行调整的至少一个预先学习用梯度进行计算,
步骤(v)中,通过利用上述预先学习用梯度的强化学习来学习上述元感兴趣区域检测网络的一个以上参数中的至少一部分。
13.根据权利要求12所述的方法,其特征在于,
上述当前元组分数能够通过准确性(R)+C×效率性(R)来获得,
上述准确性(R)为在所有上述预先学习用元感兴趣区域中检测到的对象数占上述特定预先训练图像上的对象的总数量的比率,
上述效率性(R)为上述预先学习用元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值,
上述C为通过对应于为了验证上述预先训练图像而使用的预先学习用验证图像来获得的验证元组分数和1中的最大值。
14.根据权利要求12所述的方法,其特征在于,
上述样品元感兴趣区域组中的任意一个样品元感兴趣区域组的样品元组分数能够通过(R')+C×效率性(R')来获得,
上述准确性(R')为在上述样品元感兴趣区域组中的上述任意一个样品元感兴趣区域组的所有样品元感兴趣区域内检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率,
上述效率性(R')为上述样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值,
上述C为通过对应于为了验证上述预先训练图像而使用的预先学习用验证图像来获得的验证元组分数和1中的最大值。
15.根据权利要求14所述的方法,其特征在于,
上述准确性(R')为在上述任意一个样品元感兴趣区域组的上述样品元感兴趣区域中的样品元感兴趣区域分数为第二预设阈值以上的特定样品元感兴趣区域中检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率,
上述效率性(R’)为在上述特定样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值。
16.一种自动标注装置,对待利用于学习神经网络的一个以上训练图像进行自动标注,其特征在于,
包括:
至少一个存储器,用于存储指令;以及
至少一个处理器,执行上述指令来执行步骤(I)及步骤(II),
步骤(I)中,若获得上述训练图像中的特定训练图像,使元感兴趣区域检测网络对上述特定训练图像适用一个以上卷积运算来输出至少一个特征地图,通过参照上述特征地图来获得上述特定训练图像上的对象根据各个位置进行分组的与上述对象的区域相对应的n个当前元感兴趣区域,
步骤(II)中,通过在上述特定训练图像上对与上述n个当前元感兴趣区域相对应的区域进行裁剪来生成n个加工图像,使对象检测网络分别输出具有分别与上述n个加工图像有关的各个边界框的n个所自动标注的加工图像,通过合并上述n个所自动标注的加工图像来生成所自动标注的特定训练图像。
17.根据权利要求16所述的自动标注装置,其特征在于,在上述步骤(I)中,上述处理器使上述元感兴趣区域检测网络对各个网格单元格内各个上述当前元感兴趣区域的各位置、各大小及各当前元感兴趣区域分数进行计算之后,将与上述当前元感兴趣区域分数中的第一预设阈值以上的特定当前元感兴趣区域分数相对应的特定当前元感兴趣区域判断为上述n个当前元感兴趣区域。
18.根据权利要求17所述的自动标注装置,其特征在于,上述训练图像包括用于验证的验证图像,上述第一预设阈值为在通过对应于上述验证图像来获得的验证元感兴趣区域中成为正确答案的概率最高的特定验证元感兴趣区域的特定验证元感兴趣区域分数。
19.根据权利要求17所述的自动标注装置,其特征在于,上述特征地图包括用于计算上述当前元感兴趣区域的上述位置的两个以上第一特征地图通道、用于计算上述当前元感兴趣区域的上述大小的两个以上第二特征地图通道以及用于计算上述当前元感兴趣区域分数的至少一个第三特征地图通道。
20.根据权利要求17所述的自动标注装置,其特征在于,上述当前元感兴趣区域分数分别为对各个上述当前元感兴趣区域成为正确答案的各个概率适用sigmoid运算的各个结果。
21.根据权利要求16所述的自动标注装置,其特征在于,
在上述步骤(I)中,上述处理器执行步骤(i)及步骤(ii)中的一个步骤,
步骤(i)中,通过缩小上述特定训练图像来生成至少一个缩小的图像之后,使上述元感兴趣区域检测网络对上述缩小的图像适用上述卷积运算来输出上述特征地图,
步骤(ii)中,使上述元感兴趣区域检测网络通过缩小上述特定训练图像来生成上述缩小的图像之后,使上述元感兴趣区域检测网络对上述缩小的图像适用上述卷积运算来输出上述特征地图。
22.根据权利要求16所述的自动标注装置,其特征在于,上述元感兴趣区域检测网络包括一个以上卷积层。
23.根据权利要求16所述的自动标注装置,其特征在于,在上述步骤(II)中,上述处理器在合并上述n个所自动标注的加工图像时,去除上述边界框中的两个以上上述所自动标注的加工图像在从重叠区域的边缘至内侧的特定距离内仅呈现一部分的一个以上特定边界框。
24.根据权利要求16所述的自动标注装置,其特征在于,在上述步骤(II)中,上述处理器在合并上述n个所自动标注的加工图像时,对两个以上上述所自动标注的加工图像位于重叠区域内的上述边界框适用非极大值抑制来获得与位于上述重叠区域内的一个以上特定对象相对应的一个以上特定边界框。
25.根据权利要求16所述的自动标注装置,其特征在于,在上述步骤(II)中,上述处理器通过对上述n个加工图像进行调整大小来使它们变为相同大小之后,使上述对象检测网络生成上述边界框。
26.根据权利要求25所述的自动标注装置,其特征在于,上述处理器对包括上述边界框的上述相同大小的上述n个加工图像进行调整大小来使它们具有与上述特定训练图像相对应的大小之后,进行合并。
27.根据权利要求16所述的自动标注装置,其特征在于,
上述元感兴趣区域检测网络通过学习装置处于执行步骤(i)、步骤(ii)、步骤(iii)、步骤(iv)以及步骤(v)的状态,
步骤(i)中,若获得预先训练图像中的至少一个特定预先训练图像,则对上述特定预先训练图像适用上述卷积运算来输出至少一个预先学习用特征地图,
步骤(ii)中,对上述预先学习用特征地图的各网格单元格内的预先学习用元感兴趣区域进行计算,
步骤(iii)中,通过对应于包括上述预先学习用元感兴趣区域的预先学习用元感兴趣区域组来生成根据至少一个规定规则调整的一个以上样品元感兴趣区域组,
步骤(iv)中,对各个上述样品元感兴趣区域组的各样品元组分数进行计算,并对上述预先学习用元感兴趣区域组的当前元组分数进行计算之后,对使上述预先学习用元感兴趣区域组的上述当前元组分数向具有高上述样品元组分数的特定样品元感兴趣区域组的方向进行调整的至少一个预先学习用梯度进行计算,
步骤(v)中,通过利用上述预先学习用梯度的强化学习来学习上述元感兴趣区域检测网络的一个以上参数中的至少一部分。
28.根据权利要求27所述的自动标注装置,其特征在于,
上述当前元组分数能够通过准确性(R)+C×效率性(R)来获得,
上述准确性(R)为在所有上述预先学习用元感兴趣区域中检测到的对象数占上述特定预先训练图像上的对象的总数量的比率,
上述效率性(R)为上述预先学习用元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值,
上述C为通过对应于为了验证上述预先训练图像而使用的预先学习用验证图像来获得的验证元组分数和1中的最大值。
29.根据权利要求27所述的自动标注装置,其特征在于,
上述样品元感兴趣区域组中的任意一个样品元感兴趣区域组的样品元组分数能够通过(R’)+C×效率性(R’)来获得,
上述准确性(R’)为在上述样品元感兴趣区域组中的上述任意一个样品元感兴趣区域组的所有样品元感兴趣区域内检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率,
上述效率性(R’)为上述样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值,
上述C为通过对应于为了验证上述预先训练图像而使用的预先学习用验证图像来获得的验证元组分数和1中的最大值。
30.根据权利要求29所述的自动标注装置,其特征在于,
上述准确性(R’)为在上述任意一个样品元感兴趣区域组的上述样品元感兴趣区域中的样品元感兴趣区域分数为第二预设阈值以上的特定样品元感兴趣区域中检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率,
上述效率性(R’)为在上述特定样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US16/263,393 US10540572B1 (en) | 2019-01-31 | 2019-01-31 | Method for auto-labeling training images for use in deep learning network to analyze images with high precision, and auto-labeling device using the same |
| US16/263,393 | 2019-01-31 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111507335A true CN111507335A (zh) | 2020-08-07 |
| CN111507335B CN111507335B (zh) | 2023-10-13 |
Family
ID=69167060
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010045702.7A Active CN111507335B (zh) | 2019-01-31 | 2020-01-16 | 自动标注利用于深度学习网络的训练图像的方法和装置 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US10540572B1 (zh) |
| EP (1) | EP3690742B1 (zh) |
| JP (1) | JP6853560B2 (zh) |
| KR (1) | KR102326256B1 (zh) |
| CN (1) | CN111507335B (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112102338A (zh) * | 2020-09-17 | 2020-12-18 | 西安泽塔云科技股份有限公司 | 基于深度学习的影像样本数据的获取方法及装置 |
| CN115130644A (zh) * | 2021-03-26 | 2022-09-30 | 斯特拉德视觉公司 | 对基于深度学习的检测网络进行自监督学习的方法及装置 |
Families Citing this family (39)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018176000A1 (en) | 2017-03-23 | 2018-09-27 | DeepScale, Inc. | Data synthesis for autonomous control systems |
| US10671349B2 (en) | 2017-07-24 | 2020-06-02 | Tesla, Inc. | Accelerated mathematical engine |
| US11157441B2 (en) | 2017-07-24 | 2021-10-26 | Tesla, Inc. | Computational array microprocessor system using non-consecutive data formatting |
| US11409692B2 (en) | 2017-07-24 | 2022-08-09 | Tesla, Inc. | Vector computational unit |
| US11893393B2 (en) | 2017-07-24 | 2024-02-06 | Tesla, Inc. | Computational array microprocessor system with hardware arbiter managing memory requests |
| US12307350B2 (en) | 2018-01-04 | 2025-05-20 | Tesla, Inc. | Systems and methods for hardware-based pooling |
| US11561791B2 (en) | 2018-02-01 | 2023-01-24 | Tesla, Inc. | Vector computational unit receiving data elements in parallel from a last row of a computational array |
| US11215999B2 (en) | 2018-06-20 | 2022-01-04 | Tesla, Inc. | Data pipeline and deep learning system for autonomous driving |
| US11361457B2 (en) | 2018-07-20 | 2022-06-14 | Tesla, Inc. | Annotation cross-labeling for autonomous control systems |
| US11636333B2 (en) | 2018-07-26 | 2023-04-25 | Tesla, Inc. | Optimizing neural network structures for embedded systems |
| US11562231B2 (en) | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
| CA3115784A1 (en) | 2018-10-11 | 2020-04-16 | Matthew John COOPER | Systems and methods for training machine models with augmented data |
| US11196678B2 (en) | 2018-10-25 | 2021-12-07 | Tesla, Inc. | QOS manager for system on a chip communications |
| US11816585B2 (en) | 2018-12-03 | 2023-11-14 | Tesla, Inc. | Machine learning models operating at different frequencies for autonomous vehicles |
| US11537811B2 (en) | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
| US11610117B2 (en) | 2018-12-27 | 2023-03-21 | Tesla, Inc. | System and method for adapting a neural network model on a hardware platform |
| US10997461B2 (en) | 2019-02-01 | 2021-05-04 | Tesla, Inc. | Generating ground truth for machine learning from time series elements |
| US11150664B2 (en) | 2019-02-01 | 2021-10-19 | Tesla, Inc. | Predicting three-dimensional features for autonomous driving |
| US11567514B2 (en) | 2019-02-11 | 2023-01-31 | Tesla, Inc. | Autonomous and user controlled vehicle summon to a target |
| US10956755B2 (en) | 2019-02-19 | 2021-03-23 | Tesla, Inc. | Estimating object properties using visual image data |
| WO2021084590A1 (ja) * | 2019-10-28 | 2021-05-06 | 富士通株式会社 | 学習方法、学習プログラム、および学習装置 |
| US11462023B2 (en) | 2019-11-14 | 2022-10-04 | Toyota Research Institute, Inc. | Systems and methods for 3D object detection |
| EP4091089A1 (en) * | 2020-02-24 | 2022-11-23 | Google LLC | Systems and methods for improved computer vision in on-device applications |
| CN111383219B (zh) * | 2020-03-12 | 2020-12-01 | 众能联合数字技术有限公司 | 一种智能检测高空作业平台设备清洁度的方法及系统 |
| JP7486349B2 (ja) * | 2020-05-28 | 2024-05-17 | キヤノン株式会社 | ニューラルネットワーク、ニューラルネットワークの学習方法、プログラム、画像処理装置 |
| CN111950538B (zh) * | 2020-06-23 | 2022-02-08 | 合肥联宝信息技术有限公司 | 一种标签检测方法、装置以及计算机可读存储介质 |
| CN111967595B (zh) * | 2020-08-17 | 2023-06-06 | 成都数之联科技股份有限公司 | 候选框标注方法及系统及模型训练方法及目标检测方法 |
| KR20220052223A (ko) | 2020-10-20 | 2022-04-27 | 삼성에스디에스 주식회사 | 객체 감지를 위한 라벨링 장치 및 방법 |
| JP7604268B2 (ja) * | 2021-02-26 | 2024-12-23 | キヤノン株式会社 | 画像処理装置、撮像装置、画像処理方法およびプログラム |
| US20220284703A1 (en) * | 2021-03-05 | 2022-09-08 | Drs Network & Imaging Systems, Llc | Method and system for automated target recognition |
| KR102637343B1 (ko) * | 2021-05-26 | 2024-02-16 | 삼성전자주식회사 | 오브젝트 추적 방법 및 장치 |
| KR102375217B1 (ko) * | 2021-06-03 | 2022-03-16 | (주)하우스퍼즐 | 인공지능 기반 건축 시공비 시뮬레이션 시스템 및 방법 |
| US12229965B2 (en) | 2021-07-29 | 2025-02-18 | Samsung Electronics Co., Ltd. | Image segmentation method and device |
| US12462575B2 (en) | 2021-08-19 | 2025-11-04 | Tesla, Inc. | Vision-based machine learning model for autonomous driving with adjustable virtual camera |
| CN113897324B (zh) * | 2021-10-13 | 2023-07-28 | 云南师范大学 | 一种用作抗锰剂的JcVIPP1重组大肠杆菌及其构建方法 |
| KR20230064889A (ko) | 2021-11-04 | 2023-05-11 | 서울시립대학교 산학협력단 | 인공지능 기반의 훈련 데이터 생성 방법 및 이를 이용한 딥러닝 모듈 훈련 방법 |
| US12400434B2 (en) * | 2022-07-08 | 2025-08-26 | Tata Consultancy Services Limited | Method and system for identifying and mitigating bias while training deep learning models |
| US11783609B1 (en) * | 2022-11-30 | 2023-10-10 | Intuit Inc. | Scalable weak-supervised learning with domain constraints |
| KR20250059100A (ko) | 2023-10-24 | 2025-05-02 | 주식회사 보고넷 | 인공지능 채팅과 딥 러닝 기반 고철 스크랩 등급 판정 시스템 |
Citations (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20170206431A1 (en) * | 2016-01-20 | 2017-07-20 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
| US20170236032A1 (en) * | 2016-02-12 | 2017-08-17 | Adobe Systems Incorporated | Accurate tag relevance prediction for image search |
| CN107239803A (zh) * | 2017-07-21 | 2017-10-10 | 国家海洋局第海洋研究所 | 利用深度学习神经网络的海底底质自动分类方法 |
| US20180144209A1 (en) * | 2016-11-22 | 2018-05-24 | Lunit Inc. | Object recognition method and apparatus based on weakly supervised learning |
| CN108334878A (zh) * | 2018-02-07 | 2018-07-27 | 北京影谱科技股份有限公司 | 视频图像检测方法和装置 |
| WO2018141429A1 (en) * | 2017-02-03 | 2018-08-09 | Siemens Aktiengesellschaft | A method and apparatus for detecting objects of interest in images |
| US20180232900A1 (en) * | 2016-04-08 | 2018-08-16 | Orbital Insight, Inc. | Remote determination of containers in geographical region |
| WO2018165753A1 (en) * | 2017-03-14 | 2018-09-20 | University Of Manitoba | Structure defect detection using machine learning algorithms |
| CN108961229A (zh) * | 2018-06-27 | 2018-12-07 | 东北大学 | 基于深度学习的心血管oct影像易损失斑块检测方法及系统 |
| US10169679B1 (en) * | 2017-10-13 | 2019-01-01 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6448325B2 (ja) * | 2014-11-19 | 2019-01-09 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
| US9965719B2 (en) * | 2015-11-04 | 2018-05-08 | Nec Corporation | Subcategory-aware convolutional neural networks for object detection |
| KR102592076B1 (ko) * | 2015-12-14 | 2023-10-19 | 삼성전자주식회사 | 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치 |
| US10706533B2 (en) * | 2016-05-13 | 2020-07-07 | National Jewish Health | Systems and methods for automatic detection and quantification of pathology using dynamic feature classification |
| US10354362B2 (en) * | 2016-09-08 | 2019-07-16 | Carnegie Mellon University | Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network |
| EP3306528B1 (en) * | 2016-10-04 | 2019-12-25 | Axis AB | Using image analysis algorithms for providing traning data to neural networks |
| JP6964234B2 (ja) * | 2016-11-09 | 2021-11-10 | パナソニックIpマネジメント株式会社 | 情報処理方法、情報処理装置およびプログラム |
| US20180136332A1 (en) * | 2016-11-15 | 2018-05-17 | Wheego Electric Cars, Inc. | Method and system to annotate objects and determine distances to objects in an image |
| US10209089B2 (en) * | 2017-04-03 | 2019-02-19 | Robert Bosch Gmbh | Automated image labeling for vehicles based on maps |
| US11093793B2 (en) * | 2017-08-29 | 2021-08-17 | Vintra, Inc. | Systems and methods for a tailored neural network detector |
-
2019
- 2019-01-31 US US16/263,393 patent/US10540572B1/en active Active
- 2019-11-15 KR KR1020190147100A patent/KR102326256B1/ko active Active
-
2020
- 2020-01-15 JP JP2020004730A patent/JP6853560B2/ja active Active
- 2020-01-15 EP EP20152011.1A patent/EP3690742B1/en active Active
- 2020-01-16 CN CN202010045702.7A patent/CN111507335B/zh active Active
Patent Citations (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20170206431A1 (en) * | 2016-01-20 | 2017-07-20 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
| US20170236032A1 (en) * | 2016-02-12 | 2017-08-17 | Adobe Systems Incorporated | Accurate tag relevance prediction for image search |
| US20180232900A1 (en) * | 2016-04-08 | 2018-08-16 | Orbital Insight, Inc. | Remote determination of containers in geographical region |
| US20180144209A1 (en) * | 2016-11-22 | 2018-05-24 | Lunit Inc. | Object recognition method and apparatus based on weakly supervised learning |
| WO2018141429A1 (en) * | 2017-02-03 | 2018-08-09 | Siemens Aktiengesellschaft | A method and apparatus for detecting objects of interest in images |
| WO2018165753A1 (en) * | 2017-03-14 | 2018-09-20 | University Of Manitoba | Structure defect detection using machine learning algorithms |
| CN107239803A (zh) * | 2017-07-21 | 2017-10-10 | 国家海洋局第海洋研究所 | 利用深度学习神经网络的海底底质自动分类方法 |
| US10169679B1 (en) * | 2017-10-13 | 2019-01-01 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same |
| CN108334878A (zh) * | 2018-02-07 | 2018-07-27 | 北京影谱科技股份有限公司 | 视频图像检测方法和装置 |
| CN108961229A (zh) * | 2018-06-27 | 2018-12-07 | 东北大学 | 基于深度学习的心血管oct影像易损失斑块检测方法及系统 |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112102338A (zh) * | 2020-09-17 | 2020-12-18 | 西安泽塔云科技股份有限公司 | 基于深度学习的影像样本数据的获取方法及装置 |
| CN115130644A (zh) * | 2021-03-26 | 2022-09-30 | 斯特拉德视觉公司 | 对基于深度学习的检测网络进行自监督学习的方法及装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP3690742B1 (en) | 2025-04-23 |
| JP6853560B2 (ja) | 2021-03-31 |
| KR20200095335A (ko) | 2020-08-10 |
| EP3690742C0 (en) | 2025-04-23 |
| CN111507335B (zh) | 2023-10-13 |
| EP3690742A1 (en) | 2020-08-05 |
| KR102326256B1 (ko) | 2021-11-16 |
| US10540572B1 (en) | 2020-01-21 |
| JP2020126614A (ja) | 2020-08-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111507335B (zh) | 自动标注利用于深度学习网络的训练图像的方法和装置 | |
| CN111488789B (zh) | 用于基于图像分析的监视的行人检测方法及装置 | |
| US10373027B1 (en) | Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same | |
| CN111507469B (zh) | 对自动标注装置的超参数进行优化的方法和装置 | |
| EP3686798B1 (en) | Learning method and learning device for objet detector based on cnn | |
| CN116363532B (zh) | 基于注意力机制和重参数化的无人机图像交通目标检测方法 | |
| US11023779B1 (en) | Methods for training auto labeling device and performing auto labeling related to segmentation while performing automatic verification by using uncertainty scores and devices using the same | |
| EP3686791B1 (en) | Learning method and learning device for object detector based on cnn to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same | |
| CN111126359A (zh) | 基于自编码器与yolo算法的高清图像小目标检测方法 | |
| EP3686781B1 (en) | Learning method and learning device for object detector based on cnn using image concatenation, and testing method and testing device using the same | |
| US11361190B2 (en) | Deep learning model used for image recognition and training apparatus of the model and method thereof | |
| CN109948615A (zh) | 多语言文本检测识别系统 | |
| CN110826558B (zh) | 图像分类方法、计算机设备和存储介质 | |
| CN115331245A (zh) | 一种基于图像实例分割的表格结构识别方法 | |
| CN113159215A (zh) | 一种基于Faster Rcnn的小目标检测识别方法 | |
| CN111612024A (zh) | 特征提取方法、装置、电子设备及计算机可读存储介质 | |
| CN113160117A (zh) | 一种自动驾驶场景下的三维点云目标检测方法 | |
| CN116246116A (zh) | 强化多尺度特征提取、复用与融合的目标检测方法 | |
| CN110717480A (zh) | 基于随机擦除图像融合的合成孔径雷达遮挡目标识别方法 | |
| CN113850136A (zh) | 基于yolov5与BCNN的车辆朝向识别方法及系统 | |
| CN111931915A (zh) | 一种基于diou损失函数的训练网络的方法 | |
| CN117456259A (zh) | 一种面向目标检测的加权定位蒸馏方法 | |
| CN102867174B (zh) | 一种人脸特征定位方法及装置 | |
| CN112733741A (zh) | 交通标识牌识别方法、装置和电子设备 | |
| CN114724175B (zh) | 行人图像的检测网络、检测方法、训练方法、电子设备和介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |