[go: up one dir, main page]

CN102201062A - 信息处理设备、方法和程序 - Google Patents

信息处理设备、方法和程序 Download PDF

Info

Publication number
CN102201062A
CN102201062A CN2011100561731A CN201110056173A CN102201062A CN 102201062 A CN102201062 A CN 102201062A CN 2011100561731 A CN2011100561731 A CN 2011100561731A CN 201110056173 A CN201110056173 A CN 201110056173A CN 102201062 A CN102201062 A CN 102201062A
Authority
CN
China
Prior art keywords
information
recognition device
class
recognition
tree structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100561731A
Other languages
English (en)
Inventor
横野顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN102201062A publication Critical patent/CN102201062A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7635Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks based on graphs, e.g. graph cuts or spectral clustering
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Discrete Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及信息处理设备、方法和程序。一种创建由识别设备使用的树结构的信息处理设备,其中所述识别设备使用所述树结构识别特定信息,所述信息处理设备包括:存储装置,存储包括要被识别的所述信息的数据和不包括所述信息的数据,从而使它们与表示所述数据是否包括所述信息的标签相对应;识别装置,识别所述信息并且在包括所述信息的数据被输入时输出高得分值;以及分组装置,使用在所述数据被输入所述识别装置时获得的得分分布来执行对所述识别装置的分组。

Description

信息处理设备、方法和程序
技术领域
本发明涉及信息处理设备、方法和程序,尤其涉及例如优选地适用于使用树结构识别装置从特定图像中识别特定物体的图像并且优选地适用于恰当创建所述树结构的信息处理设备、方法和程序。
背景技术
在识别从图像内部看去具有许多变化的目标物体时,本领域存在一种在多个识别装置之间分割操作的方法。作为这类识别技术之一,研究了具有树结构的物体识别装置。在面部识别领域,研究了使用人为设计的树结构的识别装置,并且在如下文献中描述了对面部的检侧″Vector Boosting for Rotation Invariant Multi-View Face Detection,″C.Huang,H.Z.Ai,Y.Li and S.H.Lao Proc.10th IEEE Int′l Conf.Computer Vision,2005(非专利文献1);″A Detector Tree of BoostedClassifiers for Real-time Object Detection and Tracking,″R.Lienhart,L.Liang,A.Kuranov,Proceedings of the 2003International Conference on Multimedia and Expo-Volume 1(非专利文献2);″Multi-view Face Pose Classification by Tree-structuredClassifier,″Zhiguang Yang,Haizhou Ai,Okamoto T.,Shihong Lao,Image Processing,2005,ICIP 2005,IEEE International Conferenceon Volume 2,11-14 Sept 2005 Pages II-358-61(非专利文献3);″Aboosted Classifier Tree for Hand Shape Detection,″E.J.Ong and R.Bowden,Face and Gesture Recognition,2004(非专利文献4)。
为了构造用于个人识别装置的树结构,″Cluster Boosted TreeClassifier for Multi-View,Multi-Pose Object Detection,″Bo Wu,Nevatia,R.ICCV 2007,IEEE 11th International Conference onComputer Vision,14-21 Oct 2007 pages 1-8(非专利文献5)提出了一种方法,其中在没有指导者(instructor)的情况下使用WL(弱学习器)特征自动构造树结构。″Sharing Visual Features for Multiclass andMultiview Object Detection,″A.Torralba,K.P.Murphy and W.T.Freeman,IEEE Transactions on Pattern Analysis and MachineIntelligence,vol.29,no.5,pp.854-869,May 2007(非专利文献6),and″Fast Multi-View Face Detection,″M.Jones and P.Viola,MERLTR2003-96,July 2003(非专利文献7)中提出了一种用于多视角面部识别装置的方法,其中将姿态评估装置放置在早期阶段,并且在通过旋转规格化之后使用常规识别装置。
发明内容
在上述非专利文献1至4中,因为使用由人为设计的树结构,因此无法保证该树结构是识别面部等的最优树结构。更具体地,对于诸如形状显著变化的人或手之类的物体,难以人为设计最优树结构。
根据非专利文献5,适于构造手识别装置。然而,一般而言,存在不仅能够识别“手”还要能够识别手形(诸如,在石头-剪刀-布游戏中)和姿态(旋转角度)的要求,并且尚无法达到这类要求。
在非专利文献6和7中,想在不使用树结构的情况下对图像进行处理,该图像已经通过从多个词典中选择一个词典或者使用一个词典进行了规格化。然而,该方法不能应用于识别无法仅仅通过旋转来表达的目标物体,诸如作为识别目标而改变形状的物体(诸如人或手)。
期望能够创建一种恰当的树结构并使用该创建的树结构执行识别。
根据本发明的一个实施例,在一种创建由识别设备使用的树结构的信息处理设备中(其中所述识别设备使用所述树结构识别特定信息),设置有:存储单元,存储包括要被识别的所述信息的数据和不包括所述信息的数据,从而使它们与表示所述数据是否包括所述信息的标签相对应;识别装置,识别所述信息并且在包括所述信息的数据被输入时输出高得分值;以及分组单元,使用在所述数据被输入所述识别装置时获得的得分分布来执行对所述识别装置的分组。
所述分组单元可以计算所述得分分布的距离并且执行对距离接近的识别装置的分组。
所述分组单元可以计算所述得分分布的距离并且通过聚类(clustering)所述距离执行分组。
所述识别装置可以是预先已经学习的辨别装置。
所述得分分布距离的计算可以使用卡方距离。
所述得分分布距离的计算可以使用KL发散。
所述聚类可以使用谱聚类。
所述信息可以是特定物体或特定声音,并且所述数据可以是图像数据、视频数据、或声音数据。
根据本发明的另一个实施例,提供一种信息处理设备的信息处理方法,所述信息处理设备创建由识别设备使用的树结构并且至少设置有存储单元,其中所述识别设备使用所述树结构识别特定信息,并且其中所述存储单元存储包括要被识别的信息的数据和不包括所述信息的数据,从而使它们与表示所述数据是否包括所述信息的标签相对应,所述信息处理方法包括:使用在从所述存储单元读取的数据被输入到识别装置时获取的得分分布来对所述识别装置执行分组,其中所述识别装置识别所述信息并在包括所述信息的数据被输入时输出高得分值。
根据本发明的再一个实施例,提供一种信息处理设备,所述信息处理设备是创建由识别设备使用的树结构并且至少设置有存储单元的信息处理设备,其中所述识别设备使用所述树结构识别特定信息,并且其中所述存储单元存储包括要被识别的信息的数据和不包括所述信息的数据,从而使它们与表示所述数据是否包括所述信息的标签相对应,并且包括用于执行处理的计算机可读程序,所述处理包括使用在从所述存储单元读取的数据被输入到识别装置时获取的得分分布来对识别装置执行分组,其中所述识别装置是识别所述信息并在包括所述信息的数据被输入时输出高得分值的识别装置。
根据本发明的一个实施例,使用识别设备创建树结构,其中该识别设备使用树结构识别特定信息。所述创建使用识别装置,所述识别装置存储包括要被识别的信息的数据和不包括所述信息的数据,从而使它们与表示所述数据是否包括所述信息的标签相对应并且识别所述信息,并且在包括所述信息的数据被输入时输出高得分值。该方法由使用在所述数据被输入所述识别装置时获得的得分分布执行对所述识别装置的分组来进行。
根据本发明的各实施例,能够创建适用于物体或声音(作为要被识别的目标)的树结构。同样地,能够通过基于创建的树结构执行识别来识别特定物体或声音。
附图说明
图1是示出了现有技术识别设备的一个配置示例的图示。
图2是示出了树结构的一个示例的图示。
图3是示出了树结构的一个示例的图示。
图4是示出了树结构的一个示例的图示。
图5是示出了根据本发明实施例的学习设备的一个配置示例的图示。
图6是用于描述存储在样本存储单元中的数据的图示。
图7A和7B是用于描述存储在识别装置存储单元中的识别装置的图示。
图8是用于描述与得分相关的表的图示。
图9是用于描述树结构的创建处理的流程图。
图10是用于描述类的图示。
图11是用于描述识别装置的图示。
图12是用于描述与得分相关的表的图示。
图13是用于描述分组的图示。
图14是用于描述分组的图示。
图15是用于描述识别装置的图示。
图16是用于描述树结构的图示。
图17是用于描述弱学习器的学习的图示。
图18是示出了创建的树结构的一个示例的图示。
图19是用于描述记录介质的图示。
具体实施方式
现将结合各附图描述本发明的实施例。
树结构
根据本发明的实施例,在从诸如特定图像、视频或声音之类的输入数据中识别诸如特定物体或声音的信息的情况下,如果识别装置是树结构识别装置,那么该树结构就能够是适于识别目标的树结构。将要描述该树结构。在此,将使用从特定图像中识别手的情况作为示例并加以描述。同样地,在手形是石头剪刀布游戏中使用的三个形状的情况下,使用石头(全部手指握住的状态)、剪刀(两个手指张开其余三个手指握住的状态)和布(全部手指张开的状态)作为示例并加以描述。同样在如下的描述中,将不仅识别手形还识别手的倾角的情况用作示例并加以描述。
图1是示出了使用树结构从特定图像中识别手(手的一部分)的图像的设备的配置的图示。图1所示的该识别设备被配置为具有输入单元11、石头识别装置12、剪刀识别装置13、布识别装置14、以及输出单元15。输入单元11输入作为处理目标的图像并把该图像输出至石头识别装置12、剪刀识别装置13和布识别装置14中的每一个。
石头识别装置12是当从输入图像中识别出手形,尤其是石头形时输出高分的识别装置。以相同的方式,剪刀识别装置13是当从输入图像中识别出剪刀形时输出高分的识别装置,而布识别装置14是当从输入图像中识别出布形时输出高分的识别装置。
输出单元15采纳由输出最高分的识别装置识别的手形作为在输入图像中捕捉的手形,其中所述最高分是由石头识别装置12、剪刀识别装置13和布识别装置14各自计算的得分中的最高分。例如,当来自石头识别装置12的得分值是最高值时,输出单元15就输出手形是石头的结论。
以此方式,尽管通过设置专门识别装置来识别特定手形可足以执行识别,但为了有效执行识别,可以考虑使用图2所示的树结构识别最终手形或倾角。图2所示的树结构是当识别左手或右手时的配置,而为了识别左手和右手两者,必须还具有与图2中的树结构相同配置的另一树结构。
图2所示的识别设备被配置为包括手识别装置21、石头识别装置22、剪刀识别装置23、布识别装置24、左45度石头识别装置25、0度石头识别装置26、右45度石头识别装置27、左45度剪刀识别装置28、0度剪刀识别装置29、右45度剪刀识别装置30、左45度布识别装置31、0度布识别装置32、以及右45度布识别装置33。
图3是示出了由图2所示识别设备的每个识别装置识别的手形和手倾角例示的图示。如下将参考图2和图3继续进行描述。在手识别装置21中,从输入单元(未示出)输入作为处理目标的图像。手识别装置21是在捕捉到手图像时输出高分的识别装置,其中捕捉到手图像包括在输入图像中捕捉到手处于石头、剪刀或布形状的图像的情况。照此,在由手识别装置21输出的得分等于或者低于预定阈值时,该手识别装置21就可能被配置为在作为处理目标的图像中没有捕捉到手的情况下不执行处理的后续阶段。由此,就能够实现处理速度的改善等等。
当确定来自手识别装置21的图像捕捉到手时,作为处理目标的图像被供应给石头识别装置22、剪刀识别装置23和布识别装置24中的每一个。石头识别装置22、剪刀识别装置23和布识别装置24是分别识别石头、剪刀和布但不执行倾角识别的识别装置。石头识别装置22、剪刀识别装置23和布识别装置24各自执行得分计算。可以对各装置进行设置以仅使得得分最高的识别装置执行处理的后续阶段,由此就能够实现处理速度的改善等等。
例如,在石头识别装置22的得分值高于剪刀识别装置23的得分和布识别装置24的得分的情况下,在后续阶段处理目标图像就仅从石头识别装置22供应至左45度石头识别装置25、0度石头识别装置26和右45度石头识别装置27。随后,由左45度石头识别装置25、0度石头识别装置26和右45度石头识别装置27中的每一个执行处理。
左45度石头识别装置25是识别向左倾斜45度的石头的识别装置。0度石头识别装置26是识别倾斜0度(无倾斜)的石头的识别装置。右45度石头识别装置27是识别向右倾斜45度的石头的识别装置。以相同的方式,左45度剪刀识别装置28是识别向左倾斜45度的剪刀的识别装置。0度剪刀识别装置29是识别倾斜0度(无倾斜)的剪刀的识别装置。右45度剪刀识别装置30是识别向右倾斜45度的剪刀的识别装置。以相同的方式,左45度布识别装置31是识别向左倾斜45度的布的识别装置。0度布识别装置32是识别倾斜0度(无倾斜)的布的识别装置。右45度布识别装置33是识别向右倾斜45度的布的识别装置。
由各识别装置中输出最高得分的识别装置识别的手形被采纳作为在输入图像中捕捉的手形。
在图2和图3中示出的树结构是由本领域人员创建的。分成石头、剪刀和布的所述树结构(诸如图3所示树结构)被认为能够最有效地执行所述识别并且作为由此方式创建的树结构的示例。然而,当识别设备识别石头、剪刀或布时,并不受限于图3所示的、能够进行最有效识别的树结构。例如,诸如图4所示的树结构可能是更方便地执行识别的树结构。
将参考图4进行描述。图4所示的树结构首先具有识别是否是手的手识别装置61。在手识别装置61确定是手的图像的情况下,该处理目标图像就被供应至布识别装置62和石头/剪刀识别装置63。也就是说,在图4所示的树结构的情况下,不存在各自识别石头、剪刀和布的识别装置,而是识别布的识别装置和识别所有其他(剪刀和石头)的识别装置。
例如,石头和剪刀具有共同点,即石头是全部手指握住的状态并且剪刀是三个手指握住的状态,而布则是全部手指张开的状态并且与石头没有共同点。照此,该树结构包括对具有共同点的石头和剪刀一起进行识别的石头/剪刀识别装置63以及仅识别不具有共同点的布的布识别装置62。
而且,作为后续阶段的识别装置,布识别装置62具有识别左45度布的左45度布识别装置64、以及识别0度布或者右45度布的0度/右45度布识别装置65。此外,作为后续阶段的识别装置,0度/右45度布识别装置65具有识别0度布的0度布识别装置71、以及识别右45度布的右45度布识别装置72。
石头/剪刀识别装置63具有识别左45度剪刀的左45度剪刀识别装置66、识别右45度剪刀的右45度剪刀识别装置67、识别左45度石头的左45度石头识别装置68、识别0度剪刀和0度石头的0度石头/剪刀识别装置69、以及识别右45度石头的右45度石头识别装置70。此外,0度石头/剪刀识别装置69具有识别0度剪刀的0度剪刀识别装置73、以及识别0度石头的0度石头识别装置74。
本文将对图3示出的树结构和图4示出的树结构进行比较。在各附图中,将通过引入从附图顶侧开始的第一层、第二层、第三层和第四层的概念来执行比较。
图3树结构的第一层包括手识别装置21。图3树结构的第二层包括石头识别装置22、剪刀识别装置23和布识别装置24。图3树结构的第三层包括左45度石头识别装置25、0度石头识别装置26、右45度石头识别装置27、左45度剪刀识别装置28、0度剪刀识别装置29、右45度剪刀识别装置30、左45度布识别装置31、0度布识别装置32、以及右45度布识别装置33。照此,图3所示树结构是三层结构。
图4树结构的第一层包括手识别装置61。图4树结构的第二层包括布识别装置62和石头/剪刀识别装置63。图4树结构的第三层包括左45度布识别装置64、0度/右45度布识别装置65、左45度剪刀识别装置66、右45度剪刀识别装置67、左45度石头识别装置68、0度石头/剪刀识别装置69、以及右45度石头识别装置70。图4树结构的第四层包括0度布识别装置71、右45度布识别装置72、0度剪刀识别装置73、以及0度石头识别装置74。照此,图4所示树结构是四层结构。
以此方式,与图3所示树结构相比较,首先,图4中示出的树结构的不同之处在于具有多一层的结构。此处将比较第二层。图3所示树结构的第二层被配置为包括分别识别石头、剪刀和布的石头识别装置22、剪刀识别装置23和布识别装置24,而图4所示树结构的第二层则被配置为包括布识别装置62和石头/剪刀识别装置63,因此识别是石头还是剪刀的石头/剪刀识别装置63是不同的。
如上所述,因为石头和剪刀具有共同点,因此相比于诸如图3所示树结构的分别设置有识别石头的识别装置以及识别剪刀的识别装置的树结构,诸如图4所示树结构的设置有识别石头和剪刀的识别装置的树结构能够更有效地执行识别以获得最终识别结果。换句话说,相比于图3所示的树结构,图4所示的树结构有可能更适于有效执行识别。对于第三层和第四层也可能做出相同判断。
然而,当关注布和剪刀时,也存在布是张开全部手指的情况而剪刀是张开两个手指的情况的共性。另一方面,也可以认为石头与布和剪刀没有共同点,因为石头的全部手指都是握住的。照此,在图4所示的树结构中,可以考虑包括识别布和剪刀的识别装置(在此被描述为布/剪刀识别装置62’)和识别石头的石头识别装置(在此被描述为石头识别装置63’)的配置。
在图4树结构的第二层中,可通过实际创建树结构并执行识别处理来确认带有包括布识别装置62和石头/剪刀识别装置63的配置的所述树结构是否能够比带有包括布/剪刀识别装置62′和石头识别装置63’的配置的所述树结构更为有效地执行识别处理。然而,这一确认是困难的,并且被认为是操作效率不佳的。
换句话说,可以考虑各种树结构,诸如图3所示树结构、图4所示树结构、以及未示出但作为图4树结构的改进的树结构。通常认为人类很难考虑到全部可能的树结构并确认哪个树结构能够最有效地执行识别处理。
于是,如下将描述一种用于创建能够有效执行识别处理的树结构以尽可能为人们节省麻烦的方法。
创建树结构
现将如上所述由识别9种手类型的识别装置使用的树结构用作示例并加以描述,其中所述9种手类型是带左45度倾角的石头、无倾角的石头、带右45度倾角的石头、带左45度倾角的剪刀、无倾角的剪刀、带右45度倾角的剪刀、带左45度倾角的布、无倾角的布、以及带右45度倾角的布。
在此,在如下的描述中,使用树结构执行识别的设备被称为识别设备,配置树结构的节点被称为识别装置。同样,在论及识别装置时,识别还包括检测、辨别并确认的意味。换句话说,例如,从特定图像中识别特定物体包括从该特定图像中检测该特定物体,在该特定图像中辨别该特定物体,并且确认该特定图像中是否存在该特定物体的意味。
例如,图3所示的所述树结构和图4所示的所述树结构可以被认为是用于识别9种手类型的树结构。例如参考图4所描述的,当创建树结构时,通过执行诸如下述的处理来确定是创建一并识别石头和剪刀的石头/剪刀识别装置63还是创建一并识别布和剪刀的布/剪刀识别装置62’。
为了进行更为普遍地描述,存在能够使用相似的特征量识别相似的模式(形状)的可能性。如果可以使用相似的特征量识别相似的模式,就认为能够执行有效识别。照此,能够使用相似的特征量识别的形状由同一识别装置识别,并且通过执行诸如下述的处理就可能创建由识别要被最终识别的多个形状的识别设备使用的树结构。
在此,能够使用相似的特征量识别相似的模式意味着,例如,如果石头识别装置和剪刀识别装置接近,则可能创建识别石头和剪刀的识别装置。如果有可能确定若干识别装置是接近的,就能够将这些识别装置分组到一起并能够通过重复这一分组创建树结构。
为了确定识别装置是接近的,考虑通过执行诸如下述的处理进行确定。
方法1:检查同一问题被解决时的属性
方法2:检查WL(弱学习器)的接近度
方法3:检查带WL的过滤器特征的接近度
可以使用本领域内的技术实现方法2和方法3。例如,可以使用诸如CBT和AT的技术实现方法2。同样地,可以使用诸如fillip和AT的技术实现方法3。
在此,将描述一种通过使用方法1确定识别装置是接近的并创建树结构的方法。图5是示出了创建(学习)树结构的学习设备的一个实施例的配置的图示。图5所示的该学习设备101被配置为包括样本存储单元102、识别装置存储单元103、得分计算单元104、以及分组单元105。
在样本存储单元102中,存储着多个用于学习的图像。同样地,所述图像(样本图像)具有相应附加的标签,并且被存储在该样本存储单元102中。将参考图6描述存储在样本存储单元102中的样本图像和标签。
在样本存储单元102中,样本图像被分类为要被识别并存储的每个形状。在图6所示的示例中,提供了类1至m,并且多个样本图像被存储为带有针对每个类的附加的相应标签。例如,被分类为类1的样本图像是示出石头形手的图像,被分类为类2的样本图像是示出剪刀形手的图像,被分类为类3的样本图像是示出布形手的图像,并且被分类为类m的样本图像是自然图像。如下将继续描述诸如被分类至每个类的图像的具体示例。
在特定识别装置(在此被称为识别装置A)是识别石头的识别装置的情况下,包括在类1中的样本图像对识别装置A是正性图像,而类1之外的样本图像(诸如包括在类2和类3中的样本图像)则是负性图像。以此方式执行分类,使得图像对于一个特定识别装置是正性图像而对另一识别装置则是负性图像。使用类的概念执行图像分类并且将各图像存储在样本存储单元102中。
同样地,参见图6,例如在类1中,样本X1-1被存储为带有相应附加的标签Y1-1,样本X1-2被存储为带有相应附加的标签Y1-2,样本X1-3被存储为带有相应附加的标签Y1-3,...,样本X1-n被存储为带有相应附加的标签Y1-n。样本X代表样本图像,而标签Y代表该样本图像的标签。例如,在诸如上述示例的情况下,因为类1是包括示出石头形手的图像的类,所以样本图像X1-1至X1-n是示出石头形手的图像,并且标签Y1-1至Y1-n是标签“石头”。
以此方式,在样本存储单元102中,要被识别的物体(例如在此情况下是每种手形)的样本图像被各自分类至各个类中,并且被存储为带有相应附加的标签。
回到图5的学习设备101,识别装置存储单元103存储每个类的识别装置。因为存储在识别装置存储单元103中的识别装置通过执行学习被分组并更新,即使在初始状态存在针对每个类的识别装置,识别装置的配置和数量也可以由于重复的学习而改变。
参见图7,将描述存储在识别装置存储单元103中的识别装置。图7A是示出当识别装置存储单元103处于其初始状态时所存储的识别装置的图示。在识别装置存储单元103中,存储了类1识别装置131-1、类2识别装置131-2、类3识别装置131-3、...、以及类m识别装置131-m。有可能将识别装置配置为2类辨别装置。
例如,类1识别装置131-1是当输入示出石头形手的图像时输出确定结果“真”,而当输入未示出石头形手的图像时输出确定结果“假”的识别装置。也就是说,能够将类1识别装置131-1配置为确定作为处理目标的图像是否示出石头并且输出二值“真”或“假”的确定结果的2类辨别装置。其他的识别装置也是一样的。
类1识别装置131-1是当输入被分类至类1的样本图像时输出确定结果“真”的识别装置,类2识别装置131-2是当输入被分类至类2的样本图像时输出确定结果“真”的识别装置,类3识别装置131-3是当输入被分类至类3的样本图像时输出确定结果“真”的识别装置,...,并且类m识别装置131-m是当输入被分类至类m的样本图像时输出确定结果“真”的识别装置。
在此,将类描述为设置成类m,并将识别装置描述为设置成类m识别装置131-m。然而,类的数量和识别装置的数量不必匹配。类的数量可以多于识别装置的数量。例如,在某一类包括不期望被识别的图像的情况下,针对该类的识别装置不被存储在识别装置存储单元103中。
各识别装置可被存储在识别装置存储单元103中,其中使用各类的图像来学习各识别装置,各类的图像预先对应于当输入包括在该类中的图像时输出“真”并在输入其他图像时输出“假”;或者可以在学习设备101中执行自学习并在识别装置存储单元103中存储学习结果。
如下将进行详细描述,但由此就能够期待通过使用已经预先学习的识别装置执行处理,任何识别装置都能被用作识别装置的效果。这意味着可以使用任意识别装置,也可以使用由boosting之类代表的识别装置。
图7B示出了当类似于图7A所示的识别装置的识别装置处于被存储在识别装置存储单元103中的状态时,由学习设备执行学习,并且更新被存储在识别装置存储单元103中的所述识别装置以反映所述学习结果的示例。在确定如果学习结果和包括在类1和类2的每一个中的图像由同一识别装置识别将会更好并且各类能被一并分组在同一识别装置中的等情况下,类1识别装置131-1和类2识别装置131-2(图7A)可以被一并分组以创建类1和类2识别装置132(图7B)。类1和类2识别装置132是当输入包括在类1和类2的每一个中的图像时输出确定结果“真”的识别装置。
如果在图7B所示的识别装置被存储在识别装置存储单元103中的状态下执行进一步学习,虽然未示出,但存在创建对应于多个类的识别装置的可能性。同样地,通过重复这些学习形成树结构。
例如,对是否创建如上所述将类1识别装置131-1和类2识别装置131-2分组到一起并对应于类1和类2的类1和类2识别装置132的确定,换句话说,对创建将类1识别装置131-1和类2识别装置131-2分组并对应于类1和类2的类1和类2识别装置132的确定,是根据得分计算单元104(图5)的得分计算结果执行的。
得分计算单元104计算来自每个识别装置的输出的得分,并且例如创建诸如图8所示的表。虽然在此将描述对所述表的创建,但这并非意味着必须创建与图8所示表相类似的表,而是只要是在执行后面描述的分组(聚类)处理时能够被使用的数据格式就足够。在此为了描述方便,将使用图8所示被创建的表来继续进行描述。
图8所示表的纵轴内排列的是当该表被创建时刻被存储在识别装置存储单元103中的识别装置(所述识别装置的名称),而该表的横轴内排列的则是当该表被创建时刻作为识别装置的处理目标的类(所述类的名称)。
在图8所示的表中,当包括在类1中的图像X{Y==1}被输入到类1识别装置131-1时,得分值是写入“类1识别装置131-1”和“图像X{Y==1}”交叉处单元格的得分。在例如类1内包括1000个样本图像的情况下,该得分是从所述1000个样本图像获得的得分的图。同样地,参照图8所示的表,因为“类1识别装置131-1”在处理包括在类1内的样本图像时输出确定结果“真”(因为输出为高得分值),因此写入“类1识别装置131-1”和“图像X{Y==1}”交叉处单元格的得分是高值。
当包括在类2中的图像X{Y==2}被输入到类1识别装置131-1时,得分值是写入“类1识别装置131-1”和“图像X{Y==2}”交叉处单元格的得分。当包括在类m中的图像X{Y==m}被输入到类1识别装置131-1时,得分值是写入“类1识别装置131-1”和“图像X{Y==m}”交叉处单元格的得分。以此方式,包括在从类1到类m中的每一类中的样本图像被分别输入到类1识别装置131-1,并且每个类的得分被写入该表的相应单元格中。
以此方式,当进行学习时,通过针对一个识别装置输入包括在各个类中的全部图像并加以处理以及对全部识别装置执行上述处理,得到诸如图8所示的表。从诸如上表的表中,就能够使用得分分布相似性等来执行分组(聚类)。所述分组由分组单元105(图5)执行。
分组单元105(图5)参照来自得分计算单元104的计算结果(位于诸如图8所示表之类的表中),对例如具有类似得分分布的识别装置进行分组而成为单个识别装置,由此创建对应于多个类的单个识别装置。使用分组单元105的分组结果,通过单次分组的处理,就可以新创建一个单个识别装置,或者可以新创建多个识别装置。
树结构的创建处理
将参考图9所示的流程图进一步描述图5所示的学习设备101的处理,即,树结构的创建处理。
在步骤S11,识别装置存储单元103使用存储在样本存储单元102中的全部样本图像来学习全部识别装置。在步骤S11执行的处理参照图6和图7的描述来进行。随后,在步骤S12,通过得分计算单元104,关于全部样本X计算识别装置的得分。在步骤S12执行的处理参照图8的描述来进行。
在此将使用具体示例进行进一步地描述。在此,作为具体示例,将描述创建诸如图10所示的在识别四个类的识别装置中使用的树结构的情况作为一个示例。图10中的四个类是右布类、右剪刀类、左布类、和左剪刀类。针对每个类,例如在样本存储单元102中存储1000个样本图像。
同样地,识别所述四个类中的每一个的识别装置被存储在识别装置存储单元103中。例如,诸如图11所示的识别装置之类的识别装置被存储在识别装置存储单元103中。也就是说,在识别装置存储单元103中,存储有右布类识别装置201、右剪刀类识别装置202、左布类识别装置203、和左剪刀类识别装置204。
在此状态中,如果执行步骤S11的处理,则首先将包括在右布类中的样本图像输入到右布类识别装置201,并且计算得分。以相同的方式,包括在右剪刀类中的样本图像、包括在左布类中的样本图像、以及包括在左剪刀类中的样本图像被顺序输入到右布类识别装置201,并且为每个类计算得分。
以相同的方式,包括在右布类中的样本图像、包括在右剪刀类中的样本图像、包括在左布类中的样本图像、以及包括在左剪刀类中的样本图像被顺序输入到右剪刀类识别装置202,并且为每个类计算得分。
以相同的方式,包括在右布类中的样本图像、包括在右剪刀类中的样本图像、包括在左布类中的样本图像、以及包括在左剪刀类中的样本图像被顺序输入到左布类识别装置203,并且为每个类计算得分。
以相同的方式,包括在右布类中的样本图像、包括在右剪刀类中的样本图像、包括在左布类中的样本图像、以及包括在左剪刀类中的样本图像被顺序输入到左剪刀类识别装置204,并且为每个类计算得分。
以此方式,每个类的样本图像被输入到每个识别装置中,并且为每个类计算识别装置的得分。从所述结果,就能够得到例如图12所示表的表。得分值301是当包括在右布类中的样本图像被输入到右布类识别装置201时计算的得分值,得分值302是当包括在右剪刀类中的样本图像被输入到右布类识别装置201时计算的得分值,得分值303是当包括在左布类中的样本图像被输入到右布类识别装置201时计算的得分值,以及得分值304是当包括在左剪刀类中的样本图像被输入到右布类识别装置201时计算的得分值。每个得分的垂直线表示零值的位置。
在此情况下可以理解,当包括在右布类中的样本图像被输入到右布类识别装置201时计算的得分值301,以及当包括在左布类中的样本图像被输入到右布类识别装置201时计算的得分值303相比于得分值302和得分值304示出了更高的得分。
以相同的方式,得分值305是当包括在右布类中的样本图像被输入到右剪刀类识别装置202时计算的得分值,得分值306是当包括在右剪刀类中的样本图像被输入到右剪刀类识别装置202时计算的得分值,得分值307是当包括在左布类中的样本图像被输入到右剪刀类识别装置202时计算的得分值,以及得分值308是当包括在左剪刀类中的样本图像被输入到右剪刀类识别装置202时计算的得分值。
在此情况下可以理解,当包括在右剪刀类中的样本图像被输入到右剪刀类识别装置202时计算的得分值306,以及当包括在左剪刀类中的样本图像被输入到右剪刀类识别装置202时计算的得分值308相比于得分值305和得分值307示出了更高的得分。
以相同的方式,得分值309是当包括在右布类中的样本图像被输入到左布类识别装置203时计算的得分值,得分值310是当包括在右剪刀类中的样本图像被输入到左布类识别装置203时计算的得分值,得分值311是当包括在左布类中的样本图像被输入到左布类识别装置203时计算的得分值,以及得分值312是当包括在左剪刀类中的样本图像被输入到左布类识别装置203时计算的得分值。
在此情况下可以理解,当包括在右布类中的样本图像被输入到左布类识别装置203时计算的得分值309,以及当包括在左布类中的样本图像被输入到左布类识别装置203时计算的得分值311相比于得分值310和得分值312示出了更高的得分。
以相同的方式,得分值313是当包括在右布类中的样本图像被输入到左剪刀类识别装置204时计算的得分值,得分值314是当包括在右剪刀类中的样本图像被输入到左剪刀类识别装置204时计算的得分值,得分值315是当包括在左布类中的样本图像被输入到左剪刀类识别装置204时计算的得分值,以及得分值316是当包括在左剪刀类中的样本图像被输入到左剪刀类识别装置204时计算的得分值。
在此情况下可以理解,当包括在右剪刀类中的样本图像被输入到左剪刀类识别装置204时计算的得分值314,以及当包括在左剪刀类中的样本图像被输入到左剪刀类识别装置204时计算的得分值316相比于得分值313和得分值315示出了更高的得分。
当得到涉及诸如上述的得分的表时,在步骤S13(图9),通过分组单元105(图5)执行分组处理。将参考图13和图14再次描述分组。图13和图14的每一个都是图12所示的表,并且是带有与分组时关注部分相关的标记的图。
在图13中示出的表中,存在两个标记。第一个标记是关注于当样本图像由右布类识别装置201处理时的得分分布的标记321,而第二个标记是关注于当样本图像由左布类识别装置203处理时的得分分布的标记322。以此方式,存在这样一种分组方法,其中将一个特定识别装置的整体得分分布与另一个识别装置的整体得分分布相比较并提取类似的识别装置。
当类似的识别装置被提取时,例如使用由标记321围绕的得分值部分与由标记322围绕的得分值部分计算距离,并通过确定该距离是否接近,就能够确定相似度级别。以此方式,在使用整体得分分布进行分组的情况下,就能够使用例如K-means聚类方法来执行分组处理。
接下来,参考图14,将描述根据每个分布的相似度来执行分组的情况。标记351示出了关注于得分值301,而标记352则示出了关注于得分值302。以此方式,标记353至366各自示出了关注于各个得分值303至316。
以此方式,存在对每一个得分值的关注,并且可以通过找出各个得分值的相似性来执行分组。通过计算各得分值的距离来执行各得分值的相似性。例如,计算得分值301和得分值302之间的距离、得分值301和得分值303之间的距离、以及得分值301和得分值304之间的距离。可以为全部得分值的每一个计算距离,可以计算表内接近得分值的距离,或者可以只用不同识别装置的得分值作为目标来计算距离。
可以确定,得分值之间的距离越近则相似度越高。可以通过对带有更高相似度的识别装置进行分组来执行分组处理。在以此方式使用各个分布之间的相似度执行分组的情况下,例如能够使用谱聚类(spectral clustering)执行分组。
在如上参考图14所述使用各分布之间的相似度执行分组的情况下,能够通过有效地辨别部分相似度来执行分组。
同样地,参考图13和图14两者描述的分组计算分布距离,但是计算距离的方法和测量距离的方法也能够使用KL发散(KLdivergence)、卡方距离(chi-squared distance)等等。同样地,可以计算平均值,并将该平均值设置为距离。此外,也能够应用诸如设置识别度作为距离的方法。
例如,当在使用如参考图13描述的整体得分分布的结果中,判定右布类识别装置201和左布类识别装置203的距离接近且右剪刀类识别装置202和左剪刀类识别装置204的距离接近的情况下,可以根据所述结果创建识别装置。
也就是说,在步骤S14,由分组单元105进行分组的类被设置为一个类,并且再次进行学习。将经过分组的类设置为一个类,在上述示例中,是指创建结合右布类识别装置201和左布类识别装置203(右布类和左布类)的识别装置(设置为一个类),以及创建结合右剪刀类识别装置202和左剪刀类识别装置204(右剪刀类和左剪刀类)的识别装置(设置为一个类)。
结果,如图15所示,结合右布类识别装置201和左布类识别装置203的右/左布类识别装置211被创建并被存储在识别装置存储单元103中,并且结合右剪刀类识别装置202和左剪刀类识别装置204的右/左剪刀类识别装置212被创建并被存储在识别装置存储单元103中。于是,通过将右/左布类识别装置211和右/左剪刀类识别装置212用作新的识别装置,重复步骤S11以下的处理(再次进行学习)。
同样地,当再次进行学习时,将经过分组的类设置为一个类,并且使用分组后的类作为新类重复步骤S11以下的处理。也就是说,例如在上述的示例中,右布类和左布类被设置为一个类并创建右/左布类(未示出),并且右剪刀类和左剪刀类被设置为一个类并且创建右/左剪刀类的一个类(未示出)。随后,通过使用新创建的右/左布类和右/左剪刀类再次执行步骤S11以下的处理来重新进行学习。
当存在其中各类和样本图像被如图10所示存储在样本存储单元102内的状态,并且存在其中各识别装置被如图11所示存储在识别装置存储单元103内的状态时,图16示出了在执行诸如上述的处理时创建的树结构的示例。
图16中示出的树结构包括在第一层中识别右布、右剪刀、左布和左剪刀的右/左布类和右/左剪刀类识别装置221,并且包括在第二层的右/左布类识别装置211和右/左剪刀类识别装置212。在第二层的右/左布类识别装置211包括作为第三层的右布类识别装置201和左布类识别装置203。以相同的方式,第二层的右/左剪刀类识别装置212包括作为第三层的右剪刀类识别装置202和左剪刀类识别装置204。
以此方式,就能够通过计算每一类的得分、使用得分分布来执行分组以及把距离接近的识别装置分组在一起来创建树结构。
如下将进一步对树结构的学习以及对配置树结构的识别装置的学习进行描述。作为涉及上述树结构的学习的方法,考虑如下三种方法。如下示出的方法1至3是在假定boosting的情况下的示例。
方法1
(i)使用上述方法预先配置树结构。
(ii)预先定义WL(弱学习器)并进行学习。
在方法1中,由弱学习器装置配置每一个用来配置树结构的识别装置,并且用预先人工定义的弱学习器的数目进行学习。所述树结构由诸如上述的方法创建,或者可人为设计。
方法2
(i)使用上述方法预先配置树结构。
(ii)在学习期间决定弱学习器装置的数目。
(iii)当学习错误的降低变小时执行分割定时。
在方法2中,树结构的预先配置与方法1相同,但是在学习处理中决定用于对配置树结构的识别装置进行配置的弱学习器装置的数目这一点上与方法1不同。同样地,对弱学习器装置的数目的决定取决于所述分割定时。在一个特定识别装置(弱学习器装置)处进行学习的情况下,在能够确定即使继续学习也可预计该识别装置处的错误不再降低时的定时,在该识别装置处的学习被暂停并分割。在以此方式由错误降低确定分割定时并决定弱学习器装置的数目的同时进行学习。
方法3
(i)在决定树结构以及弱学习器装置的数目两者的同时进行学习。
(ii)当学习错误的降低变小时执行分割定时。
(iii)计算各样本的得分分布之间的亲和行(Affinity rows)并进行谱聚类。
在方法3中,在学习并创建树结构的同时,学习并决定弱学习器装置的数目。能够如上所述创建(学习)树结构。同样地,对弱学习器装置的数目的决定取决于如方法2所述的分割定时,并且通过在学习错误的降低变小时执行分割而被执行。同样地,在方法3中,当为创建树结构执行分组时,计算各样本的得分分布之间的亲和行并执行谱聚类是优选的配置。
通过应用方法1至3中的任一方法,可以创建树结构,并且可以决定用于配置所述树结构的弱学习器装置的数目。虽然已经描述了使用弱学习器装置的boosting,但本发明并不限于boosting。在创建树结构时,使用得分计算距离以确定识别装置的接近度。只要当输入特定图像时识别装置输出得分,该识别装置就可以不是boosting。也就是说,能够向boosting以外的识别装置应用本发明实施例。
这还意味着能够应用本发明的实施例。代替特定图像,当输入特定视频,特定声音等等时,如果是输出的得分的识别装置,那么也意味着能够应用本发明。也就是说,能够在不依赖于输入数据的类型(诸如,图像、视频和声音)的情况下应用本发明。
如下将参考图17描述在决定图16所示的树结构中的弱学习器装置的数目等时的处理。
使用全部手的图像和没有手的图像来执行右/左布类和右/左剪刀类识别装置221的弱学习器装置(WL)的学习。全部手的图像是示出了右布、左布、右剪刀和左剪刀的手形中的至少一个形状的图像。同样地,除了这些手形之外的手形的图像也可以在学习时被包括作为样本图像。手的图像被用作正性图像。没有手的图像被用作负性图像,并且是没有示出手的图像(诸如自然图像等)。
因为学习是通过输入手的图像和没有手的图像来进行的,所以右/左布类和右/左剪刀类识别装置221是当输入示出手的图像时输出识别结果“真”而当输入没有示出手的图像时输出识别结果“假”的识别装置。
随着右/左布类和右/左剪刀类识别装置221学习的发展,达到一个错误减少、即使继续学习也无法期望得到效果的状态。当以此方式达到一种确定错误已被减少的状态时,执行用于分割的处理。
准备用于分割的弱学习器装置261,并且关于该弱学习器装置261(识别装置261)进行学习。右/左布类和右/左剪刀类识别装置221的识别装置的后续阶段(分割之后)是识别布的右/左布类识别装置211和识别剪刀的右/左剪刀类识别装置212。照此,识别装置261的学习是用于确定作为处理目标的图像中示出的是布还是剪刀的学习。
在学习阶段,只有布或剪刀的图像作为样本图像被输入识别装置261。布和剪刀包括右布、左布、右剪刀、和左剪刀。通过进行识别装置261的学习,创建在输入是布时输出识别结果“真”(或者相反地在输入是剪刀时输出“真”)的识别装置。错误率在识别布或剪刀时降低,并且学习处理在例如错误率等于或小于预定阈值时暂停。
接下来,进行右/左布类识别装置211的学习。在右/左布类识别装置211的学习过程中,布的图像(包括右布的图像和左布的图像)被用作正性图像,诸如自然图像的图像被用作负性图像。在错误率作为学习的结果而降低之时暂停所述学习。
当右/左布类识别装置211的学习停止时,执行用于分割的处理。准备用于分割的弱学习器装置(识别装置)262,并且关于该识别装置262进行学习。右/左布类识别装置211的识别装置的后续阶段(分割之后)是识别右布的右布类识别装置201和识别左布的左布类识别装置203。照此,识别装置262的学习是用于确定作为处理目标的图像中示出的是右布还是左布的学习。在错误率作为学习的结果而降低之时暂停所述学习。
在识别装置262中,当用于分割的学习暂停时,执行右布类识别装置201的学习。在右布类识别装置201的学习中,仅使用右布的图像作为正性图像,而使用诸如自然图像的图像作为负性图像。在错误率作为学习的结果而降低之时暂停所述学习。
以相同的方式,进行左布类识别装置203的学习。在左布类识别装置203的学习中,仅使用左布的图像作为正性图像,而使用诸如自然图像的图像作为负性图像。在错误率作为学习的结果而降低之时暂停所述学习。
在进行诸如此类的学习之后,或者在正进行诸如此类的学习的同时,还可以执行右/左剪刀类识别装置212的学习处理。在右/左剪刀类识别装置212的学习过程中,剪刀的图像(包括右剪刀的图像和左剪刀的图像)被用作正性图像,诸如自然图像的图像被用作负性图像。在错误率作为学习的结果而降低之时暂停所述学习。
当右/左剪刀类识别装置212的学习暂停时,执行用于分割的处理。准备用于分割的弱学习器装置(识别装置)263,并且关于该识别装置263进行学习。右/左剪刀类识别装置212的识别装置的后续阶段(分割之后)是识别右剪刀的右剪刀类识别装置202和识别左剪刀的左剪刀类识别装置204。照此,识别装置263的学习是用于确定作为处理目标的图像中示出的是右剪刀还是左剪刀的学习。在错误率作为学习的结果而降低之时暂停所述学习。
在识别装置263中,当用于分割的学习暂停时,执行右剪刀类识别装置202的学习。在右剪刀类识别装置202的学习中,仅使用右剪刀的图像作为正性图像,而使用诸如自然图像的图像作为负性图像。在错误率作为学习的结果而降低之时暂停所述学习。
以相同的方式,进行左剪刀类识别装置204的学习。在左剪刀类识别装置204的学习中,仅使用左剪刀的图像作为正性图像,而使用诸如自然图像的图像作为负性图像。在错误率作为学习的结果而降低之时暂停所述学习。
以此方式,进行每个识别装置的学习并且决定配置每个识别装置的弱学习器装置的数目。
如果以此方式应用本发明的实施例,就能够创建树结构。同样地,能够配置树结构从而有效获取要最终得到的识别结果。同样地,在配置树结构的识别装置由例如弱学习器装置基于boosting配置的情况下,能够适当设置弱学习器装置的数目。
图18示出了其中以此方式创建识别28个类的树结构的情况的示例。图18所示的树结构是识别0度右布的类1、左30度右布的类2、右30度右布的类3、左45度右布的类4、右45度右布的类5、左60度右布的类6、以及右60度右布的类7中的每一类的树结构。
图18所示的树结构是识别0度右剪刀的类8、左30度右剪刀的类9、右30度右剪刀的类10、左45度右剪刀的类11、右45度右剪刀的类12、左60度右剪刀的类13、以及右60度右剪刀的类14中的每一类的树结构。
同样地,图18所示的树结构是识别0度左布的类15、左30度左布的类16、右30度左布的类17、左45度左布的类18、右45度左布的类19、左60度左布的类20、以及右60度左布的类21中的每一类的树结构。
同样地,图18所示的树结构是识别0度左剪刀的类22、左30度左剪刀的类23、右30度左剪刀的类24、左45度左剪刀的类25、右45度左剪刀的类26、左60度左剪刀的类27、以及右60度左剪刀的类28中的每一类的树结构。
在通过上述方法创建识别类1至类28的28个类中的每一个的树结构的情况下,通过参考图18可以理解从顶部开始数的第二层是按照手的倾角分割的。该图的左侧是识别向右方向倾斜的手的识别装置,而该图的右侧则是识别向左方向倾斜的手的识别装置。也就是说,在此情况下,意味着在手的识别之后,可以确定识别手的倾角在获取最终识别结果的效率上要优于识别是布还是剪刀,并由此创建这样的树结构。
此外,通过参照图18可以理解从顶部开始数的第三层是被识别剪刀或布中的每一个的识别装置分割的。例如,如果人为设计了这一树结构,可以认为经过了反复试验直到达到诸如图示的树结构。然而,通过应用本发明的实施例,能够减少反复试验的时间和错误。
以此方式,可以确认的是,如果该识别处理实际是使用所述树结构执行的,就能够有效识别这28个类。
以此方式,根据本实施例,就能够使用样本的类标签自动创建所述树结构。同样地,因为存在指导者标签,所以最终输出将会是标签,但是因为能够在执行识别的同时使用树结构中的特征量,所以总词典尺寸变小并且能够进行快速识别。
存储介质
能够使用硬件或使用软件来执行上述的一系列处理。在使用软件执行所述一系列处理的情况下,在计算机内安装由所述软件配置的程序。在此所述的计算机包括带有内建的专用硬件的计算机或者例如能够通过安装各类程序执行各类功能的典型的个人计算机。
图19是例示了使用程序执行上述一系列处理的计算机硬件的配置示例的框图。在该计算机中,CPU(中央处理单元)1001、ROM(只读存储器)1002、和RAM(随机存取存储器)1003通过总线1004彼此连接。输入/输出接口1005也同样连接至总线1004。输入/输出接口1005连接至输入单元1006、输出单元1007、存储单元1008、通信单元1009、以及驱动器1010。
输入单元1006由键盘、鼠标、麦克风等形成。输出单元1007由显示器、扬声器等形成。存储单元1008由硬盘、非易失性存储器等形成。通信单元1009由网络接口等形成。驱动器1010驱动可移除介质1011,诸如磁盘、光盘、磁光盘或者半导体存储器。
在如上配置的计算机中,上述的一系列处理由CPU1001执行,其中CPU1001经由输入/输出接口1005和总线1004装载存储在例如RAM1003中的存储单元1008中的程序。
能够通过在诸如封装介质的可移除介质1011上记录由计算机(CPU1001)执行的程序而提供该程序。同样地,能够经由有线或无线传输介质(诸如,局域网、因特网、或者数字卫星广播)提供所述程序。
在计算机中,能够通过将可移除介质1011载入驱动器1010经由输入/输出接口1005将程序安装至存储单元1008。同样地,能够通过经由有线或无线传输介质在通信单元1009中接收程序而在存储单元1008中安装所述程序。或者,能够预先在ROM1002或者存储单元1008中安装所述程序。
在此,由计算机执行的所述程序可以是按发明实施例中描述的次序顺序执行本处理的程序,或者可以是并行或在诸如进行请求时按必须的定时执行处理的程序。
同样地,在本发明的实施例中,术语“系统”指代由多个设备配置的整体设备。
在本文中,本发明的各实施例不受上述实施例的限制,并且可以在不背离本发明主旨的范围内作出各种变化。
本申请包括的主题涉及在日本优先权专利申请JP 2010-066633中公开的主题,其中该申请于2010年3月23日向日本专利局提交,并且其全部内容通过引用合并在此。
本领域技术人员应该理解可以在所附权利要求或其等效方案的范围内根据设计要求和其他因素进行各种修改、组合、子组合和替换。

Claims (11)

1.一种创建由识别设备使用的树结构的信息处理设备,其中所述识别设备使用所述树结构识别特定信息,所述信息处理设备包括:
存储装置,存储包括要被识别的所述信息的数据以及不包括所述信息的数据,从而使它们与表示数据是否包括所述信息的标签相对应;
识别装置,识别所述信息并且在包括所述信息的数据被输入时输出高得分值;以及
分组装置,使用在所述数据被输入所述识别装置时获得的得分分布来执行对所述识别装置的分组。
2.如权利要求1所述的信息处理设备,
其中,所述分组装置计算所述得分分布的距离并且执行对距离接近的所述识别装置的分组。
3.如权利要求1所述的信息处理设备,
其中,所述分组装置计算所述得分分布的距离并且通过对所述距离进行聚类来执行分组。
4.如权利要求1所述的信息处理设备,
其中,所述识别装置是预先已经学习的辨别装置。
5.如权利要求2或3所述的信息处理设备,
其中,所述得分分布的距离的计算使用卡方距离。
6.如权利要求2或3所述的信息处理设备,
其中,所述得分分布的距离的计算使用KL发散。
7.如权利要求3所述的信息处理设备,
其中,所述聚类使用谱聚类。
8.如权利要求1所述的信息处理设备,
其中,所述信息是特定物体或特定声音,并且所述数据是图像数据、视频数据或声音数据。
9.一种信息处理设备的信息处理方法,所述信息处理设备是创建由识别设备使用的树结构并且至少设置有存储装置的信息处理设备,其中所述识别设备使用所述树结构识别特定信息,并且其中所述存储装置存储包括要被识别的信息的数据和不包括所述信息的数据,从而使它们与表示所述数据是否包括所述信息的标签相对应,所述信息处理方法包括如下步骤:
使用在从所述存储装置读取的数据被输入到识别装置时获取的得分分布来对所述识别装置执行分组,其中所述识别装置识别所述信息并在包括所述信息的数据被输入时输出高得分值。
10.一种在信息处理设备中执行处理的计算机可读程序,所述信息处理设备创建由识别设备使用的树结构并且至少设置有存储装置,其中所述识别设备使用所述树结构识别特定信息,并且其中所述存储装置存储包括要被识别的信息的数据和不包括所述信息的数据,从而使它们与表示所述数据是否包括所述信息的标签相对应,所述处理包括如下步骤:
使用在从所述存储装置读取的数据被输入到识别装置时获取的得分分布来对所述识别装置执行分组,其中所述识别装置识别所述信息并在包括所述信息的数据被输入时输出高得分值。
11.一种创建由识别设备使用的树结构的信息处理设备,其中所述识别设备使用所述树结构识别特定信息,所述信息处理设备包括:
存储单元,存储包括要被识别的所述信息的数据和不包括所述信息的数据,从而使它们与表示所述数据是否包括所述信息的标签相对应;
识别装置,识别所述信息并且在包括所述信息的数据被输入时输出高得分值;以及
分组单元,使用在所述数据被输入所述识别装置时获得的得分分布来执行对所述识别装置的分组。
CN2011100561731A 2010-03-23 2011-03-09 信息处理设备、方法和程序 Pending CN102201062A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010066633A JP2011198268A (ja) 2010-03-23 2010-03-23 情報処理装置および方法、並びにプログラム
JP2010-066633 2010-03-23

Publications (1)

Publication Number Publication Date
CN102201062A true CN102201062A (zh) 2011-09-28

Family

ID=44656561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100561731A Pending CN102201062A (zh) 2010-03-23 2011-03-09 信息处理设备、方法和程序

Country Status (3)

Country Link
US (1) US8606022B2 (zh)
JP (1) JP2011198268A (zh)
CN (1) CN102201062A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978829A (zh) * 2019-02-26 2019-07-05 深圳市华汉伟业科技有限公司 一种待检测对象的检测方法及其系统

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9355303B2 (en) * 2011-12-04 2016-05-31 King Saud University Face recognition using multilayered discriminant analysis
TWI456430B (zh) * 2012-12-07 2014-10-11 Pixart Imaging Inc 手勢判斷裝置、其操作方法與手勢判斷方法
US20140208274A1 (en) * 2013-01-18 2014-07-24 Microsoft Corporation Controlling a computing-based device using hand gestures
KR101824921B1 (ko) * 2013-06-11 2018-02-05 삼성전자주식회사 제스처 기반 통신 서비스 수행 방법 및 장치
TWI506461B (zh) * 2013-07-16 2015-11-01 Univ Nat Taiwan Science Tech 人體動作的辨識方法與裝置
US9668676B2 (en) 2013-12-30 2017-06-06 Apple Inc. User identification system based on plethysmography
US10488936B2 (en) 2014-09-30 2019-11-26 Apple Inc. Motion and gesture input from a wearable device
US9939899B2 (en) * 2015-09-25 2018-04-10 Apple Inc. Motion and gesture input from a wearable device
US20170199579A1 (en) * 2016-01-11 2017-07-13 Guo Chen Gesture Control Module
US10478099B2 (en) 2016-09-22 2019-11-19 Apple Inc. Systems and methods for determining axial orientation and location of a user's wrist
US10558278B2 (en) 2017-07-11 2020-02-11 Apple Inc. Interacting with an electronic device through physical movement
JP7238470B2 (ja) * 2018-03-15 2023-03-14 富士通株式会社 学習装置、検査装置、学習検査方法、学習プログラムおよび検査プログラム
JP7119794B2 (ja) * 2018-09-05 2022-08-17 トヨタ自動車株式会社 ログデータの生成方法、プログラム、及びデータ構造
US11221683B2 (en) * 2019-05-09 2022-01-11 Dell Products, L.P. Graphical user interface (GUI) manipulation using hand gestures over a hovering keyboard
US12449907B2 (en) 2021-05-19 2025-10-21 Apple Inc. Navigating user interfaces using a cursor
US12386428B2 (en) 2022-05-17 2025-08-12 Apple Inc. User interfaces for device controls

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050154747A1 (en) * 2003-10-30 2005-07-14 Sony Corporation Information processing apparatus, information processing method, and computer program
CN1731417A (zh) * 2005-08-19 2006-02-08 清华大学 复杂背景图像中的鲁棒人脸检测方法
CN1952954A (zh) * 2005-10-09 2007-04-25 欧姆龙株式会社 特定被摄体检测装置及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6108446A (en) * 1997-02-18 2000-08-22 Hoshen; Joseph Method and apparatus for extracting cluster shape features from digital images
US8094948B2 (en) * 2007-04-27 2012-01-10 The Regents Of The University Of California Photo classification using optical parameters of camera from EXIF metadata
US8379919B2 (en) * 2010-04-29 2013-02-19 Microsoft Corporation Multiple centroid condensation of probability distribution clouds

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050154747A1 (en) * 2003-10-30 2005-07-14 Sony Corporation Information processing apparatus, information processing method, and computer program
CN1731417A (zh) * 2005-08-19 2006-02-08 清华大学 复杂背景图像中的鲁棒人脸检测方法
CN1952954A (zh) * 2005-10-09 2007-04-25 欧姆龙株式会社 特定被摄体检测装置及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978829A (zh) * 2019-02-26 2019-07-05 深圳市华汉伟业科技有限公司 一种待检测对象的检测方法及其系统
CN109978829B (zh) * 2019-02-26 2021-09-28 深圳市华汉伟业科技有限公司 一种待检测对象的检测方法及其系统

Also Published As

Publication number Publication date
US20110235926A1 (en) 2011-09-29
JP2011198268A (ja) 2011-10-06
US8606022B2 (en) 2013-12-10

Similar Documents

Publication Publication Date Title
CN102201062A (zh) 信息处理设备、方法和程序
JP6397986B2 (ja) 画像オブジェクト領域の認識方法及び装置
US20220230648A1 (en) Method, system, and non-transitory computer readable record medium for speaker diarization combined with speaker identification
Liao et al. A fast and accurate unconstrained face detector
Chen et al. Supervised transformer network for efficient face detection
Tu Probabilistic boosting-tree: Learning discriminative models for classification, recognition, and clustering
Galleguillos et al. Weakly supervised object localization with stable segmentations
Chen et al. Learning deep features for image emotion classification
Hoque et al. Real time bangladeshi sign language detection using faster r-cnn
CN101398900B (zh) 模式识别方法、参数学习方法和设备
JP5351958B2 (ja) デジタルコンテンツ記録のための意味論的イベント検出
CN110674874B (zh) 基于目标精细组件检测的细粒度图像识别方法
CN114758362B (zh) 基于语义感知注意力和视觉屏蔽的换衣行人重识别方法
Lin et al. Keypoint selection for efficient bag-of-words feature generation and effective image classification
CN106803090A (zh) 一种图像识别方法和装置
Zhao et al. Semantic parts based top-down pyramid for action recognition
US10943098B2 (en) Automated and unsupervised curation of image datasets
CN115203408A (zh) 一种多模态试验数据智能标注方法
JPWO2019171440A1 (ja) 画像解析装置、画像解析方法および画像解析プログラム
US10504002B2 (en) Systems and methods for clustering of near-duplicate images in very large image collections
CN103295026A (zh) 基于空间局部聚合描述向量的图像分类方法
Najibi et al. Towards the success rate of one: Real-time unconstrained salient object detection
Boussaad et al. Extreme learning machine-based age-invariant face recognition with deep convolutional descriptors
Axyonov et al. Method of multi-modal video analysis of hand movements for automatic recognition of isolated signs of Russian sign language
CN111767710B (zh) 印尼语的情感分类方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110928