CN111727436B

CN111727436B - 对未染色组织的病理学预测

Info

Publication number: CN111727436B
Application number: CN201880089436.9A
Authority: CN
Inventors: M.斯坦普; L.彭
Original assignee: Google LLC; Verily Life Sciences LLC
Current assignee: Verily Life Sciences LLC
Priority date: 2018-02-15
Filing date: 2018-09-07
Publication date: 2022-10-28
Anticipated expiration: 2038-09-07
Also published as: WO2019160580A1; US20210064845A1; EP3979127A1; CN115641304A; CN111727436A; EP3752952A1; US11983912B2; EP3752952B1

Abstract

提供了一种用于训练模式识别器以识别组织样本的未染色图像中的感兴趣区域的方法。获得组织样本的图像对，每对图像包括给定组织样本的未染色图像和给定组织样本的染色图像。然后，在染色图像上执行注释(例如，绘制操作)以指示感兴趣区域。然后，以围绕感兴趣区域的掩模的形式的注释信息被应用于对应的未染色图像。然后，提供未染色图像和掩模来训练模式识别器。然后，经训练的模式识别器可以用于识别新的未染色图像中的感兴趣区域。

Description

对未染色组织的病理学预测

相关申请的交叉引用

本申请要求2018年2月15日提交的美国临时专利申请第62/631,259号的优先权，该申请通过引用结合于此。

技术领域

本公开涉及数字病理学领域，更具体地，涉及一种用于在组织标本的数字图像中生成掩模的方法。

背景技术

本文档中的术语“掩模(mask)”是指组织标本的图像中的闭合多边形区域或其他指定区域，其包围或以其他方式指示诸如癌细胞(例如，肿瘤细胞)的感兴趣区域。

带有掩模的组织样本的数字图像和样本的可能相关标签(诸如“癌性的”)在若干上下文中使用，包括作为构造机器学习模型的训练示例。这种机器学习模型可以被开发用于各种目的，包括辅助诊断、临床决策支持以及为提供组织样本的患者进行预测，诸如预测存活率或对治疗的反应。

用于根据包含组织标本的载玻片的图像进行预测的机器学习模型需要精确的“真实(ground truth)”掩模，并且可选地需要为标本分配标签。如上所述，掩模可以是勾勒出感兴趣区域的多边形形式，诸如包含肿瘤细胞的区域。在2017年6月13日提交的序列号为15/621837的C.Gammage的未决美国专利申请中描述了一种用于创建掩模的方法的一个示例，其内容通过引用结合于此。

在2017年2月23日提交的序列号为PCT/US2017/019051的PCT申请以及其中引用的科学和技术文献中公开了用于识别组织标本的数字放大图像中的癌细胞的神经网络模式识别器，其内容通过引用结合于此。科学文献中描述了如本文所描述的模式识别器可以基于的Inception-v3深度卷积神经网络架构。参见以下参考文献，其内容通过引用结合于此：C.Szegedy et al.,Going Deeper with Convolutions,arXiv:1409.4842[cs.CV](2014年9月)；C.Szegedy et al.,Rethinking the Inception Architecture for Computer Vision,arXiv:1512.00567[cs.CV](2015年12月)；也参见2015年8月28日提交的序列号为14/839,452的美国专利申请，C.Szegedy et al.,“Processing Images Using Deep Neural Networks”。称为Inception-v4的第四代被认为是这种模式识别器的另一种可能的架构。参见C.Szegedy et al.,Inception-v4,Inception-ResNet and the Impact ofResidual Connections on Learning,arXiv:1602.0761[cs.CV](2016年2月)。也参见2016年12月30日提交的序列号为15/395,530的美国专利申请，C.Vanhoucke,“ImageClassification Neural Networks”。这些论文和专利申请中对卷积神经网络的描述通过引用结合于此。注意，替代的网络架构，包括Resnet和MobileNet或其他形式的模式识别器，可以用于执行图像处理和/或分割任务。

在当今的病理学中，根据组织样本的癌症分期(cancer staging)和诊断普遍在H&E(hematoxylin and eosin，苏木精和伊红)染色的组织标本上进行。另外，机器学习模型通常是根据H&E染色的组织标本的图像来训练的。H&E染剂是一种突出组织的整体形态的非特定染剂。相比之下，存在突出特定抗原(如肿瘤标记)的特殊染剂(包括免疫组织化学(immunohistochemical，IHC)染剂、Verhoeff染剂、Masson三色染剂等)。病理学家通常可以做出诊断，并且在H&E图像上勾勒出肿瘤，但有时需要特殊染剂，诸如IHC染色图像，以用于疑难病例。人们还相信，IHC染色(或其他特殊染色)的载玻片的使用加快了人体检查和注释过程。然而，一般来说，组织载玻片可以有H&E染色或IHC染色，但通常不会同时有这两种。因此，一种常见的解决方案是切割组织的连续切片(section)，并对它们进行染色、显微镜检查和数字图像捕获，其中，切片N用H&E染色，切片N+1用IHC染剂染色，使得IHC染色的组织在形态上足够相似(约5微米远，约为人体细胞直径的5％)而可以与H&E染色的组织图像一起使用。然而，连续切片中的形态差异仍然显著，并且可能导致以这种方式生成的真实标签和掩模的不准确。进一步增加连续切片的形态差异的另一因素在于，两个切片在处理过程期间被分开处理，并且两个组织在处理过程期间可能被稍微不同地拉伸(例如，当将新鲜切割的玻璃切片放在玻璃载体上时)。

发明内容

在一个方面，本公开利用组织样本的成对的染色图像和未染色图像来训练模式识别器，以识别未染色组织样本的图像中的感兴趣区域。经训练的模式识别器可以基于组织特征来检测感兴趣区域，该组织特征在组织样本染色时可能被变形、去强调、遮挡或以其他方式减弱。该训练方法包括，对于染色组织样本的图像，接收指示染色组织样本内的感兴趣区域的注释。然后，当组织样本处于未染色状态(组织样本的“未染色图像”)时，将围绕染色组织样本的图像中的感兴趣区域的掩模应用于该组织样本的图像。染色图像和未染色图像可以彼此对准。然后，未染色图像和应用于其的掩模被用作训练示例(例如，与多个附加的未染色图像和应用于其的掩模相结合)来训练模式识别器。“染色图像”可以表示经受了H&E染色/成像和/或IHC(或其他特殊)染色/成像的组织样本。

该方法可以在大量包含组织标本的载玻片上执行，从而建立带有在癌细胞或一些其他感兴趣区域(例如，淋巴、乳房或前列腺组织的样本中的癌细胞)周围的掩模的未染色图像的训练集。这样的数字图像集可以被提供给神经网络模式识别器，作为用于训练模式识别器的训练集。神经网络模式识别器可以是例如在先前引用的科学和专利文献中引用的设计。

在一个方面，提供了一种使用这种经训练的模式识别器来识别组织样本的未染色图像内的感兴趣区域的方法。

在又一方面，提供了一种包括处理单元和显示器的工作站。该显示器被配置为显示包含用例如苏木精和伊红(H+E)染剂、免疫组织化学(IHC)染剂或一些其他染色剂染色的组织标本的单个载玻片的数字放大图像。工作站配置有(多个)用户界面工具，通过用户界面工具，检查显示器上配准的数字放大图像的操作者可以对用染色剂染色的组织标本的数字放大图像进行注释，以便形成闭合多边形或其他形状以标记包含感兴趣区域(例如，肿瘤细胞)的所述图像的区域，从而创建掩模。工作站还被配置为将掩模转移到处于未染色状态的组织标本的图像(例如，数字放大图像)。

在又一方面，公开了一种用于为如本文所述的模式识别器创建训练示例的系统。该系统组合地包括：用于在包含组织样本的载玻片被染色剂染色之前和之后都扫描这种载玻片的全载玻片扫描仪(whole slide scanner)；用于向组织样本提供这种染色剂的机构；和如前一段所述病理工作站。

上述病理工作站或系统还可以包括机器学习系统，以用于根据来自未染色组织标本的数字放大图像的训练示例来构建机器学习模型。训练示例是通过本公开的病理工作站和方法进行注释的数字放大病理图像的形式。

本文所述的方法可以用于获得组织样本的其中感兴趣区域被识别的未染色图像，该感兴趣区域例如在不应用染色剂或其他造影剂的情况下通常难以识别。这可以通过以下方式来实现：在同一组织样本的被染色的图像中识别感兴趣区域，例如IHC染色或H+E染色，这可以允许更容易地识别感兴趣区域，无论是由使用图像的经训练的操作者的手动输入来识别还是通过使用图像处理技术来识别。具有所识别的感兴趣区域的未染色图像可以用于训练神经网络，以在附加的未染色图像中识别对应的感兴趣区域。这种经训练的神经网络可能能够使用未染色图像来识别具有特定属性的感兴趣区域，例如包括癌细胞的感兴趣区域。以这种方式，未染色图像可以用于使用未染色图像的特征来识别感兴趣区域，这些特征通常不被人类操作者或机器学习算法用于识别。在一些方面，这种未染色图像可以由模式识别器与染色图像结合使用以提供估计的感兴趣区域，相对于在没有未染色图像数据的益处的情况下确定的这种感兴趣区域，该估计的感兴趣区域具有改善的质量。

应当理解，各方面可以以任何方便的形式实施。例如，各方面可以通过适当的计算机程序来实施，该计算机程序可以承载在适当的载体介质上，该载体介质可以是有形载体介质(例如，磁盘)或无形载体介质(例如，通信信号)。还可以使用合适的装置来实施这些方面，这样的装置可以采取运行被布置为实施本发明的计算机程序的可编程计算机的形式。各方面可以进行组合，使得在一个方面的上下文中描述的特征可以在另一方面中实施。

附图说明

图1是包括其中实践本方法的病理工作站的实验室环境的图示。

图2是示出根据一个实施例的用于训练模式识别器的方法的流程图。

图3A是其中在感兴趣区域(诸如肿瘤细胞)上用算法绘制或创建了掩模的组织样本图像的一部分的图示。应当理解，对于一些组织标本，可以为给定的载玻片图像创建一个以上的掩模。

图3B是并排示出的同一组织样本的配准的未染色放大图像和染色放大图像的图示。

图4是示出根据一个实施例的使用经训练的模式识别器的方法的流程图。

图5是图1的机器学习系统的更详细的图示。

图6A是染色组织样本的放大图像。

图6B是处于未染色状态的图6A的组织样本的放大图像。

图6C是表示癌细胞在图6A和图6B的组织样本中的位置的真实掩模的图像。

图6D是表示图6B的未染色组织样本的放大图像内的区域包含癌细胞的可能性的热图(heat map)的图像。

图6E是未染色组织样本的放大图像。

图6F是表示图6E的未染色组织样本的放大图像内的区域包含癌细胞的可能性的热图的图像。

图7A是染色组织样本的放大图像。

图7B是处于未染色状态的图7A的组织样本的放大图像。

图7C是表示癌细胞在图7A和图7B的组织样本中的位置的真实掩模的图像。

图7D是表示图7B的未染色组织样本的放大图像内的区域包含癌细胞的可能性的热图的图像。

具体实施方式

现在将注意力转向图1，图1是其中实践如本文所述的方法的实验室100环境的图示。组织样本(例如，已经福尔马林固定和石蜡包埋的样本)被放置在显微镜载玻片102上，并且该组织样本被放置成如103所示的被提供给全载玻片扫描仪106。这种扫描仪也是众所周知的，并且可从各种供应商处获得。全载玻片扫描仪106以用户指定的放大率(诸如10X、20X或40X)扫描载玻片。全载玻片扫描仪包括用于捕获标本的放大的彩色数字图像的数码相机。然后，未染色载玻片的数字放大图像(“未染色图像”)被本地存储在全载玻片扫描仪106中、或存储在云网络或其他远程服务器中、病理工作站110的本地硬盘114上、或者一些其他存储介质中。

载玻片在被全载玻片扫描仪106扫描之后，然后如105a所示被传送到染色器104，染色器104被配置为将一种或多种染剂应用于组织样本。用于将H&E、IHC和其他特殊染剂应用于组织样本的商业染剂是已知的，并且可从各种供应商处获得。例如，染色器104可以首先用H&E染色剂对载玻片进行染色，并且盖玻片可以放置在组织样本上。在这样染色之后，如107所示，将载玻片提供给全载玻片扫描仪106。载玻片在扫描仪106中以与第一未染色图像相同的放大率扫描和成像，并且染色载玻片的第二数字放大图像(“染色图像”)存储在存储器中。附加地或可替换地，组织样本的连续切片中的不同切片可以用于生成组织样本的染色图像和未染色图像。例如，组织样本可以被分切成薄的(例如，几微米厚的)切片，并且第一切片可以在没有染色的情况下成像以生成组织样本的未染色图像，而邻近的或以其他方式接近第一切片的第二切片可以被染色和成像以生成组织样本的染色图像。

可选地，载玻片可以被清洗和/或用附加的染色剂来染色，以提供组织样本的与附加的染色剂相对应的附加的染色图像。例如，在全载玻片扫描仪106对染色的样本载玻片成像之后，如105b所示，可以将染色的组织载玻片提供给清洗站108，清洗站108包含清洗装置和相关联的化学品以及经训练的人员，以洗去(即，去除)先前由染色器104应用的染色剂(例如，H+E染色剂)，使得载玻片可以用第二种不同的染剂来重新染色。这种不同的染剂可以包括特殊染剂，诸如IHC染剂或多重染剂。清洗站108包括装置和化学品，使得用户可以执行任何公知的程序来从组织标本中清洗H&E染色剂。在一个示例中，采用了以下程序：

1.将载玻片浸泡在二甲苯中，以去除盖玻片。

2.一旦去除盖玻片，就用二甲苯冲洗载玻片几次。然后用乙醇(EtOH)冲洗载玻片2-3次，然后用水冲洗几次。大多数伊红通常会在水中被冲洗掉。现在将载玻片放置在酸性酒精中一两分钟。再次用水冲洗载玻片。

在执行从组织标本中清洗已经应用的染色剂的程序之后，然后如109所示，载玻片被传送回染色器104，并且用第二种不同的或特殊的染剂(例如，IHC染剂)对载玻片进行染色，然后如107所示，载玻片被传送到全载玻片扫描仪106。载玻片在扫描仪106中以与第一未染色图像和第二染色图像相同的放大率被扫描和成像，并且染色载玻片的附加数字放大图像(“附加染色图像”)被存储在存储器中。

注意，这种附加的染色剂(例如，IHC染色剂)可以应用于已经染色的组织样本(例如，H+E染色的组织样本)，而无需清洗掉已经存在于组织样本中的染色剂。在这种示例中，在样本被全载玻片扫描仪106成像之后，已经染色的组织样本将被提供给染色器104，如105a所示。

组织样本的两个(或更多个)数字放大图像然后可以彼此配准。可以以任何方便的方式执行配准，例如使用众所周知的图像处理技术来确定图像中各种关键特征(诸如高对比度区域、拐角、边界等)的X/Y坐标，使得一幅图像的每个关键特征的X/Y像素位置可以与另一幅图像中的相同关键特征的X/Y像素位置相关或匹配。在一个实施例中，我们使用SIFT(一种特征提取方法)来确定具有锐度或颜色分布梯度的区域，以识别图像中的关键特征或位置(例如，10个关键特征)，并确定匹配的特征向量。执行配准步骤有两个原因：1)使得染色图像118和未染色图像120(图1)和/或任何附加的染色图像分别可以以协调的方式并排或彼此叠置地显示在工作站的显示器112上；以及2)当用户注释染色(例如，H+E，IHC)图像118以绘制掩模时，掩模(多边形)中的每个顶点的X/Y位置或掩模的(多个)其他位置可以被转移到未染色图像(例如，以允许未染色图像和掩模作为训练样本被提供来训练模式识别器)。工作站包括用户界面工具，用户界面工具包括键盘116、鼠标和显示器112，以有助于对染色图像进行注释，以绘制掩模，以及可选地为标本分配标签，例如“癌性的”。

在已经执行生成掩模并将标签分配给标本的注释过程之后，在一个实施例中，具有掩模的组织标本的注释的未染色图像被提供给机器学习系统130，作为用于在系统130中训练机器学习模型(例如，人工神经网络或其他类型的模式识别器)的训练示例。该方面将在本文后面结合图5进行更详细的描述。

图2是示出根据一个实施例使用如上所述的图1的系统为未染色的组织标本图像生成掩模的方法的流程图。在步骤202中，获得包含组织标本的载玻片的染色图像和未染色图像。这可以包括在全载玻片扫描仪106中以相同的放大率M(例如，10X、20X和/或40X)扫描染色前后的载玻片。可替换地，可以使用不同的放大率，并且可以对所得的放大数字图像进行下采样或上采样，以获得其他放大率的数字图像数据(例如，以与另一所获得的数字图像的放大率相对应的放大率)。步骤202可以包括获得载玻片的附加的放大数字图像，例如，在载玻片已经(例如，使用图1的染色器104)用附加的染色剂染色之后和/或在一种或多种染色剂已经(例如，使用图1的清洗站108)从载玻片上清洗掉之后。

在步骤204，例如，使用用户界面工具和数字图像的并排显示来执行掩模的创建。如图1所示，用户在工作站112上注释染色数字图像中的一个或多个。用户注释用于在数字图像中生成指示(多个)染色图像内的感兴趣区域(例如，包含癌细胞的区域)的掩模。掩模可以以各种方式指示感兴趣区域。例如，掩模可以指定顶点或关于染色数字图像内的一个或多个闭合多边形(或其他指定的几何形状)区域的其他信息。在另一示例中，掩模可以指定与感兴趣区域相对应的染色数字图像内的像素集合或其他预先指定的区域。

附加地或可替换地，步骤204可以包括基于(多个)染色图像通过算法生成掩模和/或注释信息。在软件中对(多个)染色图像执行图像分析或分类方法，以识别癌细胞、囊肿、微脉管系统的异常部分、细菌生物膜、疤痕组织、斑块或其他非细胞结构，或图像中的(多个)其他感兴趣区域，然后在这种细胞或其他感兴趣的结构或物质周围构造闭合多边形或以其他方式定义的掩模。这种闭合多边形或其他掩模的构造可以限于检测具有最小尺寸的区域中的癌细胞或其他感兴趣的组织或结构，以便创建更有用的掩模并避免创建例如孤立细胞或小细胞群的掩模。可以使用几种可能的技术中的一种来执行在染色图像中创建这种掩模的算法：

a)在某些染剂颜色上对染色图像进行阈值化，并在具有染剂颜色高于阈值的像素的区域周围绘制多边形；或者

b)使用被训练成识别染色组织样本图像中的癌细胞或其他感兴趣的物质或结构的神经网络或其他模式识别分类器，以在染色图像中找到这种物质或结构。用于(例如基于染色数字图像中的细胞形态和像素强度变化)自动检测数字图像中的感兴趣区域和/或癌细胞的神经网络和其他分类方法，在本领域中是已知的，因此为了简洁起见，省略了详细描述。参见例如2017年2月23日提交的PCT/US2017/019051的讨论以及先前引用的科学和专利文献。

在步骤206，掩模从(多个)染色图像转移到未染色图像。如上所述，这可以包括将未染色图像与(多个)染色图像对准或以其他方式配准。将掩模转移到未染色图像可以包括根据未染色图像和(多个)染色图像之间的对准或配准来变形、扭曲或以其他方式修改掩模。在另一示例中，未染色图像可以根据对准或配准被变形、扭曲或以其他方式修改，并且掩模可以被转移到未染色图像的修改版本。在又一示例中，染色图像可以根据对准或配准被变形、扭曲或以其他方式修改，并且可以对染色图像的修改版本执行步骤204的注释。这种对准和/或配准可以有助于掩模的转移，因为染色图像内掩模的顶点、样条、像素或其他元素的已知的X/Y位置可以直接转换成未染色图像。

在步骤208，将未染色图像和转移到其上的掩模作为训练示例提供给用于训练模式识别器的系统(例如，图1的机器学习系统130)，以便训练模式识别器。该方面将在本文后面结合图5进行更详细的描述。在一些示例中，(多个)染色图像也可以作为训练示例的一部分来提供，以便训练模式识别器基于未染色图像和(多个)染色图像的组合来生成掩模。这种被训练成基于多个图像(包括未染色图像)的组合来生成掩模的模式识别器可以生成比不考虑未染色图像的模式识别器更高质量的掩模。

图3A是染色组织样本的放大图像的图示，其中较暗的对比度区域指示组织样本中的癌细胞。图3A包括在具有各种组织特征302的染色的组织标本300的图像中创建的掩模304的说明性示例。图3A中所示的掩模304是闭合多边形区域，其具有由顶点和连接线组成的任意边界。附加地或可替换地，可以以某种其他方式来定义掩模，例如，将其定义为对于与感兴趣区域相对应的、像素的超集或其他定义的区域中的这种像素的集合或其他定义的区域的描述。在又一示例中，掩模可以由定义一个或多个闭合区域的样条或其他曲线元素的集合来定义。

通常，掩模的形状高度不规则，并且由操作工作站(例如，如图1所示)并且使用工作站的用户界面上的简单控件(例如，触笔、鼠标、键盘、触敏显示器)来绘制掩模的周界的用户(通常是经训练的病理学家)手动地构造。用户可能希望放大以更详细地看到染色图像的区域(例如，高对比度区域)。染色图像中的这种掩模边界的顶点的X/Y位置或者指定掩模的其他信息(例如，像素标识或位置、样条位置或曲率)被存储在存储器中，使得掩模可以被转移到未染色图像，用于训练模式识别器，或用于一些其他目的。

图3B是并排示出的同一前列腺组织样本的配准的未染色放大图像310和H+E染色放大图像320的图示。如图3B所示，未染色图像包括大量的图像信息，当组织样本被染色时，这些图像信息被去强调或减弱。例如，在未染色图像310中，相对于中间组织的图像信息，关于组织边缘处的细胞形态的图像信息具有更大的对比度。然而，在染色图像320中，关于中间组织细胞的细胞形态的图像信息与关于组织样本边缘处的细胞的图像信息具有大致相同的图像对比度。

图4是示出根据一个实施例的(例如，使用如上所述的图1的系统)使用这种经训练的模式识别器来为未染色的组织标本图像生成掩模的方法的流程图。在步骤402中，提供经训练的模式识别器。模式识别器被训练成识别组织样本的未染色放大数字图像中的感兴趣区域(例如，包含癌细胞的区域)。模式识别器可以包括人工神经网络、卷积神经网络或一些其他模式识别算法或结构。经训练的模式识别器可以经由通信信道(例如，经由互联网)、作为病理工作站的一部分(例如，在病理工作站的硬盘驱动器或其他数据存储器上)、或者通过一些其他方法，被提供在非暂时性数据存储介质(例如，硬盘驱动器、光盘)上。附加地或可替换地，通过使用一组或多组未染色的组织样本图像和对应的掩模来训练模式识别器，可以如上所述提供模式识别器。

在步骤404中，获得包含组织标本的载玻片的未染色图像。这可以包括在例如图1的全载玻片扫描仪106中以指定的放大率M(例如，10X、20X和/或40X)来扫描处于未染色状态的载玻片。

在步骤406中，应用经训练的模式识别器来处理未染色组织样本的数字图像(“未染色图像”)，以生成指示未染色图像内的感兴趣区域的注释信息(例如，闭合多边形区域的顶点、闭合区域的样条的位置和曲率、像素的标识和/或位置)。这种感兴趣区域可以包括组织样本中的癌细胞。例如，组织样本可以是淋巴组织、乳房组织或前列腺组织的样本，并且感兴趣区域可以描述癌细胞和/或肿瘤在这种组织内的位置和/或范围。

在一些示例中，经训练的模式识别器可以被配置为接收组织样本的未染色图像和组织样本的一个或多个附加的染色图像(例如，如上所述使用染色器、清洗站等获得)作为输入。这种经训练的模式识别器可以使用对应的未染色图像、染色图像和掩模的集合来训练。由于利用了存在于未染色的组织样本图像中的信息(例如，特征、图案、对比度区域)，由这种模式识别器生成的掩模相对于被训练成仅基于(多个)染色图像生成掩模的模式识别器有所改进，其中该信息可能由于组织样本中染色剂的存在而被遮挡、去强调、消除、遮蔽、清洗掉或以其他方式减弱。

在图5中以示例的方式示出了如上所述的模式识别器500(例如，图1所示的机器学习系统130的模式识别器)。模式识别器500包括未染色组织标本的放大数字图像形式的大量训练实例510，每个未染色组织标本具有描绘感兴趣区域(例如，包含癌细胞的区域)的掩模或边界(在图5中示出为小的矩形)。训练实例510用于训练分类引擎，诸如卷积神经网络(CNN)模式识别器502、人工神经网络模式识别器和/或一些其他类型的模式识别器，以识别在训练实例510中描绘的类型(例如，前列腺、乳房、淋巴、脑或其他组织类型)的组织样本中的一些感兴趣内容(例如，癌细胞)的存在。一旦获得了适当数量的训练实例510，并且CNN模式识别器502的性能达到高精度点(例如，通过对照适当的单独测试图像集和相应的掩码来验证CNN输出)，则CNN模式识别器502可以用于对未染色图像518执行图4的步骤406，并生成掩模505。训练集510可以从组织切片库中获得，该组织切片库可以经受本公开的成像、染色和注释步骤。

图6A-图6F示出了本文方法在识别淋巴结组织内的肿瘤细胞(从乳腺癌转移)中的应用。图6A是染色的淋巴结组织样本的放大图像的图示，其中较暗的对比度区域指示组织样本中的癌细胞。图6B是图6A所示淋巴结组织样本在染色前(即，未染色组织样本)的放大图像。图6C示出了表示图6A和图6B的组织样本中包括癌细胞的部分的真实掩模(图中的白色表指示肿瘤的位置和范围)。使用本文所述的方法，这种真实掩模与淋巴结组织的对应的未染色图像相结合可以用于训练模式识别器(例如，人工神经网络)，以识别淋巴结组织样本内的感兴趣区域。例如，这种模式识别器可以基于图6B的未染色的组织样本图像来生成感兴趣区域热图，如图6D所示。热图中较亮的区域表示感兴趣区域。这种热图可以用于在未染色的组织样本图像内生成感兴趣区域的掩模(例如，通过对热图的值进行阈值化)。图6E示出了组织样本的另一未染色放大图像，图6F示出了对应的感兴趣区域热图，该热图可以根据本文描述的方法而生成和/或用于生成感兴趣区域掩模(例如，通过对图6F的热图的值进行阈值化)。

图7A-图7D示出了本文方法在识别前列腺组织内的前列腺腺肉瘤细胞中的应用。图7A是染色的前列腺组织样本的放大图像的图示，其中较暗的对比度区域指示组织样本中的癌细胞。图7B是图7A所示前列腺组织样本在染色前(即，未染色组织样本)的放大图像。图7C示出了表示图7A和图7B的组织样本中包括癌细胞的部分的真实掩模(图中的白色指示肿瘤的位置和范围)。使用本文所述的方法，这种真实掩模与前列腺组织的对应的未染色图像相结合可以用于训练模式识别器(例如，人工神经网络)，以识别前列腺组织样本内的感兴趣区域。例如，这种模式识别器可以基于图7B的未染色的组织样本图像来生成感兴趣区域热图，如图7D所示。热图中较亮的区域表示感兴趣区域。这种热图可以用于在未染色的组织样本图像内生成感兴趣区域的掩模(例如，通过对热图的值进行阈值化)。

Claims

1.一种训练模式识别器以识别组织样本中的感兴趣区域的方法，包括以下步骤：

a)获得组织样本的放大数字图像的对，所述放大数字图像的对中的一个表示用染色剂染色后的组织样本的染色图像，并且所述放大数字图像的对中的一个表示处于未染色状态的组织样本的未染色图像，

b)注释染色图像，以便在染色图像中形成围绕感兴趣区域的掩模；

c)将掩模从染色图像转移到未染色图像；和

d)通过向用于训练模式识别器的系统提供未染色图像和所述掩模作为训练示例来训练模式识别器，所述掩模指示未染色图像内的感兴趣区域。

2.根据权利要求1所述的方法，还包括对准所述染色图像和所述未染色图像。

3.根据权利要求1-2中任一项所述的方法，其中，所述模式识别器包括人工神经网络。

4.根据权利要求3所述的方法，其中，所述人工神经网络是卷积神经网络。

5.根据权利要求1所述的方法，其中，所述掩模围绕所述染色图像中的至少一个闭合多边形区域。

6.根据权利要求1所述的方法，其中，所述组织样本是淋巴组织的样本。

7.根据权利要求1所述的方法，其中，所述组织样本是乳房组织的样本。

8.根据权利要求1所述的方法，其中，所述组织样本是前列腺组织的样本。

9.根据权利要求1所述的方法，其中，所述染色剂包括免疫组织化学(IHC)染剂。

10.根据权利要求1所述的方法，其中，所述染色剂包括苏木精和伊红染剂。

11.一种系统，包括：

存储器，其存储处理器可读指令；和

一个或多个处理器，被布置用于读取和执行存储在所述存储器中的指令；

其中，所述处理器可读指令包括被布置为控制计算机执行根据任一前述权利要求所述的方法的指令。