CN117036248A

CN117036248A - 用于识别组织样品中的形态学模式的系统和方法

Info

Publication number: CN117036248A
Application number: CN202310861916.5A
Authority: CN
Inventors: J·C·梅林; J·斯塔布; K·J·吴; N·I·韦森菲尔德; F·鲍姆加特纳; B·克莱普尔
Original assignee: 10X Genomics Inc
Current assignee: 10X Genomics Inc
Priority date: 2019-10-01
Filing date: 2020-09-30
Publication date: 2023-11-10
Also published as: EP4468252A2; CN114761992A; US12125260B2; US11756286B2; EP4038546C0; WO2021067514A1; US20250022253A1; US11514575B2; US20230081613A1; US20210097684A1; US20230394790A1; EP4038546A1; EP4468252A3; EP4038546B1; CN114761992B

Abstract

获得与各自分配有不同探针斑点条形码的多个探针斑点相关联的离散属性值数据集。所述数据集包括空间投影，所述空间投影各自包括生物样品的图像。每个图像包含所述探针斑点的对应多个离散属性值。每个此类值基于所述探针斑点条形码与所述多个探针斑点中的探针斑点相关联。使用每个相应探针斑点处的多个基因座的所述离散属性值或其降维成分跨所述投影的所述图像对所述数据集进行聚类，由此将每个探针斑点分配给多个簇中的簇。从所述探针斑点在各个簇中的空间布置中识别形态学模式。

Description

用于识别组织样品中的形态学模式的系统和方法

本申请是申请号为202080083321.6，申请日为2020年9月30日，发明名称为“用于识别组织样品中的形态学模式的系统和方法”的分案申请。

相关申请的交叉引用

本申请要求于2020年6月20日提交的题为“用于识别组织样品中的形态学模式的系统和方法(Systems and Methods for Identifying Morphological Patterns inTissue Samples)”的美国临时专利申请第63/041,823号的优先权，所述美国临时专利申请特此通过引用整体并入。本申请还要求于2020年2月21日提交的题为“用于将数据集中的模式可视化的系统和方法(Systems and Methods for Visualizing a Pattern in aDataset)”的美国临时专利申请第62/980,077号的优先权，所述美国临时专利申请特此通过引用整体并入。本申请还要求于2019年10月1日提交的题为“用于将数据集中的模式可视化的系统和方法(Systems and Methods for Visualizing a Pattern in a Dataset)”的美国临时专利申请第62/909,071号的优先权，所述美国临时专利申请特此通过引用整体并入。

技术领域

本说明书描述了涉及在如空间布置的下一代测序数据等大型复杂的数据集中将模式可视化，并且使用所述数据将模式可视化的技术。

背景技术

细胞与所述细胞在组织样品内的相对位置之间的关系对于理解疾病病理学可以是至关重要的。例如，此类信息可以解决关于淋巴细胞是否成功浸润肿瘤的问题，例如通过识别与淋巴细胞相关联的细胞表面受体。在这种情况下，淋巴细胞浸润将与有利的诊断相关联，然而淋巴细胞不能浸润肿瘤将与不利的诊断相关联。因此，异质组织中细胞类型的空间关系可以用于分析组织样品。

空间转录组学是允许科学家测量组织样品中的基因活性并且绘制基因活性发生的位置的技术。此技术已经导致了新的发现，所述发现将证明有助于帮助科学家更好地了解生物过程和疾病。

通过已经产生细胞群的丰富数据集来改进核酸测序使得空间转录组学变成可能。此类测序技术提供细胞群的数据，所述技术可以用于确定包含基因组拷贝数量变化的基因组异质性以及用于绘制克隆进化(例如，评估肿瘤的进化)。

然而，此类测序数据集是复杂的并且通常是庞大的，并且用于将基因表达定位到生物样品的具体区域的技术是劳动密集型的。

因此，需要另外的工具来启用可扩展的方法以允许经改进的和较少劳动密集型的分析的方式处理空间转录组学和空间蛋白质组学，以便确定如拷贝数量变化等基因组异质性，绘制克隆进化，检测抗原受体和/或识别形态学背景中的体细胞变异。

发明内容

在本公开中提供了用于解决数据集中发现模式的上述问题的技术解决方案(例如，计算系统、方法和非暂时性计算机可读存储介质)。出于组织学目的对组织切片(例如，新鲜冷冻的组织切片)进行成像，并且将其置于含有与RNA结合的经条形编码的捕获探针的阵列上。组织被固定且透化以释放RNA以与相邻的捕获探针结合，从而允许捕获了经条形编码的空间基因表达信息。然后从所捕获的RNA合成空间经条形编码的cDNA并且使用空间上经条形编码的整体制备测序文库。然后对文库进行测序并且将数据可视化以确定哪些基因被表达，和基因在哪里表达，以及有多少基因被表达。本公开提供了许多工具以用于处理大量测序数据，此类技术产生并且很好地作为工具以用于识别与特定生物条件相关联的下层组织样品中的形态学模式。

下文呈现了本公开的概述，以便提供对本公开的一些方面的基本理解。此概述不是本公开的广泛概要。此概述并不旨在识别本公开的关键/重要要素或描绘本公开的范围。此概述的唯一目的是以简化的形式呈现本公开的概念中的一些作为对之后所呈现的更加详细的说明的序言。

本公开的一方面提供了一种用于识别形态学模式的方法。所述方法包括：在包括一个或多个处理核、存储器和显示器的计算机系统处：获得与具有空间布置的多个探针斑点相关联的离散属性值数据集。所述多个探针斑点中的每个探针斑点分配有多个条形码中的唯一条形码，并且所述多个探针斑点包括至少25个、至少50个、至少100个、至少150个、至少300个、至少400个或至少1000个探针斑点。所述离散属性值数据集包括生物样品(例如，组织样品)的一个或多个空间投影。所述离散属性值数据集进一步包括所述一个或多个空间投影中的第一空间投影的一个或多个二维图像。所述一个或多个二维图像中的每个二维图像拍摄的是从所述生物样品获得的叠置在具有以所述空间布置而布置的所述多个探针斑点的基板上的第一组织切片(例如，载玻片、盖玻片、半导体晶圆、芯片等)上。而且，所述一个或多个二维图像中的每个二维图像包括至少100,000个像素值。所述离散属性值数据集进一步包括所述多个探针斑点中的每个相应探针斑点的从对所述第一组织切片的空间测序获得的对应多个离散属性值。所述对应多个离散属性值中的每个相应离散属性值针对多个基因座中的不同基因座。每个这种对应多个离散属性值包括至少500个离散属性值。

所述方法进一步包括获得所述离散属性值数据集的所述多个探针斑点中的每个相应探针斑点在多个簇中的对应簇分配。所述对应簇分配至少部分地基于所述相应探针斑点的所述对应多个离散属性值或至少部分地由所述相应探针斑点的所述对应多个离散属性值得出的对应多个降维成分。

所述方法进一步包括在所述显示器上的第一窗口中显示所述第一投影的所述一个或多个二维图像中的第一二维图像的全部或一部分的像素值。

所述方法进一步包括在所述第一二维图像上并且与所述第一二维图像共对齐地叠置(i)所述多个探针斑点中的每个探针斑点的已分配给所述多个簇中的第一簇的第一标记和(ii)所述多个探针斑点中的每个探针斑点的已分配给所述多个簇中的第二簇的第二标记，由此识别所述形态学模式。

在一些实施例中，所述一个或多个空间投影是所述生物样品的多个空间投影，所述多个空间投影包括所述生物样品的第一组织切片的所述第一空间投影，并且所述多个空间投影包括所述生物样品的第二组织切片的第二空间投影。在一些此类实施例中，所述第一空间投影的所述一个或多个二维图像包括第一多个二维图像，并且所述第二空间投影包括第二多个二维图像。

在一些实施例中，所述第一多个二维图像中的每个二维图像拍摄的是所述生物样品的所述第一组织切片，并且所述第二多个二维图像中的每个二维图像拍摄的是所述生物样品的第二组织切片。

在一些实施例中，所述第一多个二维图像中的每个二维图像被显示为与以下共对齐：(i)所述多个探针斑点中的每个探针斑点的已分配给所述第一簇的第一标记和(ii)所述多个探针斑点中的每个探针斑点的已分配给所述第二簇的第二标记。在一些此类实施例中，所述方法进一步包括响应于接收到用户显示指令而显示或取消显示显示所述第一多个二维图像中的一个或多个二维图像。

在一些实施例中，所述第一多个二维图像中的每个相应二维图像是使用不同波长或不同波段从所述第一组织切片获取的。

在一些实施例中，所述一个或多个空间投影是单个空间投影，所述第一空间投影的所述一个或多个二维图像是多个二维图像，所述多个二维图像中的第一二维图像是所述第一组织切片的明场图像，所述多个二维图像中的第二二维图像是所述第一组织切片的在第一波长或第一波长范围下拍摄的第一免疫组织化学(IHC)图像，并且所述多个二维图像中的第三二维图像是所述第一组织切片的在不同于所述第一波长或所述第一波长范围的第二波长或第二波长范围下拍摄的第二免疫组织化学(IHC)图像。在一些此类实施例中，所述第一二维图像是对所述生物样品使用以下来获取的：苏木素和伊红(Hematoxylin andEosin)、过碘酸-希夫反应染液(Periodic acid-Schiff reaction stain)、马松三色染液(Masson's trichrome stain)、阿尔新蓝染液(Alcian blue stain)、范吉森染液(vanGieson stain)、网状纤维染液、Azan染液(Azan stain)、吉姆萨染液(Giemsa stain)、甲苯胺蓝染液(Toluidine blue stain)、艾沙明蓝/伊红染液(isamin blue/eosin stain)、尼氏和亚甲基蓝染液(Nissl and methylene blue stain)、苏丹黑和/或锇染色。

在一些实施例中，所述方法进一步包括：以第一模式存储所述第一二维图像，其中所述第一模式包括第一数量的图块；以及以第二模式存储所述第一二维图像，其中所述第二模式包括第二数量的图块，其中所述第二数量的图块少于所述第一数量的图块。在一些此类实施例中，响应于接收到用户的显示指令，所述方法进一步包括：从所述第一模式切换为所述第二模式以显示所述第一二维图像的全部或一部分，或者从所述第二模式切换为所述第一模式以显示所述第一二维图像的全部或一部分。在一些实施例中，所述第一数量的图块中的至少第一图块包括第一预定图块大小，所述第一数量的图块中的至少第二图块包括第二预定图块大小，并且所述第二数量的图块中的至少第一图块包括第三预定图块大小。

在一些实施例中，所述离散属性值数据集以压缩稀疏行格式和压缩稀疏列格式两者冗余地表示所述多个探针斑点中的每个探针斑点的所述多个基因座中的每个相应基因座的第一离散属性值以及所述一个或多个空间投影中的第一空间投影的所述多个探针斑点中的每个相应探针斑点的对应第二离散属性值，在所述压缩稀疏行格式和所述压缩稀疏列格式下，具有无效离散属性数据值的第一离散属性值和第二离散属性值被丢弃。

在一些实施例中，所述获得对应簇分配包括使用以多维向量的形式分配给所述一个或多个空间投影中的每个空间投影中的每个相应探针斑点的所述离散属性值跨所述一个或多个空间投影对所述多个探针斑点中的所有所述探针斑点或所述探针斑点的子集进行聚类，其中所述聚类被配置成在聚类期间将小于整个所述离散属性值数据集加载到非永久性存储器中，由此允许对大小超过非永久性存储器中的分配给所述离散属性值数据集的存储空间的所述离散属性值数据集的所述聚类。在一些实施例中，所述对所有所述探针斑点或所述探针斑点的子集进行聚类包括k均值聚类，其中K被设置为介于1与25之间的预定值。

在一些实施例中，所述多个簇中的每个相应簇由所述多个探针斑点的唯一子集组成。

在一些实施例中，所述多个探针斑点中的至少一个探针斑点以对应概率值分配给所述多个簇中的多于一个簇，所述对应概率值指示所述至少一个探针斑点属于所述多个簇中的相应簇的概率。

在一些实施例中，所述多个基因座中的每个基因座是多个基因中的相应基因，并且所述对应多个离散属性值中的每个离散属性值是映射到对应探针斑点并且还映射到所述多个基因中的相应基因的唯一分子识别符(UMI)计数。在一些此类实施例中，所述离散属性值数据集表示以映射到所述多个基因的转录物读段的计数对基因表达进行定量的全转录组测序实验。在一些实施例中，所述离散属性值数据集表示以映射到所述多个探针中的探针的UMI的计数对基因表达进行定量的靶向的转录组测序实验。

在一些实施例中，第一指示是第一图形或第一颜色，并且第二指示是第二图形或第二颜色。

在一些实施例中，所述多个基因座中的每个基因座是多个特征中的相应特征，所述对应多个离散属性值中的每个离散属性值是映射到对应探针斑点并且还映射到所述多个特征中的相应特征的UMI计数，并且所述多个特征中的每个特征是开放阅读框、内含子、外显子、整个基因、mRNA转录物、参考基因组的预定非编码部分、增强子、阻遏因子、对变体等位基因进行编码的预定序列或其任何组合。

在一些实施例中，所述多个基因座包括大于50个基因座、大于100个基因座、大于250个基因座、大于500个基因座、大于1000个基因座或者大于10000个基因座。

在一些实施例中，每个唯一条形码对选自以下集合的唯一预定值进行编码：{1,…,1024}、{1,…,4096}、{1,…,16384}、{1,…,65536}、{1,…,262144}、{1,…,1048576}、{1,…,4194304}、{1,…,16777216}、{1,…,67108864}或{1,…,1x10¹²}。

在一些实施例中，所述多个基因座包含第一染色体上的一个或多个基因座以及除所述第一染色体外的第二染色体上的一个或多个基因座。

在一些实施例中，所述第一组织切片中的映射到所述第一簇的所述探针斑点的细胞是第一细胞类型，并且所述第一组织切片中的映射到所述第二簇中的所述探针斑点的细胞是第二细胞类型。在一些此类实施例中，所述第一细胞类型是患病细胞，并且所述第二细胞类型是淋巴细胞。

在一些实施例中，所述第一组织切片中的映射到所述第一簇的所述探针斑点的细胞是第一组织类型，并且所述第一组织切片中的映射到所述第二簇中的所述探针斑点的细胞是第二组织类型。在一些此类实施例中，所述第一组织类型是健康组织，并且所述第二组织类型是患病组织。

在一些实施例中，所述形态学模式是分配给所述第一簇的探针斑点相对于分配给所述第二簇的探针斑点的空间布置。

在一些实施例中，所述方法进一步包括：响应于使用所述第一二维图像的所显示像素值对第一探针斑点子集的第一用户选择而将所述第一探针斑点子集分配给所述第一簇；以及响应于接收到使用所述第一二维图像的所述所显示像素值对第二探针斑点子集的第二用户选择而将所述第二探针斑点子集分配给所述第二簇。

在一些实施例中，所述方法进一步包括：响应于使用叠加在所述第一二维图像上的活跃基因列表的所显示离散属性值对第一探针斑点子集的第一用户选择而将所述第一探针斑点子集分配给所述第一簇；以及响应于使用叠加在所述第一二维图像上的活跃基因列表的所显示离散属性值对第二探针斑点子集的第二用户选择而将所述第二探针斑点子集分配给所述第二簇。

在一些实施例中，所述一个或多个空间投影是多个空间投影，所述离散属性值数据集进一步包括第二空间投影的一个或多个二维图像，所述第二空间投影的所述一个或多个二维图像中的每个二维图像(a)拍摄的是从所述生物样品获得的叠置在具有以所述空间布置而布置的所述多个探针斑点的基板上的第二组织切片，并且(b)包括至少100,000个像素值。进一步地，在一些此类实施例中，所述方法进一步包括：在所述显示器上的第二窗口中显示所述第二投影的所述一个或多个二维图像中的第一二维图像的全部或一部分的像素值。在一些此类实施例中，所述方法进一步包括在所述第一窗口与所述第二窗口之间链接簇选择、簇创建、基因座选择、簇成员关系或簇标记选择。

在一些实施例中，所述离散属性值数据集的文件大小大于100兆字节。

本公开的另一方面提供了一种计算系统，所述计算系统包括至少一个处理器和存储要由所述至少一个处理器执行的至少一个程序的存储器，所述至少一个程序包括用于通过上文所公开的任何方法识别形态学模式的指令。

本公开的仍另一方面提供了一种非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质存储用于识别形态学模式的一个或多个程序。所述一个或多个程序被配置成通过计算机执行。所述一个或多个程序共同对用于执行上文所公开的任何方法的计算机执行指令进行编码。

如本文所公开的，本文所公开的任何实施例在适用时可以应用于任何方面。

所附权利要求范围内的系统、方法和装置的各个实施例各自均具有若干个方面，其中并非仅靠任何单一方面来负责本文所描述的期望的属性。在不限制所附权利要求的范围的情况下，本文描述了一些突出的特征。在考虑了这一讨论之后，并且特别是在阅读了题为“具体实施方式”的部分之后，人们将理解如何使用各个实施例的特征。

通过引用并入

本说明书中所提到的所有公开、专利和专利申请通过引用整体并入本文中，其程度就如同明确且单独地指明了每一个单独的公开、专利或专利申请通过引用并入。

附图说明

在附图的图中，通过实例而非限制的方式示出了本文公开的实施方案。贯穿附图的若干视图，相似的附图标记指代对应部分。

图1A、1B和1C是展示了根据本公开的一些实施例的计算装置的示例框图。

图2A和2B共同展示了根据本公开的实施例的示例方法，其中任选的步骤用虚线指示。

图3展示了根据一些实施例的用于获取数据集的用户接口。

图4展示了根据一些实施例的示例显示，其中包括多个簇中的每个簇的多个基因座中的每个相应基因座的微分值的表示的热图显示在第一图中，而多个探针斑点中的每个相应探针斑点显示在第二图中。

图5展示了根据一些实施例的示例显示，其中包括多个簇中的每个簇的多个基因座中的每个相应基因座的微分值的表显示在第一图中，而多个探针斑点中的每个相应探针斑点显示在第二图中。

图6展示了根据本公开的一些实施例的针对用户定义的类别的用户种类选择以及映射到各个基因的mRNA转录物的丰度的log₂变化倍数的热图的计算。

图7展示了根据本公开的一些实施例的用户接口的实例，其中多个探针斑点显示在用户接口的图中，其中用户接口中的每个探针斑点的空间位置基于基板上每个探针斑点的物理定位，其中每个探针斑点与基于离散属性值数据集识别的一个或多个簇一起另外地着色。

图8展示了根据本公开的一些实施例的图7的探针斑点图的区域的特写(例如，放大)的实例。

图9A和9B共同展示了根据本公开的一些实施例的可用于探针斑点定位的可视化的微调的图像设置的实例。

图10展示了根据本公开的一些实施例的用于可视化的单个基因的选择。

图11A和11B展示了根据本公开的一些实施例的调整叠置在下层组织图像上的探针斑点的不透明度并且创建一个或多个自定义簇。

图12A和12B共同展示了根据本公开的一些实施例的基于如图12A所示的计算表达空间或如图12B所示的空间投影空间中的t-SNE绘图和UMAP绘图的簇。

图13展示了根据本公开的一些实施例将图像文件细分为图块以高效地存储图像信息。

图14展示了根据本公开的一实施例的接近叠加在图像上的基准标记的大小的黑色圆圈，其中图像包含基板上的基准标记的位置中的可见斑点，并且因此，黑色圆圈与可见斑点的对齐提供了经条形编码的斑点相对于图像位于正确位置的置信度的度量。

图15A是展示了根据本公开的一些实施例的离散属性值数据集的框图。

图15B是展示了根据本公开的一些实施例的图15A的生成聚合的行的离散属性值数据集的另一个框图。

图16A展示了根据本公开的实施例的空间投影的所有图像均是荧光图像并且所述所有图像均显示的实施例。

图16B展示了根据本公开的实施例的图16A的仅显示空间投影的CD3通道荧光图像的空间投影。

图16C展示了根据本公开的实施例的图16B的CD3基于所测量的强度进行定量的图像。

图17A、17B、17C、17D和17E展示了根据本公开的实施例的包含相同组织样品的多个图像的多通道离散属性数据集的空间投影。

图18A、18B、18C、18D、18E和18F展示了根据本公开的实施例的利用链接窗口的空间投影。

图19展示了根据本公开的实施例的空间探针斑点和捕获探针的细节。

图20展示了根据本公开的实施例的免疫荧光图像，即一个或多个图像内的映射到与相应位置相对应的相应捕获斑点的每个相应位置处的序列读段的每个子集的所有或部分的表示，以及复合表示。

具体实施方式

本文中所描述的方法提供了查看生物样品的一个或多个显微镜图像的原始背景中的空间基因组学数据和蛋白质组学数据的能力。具体地，在一些实施例中，将组织样品(例如，新鲜冷冻的组织、福尔马林固定的石蜡包埋的组织样品等)置于基板(例如，载玻片、盖玻片、半导体晶圆、芯片等等)的捕获区域上。每个捕获区域包含经条形编码的捕获探针的预打印或粘附斑点，其中每个此类探针斑点具有对应唯一条形码。对捕获区域进行成像并且然后组织内的细胞在适当位置被透化，从而使得捕获探针能够与来自接近探针斑点(例如，相对于所述探针斑点在顶部和/或侧向定位)的细胞的RNA结合。在一些实施例中，二维空间测序通过获得经条形编码的cDNA并且然后获得根据结合RNA的测序文库来进行，并且然后将经条形编码的cDNA从基板分离(例如，洗涤)。测序文库在测序仪上运行并且生成测序读段数据并且将其应用到测序流水线。

来自测序仪的读段通过条形码和UMI进行分组，与转录组参考中的基因比对，之后，流水线生成包含特征条形码矩阵的多个文件。条形码对应于捕获区域内的各个斑点。空间特征条形码矩阵中的每个条目的值是接近粘附有与特定基因特征比对的所述条形码的探针斑点的(例如，相对于所述探针斑点在顶部和/或侧向定位)RNA分子的数量。所述方法然后提供了用于显示叠置在原始组织的图像上的捕获区域中每个探针斑点处的相对特征丰度(例如，基因表达)。这使得用户能够查看组织样品的背景下的特征丰度(例如，基因或蛋白质表达)的模式。此类方法提供了患者样品的经改进的病理学检查。

现将详细参考实施例，在附图中展示所述实施例的实例。在以下详细描述中，示出了许多具体细节以便提供对本公开的彻底理解。然而，对本领域普通技术人员而言将显而易见的是，本公开可以在没有这些具体细节的情况下实施。在其它实例中，并未详细描述众所周知的方法、程序、组件、电路以及网络以免不必要地模糊实施例的各方面。

本文所描述的实施方案提供了用于检测数据集中的模式的不同技术解决方案。此类数据集的实例是来自整个转录组测序流水线的数据集，所述转录组测序流水线以映射到基因的转录物读段的计数对特定探针斑点处的基因表达进行定量。现在结合附图描述实施方案的细节。

通用术语.

贯穿此公开使用了特定术语以解释所描述的设备、系统、方法和组合物的不同方面。此小节包含在本公开的后面部分出现的某些术语的解释。如果此部分中的描述与本公开的其它部分的用法明显冲突，则以此部分中的定义为准。

(i)受试者

“受试者”是如哺乳动物(例如，人或非人猿)等动物、或禽(例如，鸟)或如植物等其它生物体。受试者的实例包含但不限于哺乳动物，如啮齿动物、小鼠、大鼠、兔子、豚鼠、有蹄动物、马、羊、猪、山羊、牛、猫、狗、灵长类动物(即，人或非人灵长类动物)；植物，如拟南芥(Arabidopsis thaliana)、玉米、高粱、燕麦、小麦、稻米、油菜籽或大豆；藻类植物，如莱茵衣藻(Chlamydomonas reinhardtii)；线虫，如秀丽隐杆线虫(Caenorhabditis elegans)；昆虫，如黑腹果蝇(Drosophila melanogaster)、蚊子、果蝇、蜜蜂或蜘蛛；鱼，如斑马鱼；爬行动物；两栖动物，如青蛙或非洲爪蟾(Xenopus laevis)；盘基网柄菌(dictyosteliumdiscoideum)；真菌，如卡氏肺孢子虫(Pneumocystis carinii)、红鳍东方鲀(Takifugurubripes)、酵母、酿酒酵母(Saccharamoyces cerevisiae)或粟酒裂殖酵母(Schizosaccharomyces pombe)；或恶性疟原虫(Plasmodium falciparum)。

(ii)核酸和核苷酸.

术语“核酸”和“核苷酸”旨在与其在本领域中的用途保持一致并且包含天然存在的物种或其功能类似物。核酸的特定有用的功能类似物能够以序列特异性方式与核酸杂交或者能够用作用于复制特定核苷酸序列的模板。天然存在的核酸通常具有含有磷酸二酯键的主链。类似物结构可以具有包含本领域已知的任何那些主链键的交替性主链键。天然存在的核酸通常具有脱氧核糖(例如，存在于脱氧核糖核酸(DNA)中)或核糖(例如，存在于核糖核酸(RNA)中)。

核酸可以含有具有本领域已知的这些糖部分的各种类似物的任何类似物的核苷酸。核酸可以包含天然或非天然核苷酸。在此方面，天然脱氧核糖核酸可以具有选自由以下组成的组的一个或多个碱基：腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)或鸟嘌呤(G)，并且核糖核酸可以具有选自由以下组成的组的一个或多个碱基：尿嘧啶(U)、腺嘌呤(A)、胞嘧啶(C)或鸟嘌呤(G)。可以包含在核酸或核苷酸中的有用的非天然碱基是本领域已知的。

(iii)探针和靶标

当关于核酸或核酸序列使用时，“探针”或“靶标”旨在在方法或组合物的背景下作为用于核酸或序列的语义识别符，并且不将核酸或序列的结构或功能限制在明确指示的范围之外。

(iv)条形码

“条形码”是传递信息或者能够传递信息(例如，关于样品中的分析物、珠粒和/或捕获探针的信息)的标记或识别符。条形码可以是分析物的一部分或独立于分析物。条形码可以连接到分析物。特定条形码相对于其它条形码可以是唯一的。

条形码可以具有多种不同的格式。例如，条形码可以包含多核苷酸条形码、随机核酸序列和/或氨基酸序列，以及合成核酸序列和/或氨基酸序列。条形码可以以可逆或不可逆的方式连接到分析物或另一部分或结构。可以在样品测序之前或期间将条形码添加到例如脱氧核糖核酸(DNA)或核糖核酸(RNA)样品的片段。条形码可以允许各个测序读段的识别和/或定量(例如，条形码可以是或者可以包含唯一的分子识别符或“UMI”)。

条形码可以在空间上分辨存在于生物样品中的分子组分，例如，条形码可以是或可以包含“空间上经条形编码的”。在一些实施例中，条形码包含UMI和空间上经条形编码的两者。在一些实施例中，UMI和条形码是单独的实体。在一些实施例中，条形码包含一起用作单个条形码的两个或更多个子条形码。例如，多核苷酸条形码可以包含由一个或多个非条形码序列分离的两个或更多个多核苷酸序列(例如，子条形码)。关于条形码和UMI的更多细节在于2020年2月21日提交的代理人案号为104371-5033-PR01的题为“用于分析分析物的流水线(Pipeline for Analysis of Analytes)”的美国临时专利申请第62/980,073号中公开，所述美国临时专利申请特此通过引用并入。

总体上涉及分析物的空间分析的另外的定义在于2019年8月13日提交的题为“用于使用单倍型空间分布确定生物状态的系统和方法(SYSTEMS AND METHODS FOR USINGTHE SPATIAL DISTRIBUTION OF HAPLOTYPES TO DETERMINE A BIOLOGICAL CONDITION)”的美国临时专利申请第62/886,233号中找到，所述美国临时专利申请特此通过引用并入本文。

(v)芯片/基板

如本文所使用的，术语“芯片”和“基板”可互换使用并且是指可以贴附到捕获探针的任何表面(例如，固体阵列、珠粒、盖玻片等)。关于合适的基板的更多细节在于2020年2月21日提交的代理人案号为104371-5033-PR01的题为“用于分析分析物的流水线(Pipelinefor Analysis of Analytes)”的美国临时专利申请第62/980,073号中公开，所述美国临时专利申请特此通过引用并入。

(vi)生物样品.

如本文所使用的，“生物样品”从受试者中获得以用于使用各种技术的任何技术进行分析，所述技术包含但不限于活检、手术和激光捕获显微术(LCM)，并且所述生物样品通常包含来自受试者的组织或器官和/或其它生物材料。

生物样品可以包含一个或多个患病细胞。患病细胞可以具有更改的代谢特性、基因表达、蛋白质表达和/或形态特征。疾病的实例包含炎性病症、代谢紊乱、神经系统病症、神经病学病症和癌症。癌细胞可以源自实体瘤、血液学恶性肿瘤、细胞系，或作为循环肿瘤细胞获得。

系统.

图1A是展示了根据一些实施方案的可视化系统100的框图。在一些实施方案中，装置100包含一个或多个处理单元CPU 102(也被称为处理器)、一个或多个网络接口104、包括显示器108和输入模块110的用户接口106、非永久性111、永久性存储器112以及一个或多个用于互连这些组件的通信总线114。所述一个或多个通信总线114任选地包含互连并控制系统组件之间的通信的电路系统(有时称为芯片组)。非永久性存储器111通常包含高速随机存取存储器，如DRAM、SRAM、DDR RAM、ROM、EEPROM、闪速存储器，而永久性存储器112通常包含CD-ROM、数字通用光盘(DVD)或其它光学存储装置、磁带盒、磁带、磁盘存储装置或其它磁性存储装置、磁盘存储装置、光盘存储装置、闪速存储器装置或其它非易失性固态存储装置。永久性存储器112任选地包含远离CPU 102定位的一个或多个存储装置。永久性存储器112和非永久性存储器112内的非易失性存储装置包括非暂时性计算机可读存储介质。在一些实施方案中，有时与永久性存储器112结合，非永久性存储器111或者可替代地非暂时性计算机可读存储介质存储以下程序、模块和数据结构或者其子集：

·任选的操作系统116，所述操作系统包含用于处理各种基本系统服务和用于执行硬件相关任务的程序；

·任选的网络通信模块(或指令)118，所述网络通信模块(或指令)用于将可视化系统100与其它装置或与通信网络连接；

·可视化模块119，所述可视化模块用于选择离散属性值数据集120并且呈现关于离散属性值数据集120的信息，其中离散属性值数据集120包括每个空间投影121的每个图像(附图标记125)的多个探针斑点(例如，基板上所有位置的集合)中的每个相应探针斑点126(例如，基板上的特定位置)的多个基因座(例如，物种的基因组)中的每个基因座122(例如，单个基因)的对应离散属性值124(例如，映射到单个基因座的转录物读段的计数)；

·任选的聚类模块152，所述聚类模块用于使用每个空间投影121的每个图像(附图标记125)的所述多个探针斑点中的每个相应探针斑点126的所述多个基因座中的每个基因座122的离散属性值124或由此得出的主成分值164来对离散属性值数据集120进行聚类，由此将相应探针斑点分配到经聚类的数据集128中的多个簇中的簇158；以及

·任选地经聚类的数据集128的全部或一部分，经聚类的数据集128包括多158，每个簇158包含探针斑点126的子集，并且每个相应簇158包含跨相应簇158的探针斑点的子集的探针斑点126的每个基因座122的微分值162个簇。

在一些实施方案中，一个或多个上述元件存储在先前提及的存储器装置中的一个或多个中，并且对应于用于执行上述功能的一组指令。上述模块、数据或程序(例如，指令集)无需实施为单独的软件程序、程序、数据集或模块，并且因此这些模块和数据的各个子集可以在各种实施方案中被组合或以其它方式重新布置。在一些实施方案中，非永久性存储器111任选地存储上述模块和数据结构的子集。此外，在一些实施例中，存储器存储以上未描述的另外的模块和数据结构。在一些实施例中，上述元件中的一个或多个元件存储在可视化系统100的计算机系统之外的计算机系统中，所述计算机系统可由可视化系统100寻址，使得可视化系统100可以在需要时检索所有或部分此类数据。

图1A展示了经聚类的数据集128包含多个簇158，所述多个簇包括簇1(158-1)、簇2(158-2)以及其它簇直到簇P(158-P)，其中P是正整数。簇1(158-1)与簇1的探针斑点1(126-1-1)、簇1的探针斑点2(126-2-1)以及随后的探针斑点直到簇1的探针斑点Q(126-Q-1)相关联地存储，其中Q是正整数。如簇1(158-1)所示，探针斑点1的簇属性值(160-1-1)与簇1的探针斑点1(126-1-1)相关联地存储，探针斑点2的簇属性值(160-2-1)与簇1的探针斑点2(126-2-1)相关联地存储，并且探针斑点Q的簇属性值(160-Q-1)与簇1的探针斑点Q(126-Q-1)相关联地存储。经聚类的数据集128还包含簇1的基因座1的微分值(162-1-1)以及随后的微分值直到簇1的基因座M的微分值(162-1-M)。经聚类的数据集128中的簇2(158-2)以及其它簇直到簇P(158-P)可以包含与簇1(158-1)的信息相似的信息，并且经聚类的数据集128中的每个簇因此没有详细描述。存储在永久性存储器112中的离散属性值数据集120包含离散属性值数据集120-1和其它离散属性值数据集直到离散属性值数据集120-X。

参考图1B，永久性存储器112存储一个或多个离散属性值数据集120。每个离散属性值数据集120包括一个或多个空间投影121。在一些实施例中，离散属性值数据集120包括单个空间投影121。在一些实施例中，离散属性值数据集120包括多个空间投影。每个空间投影121具有一组独立的图像(附图标记125)，以及一组不同的探针位置123。然而，在典型实施例中，离散属性值数据集120含有单个特征条形码矩阵。换句话说，在特定单个给定的离散属性值数据集120中的空间投影125中的每个空间投影中使用的探针组都是相同的。此外，在特定空间投影125的图像中的每个图像中使用的探针组都是相同的。因此，在一些实施例中，探针组的探针含有后缀，或其它形式的指示符，所述指示器指示给定的探针斑点(以及随后的测量结果)所源自的空间投影121。例如，来自空间投影(捕获区域)1(121-1-1)的条形码(探针)ATAAA-1将不同于来自空间投影(捕获区域)2(121-1-2)的ATAAA-2。

在一些实施例中，图像(附图标记125)是明场显微术图像，其中成像的样品在明背景下显示是黑暗的。在一些此类实施例中，已将样品染色。例如，在一些实施例中，已将样品用苏木素和伊红染色，并且图像(附图标记125)是明场显微术图像。在一些实施例中，已将样品用过碘酸-希夫反应染液(将碳水化合物和富含碳水化合物的大分子染色成深红色)，并且图像是明场显微术图像。在一些实施例中，已将样品用马松三色染液(将细胞核和其它嗜碱性结构染色成蓝色，将细胞质、肌肉、红细胞和角蛋白染色成鲜红色，将胶原蛋白染色成绿色或蓝色，这取决于所使用的技术的变体)来染色，并且图像是明场显微术图像。在一些实施例中，已将样品用阿尔新蓝染液(一种粘蛋白染液，其将某些类型的粘蛋白染色成蓝色，并且将软骨染色成蓝色，并且可以与H&E，以及与范吉森染液一起使用)来染色，并且图像是明场显微术图像。在一些实施例中，已将样品用范吉森染液(将胶原蛋白染色成红色，将细胞核染色成蓝色，并且将红细胞和细胞质染色成黄色，并且可以与弹性蛋白染液组合，所述弹性蛋白染液将弹性蛋白染成蓝色/黑色)来染色，并且图像是明场显微术图像。在一些实施例中，已将样品用网状纤维染液、Azan染液、吉姆萨染液、甲苯胺蓝染液、艾沙明蓝/伊红染液、尼氏和亚甲基蓝染液和/或苏丹黑和锇染色来染色，并且图像是明场显微术图像。在一些实施例中，已将样品用免疫荧光(IF)染液(例如，与抗体缀合的免疫荧光标记)来染色。在一些实施例中，将生物样品如下描述染色：I.引言；(d)生物样品；(ii)生物样品的制备；(6)于2019年11月21日提交的代理人案号为104371-5033-PR的题为“用于分析分析物的流水线”的美国临时专利申请第62/938,336号的染色，所述美国临时专利申请特此通过引用整体并入。

在一些实施例中，图像(附图标记125)并非是样品的明场显微术图像，而是免疫组织化学(IHC)图像。IHC成像依赖于使用抗体标记的染色技术。免疫组织化学(IHC)成像的一种形式是免疫荧光(IF)成像。在IF成像的实例中，使用了特异性标记生物样品中蛋白质的初级抗体，并且然后荧光标记的次级抗体或其它形式的探针用于与初级抗体结合，以显示第一(初级)抗体已经结合的位置。配备有荧光的光学显微镜用于将染色可视化。在光的一个波长处激发荧光标记，并且在不同波长处发射光。使用正确的滤光片组合，观察到了由发射的荧光灯产生的染色模式。在一些实施例中，将生物样品暴露于若干种不同的初级抗体(或探针的其它形式)以便对生物样品中的若干种不同蛋白质进行定量。在一些此类实施例中，每个此类相应不同的初级抗体(或探针)然后使用在唯一波长或波长范围下发出荧光(相对于所使用的另一个荧光标记)的不同的荧光标记(不同的通道)可视化。以这种方式，生物样品中的若干种不同的蛋白质可以可视化。

更通常地，在本公开的一些实施例中，除了明场成像之外或代替明场成像，荧光成像用于获取样品的一个或多个空间图像。如本文所使用的，术语“荧光成像”是指依赖于荧光团对光的激发和再发射的成像，不论荧光团是实验性地添加到样品并且与抗体结合(或其它化合物)或只是样品的自然特征。上述IHC成像，并且具体地IF成像只是荧光成像的一种形式。因此，在一些实施例中，(例如，生物样品的)单个空间投影中的每个相应图像(附图标记125)表示多个通道中不同的通道，其中所述多个通道中的每个这种通道表示独立的(例如，不同)波长或不同波长范围(例如，对应于不同的发射波长)。在一些实施例中，单个空间投影的图像(附图标记125)将由显微镜在不同波长处拍摄组织(例如，相同组织切片)而获得，其中每个这种波长对应于样品内或与样品在空间上相关联的不同种类的物质(含有荧光团)的激发频率。此物质可以是样品的自然特征(例如，天然存在于样品内的一类分子)，或已经添加到样品中的一种物质。此类物质添加到样品中的一种方式是呈在特定波长处激发的探针的形式。此类探针可以直接添加到样品，或者所述探针可以与对于样品内存在的某种抗原具有特异性的抗体，如由特定蛋白质表现出的抗体缀合。以这种方式，用户可以使用空间投影，所述空间投影包括多个此类图像(附图标记125)以能够看到映射到荧光图像数据(例如，在其顶部)的捕获斑点数据，并且查看针对另一个细胞标记的基因(或抗体)表达之间的关系，如表现出特定抗原的特定蛋白质的空间丰度。在典型的实施例中，相对于与空间投影相关联的单组捕获斑点位置，给定空间投影的图像(附图标记125)的每个图像将具有相同尺寸和位置。离散属性值数据集中的每个相应空间投影将具有与相应空间投影相关联的其自身的一组捕获斑点位置。因此，例如，即使给定离散属性数据集中的第一空间投影和第二空间投影使用了相同探针组，所述空间投影将具有用于此探针组的其自身的一组捕获斑点位置。这是因为例如每个空间投影表示从独立的靶标(例如，不同组织切片等)拍摄的图像。

在一些实施例中，明场显微术图像和一组荧光图像(例如，免疫组织化学图像)两者均拍摄的是生物样品并且处于生物样品的相同的空间投影中。

在一些实施例中，将生物样品暴露于若干种不同的初级抗体(或探针的其它形式)以便对生物样品中的若干种不同蛋白质进行定量。在一些此类实施例中，每个此类相应不同的初级抗体(或探针)然后用对初级抗体的类型之一具有特异性的对应次级抗体类型来可视化。每个此类对应次级抗体类型用在唯一波长或波长范围下发出荧光(相对于所使用的另一个荧光标记)的不同的荧光标记(不同的通道)来标记。以这种方式，生物样品中的若干种不同的蛋白质可以可视化。因此，在一些实施例中，单个空间投影121中的每个相应图像(附图标记125)表示多个通道中不同的通道，其中所述多个通道中的每个这种通道表示独立的(例如，不同的)波长或不同波长范围(例如，对应于不同的荧光标记)。由于上述原因，此类架构支持了映射到免疫荧光图像(例如，在其顶部)的探针斑点的可视化。在一些实施例中，单个空间投影121的图像(附图标记125)将由显微镜在不同波长处拍摄组织而获得，其中每个这种波长对应于与某种标记，通常为蛋白质结合的探针的激发频率。以这种方式，用户可以使用空间投影121，所述空间投影包括多个此类图像(附图标记125)以能够看到映射到荧光图像数据(例如，在其顶部)的探针斑点数据，并且查看针对另一个细胞标记的基因(或蛋白质)表达之间的关系。在典型的实施例中，相对于与空间投影相关联的单组探针斑点位置，给定空间投影121的图像(附图标记125)的每个图像将具有相同尺寸和位置。离散属性值数据集120中每个相应空间投影将具有与相应空间投影相关联的其自身的一组探针斑点位置。因此，例如，即使给定离散属性数据集121中第一空间投影和第二空间投影使用了相同探针组，所述空间投影将具有用于此探针组的其自身的一组探针斑点位置。这是因为例如每个空间投影表示从独立的靶标(例如，不同组织切片等)拍摄的图像。示例探针斑点尺寸和密度在于2019年11月21日提交的代理人案号为104371-5033-PR的题为“用于分析分析物的流水线”的美国临时申请第62/938,336号中公开，所述美国临时申请特此通过引用并入，其中术语“捕获斑点”和术语“探针斑点”可互换使用。

在一些实施例中，明场显微术图像和一组荧光图像(例如，免疫组织化学图像)两者均拍摄的是生物样品并且处于相同的空间投影121中。

如图1B所展示的，在一些实施例中，对于多个探针斑点内(与对应数据集相关联的)的每个相应探针斑点126，图像(附图标记125)包括多个基因座中的每个基因座122的离散属性值124。例如，如图1B所示，离散属性值数据集120-1(通过举例示出)包含与每个空间投影121的每个图像(附图标记125)的探针斑点1(126-1-1-1)、探针斑点2(126-1-1-2)和其它探针斑点直到探针斑点Y(126-1-1-Y)相关的信息。

如空间投影121-1的图像(附图标记125-1-1)的探针斑点1(126-1-1-1)所示，探针斑点1(126-1-1-1)包含探针斑点1(122-1-1-1)的基因座1的离散属性值124-1-1-1、探针斑点1(122-1-1-1)的基因座2的离散属性值124-1-1-2，以及其它离散属性值直到探针斑点1(122-1-1-1)的基因座M的离散属性值124-1-1-M。在一些实施例中，每个基因座是参考基因组中不同的基因座。更通常地，每个基因座是不同的特征(例如，抗体、参考基因组中的位置等)。

在一些实施例中，数据集进一步存储所述多个探针斑点中的每个相应探针斑点126的多个主成分值164和/或二维数据点和/或类别170分配。举例来说，图1B展示了探针斑点126-1的所存储的主成分值1164-1-1到主成分值N 164-1-N，其中N是正整数。

在图1B所展示的实施例中，每个相应探针斑点的离散属性值的主成分是根据离散属性数据集120的每个空间投影121的每个图像(附图标记125)来计算的。因此，例如，如果存在第一空间投影的五个图像和第二空间投影的六个图像，那么主成分是跨在十一个图像的每个图像中的探针斑点的离散属性值中观察到的方差获取的，其中假设等效探针斑点在两个投影中是已知的。在一些替代性实施例中，探针斑点的离散属性值的仅子集的主成分是跨离散属性数据集120的每个空间投影121计算的。换句话说，使用了图像的仅子集中的探针斑点的离散属性值。例如，在一些实施例中，一组所选基因座124(而不是所有基因座)的主成分是根据跨离散属性数据集120的每个空间投影121的每个图像(附图标记125)的来计算的。在一些实施例中，探针斑点的离散属性值的主成分是根据跨离散属性数据集120的每个空间投影121的图像的子集来计算的。

在一些替代性实施例中，探针斑点的每个实例的离散属性值的主成分是跨离散属性数据集120的单个空间投影121的每个图像(附图标记125)计算的。在一些替代性实施例中，探针斑点的每个实例的离散属性值的主成分是跨离散属性数据集120的空间投影121的子集跨每个图像(附图标记125)计算的。在一些实施例中，用户选择此子集。

在一些替代性实施例中，探针斑点的每个实例的离散属性值的主成分是跨离散属性数据集120的每个空间投影121的跨图像(附图标记125)的子集计算的。例如，在一些实施例中，单个通道(单个图像类型)是用户所选的，并且探针斑点的每个实例的离散属性值的主成分是跨离散属性数据集120的每个空间投影121跨此单个通道计算的。

图1B还展示了在一些实施例中，每个探针斑点如何给定簇分配158(例如，探针斑点1的簇分配158-1)。在一些实施例中，此类经聚类的簇基于跨数据集的所有空间投影的所有图像的离散属性值。在一些实施例中，图像的一些子集或投影的一些子集用于执行此聚类。

图1B还展示了每个探针斑点的一个或多个类别分配170-1、…、170-Q(例如，探针斑点1的种类分配170-1-1、…、170-Q-1)，其中Q为正整数。在一些实施例中，类别分配包含多个种类172(例如，探针斑点1的种类172-1、…、172-M，如种类172-1-1、…、172-M-1，其中M为正整数)。

在一些替代性实施例中，离散属性值数据集120存储所述多个探针斑点中的每个相应探针斑点126(例如，图1B中探针斑点1的二维数据点166-1)的二维数据点166但不存储所述多个主成分值164。

在一些实施例中，每个探针斑点表示多个细胞。在一些实施例中，每个探针斑点表示不同的单个细胞(例如，用于液体活检分析，其中细胞在基板上明显不同)。在一些实施例中，每个基因座表示映射到细胞的基因组中相应基因的不同探针斑点中测量的多个mRNA，并且数据集进一步包括每探针斑点总RNA计数。

参考图1C，在一些实施例中，一个或多个空间投影各自包括一个或多个层图(附图标记182)。在一些实施例中，层图(附图标记182)呈二进制图/概率图的形式。在一些实施例中，层图(附图标记182)与离散属性值数据集120的空间投影121的所述一个或多个图像(附图标记125)位于相同空间(取向)。层图(附图标记182)提供了一种方式以将各种数据导入到可视化模块119中以用于与离散属性值数据集120内的空间投影121的图像(附图标记125)共显示。例如，在可视化模块119外部存在测量图像(附图标记125)中信号强度的软件的情况下，此类信号强度测量结果可以导入作为层图(附图标记182)。在一些此类实施例中，层图(附图标记182)包括像素值的二维阵列，其中二维阵列的尺寸(像素空间)与对应空间投影121的图像(附图标记125)的像素值的二维阵列的尺寸相同。在此类实施例中，层图(附图标记125)中的每个像素含有关于所测量的信号强度的信息。在一些实施例中，存在单个对应空间投影121的多个层图(附图标记182)，其中所述多个层图(附图标记182)中的每个层图(附图标记182)表示空间投影121的图像(附图标记125)的不同类型的测量或加工。例如，在一些此类实施例中，每个层图(附图标记182)表示不同染液或多种染液中染液的不同组合的分析。在一些此类实施例中，每种此类染液或染液的组合被编码到对应层图(附图标记182)并且通过分配给相应层图(附图标记182)中的每个特定像素的灰度值/颜色定义了组织类型以及特异性组织类型的概率。由于相应层图(附图标记182)中信息的像素空间与对应离散属性值数据集的空间投影121中的一个或多个图像(附图标记125)相同，因此每个层图(附图标记182)轻易叠置到对应离散属性值数据集的一个或多个图像(附图标记125)上。此外，可以进行另外的操作以利用层图(附图标记182)中编码的图像(附图标记125)，如基于概率阈值选择簇。在一些实施例中，编码到层图(附图标记182)的像素空间中的信息是离散属性值数据集中的对应图像(附图标记125)的原生像素值的处理结果。在此类实施例中，层图(附图标记182)可以表示对应图像(附图标记125)的变换，其中变换是基于对应图像(附图标记125)中存在的荧光标记的不同组合对对应图像(附图标记125)中的探针斑点的细胞分割、对对应图像(附图标记125)中的组织结构(例如，腺体)的识别和/或对对应图像(附图标记125)中的病理学(健康与患病)的识别。在一些实施例中，层图(附图标记182)表示对应图像(附图标记125)的变换，其中变换是经训练的机器学习算法的输出，其中对应图像(附图标记125)是经训练的机器学习算法的输入，并且其中机器学习算法已使用带注释的训练组图像进行训练。用于处理图像的此类机器学习算法的非限制性实例在于2020年2月提交的题为“用于生物样品中的机器学习模式的系统和方法(Systems andMethods for Machine Learning Patterns in Biological Samples)”的美国临时专利申请第62/977,565号中公开，所述美国临时专利申请特此通过引用并入。

在一些实施例中，层图(附图标记182)由对应空间投影的多于一个图像(附图标记125)得出。例如，在一些实施例中，层图由对应空间投影的两个图像得出。作为一个实例，在一些实施例中，层图包括两个图像(附图标记125)的对应像素值的布尔组合(Booleancombination)，例如来自两个图像的对应像素值的相加或相减。作为另一个实例，在一些实施例中，层图包括两个图像(附图标记125)的对应探针斑点值(例如，离散属性值124)的布尔组合，例如来自每个探针斑点的每个基因座的两个图像的对应像素值的相加或相减。

尽管图1A、1B和1C描绘了“可视化系统100”，但是所述图更多地旨在作为可能存在于计算机系统中的各种特征的功能描述，而不是作为本文所描述的实施方案的结构示意图。在实践中，并且如本领域普通技术人员所认识的，可以将单独示出的项目组合，并且可以将一些项目分离。此外，尽管图1A描绘了非永久性存储器111中的某些数据和模块，但是这些数据和模块中的一些或全部可以存在于永久性存储器112中。进一步地，虽然离散属性值数据集120被描绘为驻留在永久性存储器112中，在所公开的方法的不同阶段中，离散属性值数据集120的一部分事实上驻留在非永久性存储器111中。

方法.

虽然已经参考图1A、1B和1C公开了根据本公开的系统，但是现在参考图2A和2B详细描述根据本公开的方法。

框202.本公开的一个方面提供了一种可视化系统100。可视化系统100包括一个或多个处理核102、非永久性存储器111和永久性存储器111，永久性存储器和非永久性存储器共同存储用于执行方法的指令。可视化系统的非限制性实例共同展示于图1A、1B和1C中。如上文所讨论的，将理解永久性存储器和/或非永久性存储器可以位于单个计算机上，即跨计算机的网络分布，由一个或多个虚拟机器表示，或者是云计算架构的一部分。

框204-获得离散属性值数据集。一种根据本公开的系统和方法的方法包括获得与具有空间布置的多个探针斑点相关联的离散属性值数据集，其中所述多个探针斑点中的每个探针斑点分配有多个条形码中的唯一条形码，并且所述多个探针斑点包括至少1000个探针斑点。所述离散属性值数据集包括：(i)生物样品的一个或多个空间投影121以及(ii)所述一个或多个空间投影中的空间投影的一个或多个二维图像(附图标记125)。所述一个或多个二维图像中的每个二维图像(a)拍摄的是从所述生物样品获得的叠置在具有以所述空间布置而布置的所述多个探针斑点的基板上的第一组织切片，并且(b)包括至少100,000个像素值。在一些实施例中，每个二维图像包括至少200,000个像素值、至少300,000个像素值、至少500,000个像素值、至少1百万个像素值、至少1百万个像素值、至少2百万个像素值、至少3百万个像素值、至少4百万个像素值、至少5百万个像素值或至少8百万个像素值。

所述离散属性值数据集包括(iii)所述多个探针斑点中的每个相应探针斑点126的从对所述第一组织切片的空间测序获得的对应多个离散属性值124。所述对应多个离散属性值中的每个相应离散属性值针对多个基因座中的不同基因座。在一些实施例中，每对应多个离散属性值包括至少25个离散属性值、至少50个离散属性值、至少100个离散属性值、至少500个离散属性值或至少1000个离散属性值。

参考图1B，离散属性值数据集120包括一组空间投影中的每个空间投影的一组图像中的每个图像的多个探针斑点中的每个相应探针斑点126的多个基因座中的每个基因座122的对应离散属性值124。在一些实施例中，其中在单个投影中存在多个图像，可能存在仅单组离散属性值。换句话说，在此类实施例中，离散属性值数据集120包括对应离散属性值124，所述对应离散属性值一组空间投影中的相应空间投影的多个探针斑点中的每个相应探针斑点126的多个基因座中的每个基因座122，其中相应空间投影可以具有任何数量的图像(例如，一个图像、两个图像等)。

在一些实施例中，离散属性值数据集120的文件大小大于1兆字节、大于5兆字节、大于100兆字节、大于500兆字节或者大于1000兆字节。在一些实施例中，离散属性值数据集120的文件大小介于0.5千兆字节与25千兆字节之间。在一些实施例中，离散属性值数据集120的文件大小介于0.5千兆字节与100千兆字节之间。

在一些实施例中，每组图像实际上是单个图像。在一些实施例中，每组图像实际上是多个图像。在一些实施例中，每组图像具有独立数量的图像，这意味着离散属性值数据集120中的每个空间投影121不需要具有相同数量的图像。在一些实施例中，特定空间投影的所述一组图像由1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个或多于20个的图像组成。

在一些实施例中，图像中的一个或多个图像包含其它分析物的图像，如生物样品中的蛋白质。

在一些实施例中，所述一组图像中的图像是通过使用不同波长或不同波长范围激发靶标样品来获取的。

在一些实施例中，图像是使用透射光显微术(例如，明场透射光显微术、暗视场透射光显微术、倾斜照明透射光显微术、分散染色透射光显微术、相衬透射光显微术、微分干涉对比透射光显微术、发射成像等)来获取的。参见例如《分子生物学方法(Methods inMolecular Biology)》,2018,光学显微术方法和方案(Light Microscopy Method andProtocols),Markaki和Harz编辑,纽约州纽约市胡玛纳出版社(Humana Press,New York,New York),ISBN-13:978-1493983056，所述文献特此通过引用并入。

在一些实施例中，空间投影的所述一组图像中的图像中的每个图像是通过使用阻挡波长不是特定波长或特定的一组波长的光的不同带通滤光片来获取的。在一些实施例中，投影的所述一组图像是使用荧光成像创建的图像，例如，通过使用在各种不同波长处激发的各种免疫组织化学(IHC)探针。参见例如Day和Davidson,2014,“荧光蛋白革命(细胞和临床成像中)(The Fluorescent Protein Revolution(In Cellular and ClinicalImaging))”,CRC出版社(CRC Press),佛罗里达州波卡拉顿的泰勒和弗朗西斯出版集团(Taylor&Francis Group,Boca Raton,Florida)；“细胞生物学中的定量成像(Quantitative Imaging in Cell Biology)”《细胞生物学方法(Methods in CellBiology)》123,2014,Wilson和Tran编辑；《化学和生物学中的高级荧光报告子II：分子构建体、聚合物和纳米颗粒(关于荧光的施普林格系列)(Advanced Fluorescence Reportersin Chemistry and Biology II:Molecular Constructions,Polymers andNanoparticles(Springer Series on Fluorescence))》,2010,Demchenko编辑,德国柏林施普林格出版社(Springer-Verlag,Berlin,Germany)；荧光光谱法和显微术：方法和方案(Fluorescence Spectroscopy and Microscopy:Methods and Protocols)(《分子生物学方法》),第2014版,2014,Engelborghs和Visser编辑,人类出版社(HumanPress)；Maniatis,2019,“肌萎缩侧索硬化症的分子病理学的时空动力学(Spatiotemporal Dynamics ofMolecular Pathology in Amyotrophic Lateral Sclerosis)”,《科学(Science)》364(6435),第89-93页，所述文献中的每个文献特此通过引用并入其关于荧光成像的公开内容。

在一些实施例中，每组图像(例如，每个空间投影)对应于取自生物样品的组织切片的集合中的不同的组织切片。

如以上公开内容所指示的，IHC图像是多光谱的，这意味着使用IHC时，在不同波长下激发组织并且然后在特定激发下收集给定空间投影121的一组图像中的每个相应图像(附图标记125)，而不是单个可见光光谱图像(其由本公开支持)。如此，空间投影121的所述一组图像中的图像(附图标记125)中的每个图像共对齐，并且表示所关注的生物靶标的相同区域(例如，相同组织切片或组织切片的子部分)。许多工作使用多个此类“颜色”，并且因此每个相应空间投影(例如，每个组织切片或组织切片的子部分)输入到具有与其相关联的1个、2个、3个、4个、…、Q个不同的图像(附图标记125)的公开的离散属性值数据集120中，其中Q是正整数。

如于2020年8月13日提交的题为“用于使用单倍型空间分布确定生物状态的系统和方法(Systems and Methods for Using the Spatial Distribution of Haplotypesto Determine a Biological Condition)”的美国临时专利申请第16/992,569号所公开的，所述美国临时专利申请特此通过引用并入，在一些实施例中，基板已打印了可见的“基准”标志，所公开的可视化模块119在明场图像中识别所述标志并且进行打印的阵列模式与基板的对齐。在一些实施例中，使用了所公开的可视化模块119中的手工对齐工具，其中最终用户被引导通过识别这些标志的步骤。参见例如于2019年11月22日提交的代理人案参考号为104371-5029-PR的题为“用于使用基准对齐进行分析物的空间分析的系统和方法(Systems and Methods for Spatial Analysis of Analytes Using FiducialAlignment)”的美国临时专利申请第62/938,967号，以及于2019年11月21日提交的代理人案号为104371-5033-PR的题为“用于分析分析物的流水线”的美国临时专利申请第62/938,336号，所述美国临时专利申请中的每个美国临时专利申请特此通过引用并入。对于IHC，这些基准标志通常是“点亮的”(被激发的)因此所述基准标记在图像(附图标记125)中是可见的。

在一些实施例中，可视化模块119或其软件模块使用来自H&E染色图像的组织图像的自动分割来制备针对可视化模块119的数据。参见例如于2019年11月18日提交的代理人案号为104371-5030-PR的题为“用于二进制组织分类的系统和方法(Systems and Methodsfor Binary Tissue Classification)”的美国临时专利申请第62/937,066号，所述美国临时专利申请特此通过引用并入。

图3展示了使用可视化模块119选择特定离散属性值数据集120。具体地，在一些实施例中，图3展示了可视化模块119如何提供关于给定离散属性值数据集120的一些信息，如其名称和上次访问离散属性值数据集的时间。

参考框205，在一些实施例中，所述多个基因座中的每个基因座122是多个基因中的相应基因。在一些实施例中，每个离散属性值124是给定探针斑点内的映射到所述多个基因中的相应基因的转录物读段计数(例如，跨每个具有给定探针斑点的空间上经条形编码的多个序列读段的不同UMI的数量)。在此类实施例中，每个探针斑点126对应于单个空间区域。在一些实施例中，从与投影中的图像相关联的单个组织样品收集的十万个或更多个、一百万个或更多个、一千万个或更多个或一亿个或更多个序列读段用于在离散属性值数据集120中逐基因座和逐探针斑点地确定唯一UMI计数(离散属性值)。在一些实施例中，针对相应图像的序列读段是3'端或5'端成对的序列读段。

在一些实施例中，离散属性值数据集120表示以映射到基因的转录物读段的计数对来自探针斑点的基因表达进行定量的全转录组测序实验。

在一些实施例中，离散属性值数据集120表示测序实验，其中诱饵用于选择性过滤并且摧毁所关注的基因集，例如在于2020年2月21日提交的代理人案号为104371-5028-PR02的题为“使用杂交/捕获方法捕获靶向的遗传靶标(Capturing Targeted GeneticTargets Using a Hybridization/Capture Approach)”的美国临时专利申请第62/979,889号中公开，所述美国临时专利申请特此通过引用并入。

用于基于测序的空间探针斑点的测量技术的实例在于2019年8月13日提交的代理人案号为104371-5026-PR的题为“用于使用单倍型空间分布确定生物状态的系统和方法”的美国临时专利申请第62/886,233号，以及于2019年11月21日提交的代理人案号为104371-5033-PR的题为“用于分析分析物的流水线”的美国临时专利申请第62/938,336号中公开，所述美国临时专利申请中的每个美国临时专利申请特此通过引用并入。如此，在一些实施例中，所述多个探针斑点中的特定探针斑点中的每个基因座用对于特定探针斑点而言唯一的相应条形码进行条形编码。图19展示了。在图19中，使用了含有所标志的捕获区域(例如，6.5×6.5mm)1904的基板1902，在所述基板中放置生物样品的组织切片并且对其进行成像以形成图像(附图标记125)。每个捕获区域1904含有多个(例如，5000个打印区域)经条形编码的mRNA捕获探针，每个此类区域在本文中被称为探针斑点126，其中尺寸为100μm或更小(例如，直径为55μm)并且中心距离200μm或更短(例如，100μm)的。组织被透化并且mRNA与定位在近侧和/或正下面的经条形编码的捕获探针1905杂交。如附图标记1906中更详细地示出的，对于特定捕获探针1905，cDNA合成将空间上经条形编码的1908和所捕获的mRNA 1912连接并且将呈UMI计数形式的测序读段然后用组织图像(附图标记125)叠置，如图5所展示的。在图5中，对于每个相应探针斑点，在log₂空间中，映射到基因CCDC80上的对应UMI计数叠置在图像(附图标记125)上。返回到图19，对于每个相应探针斑点126，存在数千个或数百万个捕获探针1905，其中含有空间上经条形编码的1908的每个相应捕获探针1905对应于相应探针斑点126，以及唯一UMI识别符1910。来自组织样品的mRNA 1912与捕获探针1905结合并且mRNA序列与UMI 1910和空间上经条形编码的1908一起在mRNA的cDNA拷贝中拷贝，由此确保以探针斑点126分辨率水平捕获组织内的mRNA的空间位置。关于捕获探针的更多细节，包含空间上经条形编码的和唯一分子识别符在于2020年2月21日提交的代理人案号为104371-5033-PR01的题为“用于分析分析物的流水线”的美国临时专利申请第62/980,073号中公开，所述美国临时专利申请特此通过引用并入。

在关于组织制备和分析的更多细节中，在一些实施例中，从受试者(例如，通过手术活检、整体受试者切片)采集生物样品或使所述生物样品在生长基板或培养皿上体外生长作为细胞群，并且将所述生物样品制备作为组织切片以进行分析。生长样品可以足够薄以用于分析而无需另外的处理步骤。可替代地，可以使用如刀片振动切片机等机械切割设备将生长样品和通过活检或切片获得的样品制备成薄组织切片。作为另一个替代方案，在一些实施例中，可以通过将生物样品的触摸印记应用于合适的基板材料来制备薄组织切片。

组织切片的厚度可以是细胞的最大横截面尺寸的分数(例如，小于0.9、0.8、0.7、0.6、0.5、0.4、0.3、0.2或0.1)。然而，还可以使用厚度大于最大横截面细胞尺寸的组织切片。例如，可以使用低温恒温器切片，其可以是例如10-20微米厚。在一些实施例中，通过用缓冲液(例如，1X磷酸盐缓冲盐水)灌注生物样品(例如，组织活检、小鼠、器官、肿瘤等)然后解剖期望区域来制备每个此类组织样品。然后例如在最佳切割温度下包埋期望区域(美国费雪医疗公司OCT(OCT,Fisher Healthcare,USA))。然后使经包埋的样品经受冰浴(例如，具有预冷却的乙醇的干冰)直到冷冻并且储存(例如，在-80℃下)。由此，将组织切片(例如，冷冻切片)切割并且将其置于基板上。在一些实施例中，冷冻切片的厚度介于5μm与100μm之间。在一些实施例中，冷冻切片的厚度为10μm。

更通常地，组织切片的厚度通常取决于用于制备切片的方法和组织的物理特性，并且因此可以制备和使用各种不同厚度的切片。例如，组织切片的厚度可以是至少0.1、0.2、0.3、0.4、0.5、0.7、1.0、1.5、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40或50微米。如果需要或者方便的话还可以使用更厚的切片，例如，至少70、80、90或100微米或更厚。通常，组织切片的厚度介于1-100微米、1-50微米、1-30微米、1-25微米、1-20微米、1-15微米、1-10微米、2-8微米、3-7微米或4-6微米之间，但是如上文所提及的，还可以分析厚度大于或小于这些范围的切片。

还可以从单个生物样品获得多个切片。例如，可以通过使用切片刀片进行活检样品的连续切片来从手术活检样品获得多个组织切片。连续切片之间的空间信息可以以此方式保存，并且可以对切片进行(例如，连续或独立地)分析以获得关于生物样品的三维信息。在一些实施例中，对组织切片进行独立地分析，使用数据分选过程将其编译成连续切片，并且一起映射以重构关于生物样品的信息。

在一些实施例中，可以使用福尔马林固定和石蜡包埋(FFPE)制备生物样品，这是确立的方法。随后将样品固定并且包埋在石蜡或树脂块中，样品可以如上文所描述地进行切片。在分析之前，可以通过在合适的溶剂(例如，二甲苯)中温育组织切片然后冲洗(例如，99.5％乙醇持续2分钟，96％乙醇持续2分钟，以及70％乙醇持续2分钟)来从组织切片中去除石蜡包埋的材料(例如，脱蜡)。

作为如上文所描述地的福尔马林固定的替代方案，生物样品可以以各种其它固定剂的任何固定剂固定以在分析之前保持样品的生物结构。例如，可以通过浸没在乙醇、甲醇、丙酮、多聚甲醛-Triton和其组合中来将样品固定。

在一些实施例中，丙酮固定用于新鲜冷冻的样品，所述样品可以包含但不限于皮质组织、小鼠嗅球、人脑瘤、人死后脑以及乳腺癌样品。当进行丙酮固定时，可以不进行预透化步骤(如下文所描述的)。可替代地，可以结合透化步骤来进行丙酮固定。

作为如上文所描述的石蜡包埋的替代方案，生物样品可以包埋在各种其它包埋材料的任何材料中以在切片和其它处理步骤之前为样品提供结构基板。通常，在对从样品获得的组织切片进行分析之前将包埋材料去除。合适的包埋材料包含但不限于蜡、树脂(例如，甲基丙烯酸酯树脂)、环氧树脂和琼脂。

为了促进可视化，生物样品可以使用各种染液和染色技术来染色。在一些实施例中，例如，样品可以使用任何数量的染液来染色，包含但不限于吖啶橙、俾斯麦棕(Bismarckbrown)、深红色、考马斯蓝、甲酚紫、DAPI、伊红、溴化乙锭、酸性品红、苏木精、赫斯特染液(Hoechst stain)、碘、甲基绿、亚甲基蓝、中性红、尼罗蓝、尼罗红、四氧化锇、碘化丙啶、罗丹明、番红和/或免疫荧光染液。

样品可以使用苏木素和伊红(H&E)染色技术、使用巴氏染色技术(Papanicolaoustaining technique)、马松三色染液技术、银染色技术、苏丹染色技术、免疫荧光(IF)技术(例如，与抗体缀合的免疫荧光标记)和/或使用过碘酸希夫(PAS)染色技术来染色。PAS染色通常在福尔马林固定或丙酮固定之后进行。在一些实施例中，样品可以使用罗曼诺夫斯基染液(Romanowsky stain)来染色，所述染液包含瑞氏染液(Wright's stain)、詹纳尔氏染液(Jenner's stain)、坎-格伦瓦耳德染液(Can-Grunwald stain)、雷氏曼着色剂染液(Leishman stain)和吉姆萨染液。

在一些实施例中，生物样品可以包埋在水凝胶基质中。以这种方式包埋样品通常涉及使生物样品与水凝胶接触以使得生物样品由水凝胶包围。例如，可以通过使样品与合适的聚合物材料接触，并且活化聚合物材料以形成水凝胶来包埋样品。在一些实施例中，形成了水凝胶使得水凝胶在生物样品内内化。

在一些实施例中，通过形成水凝胶的聚合物材料的交联将生物样品固定在水凝胶中。交联可以化学地和/或光化学地进行，或者可替代地通过本领域已知的任何其它水凝胶形成方法进行。

水凝胶基质的组成和对生物样品的应用通常取决于生物样品的性质和制备(例如，切片的、未切片的、固定类型)。作为一个实例，在生物样品是组织切片的情况下，水凝胶基质可以包含单体溶液和过硫酸铵(APS)引发剂/四甲基乙二胺(TEMED)催化剂溶液。作为另一个实例，在生物样品由细胞(例如，培养的细胞或与组织样品分离的细胞)组成的情况下，细胞可以用单体溶液和APS/TEMED溶液温育。对于细胞，水凝胶基质凝胶在隔室中形成，包含但不限于用于培养、维持或传输细胞的装置。例如，可以用添加到隔室到约0.1μm到约2mm的深度范围的单体溶液加APS/TEMED来形成水凝胶基质。

生物样品的水凝胶包埋的另外的方法和方面描述于例如，Chen等人,《科学(Science)》347(6221):543–548,2015中，所述文献的全部内容通过引用并入本文中。

在一些实施例中，包埋在水凝胶中的生物样品可以等距扩增。可以使用的等距扩增的方法包含水合作用，即扩增显微术中的制备步骤，如描述于Chen等人,《科学》347(6221):543–548,2015。

可以通过将生物样品的一个或多个组分锚固到凝胶，随后凝胶形成，进行蛋白水解和溶胀来进行等距扩增。生物样品的等距扩增可以在将生物样品固定在基板上之前进行，或者在将生物样品固定到基板之后进行。在一些实施例中，在使基板与捕获探针接触之前，可以将等距扩增的生物样品从基板去除，如将在随后部分中更详细讨论的。

通常，用于进行生物样品的等距扩增的步骤可以取决于样品的特性(例如，组织切片厚度、固定、交联)和/或所关注的分析物(例如，用于将RNA、DNA和蛋白质锚固到凝胶的不同条件)。

样品的等距扩增可以增加样品的随后分析的空间分辨率。空间剖析中增加的分辨率可以由等距扩增的样品与还未等距扩增的样品进行比较来确定。

在一些实施例中，将生物样品等距扩增到大小为其未扩增大小的至少2倍、2.1倍、2.2倍、2.3倍、2.4倍、2.5倍、2.6倍、2.7倍、2.8倍、2.9倍、3倍、3.1倍、3.2倍、3.3倍、3.4倍、3.5倍、3.6倍、3.7倍、3.8倍、3.9倍、4倍、4.1倍、4.2倍、4.3倍、4.4倍、4.5倍、4.6倍、4.7倍、4.8倍或4.9倍。在一些实施例中，将样品等距扩增到其未扩增大小的至少2倍且小于20倍。

在一些实施例中，生物样品连接到基板(例如，载玻片、盖玻片、半导体晶圆、芯片等)。生物样品的连接可以是不可逆的或可逆的，这取决于样品的性质和分析方法中的随后步骤。

在某些实施例中，可以通过将合适的聚合物涂层施加到基板，并且使样品与聚合物涂层接触来将样品可逆地连接到基板。然后可以使用使聚合物涂层至少部分溶解的有机溶剂来将样品从基板分离。水凝胶是适于此目的的聚合物的实例。

在一些实施例中，组织样品是速冻的、被切成薄片(例如，实现可见成像)，并且将其置于基板上。在一些实施例中，组织样品是固定的(例如，福尔马林固定的石蜡包埋的)。在一些实施例中，生物样品(例如，如上文所描述的组织切片)可以通过在适于维持或保持组织结构的完整性(例如，物理特性)的温度下深度冷冻来制备。此类温度可以是例如小于-20℃或小于-25℃、-30℃、-40℃、-50℃、-60℃、-70℃或-80℃。冷冻组织样品可以使用任何数量的合适方法在基板表面上进行切片，例如，切成薄片。例如，组织样品可以使用设置在适于维持组织样品的结构完整性和样品中核酸的化学特性两者的温度下的冷冻切片机(例如，低温恒温器)来制备。此类温度可以是例如小于-15℃、小于-20℃或小于-25℃。

在一些实施例中，每个基板在至少一个捕获区域用经条形编码的捕获探针进行预打印(例如，在所述多个探针斑点中的每个探针斑点处打印了一种类型的条形码)。在一些实施例中，所述多个探针斑点中的每个探针斑点具有对应相应条形码，其中每个条形码是可唯一地识别的。每个条形码的位置相对于每个其它条形码是已知的(例如，条形码是空间编码的)。用于基于测序的空间探针斑点的此类测量技术的实例在于2019年8月13日提交的代理人案号为104371-5026-PR的题为“用于使用单倍型空间分布确定生物状态的系统和方法”的美国临时专利申请第62/886,233号，以及于2019年11月21日提交的代理人案号为104371-5033-PR的题为“用于分析分析物的流水线”的美国临时专利申请第62/938,336号中公开，所述美国临时专利申请中的每个美国临时专利申请特此通过引用并入。

在一些实施例中，基板包含至少一个捕获区域(例如，用经条形编码的捕获探针预打印的位置)，其中每个捕获区域包含经条形编码的捕获探针的相应多个预打印斑点。在一些实施例中，基板包含至少2个捕获区域、至少3个捕获区域、至少4个捕获区域、至少5个捕获区域、至少6个捕获区域、至少7个捕获区域或至少8个捕获区域。在一些实施例中，每个捕获区域进一步通过基准相应多个点识别(例如，预先打印在图案中，例如矩形，围绕对应捕获区域)。

随后，组织的一个或多个切片在基板上进行成像(例如，用光学显微镜)。在一些实施例中，对于每个组织切片，所得图像文件存储在永久性存储器中(例如，用于输入到可视化模块中)。在一些实施例中，与相应捕获区域相对应的所述多个基准点跨一个或多个所得图像文件对齐(例如，以改进跨所得图像文件的探针斑点的对齐)。基准点相对于基板是静止的。在一些实施例中，使用了基准点，如Lee等人.2012,“使用固定基准标记以进行阶段漂移校正(Using fixed fiduciary markers for stage drift correction),”《光学快报(Opt Express)》20(11):12177–12183所描述的。

在一些实施例中，在对组织进行成像之后，组织自身被透化以允许每组相应捕获探针穿透细胞膜并且与组织中的定位于每个探针斑点上方的相应细胞的RNA结合。参见例如Maniatis,2019,“肌萎缩侧索硬化症的分子病理学的时空动力学”《科学》364(6435),第89-93页，所述文献特此通过引用并入。

在一些实施例中，生物样品被透化以促进将分析物从样品中转移出来，和/或促进物种(如捕获探针)转移进入到样品中。如果样品未被充分透化，那么从样品捕获的分析物的数量可能太低以至于不能够进行适当分析。相反，如果组织样品被过度透化，那么组织样品内的分析物的相对空间关系可能丢失。因此，期望组织样品被透化足以获得良好信号强度的同时仍维持样品中的分析物分布的空间分辨率之间的平衡。

通常，可以通过将样品暴露于一种或多种透化剂来使生物样品透化。用于此目的的合适的试剂包含但不限于有机溶剂(例如，丙酮、乙醇和甲醇)、交联剂(例如，多聚甲醛)、洗涤剂(例如，皂苷、Triton X-100^TM或Tween-20^TM)以及酶(例如，胰蛋白酶、蛋白酶)。在一些实施例中，生物样品可以用细胞透化剂来温育以促进样品的透化。用于样品透化的另外的方法描述于例如Jamur等人,《分子生物学方法(Method Mol.Biol.)》588:63-66,2010，所述文献的全部内容通过引用并入本文中。用于样品透化的任何合适的方法可以通常与本文所描述的样品结合使用。

在防扩散介质用于在分析程序期间限制分析物或其它物种的迁移的一些实施例中，防扩散介质可以包含至少一种透化试剂。例如，防扩散介质可以包含含有透化缓冲液或试剂的孔(例如，微孔、纳米孔或皮可孔(picowell))。在防扩散介质是水凝胶的一些实施例中，水凝胶可以包含透化缓冲液。在一些实施例中，在使水凝胶与样品接触之前将水凝胶浸泡在透化缓冲液中。在一些实施例中，当防扩散介质施加到生物样品时，水凝胶或其它防扩散介质可以含有干燥试剂或单体以递送透化试剂。在一些实施例中，防扩散介质(例如，水凝胶)共价连接到固体基板(例如，丙烯酸化载玻片)。在一些实施例中，可以对水凝胶进行改性以含有捕获探针并且递送透化试剂。例如，可以对水凝胶薄膜进行改性以包含空间上经条形编码的捕获探针。然后在使空间上经条形编码的水凝胶薄膜与样品接触之前，将空间上经条形编码的水凝胶薄膜浸泡在透化缓冲液中。因此空间上经条形编码的水凝胶薄膜将透化试剂递送到与空间上经条形编码的水凝胶接触的样品表面，从而增强分析物迁移和捕获。在一些实施例中，将空间上经条形编码的水凝胶施加到样品并且置于透化散装溶液中。在一些实施例中，浸没于透化溶剂中的水凝胶薄膜夹置在样品与空间上经条形编码的阵列之间。在一些实施例中，靶标分析物能够扩散穿过透化试剂浸没的水凝胶并且与水凝胶另一侧的捕获探针杂交或结合。在一些实施例中，水凝胶的厚度与分辨率损失成比例。在一些实施例中，孔(例如，微孔、纳米孔或皮可孔)可以含有空间上经条形编码的捕获探针和透化试剂和/或缓冲液。在一些实施例中，空间上经条形编码的捕获探针和透化试剂保持在间隔子之间。在一些实施例中，将样品穿孔、切割或转移到孔中，其中靶标分析物扩散通过透化试剂/缓冲液并且到达空间上经条形编码的捕获探针。在一些实施例中，分辨率损失可以与间隙宽度成比例(例如，样品与捕获探针之间的透化缓冲液的量)。

在一些实施例中，透化溶液可以通过多孔膜递送到样品。在一些实施例中，多孔膜用于限制扩散性分析物损失，同时允许透化试剂到达样品。可以操纵膜化学和孔径以使分析物损失最小化。在一些实施例中，多孔膜可以由玻璃、硅、纸、水凝胶、聚合物单片或其它材料制成。在一些实施例中，材料可以是天然多孔的。在一些实施例中，材料可以具有蚀刻到固体材料的孔(pore)或孔(well)。在一些实施例中，透化试剂跨多孔膜流经微流体室或通道。在一些实施例中，流动控制了样品到透化试剂的通路。在一些实施例中，多孔膜夹置在空间上经条形编码的阵列与样品之间，其中透化溶液施加在多孔膜之上。透化试剂扩散通过膜的孔并且进入到组织中。

在一些实施例中，可以通过将一个或多个裂解试剂添加到样品中来渗透生物样品。合适的裂解剂的实例包含但不限于生物活性试剂，如用于裂解不同细胞类型，例如革兰氏阳性或阴性细菌、植物、酵母、哺乳动物，的裂解酶，如溶菌酶、无色肽酶、溶葡球菌酶、labiase、kitalase、溶壁酶和各种其它可商购获得的裂解酶。

其它裂解剂可以另外地或可替代地添加到生物样品以促进透化。例如，可以使用基于表面活性剂的裂解溶液以使样品细胞裂解。裂解溶液可以包含离子表面活性剂，如例如十二烷基肌氨酸钠和十二烷基硫酸钠(SDS)。

如本文所描述的，在一些实施例中，cDNA以及随后测序文库从结合RNA创建，并且然后将经条形编码的cDNA从基板去除或分离(例如，洗涤)并且将其收集以用于测序。测序文库在测序仪上运行并且生成测序读段数据(例如，基因组和/或蛋白质组学)。在一些实施例中，所述方法然后用测序仪继续进行，通过条形码和UMI对序列读段进行分组，并且将其与转录组参考中的基因比对，然后流水线生成包含特征条形码矩阵的多个文件。在一些此类实施例中，转录组参考具有针对10个或更多个基因、25个或更多个基因、50个或更多个基因、500个或更多个基因、750个或更多个基因、1000个或更多个基因、2000个或更多个基因、5000个或更多个基因或10000个或更多个基因的序列，其中每个序列读段与所述基因进行比对。在一些实施例中，在特征条形码矩阵中，每个条目对应于多个RNA分子，所述RNA分子接近(例如，在其顶部上)与特定的基因座(例如，基因特征)对齐的相应探针斑点(例如，每个RNA分子已通过与相应探针斑点相对应的条形码结合)。

在一些实施例中，图像(附图标记125)的每个捕获区域都由多个打印的基准点表示(例如，勾勒)(例如，以识别每个捕获区域的位置)。在一些实施例中，多个打印的基准点(例如，图7中的点706)各自打印成勾勒每个捕获区域的对应矩阵。将基准位置存储在离散属性值数据集120中(例如，cloupe文件)作为另外的投影，类似于cloupe数据集中其它的斑点。本文所讨论的，通过从图像设置图选择“基准斑点”，这些基准位置对于空间数据集是可见查看的，如图9B中所示的。当选择时，将近似于基准标记大小的圆圈或如矩形星等其它闭合形式的几何标记叠加在图像上。因为基板创建过程在基准标记的位置中留下了可见的斑点，因此这些基准位置应理想地与图像中可见的标记对齐，如例如图14中所示的。当这样进行时，这保证了经条形编码的斑点相对于图像位于正确位置。当不这样进行时，应提示用户试图将图像重新对齐。在一些实施例中，基准斑点将表现为单一颜色的斑点或两种颜色的斑点：在图像顶部的角斑点和剩余的帧斑点。在一些实施例中，基准斑点在图像设置中是可切换的。

在一些实施例中，多个探针斑点中的特定探针斑点126中的每个基因座122的离散属性值124结合探针斑点126在基板上的空间识别来确定。在每个探针斑点126是探针斑点并且每个基因座是映射到特定基因的mRNA的情况下，此类实施例提供了开发探针斑点之间的异质性的能力，这是由本公开的系统和方法提供的模式分析的一种形式。在一些此类实施例中，由于测量了mRNA丰度，所以探针斑点样品中的mRNA丰度在探针斑点之间的差异可能很大。因此，所公开的系统和方法能够使得分析在探针斑点中的每个探针斑点中表达了哪些基因以及以什么水平表达和使用这些基因谱(离散属性值124的记录)，或者源自其的主成分以对探针斑点进行聚类并且识别相关探针斑点的集合。例如，所公开的系统和方法允许在组织的不同区域、不同器官或关于探针斑点异质性的其它来源中进行相似的基因谱的识别。

如此，在一些实施例中，与对应探针斑点相关联的每个基因座122表示一个或多个mRNA(例如，映射到用于从其组织采样的受试者的参考基因组中的基因的一个或多个mRNA)，并且离散属性值124是已在每个探针斑点中测量的mRNA的多个拷贝。

在一些此类实施例中，离散属性值数据集120包含由数据集表示的每个空间投影121的每个图像(附图标记125)的每个探针斑点中的5个或更多个、10个或更多个、25个或更多个、35个或更多个、50个或更多个、100个或更多个、250个或更多个、500个或更多个、1000个或更多个、3000个或更多个、5000个或更多个、10,000个或更多个或15,000个或更多个不同mRNA的离散属性值。在一些实施例中，每个此类mRNA表示不同的基因，并且因此离散属性值数据集120包含由数据集表示的每个空间投影121的每个图像(附图标记125)的每个探针斑点中的5个或更多个、10个或更多个、25个或更多个、35个或更多个、50个或更多个、100个或更多个、250个或更多个、500个或更多个、1000个或更多个、3000个或更多个、5000个或更多个、10,000个或更多个或15,000个或更多个不同基因的离散属性值。在一些实施例中，每个此类mRNA表示不同的基因，并且因此离散属性值数据集120包含由数据集表示的每个空间投影121的每个图像(附图标记125)的每个探针斑点中的5个与20,000个不同基因之间的、或不同基因或不同基因的开放阅读框的变体的离散属性值。更通常地，在一些此类实施例中，离散属性值数据集120包含由数据集表示的每个空间投影121的每个图像(附图标记125)的每个探针斑点中的5个或更多个、10个或更多个、25个或更多个、35个或更多个、50个或更多个、100个或更多个、250个或更多个、500个或更多个、1000个或更多个、3000个或更多个、5000个或更多个、10,000个或更多个或15,000个或更多个不同分析物的离散属性值，其中每个此类分析物是不同的基因、蛋白质、细胞表面特征、mRNA、胞内蛋白质、代谢物、V(D)J序列、免疫细胞受体或扰动剂。关于此类分析物如何进行空间定量的普遍公开，参见于2020年2月21日提交的代理人案号为104371-5033-PR01的题为“用于分析分析物的流水线”的美国临时专利申请第62/980,073号，所述美国临时专利申请特此通过引用并入。关于如何使用例如聚类和/或t-SNE(其中此类簇和/或t-SNE绘图可以显示在链接窗口中)对ATAC进行空间定量的普遍公开，参见题为“使用核酸测序进行细胞分析的系统和方法(Systemsand Methods for Cellular Analysis Using Nucleic Acid Sequencing)”的美国公开第US-2020105373-A1号，所述美国公开特此通过引用并入。关于如何使用例如聚类和/或t-SNE(其中此类簇和/或t-SNE绘图可以显示在链接窗口中)对V(D)J序列进行空间定量的普遍公开，参见于2018年5月19日提交的题为“用于克隆型筛选的系统和方法(Systems andMethods for Clonotype Screening)”的美国专利申请第15/984,324号，所述美国专利申请特此通过引用并入。

在一些实施例中，将针对多于50个、多于100个、多于500个或多于1000个不同基因座的mRNA定位到单个探针斑点，并且对于每个此类相应基因座，识别了一个或多个UMI，这意味着存在对相应基因座进行编码的一个或多个mRNA基因座。在一些实施例中，将相应基因座的多于十个、多于一百个、多于一千个或多于一万个UMI定位到单个探针斑点。

在一些实施例中，离散属性值数据集120包含离散属性值数据集120内的每个空间投影121的每个图像(附图标记125)的500个或更多个探针斑点、5000个或更多个探针斑点、100,000个或更多个探针斑点、250,000个或更多个探针斑点、500,000个或更多个探针斑点、1,000,000个或更多个探针斑点、1000万个或更多个探针斑点或5000万个或更多个探针斑点的mRNA的离散属性值。在一些此类实施例中，每个此类离散属性值是映射到对应探针斑点内的对应基因座的唯一UMI的数量的计数。

在一些实施例中，天然图像(附图标记125)的文件大小介于0.5千兆字节与10千兆字节之间。在一些实施例中，天然图像(附图标记125)的文件大小介于0.5千兆字节与25千兆字节之间。在一些实施例中，天然图像(附图标记125)包含1百万到2500万个像素。在一些实施例中，每个探针斑点由天然图像(附图标记125)中五个或更多个、十个或更多个、100个或更多个、1000个或更多个连续像素表示。在一些实施例中，每个探针斑点由天然图像(附图标记125)中的1000个到250,000个连续像素表示。在一些实施例中，每个天然图像(附图标记125)以任何文件格式存在，包含但不限于JPEG/JFIF、TIFF、Exif、PDF、EPS、GIF、BMP、PNG、PPM、PGM、PBM、PNM、WebP、HDR光栅格式、HEIF、BAT、BPG、DEEP、DRW、ECW、FITS、FLIF、ICO、ILBM、IMG、PAM、PCX、PGF、JPEG XR、分层图像文件格式、PLBM、SGI、SID、CD5、CPT、PSD、PSP、XCF、PDN、CGM、SVG、PostScript、PCT、WMF、EMF、SWF、XAML和/或RAW。

在一些实施例中，获得呈任何电子颜色模式的图像，包含但不限于灰度、位图、索引、RGB、CMYK、HSV、lab颜色、双色调和/或多通道。在一些实施例中，对图像进行操纵(例如，拼接、压缩和/或平整)。在一些实施例中，图像大小介于1KB与1MB之间、介于1MB与0.5GB之间、介于0.5GB与5GB之间、介于5GB与10GB或大于10GB。在一些实施例中，图像包含1百万到2500万个像素。在一些实施例中，每个捕获斑点由图像中的五个或更多个、十个或更多个、100个或更多个、1000个或更多个连续像素表示。在一些实施例中，每个捕获斑点由天然图像(附图标记125)中的1000个到250,000个连续像素表示。

在一些实施例中，图像表示为包括多个像素的阵列(例如，矩阵)，使得阵列(例如，矩阵)中的所述多个像素中的每个相应像素的位置对应于其在图像中的原始位置。在一些实施例中，图像表示为包括多个像素的向量，使得向量中的所述多个像素中的每个相应像素包括与其在图像中原始位置相对应的空间信息。

在一些实施例中，图像(附图标记125)是使用具有明场和荧光容量(TRITC)的Nikon Eclipse Ti2或ImageXpress Nano自动细胞成像系统或等效物获得的。在一些实施例中，图像(附图标记125)是使用具有4倍(平面APOλ；NA 0.20)、10倍(平面APOλ；NA 0.45)或20倍(平面APOλ；NA 0.75)物镜或等效物的显微镜获得的。

在一些实施例中，图像(附图标记125)是彩色图像(例如，3×8比特，2424×2424像素分辨率)。在一些实施例中，图像(附图标记125)是单色图像(例如，14比特，2424×2424像素分辨率)。

在一些实施例中，图像使用透射光显微术获得。在一些实施例中，在成像之前使用例如荧光、放射性、化学发光、量热或比色可检测标记将生物样品染色。在一些实施例中，使用活/死染液(例如，台盼蓝)将生物样品染色。在一些实施例中，将生物样品用以下来染色：苏木素和伊红、过碘酸-希夫反应染液(将碳水化合物和富含碳水化合物的大分子染色成深红色)、马松三色染液(将细胞核和其它嗜碱性结构染色成蓝色，将细胞质、肌肉、红细胞和角蛋白染色成鲜红色，将胶原蛋白染色成绿色或蓝色，这取决于所使用的技术的变体)、阿尔新蓝染液(一种粘蛋白染液，其将某些类型的粘蛋白染色成蓝色，并且将软骨染色成蓝色，并且可以与H&E，以及与范吉森染液一起使用)、范吉森染液(将胶原蛋白染色成红色，将细胞核染色成蓝色，并且将红细胞和细胞质染色成黄色，并且可以与弹性蛋白染液组合，所述弹性蛋白染液将弹性蛋白染成蓝色/黑色)、网状纤维染液、Azan染液、吉姆萨染液、甲苯胺蓝染液、艾沙明蓝/伊红染液、尼氏和亚甲基蓝染液、苏丹黑和锇染色和/或免疫荧光(IF)染液(例如，与抗体缀合的免疫荧光标记)。

在一些实施例中，给定图像(附图标记125)中的给定探针斑点126的给定基因座122的离散属性值124为集合{0,1,…,100}中的数字。在一些实施例中，给定图像(附图标记125)中的给定探针斑点126的给定基因座122的离散属性值124为集合{0,1,…,50}中的数字。在一些实施例中，给定图像(附图标记125)中的给定探针斑点126的给定基因座122的离散属性值124为集合{0,1,…,30}中的数字。在一些实施例中，给定图像(附图标记125)中的给定探针斑点126的给定基因座122的离散属性值124为集合{0,1,…,N}中的数字，其中N为正整数。

在一些此类实施例中，离散属性值数据集120包含由数据集表示的每个空间投影121中的每个图像(附图标记125)中的每个探针斑点126中的25个或更多个、50个或更多个、100个或更多个、250个或更多个、1000个或更多个、3000个或更多个、5000个或更多个、10,000个或更多个或15,000个或更多个基因座122的离散属性值。在一些此类实施例中，离散属性值数据集120包含离散属性值数据集120中的每个空间投影121的每个图像(附图标记125)的500个或更多个探针斑点、5000个或更多个探针斑点、100,000个或更多个探针斑点、250,000个或更多个探针斑点、500,000个或更多个探针斑点、1,000,000个或更多个探针斑点、1000万个或更多个探针斑点或5000万个或更多个探针斑点的基因座的离散属性值124。

在一些此类实施例中，离散属性值数据集120包含由数据集表示的每个空间投影121中的每个图像(附图标记125)中的每个探针斑点126中的50个或更多个、100个或更多个、250个或更多个、500个或更多个、1000个或更多个、3000个或更多个、5000个或更多个、10,000个或更多个或15,000个或更多个分析物的离散属性值。在一些此类实施例中，离散属性值数据集120包含离散属性值数据集120中的每个空间投影121的每个图像(附图标记125)的50个或更多个探针斑点、100个或更多个探针斑点、250个或更多个探针斑点、500个或更多个探针斑点、5000个或更多个探针斑点、100,000个或更多个探针斑点、250,000个或更多个探针斑点、500,000个或更多个探针斑点、1,000,000个或更多个探针斑点、1000万个或更多个探针斑点或5000万个或更多个探针斑点的分析物的离散属性值124。

如上述范围所指示的，本公开的系统和方法支持由于传统装置中的永久性存储器112大小限制而可能难以存储在传统装置的永久性存储器112中的非常巨大的离散属性值数据集120。此外，本公开的系统和方法被设计成用于数据集的稀疏度显著大于百分之二十的数据(例如，数据集中至少40％的值是零，数据集中至少50％的值是零，数据集中至少60％的值是零，数据集中至少70％的值是零，数据集中至少80％的值是零或者数据集中至少90％的值是零)。零值元素的数量除以元素总数(例如，m×n表示m×n矩阵)被称为矩阵的稀疏度(其等于1减去矩阵的密度)。在存储在离散属性值数据集120中的数据是mRNA表达数据的情况下，其中每个基因座122表示特定mRNA，同时在人基因组中存在大约两万个基因，大部分基因在任何给定时间不在探针斑点中表达。因此，在许多实例中，预期此类数据将具有接近百分之二的稀疏度。因此，有利地，为了解决传统计算机的永久性存储器(例如，磁性驱动器或固态驱动器)112限制的大小约束，在一些实施例中，离散属性值数据集120以可以在基因座122基础和探针斑点126基础上搜索的压缩稀疏矩阵表示来表示。为了完成这个，离散属性值数据集120以压缩稀疏行格式和压缩稀疏列格式两者冗余地表示空间投影121中的图像(附图标记125)的多个探针斑点中的每个相应探针斑点126的多个基因座中的每个基因座122的对应离散属性值124，在所述压缩稀疏行格式和所述压缩稀疏列格式下，相应探针斑点的具有无效离散属性数据值的基因座任选地被丢弃。

在一些实施例中，在本公开的系统和方法中使用的基因条形码矩阵的平均密度为大约百分之二。因此，如果基因座(例如，基因)被视为稠密矩阵，那么仅百分之二的基因座将具有非零的数据。在稀疏矩阵的情况下，所有零被丢弃。因此，稀疏矩阵使得数据集适应永久性存储器112。然而，在本公开的典型的离散属性值数据集120的情况下，一旦使用五十万或更多的探针斑点126，存储器占用空间仍然过高。因此，在一些实施例中，将数据的面向行或面向列的稀疏矩阵表示以经压缩生物块(例如，bgzf块)存储在永久性存储器112中以支持快速表达分析，这需要检查各个探针斑点的数据(例如，基因座的离散属性值)。在基因座“基因3”的情况下，通过查看基因3的数据集中的地址来访问基因3的离散属性值，这由此识别了基因3的数据所驻留的块。如此，当进行离散属性值数据集120中的探针斑点的子集的微分表达式时，首先需要单独探针斑点的地址。

因此，在一些实施例中，离散属性值数据集120以压缩稀疏行(CSR)格式存储。此处，术语“压缩稀疏行”与术语“压缩稀疏列”(CSC)格式互换使用。CSR格式使用三个(一维)阵列(A,IA,JA)以行形式存储稀疏m×n矩阵M。此处，NNZ表示M中的非零条目的数量(注意，此处应使用基于零的索引)，并且阵列A的长度是NNZ并且阵列A以从左到右从上到下(行主序)的次序保持M的所有非零条目。阵列IA的长度是m+1。其由此递归定义来定义：

IA[0]＝0；

IA[i]＝IA[i-1]+(原始矩阵中的第(i-1)行上的非零元素的数量)。

因此，IA的前m个元素将索引存储到M的每一行中的第一非零元素的A中，并且最后一个元素IA[m]存储NNZ，即A中的元素数，其还可以被视为刚好超出矩阵M的末尾的幻影行的第一元素的A中的索引。原始矩阵的第i行的值从元素A[IA[i]]读到元素A[IA[i+1]-1](包含两个末尾)，例如，从一行的开始读到下一行的开始之前的最后一个索引。

第三阵列JA含有M中的A的每个元素的列索引并且因此长度也为NNZ。

例如，矩阵M

是具有4个非零元素的4×4矩阵，因此

A＝[5836]

IA＝[00234]

JA＝[0121]

在上述矩阵M的一个实施方案中，每行表示不同的探针斑点126，并且给定行的每个元素表示与不同探针斑点相关联的不同基因座122。进一步地，给定矩阵元素处的值表示基因座124的离散属性值。

在一些实施例中，离散属性值数据集120还以压缩稀疏列(CSC或CCS)格式存储。CSC类似于CSR，除了值首先由列读取，针对每个值存储行索引，并且存储了列指示器。例如，CSC是(val，行_ind，列_ptr)，其中val是矩阵的(从上到下，然后从左到右)的非零值的阵列；行_ind是与值相对应的行索引；并且列_ptr是每列开始的val索引的列表。

除了以压缩稀疏行格式和压缩稀疏列格式两者冗余地表示离散属性值数据集120中的给定空间投影121中的给定图像(附图标记125)的多个探针斑点中的每个相应探针斑点126的多个基因座中的每个基因座122的对应离散属性值124，离散属性值数据集120根据分块压缩算法进行压缩。在一些此类实施例中，这涉及使用如bgzf等分块压缩算法压缩A和JA数据结构但不压缩IA数据结构并且将此存储在永久性存储器112中。此外，用于压缩A的索引和用于压缩JA的索引使得能够随机寻找压缩数据。以这种方式，虽然压缩了离散属性值数据集120，其可以高效获得并且存储。要获得特定离散属性值124所需要做的就是寻找永久性存储器112中正确的块并且解压含有值的块并且在所述块内读取所述值。因此，某些操作例如参考图4计算以下所描述的微分热图，对于本公开的系统和方法是有利快速的，这是因为其提前已知期望的离散属性值124在哪个压缩数据的块中。换句话说，本公开的系统和方法从查看稀疏矩阵的行地址值来了解特定寻求的探针斑点在哪行，所述行存储在压缩值外部。因此，所需要做的就是查找出哪个块具有寻求的基因座数据以及其离散属性值是什么，算法跳到含有数据的正确块(例如，bgzf块)中的斑点。

在一些实施例中，离散属性值数据集120表示以映射到基因的转录物读段的计数对来自探针斑点的基因表达进行定量的全转录组测序(RNA-seq)实验。在一些实施例中，离散属性值数据集120表示测序实验，其中诱饵用于选择性过滤并且摧毁所关注的基因集，例如在于2020年2月21日提交的代理人案号为104371-5028-PR02的题为“使用杂交/捕获方法捕获靶向的遗传靶标”的美国临时专利申请第62/979,889号中公开，所述美国临时专利申请特此通过引用并入。

框206-对数据集进行聚类。在一些实施例中，一旦例如使用图3中所展示的接口选择离散属性值数据集120，那么离散属性值数据集120中的离散属性值124由可视化模块119的聚类模块152所使用以取得离散属性值数据集120。图4展示了此类聚类的可视化。在图4中，聚类结果显示于图(附图标记420)的下层图像(附图标记125)的顶部。

在一些实施例中，在实施所公开的方法之前进行聚类。例如，在一些实施例中，离散属性值数据集120已包含离散属性数据集中的每个探针斑点的簇分配。

无论聚类是否在检索离散属性数据集之后进行或者离散属性值数据集已包含每个探针斑点的簇分配，所获得的是离散属性值数据集的所述多个探针斑点中的每个相应探针斑点的多个簇中的对应簇分配。(每个相应探针斑点的)对应簇分配至少部分地基于相应探针斑点的对应多个离散属性值(例如，离散属性值数据集中的空间映射到相应探针斑点的离散属性值)，或至少部分由相应探针斑点的对应多个离散属性值得出的对应多个降维成分。

在典型的实施例中，存储在离散属性值数据集120中的主成分值已使用离散属性值数据集120的跨多个探针斑点126的基因座122的离散属性值124通过主成分分析的方法来计算，所述主成分值用于进行簇可视化，如图4中所展示的。

在存在多个图像(附图标记125)和/或多个空间投影的一些实施例中，主成分使用跨离散属性数据集120的每个空间投影121的跨每个图像(附图标记125)的探针斑点的每个实例的离散属性值来计算。在一些替代性实施例中，探针斑点的每个实例的离散属性值的仅子集的主成分是跨离散属性数据集120的每个空间投影121跨每个图像(附图标记125)计算的。例如，在一些实施例中，一组所选基因座124(而不是所有基因座)的主成分是跨离散属性数据集120的每个空间投影121跨每个图像(附图标记125)计算的。在一些替代性实施例中，探针斑点的每个实例的离散属性值的主成分是跨离散属性数据集120的单个空间投影121的每个图像(附图标记125)计算的。在一些替代性实施例中，探针斑点的每个实例的离散属性值的主成分是跨离散属性数据集120的空间投影121的子集跨每个图像(附图标记125)计算的。在一些实施例中，用户选择此子集。在一些替代性实施例中，探针斑点的每个实例的离散属性值的主成分是跨离散属性数据集120的每个空间投影121的跨图像(附图标记125)的子集计算的。例如，在一些实施例中，单个通道(单个图像类型)是用户所选的，并且探针斑点的每个实例的离散属性值的主成分是跨离散属性数据集120的每个空间投影121跨此单个通道计算的。

主成分分析(PCA)是一种将多个相关变量减少为较少的不相关变量(被称为“主成分”)的数学程序。选择第一个主成分，使得其尽可能地说明数据的可变性，并且每个后续成分尽可能地说明剩余的可变性。PCA的目的为发现或降低数据集的维数并识别新的有意义的潜在变量。PCA通过在协方差矩阵或相关矩阵中建立实际数据来实现。PCA中使用的数学技术被称为特征分析(eigen analysis)：用平方和叉积的和求解一个平方对称矩阵的特征值(eigenvalue)和特征向量(eigenvector)。与最大特征值相关联的特征向量具有与第一主成分相同的方向。与第二大特征值相关联的特征向量确定第二主成分的方向。特征值之和等于方阵的迹线，并且特征向量的最大数量等于此矩阵的行数(或列数)。参见例如Duda、Hart和Stork,《模式分类(Pattern Classification)》,第二版,纽约的约翰·威利父子公司(John Wiley&Sons,Inc.,NY),2000,第115-116页，所述文献特此通过引用并入。

在存在多个图像(附图标记125)和/或多个空间投影的一些实施例中，并非对主成分进行聚类，而是对跨离散属性数据集120的每个空间投影121的跨每个图像(附图标记125)的探针斑点的每个实例的离散属性值进行聚类。在一些替代性实施例中，对跨离散属性数据集120的每个空间投影121的跨每个图像(附图标记125)的探针斑点的每个实例的离散属性值的仅子集进行聚类。例如，在一些实施例中，对跨离散属性数据集120的每个空间投影121的跨每个图像(附图标记125)的一组所选基因座124(而不是所有基因座)的离散属性值进行聚类。在一些替代性实施例中，对离散属性数据集120的单个空间投影121的跨每个图像(附图标记125)的探针斑点的每个实例的离散属性值进行聚类。在一些替代性实施例中，对跨离散属性数据集120的空间投影121的子集的跨每个图像(附图标记125)的探针斑点的每个实例的离散属性值进行聚类。在一些实施例中，用户选择此子集。在一些替代性实施例中，对跨离散属性数据集120的每个空间投影121的跨图像(附图标记125)的子集的探针斑点的每个实例的离散属性值进行聚类。例如，在一些实施例中，单个通道(单个图像类型)是用户所选的，并且对跨离散属性数据集120的每个空间投影121的跨此单个通道的探针斑点的每个实例的离散属性值进行聚类。

参考框208，在一些实施例中，(例如，主成分值和/或离散属性值的)上述聚类在远程计算机系统上在先前时间进行。换句话说，在一些实施例中，每个探针斑点126的簇分配在存储离散属性值数据集120之前已进行。在此类实施例中，离散属性值数据集120包含每个探针斑点的簇分配158，如图1B所展示的。

在一些实施例中，每个探针斑点126的簇分配并非在存储离散属性值数据集120之前进行，而是主成分值164的所有主成分分析计算都在存储离散属性值数据集120之前进行。在此类实施例中，通过图1A的聚类模块152进行聚类。

对于根据本公开的系统和方法的一个实施例的聚类，无论进行哪个阶段，都要考虑每个探针斑点126与十个基因座122相关联的情况。十个基因座的每一个表示研究中的不同特征，如不同抗体、参考基因组的不同区域等。在这种情况下，可以将每个探针斑点126表示为向量：

其中X_i是与给定空间投影中的探针斑点126相关联的基因座i 124的离散属性值124。因此，考虑了离散属性值包括单个图像和单个投影并且在此单个图像中存在一千个探针斑点的情况。在这种情况下，定义了1000个向量。现在，考虑了离散属性值包括三个投影中的每一个中的两个图像并且在图像的每一个中存在一千个探针斑点的情况。在这种情况下，定义了3×1000或3000个向量。跨数据集102的所述一组基因座122表现出相似离散属性值的这些探针斑点126将倾向于聚类在一起。例如，在每个探针斑点126是单个细胞的情况下，基因座122对应于映射到此类单个细胞内的单个基因的mRNA，并且离散属性值124是此类mRNA的mRNA计数。情况正是如此，在一些实施例中，离散属性值数据集120包含来自一种或多种探针斑点类型(种类，例如，患病状态和未患病状态)、两种或更多种探针斑点类型或三种或更多种探针斑点类型的mRNA数据。在这种情况下，预期相似类型的探针斑点将倾向于跨所述一组基因座(mRNA)具有相似的mRNA值，并且因此聚类在一起。例如，如果离散属性值数据集120包含：种类a：来自患有疾病的受试者的探针斑点；和种类b：来自未患疾病的受试者的探针斑点，则理想的聚类分类器将会把离散属性值数据集120聚类成两组，其中一个簇组唯一地表示种类a，并且另一个簇组唯一地表示种类b。

对于根据本公开的系统和方法的另一个实施例的聚类，无论在哪个阶段进行聚类，都要考虑每个探针斑点126与十个主成分值相关联的情况，所述十个主成分值共同表示给定探针斑点的大量基因座122的离散属性值相对于数据集中的其它探针斑点的对应基因座122的离散属性值的变化。这可以针对单个图像(附图标记125)，跨单个空间投影121中的所有图像或图像子集，或跨离散属性值数据集120中的多个空间投影125中的所有空间投影或空间投影子集的图像中的所有图像或图像子集。在这种情况下，可以将每个探针斑点126表示为向量：

其中X_i是与探针斑点126关联的主成分值164i。因此，如果存在一千个探针斑点126每图像，那么跨图像定义了总计一千个向量。表示跨主成分值164的集合表现出相似离散属性值的这些探针斑点126的向量将倾向于聚类在一起。情况正是如此，在一些实施例中，离散属性值数据集120包含来自一种或多种探针斑点类型(例如，患病状态和未患病状态)、两种或更多种探针斑点类型或三种或更多种探针斑点类型的mRNA数据。在这种情况下，预期相似类型的探针斑点将倾向于跨所述一组基因座(mRNA)具有相似的mRNA值，并且因此聚类在一起。例如，如果离散属性值数据集120包含：种类a：来自患有疾病的受试者的探针斑点；和种类b：来自患有疾病的受试者的探针斑点，则理想的聚类分类器将会把离散属性值数据集120聚类成两组，其中一个簇组唯一地表示种类a，并且另一个簇组唯一地表示种类b。

在以下文献中描述了聚类：Duda和Hart,《模式分类与场景分析(PatternClassification and Scene Analysis)》的第211-256页,1973,纽约的约翰·威利父子公司(以下称为“Duda 1973”)，所述文献特此通过引用整体并入。如Duda 1973第6.7节所描述的，聚类问题被描述为在数据集中寻找自然分组的问题。为了识别自然分组，解决了两个问题。第一，确定测量两个样品之间的相似度(或相异度)的方式。使用此度量(相似度度量)确保一个簇中的样品比其它簇中的样品彼此更相似。第二，确定用于使用相似度度量将数据划分成簇的机制。

Duda 1973第6.7节中讨论了相似度度量，其中指出，开始聚类调查的一种方式是定义距离函数并且计算数据集中的所有样品对之间的距离的矩阵。如果距离是相似度的良好度量，则相同簇中的样品之间的距离将显著小于不同簇中的样品之间的距离。然而，如Duda 1973第215页所陈述，聚类不需要使用距离度量。例如，可以使用非度量相似度函数s(x,x')比较两个向量x和x'。通常，当x和x'在某种程度上“相似”时，s(x,x')为值较大的对称函数。Duda 1973第216页提供了非度量相似度函数s(x,x')的实例。

一旦已经选择了用于测量数据集中的点之间的“相似度”或“相异度”的方法，聚类就需要测量数据的任何分区的聚类质量的准则函数。使用将准则函数极值化的数据集的分区对数据进行聚类。参见Duda 1973第217页。在Duda 1973第6.8节讨论了准则函数。

最近，已出版了Duda等人,《模式分类》,第二版,纽约的约翰·威利父子公司，所述文献特此通过引用并入。第537-563页详细地描述了聚类。可以在以下文献中找到关于聚类技术的更多信息：Kaufman和Rousseeuw,1990,《数据调查组：聚类分析导论(FindingGroups in Data:An Introduction to Cluster Analysis)》,纽约州纽约的威利出版社(Wiley,New York,N.Y.)；Everitt,1993,《簇分析(Cluster analysis)》,(第三版),纽约州纽约的威利出版社(Wiley,New York,N.Y.)；以及Backer,1995,《计算机辅助簇分析推理(Computer-Assisted Reasoning in Cluster Analysis)》,新泽西州上马鞍河的普伦蒂斯·霍尔出版社(Prentice Hall，Upper Saddle River,N.J.)。参考框210-212，可以在本公开的系统和方法中用于对多个向量(其中所述多个向量中的每个相应向量包括跨对应探针斑点126的基因座122的离散属性值124(或根据其得出的主成分))进行聚类的具体的示例性聚类技术包含但不限于层次聚类(使用最近邻算法、最远邻算法、均链接算法(averagelinkage algorithm)、质心算法(centroid algorithm)或平方和算法的凝聚聚类(agglomerative clustering))、k均值聚类、模糊k均值聚类算法和贾维斯-帕特里克聚类(Jarvis-Patrick clustering)。

因此，在一些实施例中，聚类模块152使用跨离散属性值数据集120中的一个或多个空间投影中的一个或多个图像的所述多个探针斑点中的每个相应探针斑点126的所述多个基因座中的每个基因座122的离散属性值124或由离散属性值124得出的主成分值164对离散属性值数据集120进行聚类，由此将所述多个探针斑点中的每个相应探针斑点126分配给多个簇中的对应簇158，并且由此将簇属性值分配给在分析中使用的每个图像的所述多个探针斑点中的每个相应探针斑点。

参考框214，在本公开的一个实施例中，使用k均值聚类。k均值聚类的目标是基于各个探针斑点的主成分或离散属性值将离散属性值数据集120聚类成K个分区。参考框214，在一些实施例中，K是介于2与50(包含2和50)之间的数字。在一些实施例中，将数字K设置为如10等预定数字。在一些实施例中，针对特定离散属性值数据集120对数字K进行优化。参考框216，在一些实施例中，用户使用可视化模块119设置数字K。

图4展示了已将构成来自多个探针斑点的数据的多通道聚合数据集120聚类成十一个簇158的实例。在一些实施例中，对于k均值聚类，用户预先选择聚类算法将在聚类之前计算多少簇。在一些实施例中，选择了簇的未预定数字。相反，进行聚类直到达到预定的收敛标准。在确定预定数量的簇的实施例中，然后本公开的k均值聚类用在二维空间中随机初始化的K个簇中心μ₁、…、μ_K来初始化。如上文所讨论的，对于数据集中的每个相应探针斑点126i，向量X_i由与相应探针斑点126相关联的每个主成分值164构成。在K等于10的情况下，选择十个此类向量作为十个簇的中心。然后，将与未被选为簇中心的探针斑点126相对应的每个剩余向量/>分配给其最近的簇中心：

其中是最接近于使用目标函数的μ_k的实例集合：

其中μ₁、…、μ_K是K个簇中心，并且r_nk∈{0,1}是指示探针斑点是否属于簇k的指示符。然后，重新计算新的簇中心μ_k(集合/>的均值/质心)：

然后，如前所述将与实体126相对应的所有向量分配给最近的经更新的簇中心。在不收敛的情况下重复此操作。可以使用多种收敛标准中的任何一种。一种可能的收敛标准是在重新计算时簇中心不会改变。k均值聚类计算每个相应实体126的评分，所述评分考虑了相应实体与相应探针斑点已分配的簇158的质心之间的距离。在一些实施例中，将此评分存储为探针斑点126的簇属性值160。

一旦识别了聚类，如图4中所展示的，就可以选择各个簇进行显示。例如，参考图4，单独选择或取消选择功能可见性440以显示对应簇158或将其从显示中去除。

如图4中所展示的，根据本公开的系统和方法，在典型实施例中，所述多个簇中的每个相应簇158由第二多个探针斑点126的唯一不同子集组成。此外，因为在典型实施例中，离散属性值数据集120太大而无法加载到非永久性存储器111中，所以在典型实施例中，在聚类期间的任何给定时间，此聚类将少于离散属性值数据集120的全部加载到非永久性存储器111中。例如，在离散属性值数据集120已使用bgzf压缩的实施例中，在离散属性值数据集120的聚类期间，将离散属性值数据集120的块的仅子集加载到非永久性存储器中。一旦已将离散属性值数据集120的块的一个子集从永久性存储器112加载到非永久性存储器111中并根据聚类算法(例如，k均值聚类)进行处理，那么将数据块的子集从非永久性存储器111丢弃，并且将离散属性值数据集120的块的不同子集从永久性存储器112加载到非永久性存储器111中并根据聚类模块152的聚类算法进行处理。

在一些实施例中，k均值聚类用于将探针斑点126分配给簇158。在一些此类实施例中，k均值聚类使用每个探针斑点126的主成分值164作为输入，作为将探针斑点聚类成簇的基础。因此，k均值算法根据高维数据(主成分值的集合)计算探针斑点的相似簇并且然后经过一定的分辨率，k均值聚类试图使误差最小化。以这种方式，k均值聚类提供了簇分配158，所述簇分配记录在离散属性值数据集120中。在一些实施例中，在k均值聚类的情况下，用户预先决定将存在多少簇158。在一些实施例中，通过运行一系列k均值聚类运行来利用k均值簇的特征，每个不同的运行具有不同数量的簇(K的不同值)。因此，在一些实施例中，对每个探针斑点122的主成分数据值164进行单独的k均值聚类，范围从两个簇到十一个簇，其中每个k均值聚类识别可分离性评分(例如，质量评分)并且每个聚类的所有结果嵌入在从K＝2到K＝11的离散属性值数据集120中。在一些此类实施例中，针对K＝2到K＝25执行此类聚类。在一些此类实施例中，针对K＝2到K＝100执行此类聚类。在此类实施例中，默认显示的聚类是具有最高可分离性评分的k均值聚类(1、…、N)。在图4中，每个簇158以不同的颜色显示。在其它实施例中，每个簇158以不同的点图案或散列图案显示。

本文所描述的k均值聚类算法阐明了数据内的相似簇158。不能保证所有簇158都表示生理上显著的事件。换句话说，先验地，在一些情况下不知道簇158意味着什么。已知算法已确定在由不同颜色或不同散列模式或符号表示的探针斑点126之间存在差异。本公开的系统和方法提供了用于确定簇之间的差异背后是否存在任何意义的工具，如图(附图标记404)的热图。

参考框214，在本公开的一些实施例中，不是使用k均值聚类，而是使用鲁汶模块化算法(Louvain modularity algorithm)。参见Blondel等人,2008年7月25日,“大型网络中社区的快速展开(Fast unfolding of communities in large networks)”,arXiv:0803.0476v2[physical.coc-ph]，所述文献特此通过引用并入。在一些实施例中，用户可以选择聚类算法。在一些实施例中，用户可以至少在k均值聚类与鲁汶模块化算法之间进行选择。在一些实施例中，对数据集进行聚类包括将鲁汶模块化算法应用于图，所述图包括多个节点和多个边。在此类实施例中，所述多个节点中的每个节点表示所述多个探针斑点中的探针斑点。所述多个节点中的相应节点在N维空间中的坐标是所述多个探针斑点中的对应探针斑点的一组主成分。所述一组主成分由对应探针斑点的所述多个基因座的对应离散属性值得出，其中N是每组主成分中的主成分的数量。当第一节点在第一多个节点中的第二节点的k个最近邻节点中时，所述多个节点中的第一节点与第二节点之间的所述多个边中存在边，其中第二节点的k个最近邻节点是通过在N维空间中计算所述多个节点中的除第二节点之外的每个节点与第二节点之间的距离来确定的。在一些实施例中，距离是欧几里得距离(Euclidean distance)。在其它实施例中，使用其它距离度量(例如，切比雪夫距离(Chebyshev distance)、马哈拉诺比斯距离(Mahalanobis distance)、曼哈顿距离(Manhattan distance)等)。在典型实施例中，对于鲁汶模块化算法，没有对节点和边进行加权。换句话说，在此类实施例中，每个节点和每个边接收相同的权重。

框218-在第一窗口中显示第一投影的所述一个或多个图像中的图像的全部或一部分的像素值。参考框218，在一些实施例中，所述方法继续进行通过在所述显示器上的第一窗口中显示所述第一投影的所述一个或多个二维图像中的第一二维图像的全部或一部分的像素值。这在图17A中进行了说明。在图17A中，展示了图像，并且示出那些与样品叠置在基板上的位置，即区域1750相对应的像素相对于背景灰色着色。背景灰色反映了没有样品叠置在基板上的区域。图像的区域1750中的每个圆形斑点表示探针斑点。

块220-叠置簇标记。参考图2B的框220，所述方法继续进行通过在所述第一二维图像上显示并且与所述第一二维图像共对齐地显示：(i)所述多个探针斑点中的每个探针斑点的已分配给所述多个簇中的第一簇的第一标记和(ii)所述多个探针斑点中的每个探针斑点的已分配给所述多个簇中的第二簇的第二标记，由此识别所述形态学模式。参考图2B的框222，在一些实施例中，每个此类簇分配有不同的图形或颜色代码。进一步地，将所述多个探针斑点中的每个相应探针斑点126用不同的图形或颜色代码编码，以用于已分配有相应探针斑点的簇。图17A展示了。在图17A中，每个相应斑点已至少部分地基于相应探针斑点的对应多个离散属性值或至少部分地由相应探针斑点的对应多个离散属性值得出的对应多个降维成分分配到八个簇之一。通过簇分配的颜色编码揭示了下层生物样品内的形态学模式。例如，在图17A中，探针斑点的每个簇在生物模式内具有不同的形态学模式。取决于生物样品和每个簇内表达的性质，此类形态学模式可以提供对下层生物样品的有价值的见解。例如，形态学模式可以用于确定生物样品的疾病状态。作为另一个实例，形态学模式可以用于为生物样品的供体推荐治疗性治疗。

通过考虑关于淋巴细胞是否已成功浸润肿瘤的重要生物学问题，可以理解所公开的方法的实用性的实例。使用所公开的技术，淋巴细胞的表达谱可以与肿瘤细胞的表达谱不同。因此，淋巴细胞可以聚类(例如，通过结合框206的上述聚类)成第一簇，并且因此与存在淋巴细胞的组织样品的部分相对应的每个探针斑点可以具有第一标记簇。肿瘤细胞可以聚类成第二簇，并且因此不存在淋巴细胞的每个探针斑点可以具有针对第二簇的第二标记。在这种情况下，淋巴细胞浸润到肿瘤中的形态学模式可以通过使带有第一标记(表示淋巴细胞)的探针斑点在带有第二标记(表示肿瘤细胞)的探针斑点中来记录。淋巴细胞浸润到肿瘤中所展现的形态学模式将与有利的诊断相关，然而淋巴细胞不能够浸润肿瘤将与不利的诊断相关。因此，以这种方式，异质组织中细胞类型的空间关系(形态学模式)可以用于分析组织样品。

可以通过考虑关于肿瘤是否正在转移或确定正常健康组织内肿瘤的总体范围(例如，即使在肿瘤非常小并且难以通过传统的视觉方法辨别的情况下)的重要生物学问题来理解所公开方法的实用性的另一个实例。使用所公开的技术，与肿瘤相关联的癌细胞将具有与正常细胞不同的表达谱。因此，癌细胞可以使用所公开的方法聚类(例如，通过结合框206的上述聚类)成第一簇，并且因此与存在癌细胞的组织样品的部分相对应的每个探针斑点将具有第一标记簇。正常细胞可以聚类成第二簇，并且因此与不存在癌细胞的组织样品的部分相对应的每个探针斑点将具有针对第二簇的第二标记。如果是这种情况，癌细胞转移的形态学模式或肿瘤的形态(例如，正常健康组织样品内的形状和范围)可以通过使带有第一标记(表示癌细胞)的探针斑点在带有第二个标记(表示正常细胞)的探针斑点中来记录。

现在已经介绍了本公开的系统和方法的整体功能，注意力转向本公开提供的另外的特征。如图5所展示的，下图(附图标记502)按行和列布置。每行对应于不同基因座。每列对应于不同簇。在这种情况下，每个单元格展示了由单元格所处的行表示的基因座122跨由单元格所处的列表示的簇的探针126的平均离散属性值124相较于由离散属性值数据集120表示的簇的剩余部分中的探针斑点的相应基因座122的平均离散属性值124的变化倍数(例如，log₂变化倍数)。

下图(附图标记502)具有两种设置。第一是每簇的重要基因座122的层次聚类视图。在一些实施例中，表达的log₂变化倍数是指以下的log₂倍数值：(i)在受试者簇的映射到特定基因(基因座122)的探针斑点中的每个探针斑点中测量的转录物的平均数(离散属性值)和(ii)在除了受试者簇之外的所有簇的映射到特定基因的探针斑点中的每个探针斑点中测量的转录物的平均数。

在一些实施例中，在图5的下图(附图标记502)中选择特定基因座(行)导致与所述行相关联的基因座(特征)成为发布到活跃特征列表506的活跃特征。例如，如图5所展示的，来自下图(附图标记502)的基因座“CCDC80”已被选择并且因此基因座“CCDC80”在活跃特征列表506中。活跃特征列表506是用户已选择(例如，“CCDC80”)或上传的所有特征的列表。这些特征的表达模式显示在图5的图(附图标记504)中。如果多于一个特征位于活跃特征列表506中，则在图(附图标记504)中显示的表达模式对应于所有特征的组合(集中趋势的度量)。如果在活跃特征列表506中呈现或选择仅一个特征，则图(附图标记504)中叠置在天然图像(附图标记125)上的表达模式是对应于所选特征的表达模式。因此，在图5中，无论探针斑点在哪个簇中，离散属性值数据集120中的每个相应探针斑点都用与存在于上图(附图标记504)中的相应探针斑点126中的单个活跃特征CCDC80的多个转录物(例如，表达的log₂)相称的强度、颜色或其它形式的显示属性来展示。

在活跃特征列表506的底部处，存在控制如何在上图(附图标记504)中将数据可视化的多个选项。尺度和属性参数510控制如何在上图(附图标记504)中渲染表达模式。例如，切换按钮512设置要显示的尺度值(例如，Log₂、线性、对数归一化)。右上角的菜单设置了当活跃特征列表中存在多个特征时如何组合值。例如，在已为活跃特征列表506选择了两个特征(例如，基因座)的情况下，切换按钮514可以用于在每个探针斑点中显示特征最小值、特征最大值、特征总和，以用于特征平均值。因此，考虑选择特征(例如，基因座)A和B作为活跃特征列表506的活跃特征的情况。在这种情况下，选择“特征最小值”将导致每个相应探针斑点分配有颜色尺度上的与最小表达式值相称的颜色，换句话说，A的表达式或B的表达式，以较低者为准。因此，将针对相应探针斑点处的A和B的表达，对每个相应探针斑点进行独立评估，并且探针斑点由A和B的最低表达值着色。另一方面，切换按钮514可以用于选择每个探针斑点的活跃特征列表506中的特征中的最大特征值，或者对跨每个探针斑点的活跃特征列表506中的特征的特征值求和，或者跨每个探针斑点的活跃特征列表506中的特征提供集中趋势的度量，如平均值。

按计数选择菜单选项516控制如何过滤所显示的表达式值。例如，调色板510控制颜色尺度和值的范围。用户还可以通过取消选中自动尺度复选框(未示出)，输入值并点击更新最小值/最大值按钮(未示出)来选择手动设置颜色尺度的最小值和最大值。在手动设置最小值和最大值时，将值超出范围、小于最小值或大于最大值的斑点用灰色着色。如果活跃特征列表506中存在大量噪声或基因座或基因座组合的环境表达，这将特别有用。增加尺度的最小值过滤所述噪声。配置尺度以最佳地突显所关注的基因的表达也是有用的。

在图5中，颜色尺度508示出了CCDC80的Log₂表达，范围从0.0到5.0。以此方式，用户可以快速确定离散属性数据集120的探针斑点中的特定基因座的相对表达。此外，本公开不限于示出基因座的Log₂相对表达。在一些实施例中，切换按钮510可以用于展示活跃特征列表506中的特征在线性基础或对数归一化基础上的相对表达。此外，调色板510可以用于将颜色尺度508变化为其它颜色，以及设置所显示的最小值和最大值。

切换按钮518用于在“基因/特征表达”模式、“类别”模式和“过滤”模式之间切换。

在“基因/特征表达”模式中，用户可以通过点击功能可见性522来控制活跃特征列表506的模式图(附图标记520)中的内容。这允许用户从“新列表”选项、“编辑名称”选项、“删除列表”选项和“导入列表”选项中进行选择。“新列表”选项用于创建要可视化的自定义特征列表。“编辑名称”选项用于编辑活跃特征列表的名称。“删除列表”选项用于删除活跃特征列表。“导入列表”选项用于从外部来源导入活跃特征列表，而“新列表”选项用于创建要可视化的自定义特征列表。

当切换按钮518切换为“过滤器”模式时，用户可以编写复杂的布尔过滤器(Boolean filter)来查找满足选择标准的条形码。例如，用户可以基于特征计数或簇成员创建规则，并使用布尔运算符组合这些规则。然后，用户可以保存和加载过滤，并跨多个数据集使用这些过滤。

图5的图(附图标记502)以列格式提供log₂离散属性值124的表格表示，而图4的热图以行示出log₂离散属性值124。用户可以通过选择相应簇的列标签来选择任何相应簇158。这将所有基因座122重新排序，使得与所选簇158中的最显著的离散属性值124相关联的那些基因座排在第一位(例如，按照具有最显著的相关联的离散属性值124的大多数基因座的次序)。此外，针对所选簇中的每个基因座122的离散属性值提供p值，以提供所选簇158中的离散属性值124相对于所有其它簇158中相同基因座122的离散属性值124的统计显著性。在一些实施例中，这些p值是基于绝对离散属性值124，而非基于热图(附图标记402)中用于可视化的log₂值计算的。参考图5来展示，簇1中的具有最大相关联的离散属性值124基因座122ACKR1的p值为4.62e^-74。如图5所展示的，此p值用星系统注释，其中四星意味着针对给定的基因座，所选簇(图5中的k均值簇158-1)与其它簇之间存在显著差异，而较少的星意味着相对于所有其它簇，所选簇中的基因座122之间的离散属性值124的差异较小(例如，表达差异)。通过第二次点击所选簇158标签，整个表的排序被倒置，使得与最不显著的离散属性值124(例如，最少表达的)相关联的基因座122位于表的顶部处。针对另一个簇(例如，簇158-9)选择标签导致整个表502基于在与相关联的簇(例如，簇158-9)相关联的k均值簇中的探针斑点中的基因座122的离散属性值124重新排序。以这种方式，执行分选以更容易地允许对任何一个簇158中的离散属性值158相对于其余簇的差异进行定量检查。

如图5的选项卡552所展示的，可以通过按压选项卡552将值的表502导出到例如EXCEL.csv文件，此时提示用户将表保存为csv(或其它文件格式)。以这种方式，一旦用户完成了对k均值聚类的探索，选项卡552就允许用户导出这些值。此外，用户控制要导出的值(例如，前10个基因座、前20个基因座、前50个基因座、前100个基因座，其中“前”来自用户在图(附图标记502)中识别的簇的参考系)。因此，如果用户选择了列158-1和“前50个基因座”，则将选择簇1中的前50个基因座的离散属性值124以进行导出，并且将要导出的将是离散属性值数据集的簇中的每个簇中的这些50个基因座的离散属性值124(用于图5和图6的示例数据集中的簇1-11)。此外，在一些实施例中，用户能够例如使用图(附图标记404)将基因座列表加载到永久性存储器以及将来自所述永久性存储器的所述基因座列表保存。

此外，在一些实施例中，用户能够使用选择工具552来选择探针斑点。一旦选择了探针斑点，用户可以为选择分配类别名称，将探针斑点分配给特定簇或从所有簇中取消分配所选探针斑点。进一步地，用户可以使用功能可见性552以簇158的上述方式导出所选探针斑点中的靠前基因座。

再次参考图4，热图(附图标记402)提供了最佳的log₂微分，其中离散属性值124表示映射到给定探针斑点的转录物的数量，以便提供在给定探针斑点中每基因所见转录物数量的足够的动态范围。在一些实施例中，使用log₁₀微分表达式来代替log₂微分表达式。然而，在一些情况下，预期log₁₀不能提供足够的动态范围来适当地可视化k均值簇中的基因数据的相对表达。这是因为原始数据中零计数和一计数之间的区别也相当重要。因此，通常不期望用九与十之间的差异来盖过零与一之间的差异。离散属性值124微分中的零与一之间(一个簇与其它簇之间)的差异是显著跳变(significant jump)并且因此是能够至少具有“零”在热图(附图标记402)中是一种颜色并且“一”是在视觉上不同于“零”的颜色的那种基础的对数尺度。因此，在附图中所展示的热图(附图标记402)中使用log₂尺度。参考图5，切换按钮554提供弹出菜单556，这允许用户在每个簇158中的每基因座122每探针斑点的变化倍数与中值归一化(居中)平均离散属性值124之间切换(例如，每探针斑点的转录物数量)。因此，在图5中，对于ACKR1基因，相对于所有其它簇，簇158-1的探针斑点中的ACKR1的转录物的log2变化倍数为2.17，相对于所有其它簇，簇158-2的探针斑点中的ACKR1的转录物的Log2变化倍数是-1.94，等等。另外的菜单556可以用于显示簇中的每个簇中ACKR1的平均归一化平均值，以及离散属性值数据集120中表示的其它基因座的平均归一化平均值。在一些实施例中，平均值是离散属性值124的集中趋势的某种其它度量，如在相应簇158中的探针斑点中的每个探针斑点中测量的基因座122的所有离散属性值124的算术平均值、加权平均值、中程数、中轴数(midhinge)、三均值(trimean)、温氏化平均数(Winsorized mean)、中值或众数。图4和5提供了用于区分和所有k均值簇158中的显著平均离散属性值124(例如，相当高的转录物计数)相关联的那些基因座122(例如，基因)与和定位于仅某些k均值聚类的可感知的离散属性值124相关联的那些基因座122(例如，基因)的方式。

本公开的另一方面处理由多个种类172的组织组成的流水线的情况。换句话说，这样一种情况，每个此类样品由以下组成：与第一条件(因此表示第一种类172)相关联的每个探针斑点中的每个相应基因座122(例如，映射到多个基因中的特定基因的mRNA)的第一离散属性值124；与第二条件(因此表示第二种类172)相关联的每个探针斑点中的每个相应基因座122的第二离散属性值124，等等，其中每个此类种类172是指不同的组织类型、不同的组织病状(例如，肿瘤与健康)、不同的器官类型、不同的物种或不同的测定条件(例如，染料类型)或上述中的任何一种。在一些实施例中，离散属性值数据集120含有针对两个或更多个此类种类、三个或更多个此类种类、四个或更多个此类种类、五个或更多个此类种类、十个或更多个此类种类172或100个或更多个此类种类172的数据。

在一些实施例中，存在多个种类172的探针斑点126。在一些实施例中，每个探针斑点含有多个种类。在一些实施例中，仅探针斑点的子集属于一个种类(类别)，而其它探针斑点属于不同的类别。在一些实施例中，每个此类样品包括以下：在第一条件(因此表示第一种类172)下的第一多个探针斑点中的每个探针斑点中的每个相应基因座122(例如，映射到多个基因中的特定基因的mRNA)的第一离散属性值124；在第二条件(因此表示第二种类172)下的第二多个不同探针斑点中的每个探针斑点中的每个相应基因座122的第二离散属性值124，等等。在其它情况下，每个此类样品包括以下：第一类型(第一种类172)的第一多个探针斑点中的每个探针斑点中的每个相应基因座122(例如，映射到多个基因中的特定基因的mRNA)的第一离散属性值124；第二类型(第二种类172)的第二多个探针斑点中的每个探针斑点中的每个相应基因座122的第二离散属性值124等等，其中每个此类种类172是指不同的组织类型、不同的器官类型、不同的物种或不同的测定条件或上述中的任何一种。在一些实施例中，离散属性值数据集120含有针对两个或更多个此类种类、三个或更多个此类种类、四个或更多个此类种类、五个或更多个此类种类、十个或更多个此类种类172或100个或更多个此类种类172的探针斑点的数据。

在一些实施例中，将跨多个生物样品(例如，组织活检的不同切片等)的探针斑点数据聚合。每个此类相应生物样品(或来自生物样品的切片)的图像构成图1B的空间投影121。在一些实施例中，将每个此类切片如以下中所公开的制备：I.引言；(d)生物样品；(ii)生物样品的制备；(1)于2019年11月21日提交的代理人案号为104371-5033-PR的题为“用于分析分析物的流水线”的美国临时专利申请第62/938,336号的组织切片，所述美国临时专利申请特此通过引用整体并入。

在一些实施例中，存在多个类别170并且每个探针斑点126在每个此类类别170中。在此类实施例中，每个类别170具有一个或多个子类别，被称为可以单独选择的种类172。在一些实施例中，将所有此类数据预加载到单个离散属性值数据集120中。类别的实例包含k均值聚类(其中K均值是类别170并且每个k均值簇158是种类172的实例)、文库ID(其中文库ID是类别170并且探针斑点所源自的文库是种类172)以及生物标签(其中“生物标签”状态是类别170，并且用于构建离散属性数据集120的样品的“生物标签”值是种类172)。生物标签的实例是关于受试者是否患有结肠直肠癌的指示。在此实例中，存在两个种类172，一种针对为离散属性值数据集120贡献生物样品的受试者患有结肠直肠癌的情况，以及一种针对为离散属性值数据集120贡献生物样品的受试者未患有结肠直肠癌的情况。

转向图4，通过选择功能可见性450，提供了下拉菜单(未示出)，示出与离散属性值数据集120相关联的所有不同类别170。在一些实施例中，在具有种类172的离散属性值数据集120中存在类别170的情况下，离散属性值数据集120中的每个相应探针斑点126是每个相应类别170的成员以及每个相应类别170中的种类172之一。在一些此类实施例中，其中数据集包括多个类别170，离散属性值数据集120中的每个相应探针斑点是每个相应类别170的成员和每个相应类别170的单个种类。

在一些实施例中，其中不具有潜在种类172的离散属性值数据集120中存在类别170，数据集120中的探针斑点的子集是类别170的成员。

在一些实施例中，其中具有亚类172的离散属性值数据集120中存在类别170，仅数据集120中相应探针斑点的一部分是类别170的成员。此外，相应探针斑点的所述部分中的每个探针斑点独立地在类别170的相应种类172中的任何一个中。

如图4所展示的，用户可以选择或取消选择任何类别170。如进一步展示的，用户可以选择或取消选择所选类别170中的子类别172的任何组合。参考图4，在一些实施例中，用户能够点击单个簇158(在图4中将簇1-11分别标记为172-1-2、172-1-3、172-1-4、172-1-5、172-1-6、172-1-7、172-1-8、172-1-9、172-1-10和172-1-11)以在绘图(附图标记420)中突显其。在一些实施例中，当用户点击绘图(附图标记420)中的突显的簇158时，突显从所选簇中去除。

以图4中所描绘的方式呈现数据有利地提供了确定基因座122的能力，所述基因座的离散属性值124基于其离散属性值来分离(区分)所选类别内的种类172。为了进一步帮助实现这一点，选择显著基因座(例如，Sig.基因)功能可见性450，由此提供两个选项，全局区分选项452和局部区分选项(图4中未示出)。

参考图4，全局区分选项452识别其所选种类172内的离散属性值124相对于整个离散属性值数据集120在统计学上有所区分的基因座122(例如，相对于数据集120中的所有簇172，发现在所选簇172内高度表达的基因)。局部区分选项识别离散属性值区分所选簇(例如，图4中的种类172-1-1和种类172-1-11)的基因座，而不考虑未被选择的探针斑点种类72中的离散属性值124(例如，不考虑图4的种类172-1-2到172-1-10)。

在一些实施例中，可视化系统100包括多个处理核102，并且在全局区分或局部区分算法下其离散属性值区分种类的基因座的识别利用处理核102来独立地建立(例如，离散属性值的集中趋势的度量)跨种类和/或一类探针斑点(或整个数据集)的一个或多个类别的各个基因座所需的统计信息。

有利地，参考图5，本公开的系统和方法允许使用上图(附图标记420)创建新类别170，并且使用图4的套索552或绘制选择工具553在此类类别内创建任意数量的种类172。因此，如果用户想要识别探针斑点子类型(种类172)，这可以通过用套索工具选择显示在上图(附图标记420)中的多个探针斑点来完成。此外，其还可以从下图(附图标记404)中选择(例如，用户可以通过其离散属性值来选择多个探针斑点)。以这种方式，用户可以在类别170中拖动并创建种类172。提示用户命名新类别170和类别内的新种类(簇)172。用户可以在类别内创建多个种类的探针斑点。例如，用户可以使用功能可见性552或553选择一些探针斑点，将其分配给新类别(以及新类别内的第一新种类)。然后用户使用工具552或553选择另外的探针斑点，并且一旦选择，将新的所选探针斑点分配给相同的新类别170，但现在分配给类别中的不同的新种类172。一旦以这种方式定义了类别的种类172，用户就可以计算其离散属性值124区分所识别的用户定义的种类的基因座。在一些此类实施例中，此类操作比利用离散属性值数据集120中的所有探针斑点的类别进行得更快，这是因为在计算中涉及较少数量的探针斑点。在一些实施例中，识别区分种类172的基因座的算法的速度与类别170中的种类172的数量乘以分析中的探针斑点的数量成比例。例如，在一些实施例中，在存在两个种类和二十五个探针斑点的情况下，在标准客户端装置100上区分基因座的识别需要约四到五秒。

在一些实施例中，离散属性值数据集120可以具有至多750,000个探针斑点的数据并且仍然实时识别区分类别170的种类172的基因座(例如，少于30分钟、少于10分钟、少于5分钟或少于1分钟)。

参考图4，当加载根据本公开的此类实施例的数据集时，可视化模块119提供图4中所展示的图(附图标记402)，其是根据框206准备的热图，如上文结合图4所描述的。即，计算源自离散属性值数据集120的所述多个簇中的每个相应簇158的所述多个基因座中的每个相应基因座122的微分值162，并且这些微分值的热图(附图标记402)显示在图4的接口400的第一图(附图标记404)中。热图(附图标记402)包括所述多个簇中的每个簇158的所述多个基因座中的每个相应基因座122的微分值162的表示。在图4中，根据使用了鲁汶模块化算法的框214形成簇。参见Blondel等人,2008年7月25日,“大型网络中社区的快速展开(Fastunfolding of communities in large networks)”,arXiv:0803.0476v2[physical.coc-ph]，所述文献特此通过引用并入。

如图4所展示的，每个簇158的所述多个探针斑点中的每个基因座122的微分值162以颜色编码的方式展示，以表示根据色键408的log₂变化倍数。根据色键408，相对于所有其它簇，特定簇158的探针斑点中上调的那些基因座122分配有更多正值，而相对于所有其它簇，特定簇158的探针斑点中下调的那些基因座122分配有更多的负值。在一些实施例中，可以将热图导出到永久性存储装置(例如，作为PNG图形、JPG图形或其它文件格式)。

参考图4，有利地，功能可见性450可以用于切换到其它视觉模式。在图4中，描述了特定的“类别”模式，“基于图”(170)，其是指使用鲁汶模块化算法对离散属性值124进行聚类，如上文参考框214所公开的。然而，通过选择功能可见性450，显示了功能可见性170的其它选项。具体地，除了图4中显示的“类别”选项之外，还可以选择“基因表达”作为功能可见性450的选项。作为一实例，参考图1B，考虑了离散属性值数据集120中的探针斑点126的情况。基于从离散属性值流水线获得的探针斑点序列信息，此探针斑点由条形码支持。

离散属性值流水线.

在一些实施例中，将从样品处理硬件获取的“原始”数据转换成离散属性值数据集，所述数据集可以以合适的格式生成和存储。在实施可视化模块119的一些实施例中，离散属性值数据集呈“.cloupe”格式。特征条形码流水线被配置成对每探针斑点的基因表达进行计数以及每探针斑点的非基因特征。

离散属性值数据集中的每个数据点都可以存储为高维数据点。以这种方式，在一些实施例中，可以生成特征条形码矩阵。在典型实施例中，数据集120将含有单个特征条形码矩阵。一组条形码将与数据集相关联。图像中的每个探针斑点将含有来自多个条形码的唯一条形码。在具有表示多个样品，如组织的切片的多个空间投影121的离散属性值数据集120中，将最初针对每个空间投影确定的特征条形码矩阵组合成离散属性值数据集120的单个特征条形码矩阵。在一些实施例中，为了组合矩阵，调整样品的空间投影121之间的测序深度的差异(各个空间投影121的离散属性值数据124)，并且任选地，执行“批效应”校正以便去除由于技术差异，如跨各个空间投影121的离散属性值数据124的化学变化(例如，将加利福尼亚州普莱森顿(Pleasanton,California)的10X铬v2数据与10X铬v3数据组合)而产生的信号。在一些实施例中，这是使用在Hafemeister和Satija,“使用正则化负二项回归的单细胞RNA-seq数据的归一化和方差稳定化(Normalization and variancestabilization of single-cell RNA-seq data using regularized negative binomialregression)”,bioRxiv 576827(2019).doi:10.1101/576827中公开的技术来实现的，所述文献特此通过引用并入。

在具有多个图像的数据集中，图像中空间对应探针斑点将具有相同的条形码。因此，数据集的每个图像中的左上方探针斑点将具有相同的条形码，并且此条形码将不同于图像中的所有其它探针斑点。为了区分跨图像的这些空间上对应探针斑点，在一些实施例中，条形码将含有后缀或前缀，这将指示探针斑点(和后续测量结果)源自哪个图像。因为每张图像都使用相同的条形码，所以这可以识别每个序列读段源自哪个图像。例如，来自图像(附图标记125-1-1)中相应探针斑点的条形码——ATAAA-1将不同于来自图像(附图标记125-1-2)的空间上对应探针斑点中的ATAAA-2。在一些实施例中，基于图、k均值、t-SNE和UMAP投影是源自从已跨离散属性集的所有空间投影121的所有图像(附图标记125)集成的单个特征条形码矩阵。因此，在离散属性值数据集包含多个空间投影的实施例中，数学投影将包含跨多个空间投影的所有探针斑点；每数据集将创建每基因座(基因、抗体捕获、参考基因组上的特定基因座)的单个t-SNE和UMAP绘图。因此，来自跨多个组织切片的相似组织类型或亚型的斑点应聚类在抽象的t-SNE/UMAP/PCA空间中，但可能跨多个空间投影。

在一些实施例中，与上述实施例类似，主成分分析或如以下等其它形式的数据简化用于将数据的维度减少到一定数量的维度(例如，十维或其它数量的维度)：子集选择(例如，如Hastie,2001,《统计学习的要素(The Elements of Statistical Learning)》,纽约的施普林格出版社(Springer,New York),第55-57页所公开的)；离散方法(例如，如Furnival和Wilson,1974,“回归的跨越式发展(Regression by Leaps and Bounds),”《技术度量学(Technometrics)》16(4),499-511所公开的)；向前/向后逐步选择(例如，如Berk,1978,“比较子集回归程序(Comparing Subset Regression Procedures),”《技术度量学》20:1,1-6所公开的)；收缩方法(例如，如Hastie,2001,《统计学习的要素》,纽约的施普林格出版社,第59-66页所公开的)；岭回归(例如，如Hastie,2001,《统计学习的要素》,纽约的施普林格出版社,第59-64页所公开的)；套索技术(例如，如Hastie,2001,《统计学习的要素》,纽约的施普林格出版社,第64-65、69-72、330-331页所公开的)；派生的输入方向方法(例如，主成分回归(PCR)、偏最小二乘(PLS)等等，如例如在Viyayakurma和Schaal,2000,“局部加权投影回归：一种高维空间增量实时学习的O(n)算法(Locally Weighted ProjectionRegression:An O(n)Algorithm for Incremental Real Time Learning in HighDimensional Space)”,第十七届机器学习国际会议论文集(Proc.of SeventeenthInternational Conference on Machine Learning)(ICML2000),第1079-1086页所公开的)或其组合。

在一些实施例中，将每探针斑点的特征计数存储为呈压缩稀疏列(CSC)和压缩稀疏行(CSR)格式的稀疏矩阵。此外，特征条形码矩阵中的每行都包含另外的元数据，所述元数据可以由流水线硬件自动生成和/或基于用户输入来获取。

在本公开的一些实施例中，存储特征条形码矩阵的数据结构由可视化系统100的处理核102或由另一个计算装置(例如，远程计算装置或服务器)访问，并且簇可以在以此矩阵格式存储的数据(离散属性值)中进行检测。上述任何技术或这些技术的组合都可以实施以进行聚类。例如，在一些实施例中，对离散属性值进行聚类包括层次聚类、使用最近邻算法进行的凝聚聚类、使用最远邻算法进行的凝聚聚类、使用均链接算法进行的凝聚聚类、使用质心算法进行的凝聚聚类或使用平方和算法进行的凝聚聚类。在一些实施例中，聚类包含应用鲁汶模块度算法、k均值聚类、模糊k均值聚类算法或贾维斯-帕特里克聚类。可以对特征条形码矩阵的整个数据集进行聚类，也可以仅使用数据集的仅一部分。在一些实施例中，可以基于用户输入选择来自数据集的所述部分用于聚类。此外，在一些实施例中，可以选择来自数据集的所述部分以进行自动聚类-例如，基于数据集中特征的某些特性。

空间信息.

图4和图5展示了示例用户接口，其中部分基于相对于载玻片(例如，具有在测序分析之前已成像的组织样品的载玻片)的空间定位来识别探针斑点。在这些图中，探针斑点定位在其上的示例图像对应于组织切片(例如，所述多个探针斑点及其对应信息源自组织切片)。

空间信息的存储.

在一些实施例中，.cloupe文件提供高效的可视化和缩放。具体地，每个图像文件的信息以图块的形式存储(例如，在图像图块数据结构中)，以允许渐进式渲染、平滑平移和缩放。使用图块以不同的分辨率和大小显示图像基本上防止可视化模块因典型显微镜图像的存储器需求而过载(其大小可达千兆字节并且一侧有数万像素)。

在一些实施例中，图像以与DZI(DeepZoom图像)图式或开源OpenSeaDragon图像查看器兼容的格式平铺和命名。参见例如“深度缩放文件格式概述(Deep Zoom File FormatOverview)”pub.2011年11月16日https://docs.microsoft.com/en-us/previous-versions/windows/silverlight/dotnet-windows-silverlight/cc645077(v＝vs.95)？redirectedfrom＝MSDN和Goode等人2013《病理信息学报(J Pathol Inform)》4(27)。在此图式中，在一些实施例中，将原始图像划分为单独的图块，并且然后对图像进行迭代重新采样和重新平铺，直到整个图像可以适应一个图块。

例如，如图13所示，将具有256×256的期望最大图块大小的原始600×600文件1302划分为包含三行和三列图块的第一组图块(1304、1306和1308)。四个图块1304-1、1304-2、1304-3和1304-4的大小为256×256(例如，最大图块大小)。两个图块1306-1和1306-2的大小为88×256并且两个图块2306-3和2306-4的大小为256×88。然后最终的图块2308的大小为88×88像素。

在下一次迭代中，原始文件1302的大小减少一半(例如，到第一减小的文件1310的大小)。因此，第一减小的文件的大小为300×300，并且将所得图像划分为第二组图块(1312、1314和1316)。一个全尺寸图块1312适应减小的文件1310。另外，图块1314-1的大小为44×256，并且图块1314-2的大小为256×44。最后，一个另外的图块1316填充了第一减小的文件1310的其余部分，并且大小为44×44。

在下一次迭代中，第一减小的文件1310的大小再次减半为大小为150×150的第二减小的文件1318。因此，在这个大小下，第二个减小的文件将适应单个图块内。因此，在不丢失分辨率的情况下，尽可能地减小了原始文件。来自第一减小的文件和第二减小的文件的所有图块的内容都编码在.cloupe文件格式内的图像图块数据结构中。在一些实施例中，图像图块数据结构至少包含每个图块的格式、每个图块的(正方形)大小、原始图像的尺寸、像素数(或如果图块重叠的像素数)、到图块位置的路径、或图块在.cloupe文件中是否无效、图块键到块结构的映射(例如，描述.cloupe文件中的图块的字节偏移和压缩机制)以及亲本图像引用。

在一些实施例中，每个具有空间位置信息的图像文件存储有预定数量的图块(例如，至少5个、至少10个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少150个、至少200个图块、至少250个图块、至少500个图块、至少750个图块、至少1000个图块、至少1250个图块、至少1500个图块、至少1750个图块、至少2000个图块、至少2500个图块、至少3000个图块、至少3500个图块、至少4000个图块、至少4500个图块或至少5000个图块)。在一些实施例中，将每个原始图像文件划分成文件并减小预定次数(例如，至少1次大小减小、至少2次大小减小、至少3次大小减小、至少4次大小减小、至少5次大小减小、至少6次大小减小、至少7次大小减小、至少8次大小减小、至少9次大小减小或至少10次大小减小)。在一些实施例中，对每个原始图像文件进行划分，直到达到小于预定图块大小的减小的文件。

在一些实施例中，如上文所描述的，将与含有空间信息的.cloupe文件相对应的相应特征条形码矩阵以稀疏阵列格式存储(例如，空间基因表达数据以包含空间信息的稀疏格式存储)。

在一些实施例中，单个离散属性数据集中存在两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个或十个或更多个空间投影121。

空间表达数据可视化.

在一些实施例中，离散属性值数据集120(例如，.cloupe文件)包含多个探针斑点的空间信息(例如，基因表达数据之外的另外的信息等)。在一些实施例中，离散属性值数据集120包括至少a)每个探针斑点处的基因组基因座的相对表达的空间特征-条形码矩阵，以及b)特征-条形码矩阵中的每个条形码的斑点的中心的以图像像素为单位的坐标。在一些实施例中，此类离散属性值数据集120含有数据的多个投影。此类投影的实例包含t-SNE二维坐标空间和UMAP二维坐标空间中的数学投影(例如，如上文所描述的)、探针斑点坐标的投影(例如，基于每个探针斑点的相应条形码)以及基准坐标的投影(例如，基于基准点)。一组相应探针斑点坐标对应于以像素为单位的相应探针斑点的中心。一些此类投影进一步包含以像素为单位的每个探针斑点的直径。

在一些实施例中，打开具有空间信息的离散属性值数据集120(例如，.cloupe文件)包括打开可视化模块内的空间分析查看图(附图标记704)(参见图7)。空间分析可视化模块在许多方面类似于在以下中描述的浏览器：于2019年8月13日提交的题为“用于使用单倍型空间分布确定生物状态的系统和方法”的美国专利申请62/886,233，所述文献特此通过引用并入。空间分析图(例如，使用“空间”选项702进行选择)能够在组织图像的背景中将基因表达可视化。在一些实施例中，每个探针斑点显示为叠置在原始图像上，并且每个探针斑点相对于所述多个探针斑点中的每个其它探针斑点在空间上定向。进一步地，并且如下文所描述的，在一些实施例中，每个探针斑点(例如，通过颜色)注释以指示基因表达、簇中的成员(例如，如上文所描述的)和其它信息。

在一些实施例中，具有相关联的图像信息的相应离散属性值数据集120(例如，.cloupe文件)包含一个或多个对应图像文件(例如，与相应离散属性值数据集120本身分离)，并且打开相应离散属性值数据集120不会自动加载对应图像文件。换句话说，在一些实施例中，与图1B中所展示的相反，图像(附图标记125)存储在离散属性值数据集120本身的外部。在一些实施例中，在打开相应离散属性值数据集120之后，查看对应图像(附图标记125)(或投影121的图像集合)的用户请求导致打开可视化模块内的空间分析查看图(附图标记704)并根据需要进行图像处理和平铺。

图4、5、7和8展示了显示空间投影121的单个窗口，其中空间投影121由单个图像(附图标记125)组成。如上文所公开的，在一些实施例中，空间投影121包括若干图像。在这种情况下，用户能够使用图7所展示的查看器来同时查看单个空间投影121的叠置在彼此上的所有图像(附图标记125)。换句话说，图7所展示的查看器同时显示叠置在彼此上的单个空间投影121的所有图像(附图标记125)。在一些此类实施例中，用户能够选择性地不显示单个空间投影121的图像(附图标记125)中的一些图像。换句话说，可以在查看器中同时查看叠加在彼此上的空间投影的图像的任何组合。此外，用户可以同时在屏幕上启动图7所展示的多于一个查看器，并且每个此类查看器可以在显示器上显示对应空间投影121的所有图像或图像子集。例如，图16A展示了空间投影121的所有图像(附图标记125)都是荧光图像并且全部显示的情况，而图16B示出了显示此空间投影的仅一个荧光图像(CD3通道)的情况。在一些实施例中，荧光图像中的相对亮度与所研究的样品的一些方面具有半定量关系。例如，如果荧光在免疫组织化学荧光成像实验中出现，则较亮的区域会使一些抗体与蛋白质的结合更强。例如，图16C示出了使用图16B的图像进行的CD3蛋白质定量。

如前所述，用户因此可以同时查看两个或多个空间投影的所述一个或多个图像。通常，用户将并排布置此类查看器，以便可以在相应空间投影121的图像之间进行比较。此类聚合的数据集将具有跨越多个图像的首要簇，以及t-SNE和UMAP投影。

为了允许用户一次查看共同特性或比较不同的图像，本公开的一个方面利用了新颖的链接窗口。参考图18A，点击“添加窗口”功能可见性1802会调出投影列表121(参见图18B)，以便在链接窗口中打开离散属性值数据集121。因此，参考图18B，投影SR-自定义-22在附图标记1804中可见，并且用户具有为投影t-SNE121-1、SR-自定义-24121-3、UMAP 121-4、特征绘图(附图标记121-5)或者实际上SR-自定义-22121-1的另一个实例添加窗口的选项。点击这些投影之一在操作系统内的较小窗口中打开所述投影。例如，点击图18B中的SR-自定义-24121-3使得具有此投影的较小窗口1806与SR-自定义-22121-2同时显示，如图18C所展示的。在图18C中，从菜单1808可以清楚地看出，图中最左侧的投影1810是SR-自定义-22121-2的投影。可以以如图18D所展示的这种方式为单个数据集创建多个链接窗口。在图18D中，窗口1820是投影t-SNE 121-1的图，而较小的窗口1822和1824分别用于投影SR-自定义-22121-2和SR-自定义-24121-3。在一些实施例中，链接窗口(例如，图18D的窗口1822和1824)最初以如图18D所展示的微型视图打开，其中仅示出了投影和用于将窗口扩展为完整图的按钮1826。如图18D所展示的，当使用鼠标光标悬停在链接窗口(例如，窗口1822)之上时，揭示提供了常见动作的子集，如能够平移和缩放链接窗口的更多选项1828和1830。然而，链接窗口仍然主要通过操纵原始或锚定窗口1820来控制。

参考图18D，对锚定窗口1820的改变将自动传播到其它链接窗口(例如，窗口1822和1824)，如使用切换按钮1832来改变活跃簇(跨所有链接窗口中显示的簇)，选择单个簇，创建新簇或修改簇，选择一个或多个基因以显示特征表达(基因、抗体、峰)，改变簇成员，改变单个簇颜色或活跃表达颜色尺度，在(VDJ模式)下选择活跃克隆型，并在(ATAC模式)下选择转录因子基序。然而，特征，如平移、缩放、空间图像设置(预保存)，如颜色、亮度、对比度、饱和度和不透明度等、所选空间投影121和窗口大小在锚定窗口和链接窗口中保持独立。

参考图18D，可以通过点击扩展功能可见性1826将链接窗口从迷你模式扩展以访问全部范围的可视化选项。再次单击窗口将其缩小回迷你模式。在一些实施例中，通过锚定窗口保存对任何窗口中的离散属性值数据集120的改变。因此，参考图18D，在此类实施例中，对窗口1822或1824中的离散属性值数据集120的任何改变必须通过窗口1820保存。

也可以打开其它链接窗口以查看其它离散属性值数据集120。为了避免混淆，当打开多个属性值数据集时，按钮1834(图18D)的颜色将表示哪些窗口是链接的。例如，参考图18E，表示第一离散属性数据集120的两个不同空间投影121的窗口1870和1872是链接的，并且因此在识别1874上具有共同的橙色边界，而表示第二离散属性数据集120的两个不同空间投影121的窗口1876和1878是链接的，并且因此在识别1880上具有共同的黑色边界。此外，链接窗口不限于空间离散属性值数据集120。大多数基因表达数据集都具有可以以类似方式同时链接和查看t-SNE和UMAP投影121(参见于2019年6月17日提交的题为“用于将数据集中的模式可视化的系统和方法”的美国专利申请第16/442,800号)。

图18F展示了链接窗口如何有利地导致快速分析。图18F展示了表示跨特定离散属性数据集120内的两个空间投影121(SR-自定义-221882和SR-自定义-241884)的降维的t-SNE识别1880。不区分自动聚类的t-SNE(离群点/C1)中存在视觉簇1886。簇1886含有分配给不同基于图形和K均值簇的探针斑点的混合。在锚定窗口(t-SNE识别1880)中选择自定义簇1886之后，可以在其它链接窗口中的两个空间投影1882/1884中查看其对应区域。放大两个空间投影1882/1884之间的每个区域显示出在作为簇1886的成员的所有空间斑点下方存在共同的管状形态。还存在许多与这些区域相关联的显著基因。以这种方式，本公开有利地同时显示来自基于基因表达的投影(t-SNE识别1880)的信息以检测空间背景中可能关注的区域(SR-自定义-221882和SR-自定义241884)。使用链接窗口避免来回跳转，使调查变得流畅且直观。

虽然链接窗口已结合显示叠置在源图像上的基于mRNA的UMI丰度进行了说明，但其还可以用于说明其它分析物的空间定量，无论是叠加在其源组织的图像上还是使用如t-SNE或UMAP等降维算法布置在二维空间中，所述分析物包含细胞表面特征(例如，使用本文所描述的标记剂)、mRNA和胞内蛋白质(例如，转录因子)、mRNA和细胞甲基化状态、mRNA和可及染色质(例如，ATAC-seq、DNase-seq和/或MNase-seq)、mRNA和代谢物(例如，使用本文所描述的标记剂)、经条形编码的标记剂(例如，本文所描述的寡核苷酸标记的抗体)和免疫细胞受体(例如，T细胞受体)的V(D)J序列、mRNA和扰动剂(例如，如本文所描述的CRISPRcrRNA/sgRNA、TALEN、锌指核酸酶和/或反义寡核苷酸)。关于此类分析物如何进行空间定量的普遍公开，参见于2020年2月21日提交的代理人案号为104371-5033-PR01的题为“用于分析分析物的流水线”的美国临时专利申请第62/980,073号，所述美国临时专利申请特此通过引用并入。关于如何使用例如聚类和/或t-SNE(其中此类簇和/或t-SNE绘图可以显示在链接窗口中)对ATAC进行空间定量的普遍公开，参见题为“使用核酸测序进行细胞分析的系统和方法(Systems and Methods for Cellular Analysis Using Nucleic AcidSequencing)”的美国公开第US-2020105373-A1号，所述美国公开特此通过引用并入。关于如何使用例如聚类和/或t-SNE(其中此类簇和/或t-SNE绘图可以显示在链接窗口中)对V(D)J序列进行空间定量的普遍公开，参见于2018年5月19日提交的题为“用于克隆型筛选的系统和方法(Systems and Methods for Clonotype Screening)”的美国专利申请第15/984,324号，所述美国专利申请特此通过引用并入。

在一些实施例中，如图7所展示的，所述一个或多个数据投影用于在相对于下层的组织图像的正确位置中以正确的大小呈现斑点。簇分配不是位置感知的。相反，在一些实施例中，仅通过将鲁汶模块化或k均值聚类应用于特征条形码矩阵的值来确定簇。尽管如此，图4和图7中的簇仍广泛地划分为与受试者组织的不同区域相对应的粘连形状。

在一些实施例中，相应用户选择(例如，缩放输入)导致将空间分析视图放大组织区域(参见例如图8，其展示了图7的放大区域)。在一些实施例中，用户选择包括调整缩放滑块802(例如，查看图(附图标记704与附图标记804)之间的所述多个探针斑点的大小差异)以及加载与图像上的期望位置相对应的适当的图块。对于具有空间投影中的多个图像的离散属性值数据集120(例如，荧光、多通道数据集)，在同时针对每个活跃图像(通道)检索图块的情况下，基于(缩放滑块802的)缩放级别和查看器的位置检索图像图块。然后将来自不同通道的图像合成在一起。在一些实施例中，所述多个探针斑点中的每个探针斑点的所显示大小在缩放滑块802调整之后动态地更改，以始终反映斑点相对于原始组织图像的大致位置和直径(参见图8中的附图标记804)。在一些实施例中，平移输入和/或缩放用户输入将触发加载适当图块。这使得能够以更高的分辨率对图像进行可视化，而不会使可视化模块119的存储器因画布外的图像数据(例如，因原始图像的未呈现给用户的区域)而过载。

在一些实施例中，在缩放运动完成之后，探针斑点大小动态地改变，以反映探针斑点相对于原始组织图像的大致位置和直径。在一些实施例中，平移和缩放用户输入还触发加载与图像中的期望位置相对应的相应图块。因此，可以以高得多的分辨率查看图像(或图像集合)，而不会使可视化模块119存储器因画布外图像数据而过载。

在一些实施例中，一个或多个图像集可以调整。例如，在图9A中，图像设置功能可见性(例如，显微镜图标902)的选择为用户提供了对一个或多个图像设置(例如，亮度、对比度、饱和度、旋转等)的选择。在一些实施例中，用户可以水平翻转图像，通过滑块或通过输入旋转度数将其旋转到其自然朝向，并调整图像的亮度和饱和度。在一些实施例中，为了查看组织的下层细节，用户做出选择以调整探针斑点不透明度。例如，在图9A中，斑点不透明度滑块904提供了用于增加或减小所述多个探针斑点的透明度。这允许用户探索和确定特征信息(例如，如通过探针斑点所展示的)与下层的图像信息组合的适当平衡，如上文所描述的。

参考图17A，对于多通道离散属性数据集120的包含同一组织样品的多个图像(通道)125的空间投影121，用户可以使用功能可见性1702来单独改变与每个通道125相关联的参数。换句话说，选择功能可见性1702激活显示给定空间投影121的所有图像125的菜单1704。在图17A所显示的空间投影121-1中，存在三个图像(通道)125-1-1、125-1-2和125-1-3。此外，用户可以使用菜单1704的功能可见性1702打开和关闭空间投影，如图17A(基准显示关闭)和图17B(基准显示1708打开)的比较所展示的。如图17B所展示的，基准显示呈图像基准斑点周围的白色圆圈形式。返回到图17A，例如，通过点击菜单1704中的“通道1”选择通道125-1-1来调出图17C的菜单1710，其中用户指定颜色来人为地遮蔽与通道125-1-1相关联的下层荧光图像像素，所述通道在一些实施例中默认为单色/灰度。如图17C的菜单1710所展示的，用户可以改变通道125-1-1的颜色、亮度、对比度、饱和度和不透明度，或者将这些参数恢复到默认设置，并在预览窗口1714中查看这些对通道125-1-1改变的结果。换句话说，当使用菜单1710编辑单个通道的图像设置时，用户只能在预览窗口1714中查看这些改变如何影响所述通道。这对于在所有通道是活跃时查看所述单个通道的改变特别有用。返回到图17A，菜单1702可以用于类似地改变所有其它图像(附图标记125)的上述所公开的参数设置。然后将来自不同通道的图像合成在一起，如图17A所展示的。净效果是，用户可以指定不同的颜色、亮度和不透明度，以在不同通道之间实现期望的平衡，以及所使用的染液的发射波长/颜色。参见图17，每个通道(图像(附图标记125))可以使用其对应参数菜单1710进行重命名(例如，通过点击图17C中的菜单1710右侧的铅笔图标1716)。

此外，使用菜单1702，可以单独关闭贡献合成图像的各个图像(通道)125，以便其不使用切换按钮1712(并单独打开)来贡献合成图像。例如，图17D示出通道125-1-1禁用。

图17A和17D进一步示出了影响整个投影121以及因此一起影响每个图像通道125的控件，如旋转1720和翻转1722。菜单1704的功能可见性1740(例如，如图17D所展示的)启用或禁用显示下层图像的实际尺寸的尺度图形(例如，图17E的尺度图形1750)。尺度图形1750随缩放1752动态地缩放。

图17E示出了另一种在空间背景中更精确地选择斑点的方法。当通过点击画笔功能可见性1760来选择画笔模式时，用户可以按住鼠标光标并将鼠标光标拖到斑点172之上以选择所述斑点并使用菜单1764将其分配给簇。这允许更精确地控制基于图像形态的簇创建。在用户移动光标时，所选择的斑点是落在鼠标光标1762下的任何斑点。为了针对同一簇选择在图像中彼此不靠近或在图像中不连续的斑点，用户可以选择斑点中的一些斑点，释放光标由此激活菜单1764，将所选斑点分配给特定类别并且然后使用画笔1760从非连续区域中选择另外的斑点，再次释放光标1762由此激活菜单1764并使用菜单1764将第二组斑点分配给同一类别。可替代地，用户可以将第二批所选斑点分配给与第一批所选斑点不同的类别。以这种方式，用户可以针对尽可能多的不同类别选择尽可能多的斑点。每次用户释放光标1762并将其移动到新位置时，所有先前选择的鼠标斑点都被取消选择。

在一些实施例中，每个离散属性文件数据集120包含识别与所述多个簇中的每个簇的一个或多个显著特征(例如，基因表达、特征条形码分析物计数等)的信息。例如，在图10中，用户已选择了单个基因(例如，“Spink8”)。Spink8的选择导致在图像内显示此基因的表达(例如，对于所述多个所显示的探针斑点中的每个探针斑点)。在所得图像中清楚地突显此基因的表达。因此，用户可以清楚地查看叠置在下层图像文件上的特定特征的表达的相关性。

在一些实施例中，低探针斑点不透明度(例如，如图11A中以斑点不透明度条904所示出的)允许下层图像文件(或图像文件集合)的可视化，而无需与特征显示进行任何交互，这对于查看组织本身(例如，区域1102表示组织样品)的各方面是期望的。图11B展示了增加的斑点不透明度(例如，如斑点不透明度条904中所见)，与特征信息(例如，此处为“Ddit4l”的基因表达)组合。例如，在图11B的区域1104中可以看到多个探针斑点。在图11A和11B中的视图之间切换可以以交互方式发现基因表达模式以及组织特征。

在一些实施例中，如图12A所示，提供了探针斑点表达信息到t-SNE空间的投影。在一些实施例中，还可以示出探针斑点表达到UMAP空间的投影。此类投影展示了一个或多个簇。如上文关于本公开的其它实施例所描述的，可以选择单个簇(例如，“离群点”)并在t-SNE投影空间(例如，图12A的区域1202)或空间分析查看图(附图标记704)(例如，图12B中的区域1206)中显示所述单个簇。

在一些实施例中，图像显示、操纵和导出如以下所描述地进行：于2017年8月18日提交的题为“在数字图中提供标签边界的图形指示(Providing Graphical Indication ofLabel Boundaries in Digital Maps)”的美国专利申请第15/681,290号或于2017年8月18日提交的题为“为数字图提供图数据的可视化选择(Providing Visual Selection of MapData for a Digital Map)”的美国专利申请第15/681,286号，所述美国专利申请特此通过引用并入。

将另外的特征数据存储和可视化的实施例

在一些实施例中，离散属性值数据集120(例如，.cloupe文件)分别存储特征数据(读段计数)和特征元数据，并且特征元数据存储在序列化数据结构中，如图15所示的。此类数据存储格式提高了计算效率。具体地，图15展示了基因表达流水线的能够对每探针斑点的基因特征和非基因特征进行计数的离散属性数据集，所述离散属性数据集包含存储每基因每探针斑点的UMI计数和每探针斑点的非基因特征的UMI计数(例如，结合的抗体)的特征数据模块。特征元数据模块，在本文中也称为“标签种类”，识别矩阵每行的类型。在一些实施例中，如图15所示，将特征元数据模块作为两个实体，即目录和索引模块存储在磁盘上。目录包含标签模块(其可以存储例如标签阵列)和整数偏移模块(其可以存储例如整数偏移阵列)。索引模块可以呈连续索引阵列的形式，其中阵列中的每个索引(例如，索引i、i+1等)是指特征数据存储中的行索引。

例如，在一些实施例中，特征数据模块包含抗体数据集，所述抗体数据集具有表示每基因每探针斑点的UMI计数的数目(n1，在此实例中)的n1行，以及随后表示每个探针斑点中的某些一种或多种结合抗体的UMI计数的数目(n2，在此实例中)的随后n2行。例如，抗体数据集可以包含表示每基因每探针斑点的UMI计数(例如，n1＝20,000)的20,000行，以及表示每探针斑点的结合抗体的UMI计数的随后17行(例如，n2＝17)。在此实例中，目录将标签定义为“标签：[“基因”,“抗体”]”并将整数偏移定义为“偏移：[0,20000]”。整数偏移索引到索引模块中20,017个特征行索引的连续阵列中。与基因相对应的特征行索引范围从阵列位置0开始，并且抗体的索引从位置20,000开始。在此实例中，索引模块可以是按升序的0到n1-1整数，其中n1是特征数据模块中的行数。目录模块可以以任何合适的格式存储。例如，在一些实施例中，其可以是压缩JSON字符串，并且存储在目录中的信息可以呈CSC和CSR索引和数据的形式。此类方法提高了计算效率。例如，以这种方式表示两种不同类型基因座的标签提高了可视化系统100的计算效率，部分是通过减少需要处理的数据量来将针对第一类型的基因座和第二类型的基因座的数据可视化。

在一些实施例中，空间分析流水线被配置成基于离散属性数据集中的特征的子集生成簇和/或t-SNE投影。在一些此类实施例中，与特征条形码矩阵中的所选基因相关的离散属性值用于确定簇并创建t-SNE投影，并且与所选基因相关的离散属性值用于构建不同的投影。

为了在流水线中生成另外的投影，在一些实施例中，指定识别与特征条形码的条形码序列、其类型以及另外的元数据相对应的配置文件。应当理解，此类特征条形码针对第二种类的所述多个基因座并且因此与针对第一种类的所述多个基因座的条形码是分离的且间隔开的。

在一些实施例中，通过组合相同或相似类型的特征来生成聚合特征。例如，参考图15A，可以基于特征数据中的现有行生成另外的行，并且可以将这些另外的行添加到特征数据模块中。图15B示意性地展示了用虚线示出的这些另外的行。在本公开的一些实施方案中，将具有相似元数据的特征行组合以生成另外的特征行。例如，在存在20,000个基因数据行每探针斑点和17个抗体数据行每探针斑点的实例中，可以通过组合20,000个基因数据行来生成聚合基因数据行，并且可以通过组合17个抗体数据行生成聚合抗体数据行。在一些实施例中，当每行包含每探针斑点的相应基因计数或每探针斑点的抗体计数时，可以将相应基因计数和抗体计数相加以生成相应聚合基因计数行和聚合抗体计数(或一些其它特征)行。然而，应当理解，基因数据行、抗体数据行或存储用于任何其它类型特征的数据的行可以以不同于求和操作的其它方式组合。此外，在一些情况下，可以组合特征数据模块中的行的一部分(例如，在上述实例中，少于20,000个基因数据行)。无论具有相似元数据的多行组合的方式如何，所得聚合行都可以以压缩形式存储(例如，压缩稀疏行(CSR)和压缩稀疏矩阵(CSC)格式)。这有利地提高了计算机效率。聚合行的位置存储在特征元数据模块中。在一些实施例中，聚合具有相似元数据的特征行(例如，每探针斑点的特定特征的计数)允许得出所述特定特征的归一化相对表达。

实例1

参考图6，包括多个处理核、永久性存储器和非永久性存储器的示例可视化系统100用于进行一种用于将数据集中的模式可视化的方法。在此实例中，示例可视化系统100是戴尔灵越(DELL Inspiron)17 7000，具有微软WINDOWS 10 PRO、16.0千兆字节的RAM存储器以及具有4个核和8个安装有可视化模块119的逻辑处理器的以4.50千兆赫运行的英特尔(Intel)i7-8565U CPM。离散属性值数据集120存储在永久性存储器中，所述离散属性值数据集包括组织样品的单个空间图像(附图标记125)以及数百个探针斑点126中的每一个处的数百个基因座的伴随离散属性值124。使用由跨所述多个探针斑点中的每个探针斑点126的跨所述多个基因座中的每个基因座的离散属性值得出的主成分，在加载到示例计算机系统100之前对数据集进行聚类，由此将所述多个探针斑点中的每个相应探针斑点分配到多个簇中的对应簇。在将数据集加载到示例计算机系统100之前已分配有这些簇分配。所述多个簇中的每个相应簇由所述多个探针斑点123的唯一不同的子集组成。对于此示例数据集120，存在8个簇。每个相应簇包括多维空间中的所述多个探针斑点的子集。此多维空间通过t-SNE压缩成二维以用于在上图(附图标记420)中进行可视化。

接下来，参考图6，用户通过使用套索552选择第一种类的探针斑点172-1-1(“野生型”)并且选择上图(附图标记420)中显示的探针斑点来定义不在加载的离散属性值数据集120中的新类别“细胞受体”。从野生型种类中选择了总共452个探针斑点126。进一步地，用户使用套索552定义了第二种类的探针斑点172-1-2(“变体”)以选择探针斑点，如图6所展示的。接下来，计算其离散属性值124区分所识别的用户定义的种类“野生型”与“变体”的基因座。为此，上文结合图4所描述的局部区分选项452用于识别其离散属性值区分种类172-1-1(野生型)与种类172-1-2(变体)的基因座。野生型种类由452个探针斑点的全转录组mRNA转录计数组成。变体种类由236个探针斑点的全转录组mRNA转录计数组成。为此，将种类172-1-1的所述多个基因座中的每个相应基因座的微分值计算为(i)在种类172-1-1中的所述多个探针斑点中的探针斑点中的每个探针斑点中测量的相应基因座的离散属性值的集中趋势的第一度量和(ii)在种类172-1-2中的探针斑点中的每个探针斑点中测量的相应基因座的离散属性值的集中趋势的第二度量中的变化倍数。然后，如图6所展示的，基因座中的每个基因座的此计算的热图(附图标记402)显示在下图(附图标记404)中。在热图(附图标记402)中，第一行表示野生型种类并且第二行表示变体种类。热图中的每列示出了对应基因跨对应种类172的探针斑点的平均表达。热图包含多于1000个不同的列，每列表示不同的人基因。热图示出了区分这两个种类的基因座。没有提供构成这两个种类之间区别的绝对定义，因为此类定义取决于要解决的技术问题。此外，本领域技术人员将理解，许多此类度量可以用于定义此类区分，并且任何此类定义都在本公开的范围内。有利地，使用所公开的聚类模块152，热图(附图标记402)的计算和显示在示例系统上花费了不到两秒。

如果定义了更多的种类，就需要更多的计算。例如，如果此类别存在第三种类并且选择了此第三种类，则每个相应基因座的变化倍数的计算将包括：

对于第一种类172-1-1，计算(i)在第一种类172-1-1中的所述多个探针斑点中的探针斑点中的每个探针斑点中测量的相应基因座的离散属性值的集中趋势的第一度量和(ii)在第二种类172-1-2和第三种类172-1-3中的探针斑点中的每个探针斑点中共同测量的相应基因座的离散属性值的集中趋势的第二度量，

对于第二种类172-1-1，计算(i)在第二种类172-1-2中的所述多个探针斑点中的探针斑点中的每个探针斑点中测量的相应基因座的离散属性值的集中趋势的第一度量和(ii)在第一种类172-1-1和第三种类172-1-3中的探针斑点中的每个探针斑点中共同测量的相应基因座的离散属性值的集中趋势的第二度量，以及

对于第三种类172-1-3，计算(i)在第三种类172-1-3中的所述多个探针斑点中的探针斑点中的每个探针斑点中测量的相应基因座的离散属性值的集中趋势的第一度量和(ii)在第一种类172-1-1和第二种类172-1-2中的探针斑点中的每个探针斑点中共同测量的相应基因座的离散属性值的集中趋势的第二度量。

实例2

三阴性乳腺癌(TNBC)占美国所有经诊断的乳腺癌病例的10-20％。TNBC具有侵袭性并且由于对传统疗法的耐药性而表现出较差的预后。TNBC很复杂，因此了解潜在生物学以改善结果非常重要。

与组织学技术的益处和RNA-seq的大量通量相组合，空间转录组学技术已帮助解决了传统病理学检查的局限性。TNBC的连续切片使用本公开中所公开的10x基因组学Visium空间基因表达解决方案进行研究，并且还在以下中公开以解决其致瘤性表达谱：于2020年8月13日提交的题为“用于使用单倍型空间分布确定生物状态的系统和方法”的美国专利申请第16/992,569号，代理人参考案号104371-5026-US，所述美国专利申请特此通过引用并入。在以无偏的方式捕获天然mRNA的情况下，此实例中的测定并入了探针斑点122中的约5000个分子上经条形编码的空间编码的捕获探针，在所述探针斑点之上放置组织、进行成像并且透化。成像和下一代测序数据一起处理，导致基因表达映射到图像位置。与组织的组织学可视化组合，通过从10μm厚的组织切片中捕获和测序多聚腺苷酸化RNA转录物，Visium平台生成了天然组织形态内的细胞基因表达的无偏图。

通过这一点，基因表达的空间模式被证明和与作为TNBC的标志的肿瘤浸润淋巴细胞的免疫组织化学染色组合的病理检查的注释一致。通过聚合来自连续切片的数据，基因表达模式的轮廓得到了改进并且另外，证明改进了细胞类型识别的统计能力。将此数据与来自同一样品的3'单核RNA-seq数据进行比较，从而生成用于估计在给定位置处观察到的细胞类型的比例的细胞类型表达谱。进一步地，使用富集策略，使用以下文献的表1的癌症探针来选择癌症相关基因：2020年2月21的代理人案号为104371-5028-PR02的题为“使用杂交/捕获方法捕获靶向遗传靶标”的美国临时专利申请第62/979,889号。显示出使用这种下拉方法的基因表达空间模式与整个转录组测定结果一致，这表明可以在适当的固定基因图的情况下使用靶向转录组测序方法。

这些努力的结果表明，空间基因表达谱可以为传统的组织病理学提供强大的补充，使靶向图和基因表达的全转录组发现成为可能。因为其跨组织空间变化，因此肿瘤微环境的此详细视图为了解疾病和开发潜在的新治疗靶标提供了重要的见解。

实例3

由数万亿微生物填充的肠道微生物群与宿主的细胞系统密切相互作用。研究揭示了关于肠道中平均微生物群多样性和细菌活性的信息。然而，这项以空间和高通量方式对基于表达的宿主-微生物组相互作用的研究是新型方法。了解宿主-微生物组相互作用的基因表达制图可以提供对分子基础的见解和对细菌交流机制的广泛理解。使用本文所公开的技术并且也如于2020年8月13日提交的题为“用于使用单倍型空间分布确定生物状态的系统和方法”的美国专利申请第16/992,569号，代理人参考案号104371-5026-US中所描述的，所述美国专利申请特此通过引用并入，开发了一种空间转录组学方法，使得能够通过将切片定位在经条形编码的阵列矩阵上，直接从组织切片中对基因表达数据进行可视化和定量分析。使用这种方法，多腺苷酸化宿主和16S细菌转录物同时原位转录并且对空间cDNA进行测序。同时分析了多于11,000个小鼠基因，并将近侧和远侧小鼠结肠中的多于九个细菌家族识别为初步研究。本公开的处理流水线用于确定跨所收集的组织体积的空间方差分析。这种方法生成了大型细胞相互作用数据集，能够调用依赖于附近微生物组组成的多种宿主细胞类型中显著发生的变化。这些发现证明了空间分辨、转录组范围的基因表达分析能够识别形态学模式并因此了解宿主-微生物组相互作用的分子基础。

实例4

图20展示了本公开的生物样品具有已通过免疫荧光采集的图像(附图标记2002)的实施例。此外，已使用本文所公开的方法对生物样品的序列读段进行了空间解析。更具体地，多个空间上经条形编码的已用于(使用本文所公开的方法)将从生物样品获得的多个序列读段中的相应序列读段定位到一组捕获斑点中的对应捕获斑点(通过其空间上经条形编码的)，由此将所述多个序列读段分成多个序列读段子集，每个相应序列读段子集对应于所述多个捕捉斑点中的不同捕捉斑点(通过其空间上经条形编码的)。因此，附图标记2004示出了图像(附图标记2002)内的每个相应位置处的映射到与相应位置相对应的相应捕获斑点的每个序列读段子集的一部分(映射到基因Rbfox3的所述部分)的表示。图20的附图标记2006示出了复合表示，包括(i)图像(附图标记2002)和图像(附图标记2002)内的每个相应位置处的映射到与相应位置相对应的相应捕获斑点的每个序列读段子集的一部分(映射到基因Rbfox3的所述部分)的表示。最后，图20的附图标记2008示出了复合表示，包括(i)图像(附图标记2002)和(ii)图像(附图标记2002)内的每个相应位置处的映射到与相应位置相对应的相应捕获斑点的每个序列读段子集的全转录组表示。在附图标记2004、2006和2008中，每个子集中的序列读段的每种表示在如通过相应尺度2010、2012和2014概述的颜色尺度基础上逐捕获斑点地表示序列读段子集中的多个唯一UMI。虽然附图标记2008示出了叠加在源图像上的基于mRNA的UMI丰度，但本公开还可以用于说明如蛋白质等其它分析物的空间定量，无论是叠加在其源组织的图像上还是使用如t-SNE或UMAP等降维算法布置在二维空间中，所述分析物包含细胞表面特征(例如，使用本文所描述的标记剂)、mRNA和胞内蛋白质(例如，转录因子)、mRNA和细胞甲基化状态、mRNA和可及染色质(例如，ATAC-seq、DNase-seq和/或MNase-seq)、mRNA和代谢物(例如，使用本文所描述的标记剂)、经条形编码的标记剂(例如，本文所描述的寡核苷酸标记的抗体)和免疫细胞受体(例如，T细胞受体)的V(D)J序列、mRNA和扰动剂(例如，如本文所描述的CRISPR crRNA/sgRNA、TALEN、锌指核酸酶和/或反义寡核苷酸)。关于如何使用例如聚类和/或t-SNE(其中此类簇和/或t-SNE绘图可以显示在链接窗口中)对ATAC进行空间定量的普遍公开，参见题为“使用核酸测序进行细胞分析的系统和方法(Systems and Methods for Cellular Analysis Using Nucleic AcidSequencing)”的美国公开第US-2020105373-A1号，所述美国公开特此通过引用并入。关于如何使用例如聚类和/或t-SNE(其中此类簇和/或t-SNE绘图可以显示在链接窗口中)对V(D)J序列进行空间定量的普遍公开，参见于2018年5月19日提交的题为“用于克隆型筛选的系统和方法”的美国专利申请第15/984,324号，所述美国专利申请特此通过引用并入。

实例5-微分值

在一些实施例中，此实例5的技术在本公开的任何离散属性值数据集上运行。

一旦每个探针斑点126已分配给相应簇158，本公开的系统和方法能够所述多个簇中的每个相应簇158的所述多个基因座中的每个相应基因座122，计算跨相应簇158中的探针斑点126的相应子集的相应基因座122的离散属性值124相对于跨除相应簇之外的所述多个簇158的相应基因座122的离散属性值124的差异，由此得出所述多个簇中的每个簇158的所述多个基因座中的每个相应基因座122的微分值162。例如，在一些此类实施例中，调用微分表达式算法来寻找在探针斑点种类或其它形式的探针斑点标记之间不同的靠前表达基因。这是一般微分表达式问题的形式，其中存在一组表达数据和另一组表达数据并且要解决的问题是确定哪些基因在数据集之间差异表达。

在一些实施例中，将差异表达计算为(i)在受试者簇158的映射到特定基因(基因座122)的探针斑点126中的每个探针斑点中测量的转录物的平均数(基因座122的离散属性值124)和(ii)在除了受试者簇之外的所有簇的映射到特定基因的探针斑点中的每个探针斑点中测量的转录物的平均数的log₂变化倍数。因此，考虑了受试者簇含有50个探针斑点并且50个探针斑点平均每个含有基因A的100个转录物的情况。剩余的簇总共含有250个探针斑点并且250个探针斑点平均每个含有基因A的50个转录物。此处，基因A的表达的变化倍数为100/50并且log₂变化倍数为log₂(100/50)＝1。在图4下图中，以这种方式计算人基因组中的每个基因的log₂变化倍数。

在一些实施例中，所述多个簇中的每个相应簇158的所述多个基因座中的每个相应基因座122的微分值162是(i)在相应簇158中的所述多个探针斑点中的探针斑点126中的每个探针斑点中测量的基因座的离散属性值124的集中趋势的第一度量和(ii)在除了相应簇之外的所有簇158中的探针斑点126中的每个探针斑点中测量的相应基因座122的离散属性值124的集中趋势的第二度量的变化倍数。在一些实施例中，集中趋势的第一度量是在相应簇158中的所述多个探针斑点中的探针斑点126中的每个探针斑点中测量的基因座的所有离散属性值124的算术平均值、加权平均值、中程数、中轴数、三均值、温氏化平均值、中值或众数。在一些实施例中，集中趋势的第二度量是在除了相应簇之外的所有簇中的所述多个探针斑点126中的探针斑点126中的每个探针斑点中测量的基因座122的所有离散属性值124的算术均值、加权均值、中程数、中轴数、三均值、温氏化平均值、中值或众数。参考框222，在一些实施例中，变化倍数是log₂变化倍数。参考框224，在一些实施例中，变化倍数是log₁₀变化倍数。

鉴于基因座122的离散属性值124的测量(例如，映射到给定探针斑点中的给定基因的mRNA计数)通常是有噪声的，在一些实施例中，考虑了给定簇158的此类探针斑点126中的每个探针斑点126中的基因座122的离散属性值124的方差(例如，映射到给定探针斑点中的给定基因的mRNA计数)。这类似于t检验，是测量两个样品之间差异的统计方式。此处，在一些实施例中，统计方法考虑到每个探针斑点126正在测量基因座122的离散数量(作为给定基因座122的离散属性值124)，并且对在其中进行测量的系统中固有的方差进行建模。

因此，在一些实施例中，在对所述多个簇中的每个相应簇158中的所述多个基因座中的每个相应基因座122的微分值162进行计算之前，对每个离散属性值124进行归一化。参考图2B的框228，在一些实施例中，在没有将整个数据集加载到非永久性存储器111的情况下，归一化包括对与所述多个探针斑点中的每个探针斑点相关联的每个基因座的离散属性值124进行建模，其中负二项分布具有分散的一致估计。此类实施例对于例如产生基因座122的离散属性值124的RNA-seq实验是有用的(例如，受生物学和技术变化影响的mRNA读段的数字计数)。为了区分条件与噪声之间的系统性表达变化，计数通常由负二项分布建模。参见Yu,2013,“具有小样品量的RNA-seq实验的负二项模型中分散的收缩估计(Shrinkageestimation of dispersion in Negative Binomial models for RNA-seq experimentswith small sample size)”,《生物信息学(Bioinformatics)》29,第1275-1282页，所述文献特此通过引用并入。

给定基因座122的离散属性值124的负二项分布包含离散属性值124的分散参数，其跟踪离散属性值124的方差超过预期值的程度。参见Yu,2013,“具有小样品量的RNA-seq实验的负二项模型中分散的收缩估计”,《生物信息学》29,第1275-1282页以及Cameron和Trivedi,1998,“计数数据的回归分析(Regression Analysis ofCount Data)”,《计量经济学会专著(Econometric Society Monograph)》30,英国剑桥的剑桥大学出版社(CambridgeUniversity Press,Cambridge,UK)，所述文献中的每个文献特此通过引用并入。所公开的系统和方法的一些实施例不是依赖于每个基因座122的离散属性值124的独立分散参数，而是有利地使用跨所有基因座122的离散属性值124的一致估计。这在本文中被称为“分散的一致估计”。分散的一致估计对于RNA-seq实验是有利的，在所述实验中，全转录组测序(RNA-seq)技术以映射到基因的转录读段计数对生物样品中的基因表达进行定量，在一些实施例中，这是一种用于获取所公开的离散属性值124的实验形式，由此同时对许多基因的表达进行定量。基因共享生物学和技术变化的各方面，并且因此基因特异性估计和一致估计的组合可以产生更好的变化估计。参见Yu,2013,“具有小样品量的RNA-seq实验的负二项模型中分散的收缩估计”,《生物信息学》29,第1275-1282页和Anders和Huber,2010,“序列计数数据的差异表达分析”,《基因组生物学(Genome Biol)》11,R106，所述文献中的每一文献特此通过引用并入。例如，在一些此类实施例中，sSeq应用于每个基因座122的离散属性值124。sSeq公开于Yu,2013,“具有小样品量的RNA-seq实验的负二项模型中分散的收缩估计”,《生物信息学》29,第1275-1282页，所述文献特此通过引用并入。sSeq与所比较的基因的数量非常一致地进行缩放。在根据本公开的典型实验中，每个簇158可以包含数百个、数千个、数万个、数十万个或更多的探针斑点126，并且每个相应探针斑点126可以含有数百个或数千个不同的基因的mRNA表达数据。因此，当在如此大的离散属性值数据集120中测试微分表达式时，sSeq特别有利。在所有RNA-seq方法中，sSeq有利地更快。存在其它单探针斑点微分表达式方法并且可以在一些实施例中使用，但其是为较小规模的实验而设计的。如此，sSeq以及更普遍地技术在没有将整个离散属性数据集120加载到非永久性存储器111的情况下，通过对与所述多个探针斑点中的每个探针斑点126相关联的每个基因座122的离散属性值124进行建模来归一化离散属性值，其中负二项分布具有分散的一致估计，这在本公开的一些实施例中得以实践。在一些实施例中，在计算针对sSeq计算的参数的情况下，检查基因座中的每个基因座的离散属性值以得到所有基因座的分散值。此处，虽然访问基因座的所有离散属性值以进行计算，但离散属性值并非全部同时从永久性存储器112中读取。在一些实施例中，离散属性值通过一次几个块地遍历压缩数据的块来获得。换句话说，将数据集中的一组块(例如，由几个压缩块组成)从永久性存储器加载到非永久性存储器中，并对其进行分析以确定所述一组块表示哪些基因座。确定在所述一组块中编码的基因座中的每个基因座的跨所述多个探针斑点的离散属性值阵列并将所述离散属性值阵列用于计算这些基因座的跨所述多个探针斑点的方差或其它所需参数。重复这个过程，其中将新的一组块从永久性存储器加载到非永久性存储器中，对其进行分析以确定哪些基因座在所述新的一组块中编码，并且然后用于计算跨所述新的一组块中编码的基因座中的每个基因座的所述多个探针斑点的这些基因座的方差或其它所需参数，然后在将所述一组块从非永久性存储器中丢弃。以这种方式，在任何给定时间仅有限量的离散属性值数据集120存储在非永久性存储器111中(例如，含有特定基因座的离散属性值的特定块的数据)。进一步地，本公开的系统和方法能够计算给定基因座的离散属性值的方差，因为在一些实施例中，其已存储了存储在单个bgzf块中的离散属性值数据集120的跨一个或多个图像和/或一个或多个空间投影121的所述特定基因座的离散属性值。一旦计算了基因座的方差或其它所需参数(或基因座的离散属性值)，已加载到非永久性存储器111中以执行计算的经访问的一组bgzf块(其是数据集中的bgzf块总数的子集)从非永久性存储器中除去并且要进行此类计算的另一组bgzf块从永久性存储器112加载到非永久性存储器111中。在一些实施例中，当存在多个处理核102时，此类过程并行运行(例如，每个基因座一个过程)。换句话说，每个处理核同时分析数据集中的一组不同相应块，并计算在所述一组相应块中表示的那些基因座的基因座统计信息。

在此类归一化之后，在一些实施例中，针对每个相应基因座122，计算每个簇158的探针斑点126的每个基因座122的平均(或集中趋势的一些其它度量)离散属性值124(例如，基因座122的计数)。因此，在存在第一和第二簇158的探针斑点126的情况下，计算跨第一簇158的所有探针斑点126的基因座A的平均(或集中趋势的一些其它度量)离散属性值124，以及跨第二簇158的所有探针斑点126的基因座A的平均(或集中趋势的一些其它度量)离散属性值124，并且由此关于第一簇计算每个基因座的微分值162。这针对给定簇中的基因座中的每个基因座122重复。这针对所述多个簇中的每个簇158进一步重复。在一些实施例中，还考虑了其它因素，例如当数据证明有噪声时调整离散属性值124中的方差的初始估计。在存在多于两个簇的情况下，计算跨第一簇158的所有探针斑点126的基因座A的平均(或集中趋势的一些其它度量)离散属性值124，以及跨剩余簇158的所有探针斑点126的基因座A的平均(或集中趋势的一些其它度量)离散属性值124并用于计算微分值162。

实例6-显示热图.

在一些实施例中，此实例6的技术在本公开的任何离散属性值数据集上运行。

参考图4，一旦已根据实例5计算了所述多个簇中的每个相应簇158的所述多个基因座中的每个相应基因座122的微分值162，则这些微分值的热图(附图标记402)显示在接口400的第一图(附图标记404)中。热图(附图标记402)包括所述多个簇中的每个簇158的所述多个基因座中的每个相应基因座122的微分值162的表示。如图4所展示的，每个簇158(例如，簇158-1和158-11)的所述多个探针斑点中的每个基因座122(例如，基因座122-1到122-M)的微分值162以颜色编码的方式展示，以表示根据色键408的log2变化倍数。根据色键408，相对于所有其它簇，特定簇158的探针斑点中上调的那些基因座122分配有更多正值，而相对于所有其它簇，特定簇158的探针斑点中下调的那些基因座122分配有更多的负值。在一些实施例中，可以将热图导出到永久性存储装置(例如，作为PNG图形、JPG图形或其它文件格式)。

实例7-数据集中探针斑点的二维绘图.

在一些实施例中，此实例7的技术在本公开的任何离散属性值数据集上运行。

参考图4，在一些实施例中，离散属性值数据集120的二维可视化还提供于第二图(附图标记420)中。在一些实施例中，第二图(附图标记420)中的二维可视化由远离可视化系统100的后端流水线计算并且存储为离散属性值数据集120中的二维数据点166，如图1B所展示的。在一些实施例中，二维可视化420由可视化系统计算。

因为初始数据是稀疏的，所以在一些实施例中，二维可视化是通过基于相应探针斑点126中的每个基因座122的离散属性值124的相应值计算所述多个探针斑点中的每个相应探针斑点126的对应多个主成分值164来准备的。在一些实施例中，所述多个主成分值为十。在一些实施例中，所述多个主成分值介于5与100之间。在一些实施例中，所述多个主成分值介于5与50之间。在一些实施例中，所述多个主成分值介于8与35之间。在一些实施例中，降维技术然后应用于所述多个探针斑点中的每个相应探针斑点126的所述多个主成分值，由此确定所述多个探针中的每个探针斑点126的二维数据点166。然后基于相应探针斑点的二维数据点将所述多个探针斑点中的每个相应探针斑点126绘制在第二图中。

例如，本公开的一个实施例提供了在除可视化系统100之外的计算机系统上执行的后端流水线。后端流水线包括两级数据简化。在第一阶段中，探针斑点126中的每个基因座122的离散属性值124(例如，mRNA表达数据)被视为高维数据点。例如，在一些实施例中，数据点是一维向量，其包含人基因组中的19,000-20,000个基因中的每一个的维度，其中每个维度填充有对应基因的所测量的mRNA表达水平。更通常地，一维向量包含所述多个基因座的每个离散属性值124的维度，其中每个维度填充有对应基因座122的离散属性值124。此数据被认为有些稀疏，并且因此在此实例中，主成分分析适于将数据的维数减少到十维。在一些实施例中，主成分分析的应用可以将数据的维数显著减少(减少至少5倍、至少10倍、至少20倍或至少40倍)(例如，从大约20,000减少到十维)。换句话说，主成分分析用于为每个相应探针斑点分配那些描述相应探针斑点的mRNA表达水平相对于数据集中的其它探针斑点的对应mRNA表达水平的变化的主成分。接下来，数据简化技术t-分布式随机近邻实体(t-SNE)用于进一步将数据的维数从十减小到二。t-SNE是用于降维的机器学习算法。参见vander Maaten和Hinton,2008,“使用t-SNE将高维数据可视化(Visualizing High-Dimensional Data Using t-SNE)”,《机器学习研究杂志(Journal ofMachine LearningResearch)》9,2579-2605，所述文献特此通过引用并入。非线性降维技术t-SNE特别适于将如通过主成分分析确定的，基于相应探针斑点中的每个基因座122(例如，表达的mRNA)的所测量的离散属性值(例如，表达水平)，针对每个所测量的探针斑点计算的高维数据(这此处是十个主成分值164)嵌入到两个空间中，然后可以将其可视化为二维可视化(例如，第二图(附图标记420)的散点图)。在一些实施例中，t-SNE用于以以下方式将每个高维对象(每个所测量的探针斑点的10个主成分)建模为二维点：将相似表达的探针斑点建模为附近的二维数据点166并且将相异表达的探针斑点建模为二维图中的远处二维数据点166。t-SNE算法包括两个主要阶段。首先，t-SNE以以下方式在成对的高维探针斑点向量上构建概率分布：相似探针斑点向量(探针斑点的十个主成分具有相似值，并且因此可能跨所述多个基因座122具有相似离散属性值124)被挑选的概率高，而相异不相似探针斑点向量(探针斑点的十个主成分具有相异的值，并且因此可能跨所述多个基因座122上具有不同的离散属性值124)被挑选的概率低。其次，t-SNE定义了低维图中的所述多个探针斑点126上的相似概率分布，并且使关于图中点的位置的两个分布之间的库尔贝克-莱布勒散度(Kullback–Leibler divergence)最小化。在一些实施例中，t-SNE算法使用对象之间的欧几里得距离作为其相似度度量的基础。在其它实施例中，使用其它距离度量(例如，切比雪夫距离、马哈拉诺比斯距离、曼哈顿距离等)。

在一些实施例中，并非使用t-SNE，用于将主成分值164减小到二维数据点166的降维技术是萨蒙映射(Sammon mapping)、曲线成分分析、随机邻近嵌入、等距映射、最大方差展开、局部线性嵌入或拉普拉斯特征映射(Laplacian Eigenmap)。这些技术描述于van derMaaten和Hinton,2008,“使用t-SNE将高维数据可视化”,《机器学习研究杂志》9,2579-2605，所述文献特此通过引用并入。在一些实施例中，用户具有选择降维技术的选项。在一些实施例中，用户具有从包括由以下组成的组的全部或子集的组中选择降维技术的选项：t-SNE、萨蒙映射、曲线成分分析、随机邻近嵌入、等距映射、最大方差展开、局部线性嵌入和拉普拉斯特征映射。

结论

上述信息类型以交互方式呈现在计算装置的用户接口上，使得用户接口可以接收指示用户接口修改信息表示的用户输入。可以响应于用户输入同时显示各种信息组合。使用本文所描述的信息可视化方法，可以从离散属性值数据集中发现先前未知的模式和关系。以这种方式，可以表征生物样品。

本文中所引用的全部参考文献通过引用整体并入本文中并且出于所有目的，其程度如同每个单独的公开或专利或专利申请具体地且单独地被指示为出于所有目的通过引用整体并入本文中。

可以为本文描述为单个实例的组件、操作或结构提供多个实例。最后，各个组件、操作和数据存储之间的边界在某种程度上是任意的，并且在特定说明性配置的上下文中说明了特定操作。设想了其它功能分配，并且可以落入所述实施方案的范围内。总体上，在示例配置中作为单独组件呈现的结构和功能可以实施为组合结构或组件。类似地，作为单个组件呈现的结构和功能可以实施为单独的组件。这些结构和功能及其它变型、修改、添加和改进落入所述实施方案的范围内。

还应理解，尽管术语第一、第二等在本文中可以用来描述各种要素，但是这些要素不应该受这些术语的限制。这些术语仅用于将一个要素与另一个要素相区分。例如，在不脱离本公开的范围的情况下，第一受试者可以被称为第二受试者，并且类似地，第二受试者可以被称为第一受试者。虽然第一受试者和第二受试者都为受试者，但这些主受试者是同一受试者。

在本公开中使用的术语仅用于描述具体实施例的目的，并且不旨在限制本发明。如在本发明的说明书和所附权利要求书中所使用的，除非上下文另外清楚地指示，否则单数形式“一个(a)”、“一个(an)”和“所述(the)”旨在同样包含复数形式。还将理解的是，如本文使用的术语“和/或”指代并且涵盖相关联的列举项的一个或多个项的任何和所有可能组合。将进一步理解，当在本说明书中使用时，术语“包括(comprises)”和/或“包括(comprising)”指定所陈述的特征、整数、步骤、操作、要素和/或组件的存在，但不排除存在或添加一个或多个其它特征、整数、步骤、操作、要素、组件和/或其组。

如本文中所使用的，根据上下文，术语“如果”可以被解释为意指“当……时(when)”或“在……时(upon)”或“响应于确定”或“响应于检测”。类似地，根据上下文，短语“如果确定”或“如果检测到[所陈述的条件或事件]”可以被解释成意指“在确定……时”或“响应于确定”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。

前述描述包含体现说明性实施方案的示例系统、方法、技术、指令序列和计算机器程序产品。出于解释的目的，阐述了许多具体细节，以便提供对本发明主题的各个实施方案的理解。然而对于本领域的技术人员将显而易见的是，本发明的主题可以在没有这些具体细节的情况下实践。总体上，未详细示出众所周知的说明实例、协议、结构和技术。

为了解释的目的，前面的描述已经参考具体的实施方案进行了描述。然而，上述说明性讨论并不旨在穷举或将所述实施方案限制于所公开的精确形式。鉴于以上教导，许多修改和变化是可以的。选择和描述这些实施方案是为了最好地解释这些原理和其实际应用，由此使得本领域其它技术人员能够用适合所设想的特定用途的多种修改方案来最好地使用这些实施方案和多种实施方案。

Claims

1.一种用于识别形态学模式的方法，所述方法包括：

在包括一个或多个处理核、存储器和显示器的计算机系统处：

A)获得与具有第一空间布置的多个探针斑点相关联的离散属性值数据集，其中所述多个探针斑点中的每个探针斑点分配有多个条形码中的唯一条形码，并且所述多个探针斑点包括至少1000个探针斑点，所述离散属性值数据集包括：

(i)生物样品的一个或多个空间投影，

(ii)所述一个或多个空间投影中的第一空间投影的一个或多个二维图像，所述一个或多个二维图像中的每个二维图像(a)拍摄的是从所述生物样品获得的叠置在具有以所述第一空间布置而布置的所述多个探针斑点的基板上的第一组织切片，并且(b)包括至少100,000个像素值，以及

(iii)所述多个探针斑点中的每个相应探针斑点的从对所述第一组织切片的空间测序获得的对应多个离散属性值，其中所述对应多个离散属性值中的每个相应离散属性值针对多个基因座中的不同基因座，并且每对应多个离散属性值包括至少500个离散属性值；

B)获得所述离散属性值数据集的所述多个探针斑点中的每个相应探针斑点在多个簇中的对应簇分配，其中所述对应簇分配至少部分地基于所述相应探针斑点的所述对应多个离散属性值或至少部分地由所述相应探针斑点的所述对应多个离散属性值得出的对应多个降维成分；

C)在所述显示器上的第一窗口中显示所述第一投影的所述一个或多个二维图像中的第一二维图像的全部或一部分的像素值；以及

D)在所述第一二维图像上并且与所述第一二维图像共对齐地叠置(i)所述多个探针斑点中的每个探针斑点的已分配给所述多个簇中的第一簇的第一标记和(ii)所述多个探针斑点中的每个探针斑点的已分配给所述多个簇中的第二簇的第二标记，由此识别所述形态学模式。

2.根据权利要求1所述的方法，其中，

所述一个或多个空间投影是所述生物样品的多个空间投影，

所述多个空间投影包括所述生物样品的第一组织切片的所述第一空间投影，并且

所述多个空间投影包括所述生物样品的第二组织切片的第二空间投影。

3.根据权利要求2所述的方法，其中

所述第一空间投影的所述一个或多个二维图像包括第一多个二维图像，并且

所述第二空间投影包括第二多个二维图像。

4.根据权利要求3所述的方法，其中

所述第一多个二维图像中的每个二维图像拍摄的是所述生物样品的所述第一组织切片，并且

所述第二多个二维图像中的每个二维图像拍摄的是所述生物样品的第二组织切片。

5.根据权利要求3或4所述的方法，其中所述第一多个二维图像中的每个二维图像被显示为与以下共对齐：(i)所述多个探针斑点中的每个探针斑点的已分配给所述第一簇的所述第一标记；和(ii)所述多个探针斑点中的每个探针斑点的已分配给所述第二簇的所述第二标记。

6.根据权利要求5所述的方法，所述方法进一步包括：响应于接收到用户显示指令而显示或取消显示所述第一多个二维图像中的一个或多个二维图像。

7.根据权利要求3到6中任一项所述的方法，其中所述第一多个二维图像中的每个相应二维图像是使用不同波长或不同波段从所述第一组织切片获取的。

8.根据权利要求1所述的方法，其中

所述一个或多个空间投影是单个空间投影，

所述第一空间投影的所述一个或多个二维图像是多个二维图像，

所述多个二维图像中的第一二维图像是所述第一组织切片的明场图像，

所述多个二维图像中的第二二维图像是所述第一组织切片的在第一波长或第一波长范围下拍摄的第一免疫组织化学(IHC)图像，并且

所述多个二维图像中的第三二维图像是所述第一组织切片的在不同于所述第一波长或所述第一波长范围的第二波长或第二波长范围下拍摄的第二免疫组织化学(IHC)图像。

9.根据权利要求8所述的方法，其中

所述第一二维图像是对所述生物样品使用以下来获取的：苏木素和伊红(Haemotoxylin and Eosin)、过碘酸-希夫反应染液(Periodic acid-Schiffreactionstain)、马松三色染液(Masson's trichrome stain)、阿尔新蓝染液(Alcian bluestain)、范吉森染液(van Gieson stain)、网状纤维染液、Azan染液(Azan stain)、吉姆萨染液(Giemsa stain)、甲苯胺蓝染液(Toluidine blue stain)、艾沙明蓝/伊红染液(isamin blue/eosin stain)、尼氏和亚甲基蓝染液(Nissland methylene blue stain)、苏丹黑和/或锇染色。

10.根据权利要求1所述的方法，所述方法包括

以第一模式存储所述第一二维图像，其中所述第一模式包括第一数量的图块；以及

以第二模式存储所述第一二维图像，其中所述第二模式包括第二数量的图块，其中所述第二数量的图块少于所述第一数量的图块。

11.根据权利要求10所述的方法，响应于接收到用户的显示指令，

从所述第一模式切换为所述第二模式以显示所述第一二维图像的全部或一部分，或者

从所述第二模式切换为所述第一模式以显示所述第一二维图像的全部或一部分。

12.根据权利要求10所述的方法，其中：

所述第一数量的图块中的至少第一图块包括第一预定图块大小，

所述第一数量的图块中的至少第二图块包括第二预定图块大小，并且

所述第二数量的图块中的至少第一图块包括第三预定图块大小。

13.根据权利要求1所述的方法，其中所述离散属性值数据集以压缩稀疏行格式和压缩稀疏列格式两者冗余地表示所述多个探针斑点中的每个探针斑点的所述多个基因座中的每个相应基因座的第一离散属性值以及所述一个或多个空间投影中的第一空间投影的所述多个探针斑点中的每个相应探针斑点的对应第二离散属性值，在所述压缩稀疏行格式和所述压缩稀疏列格式下，具有无效离散属性数据值的第一离散属性值和第二离散属性值被丢弃。

14.根据权利要求1所述的方法，其中所述获得B)包括使用以多维向量的形式分配给所述一个或多个空间投影中的每个空间投影中的每个相应探针斑点的所述离散属性值跨所述一个或多个空间投影对所述多个探针斑点中的所有所述探针斑点或所述探针斑点的子集进行聚类，其中所述聚类被配置成在聚类期间将小于整个所述离散属性值数据集加载到非永久性存储器中，由此允许对大小超过非永久性存储器中的分配给所述离散属性值数据集的存储空间的所述离散属性值数据集的所述聚类。

15.根据权利要求1所述的方法，其中所述多个簇中的每个相应簇由所述多个探针斑点的唯一子集组成。

16.根据权利要求1所述的方法，其中所述多个探针斑点中的至少一个探针斑点以对应概率值分配给所述多个簇中的多于一个簇，所述对应概率值指示所述至少一个探针斑点属于所述多个簇中的相应簇的概率。

17.根据权利要求1所述的方法，其中

所述多个基因座中的每个基因座是多个基因中的相应基因，并且

所述对应多个离散属性值中的每个离散属性值是映射到对应探针斑点并且还映射到所述多个基因中的相应基因的UMI计数。

18.根据权利要求17所述的方法，其中所述离散属性值数据集表示以映射到所述多个基因的转录物读段的计数对基因表达进行定量的全转录组测序实验。

19.根据权利要求17所述的方法，其中所述离散属性值数据集表示以映射到所述多个探针中的探针的UMI计数对基因表达进行定量的靶向转录组测序实验。

20.根据权利要求1所述的方法，其中

第一指示是第一图形或第一颜色，并且

第二指示是第二图形或第二颜色。

21.根据权利要求14所述的方法，其中所述对所有所述探针斑点或所述探针斑点的子集进行聚类包括k均值聚类，其中K被设置为介于1与25之间的预定值。

22.根据权利要求1所述的方法，其中

所述多个基因座中的每个基因座是多个特征中的相应特征，

所述对应多个离散属性值中的每个离散属性值是映射到对应探针斑点并且还映射到所述多个特征中的相应特征的UMI计数，并且

所述多个特征中的每个特征是开放阅读框、内含子、外显子、整个基因、RNA转录物、参考基因组的预定非编码部分、增强子、阻遏因子、对变体等位基因进行编码的预定序列或其任何组合。

23.根据权利要求1所述的方法，其中所述多个基因座包括多于1000个基因座。

24.根据权利要求1所述的方法，其中每个唯一条形码对选自以下集合的唯一预定值进行编码：{1,…,1024}、{1,…,4096}、{1,…,16384}、{1,…,65536}、{1,…,262144}、{1,…,1048576}、{1,…,4194304}、{1,…,16777216}、{1,…,67108864}或{1,…,1x 10¹²}。

25.根据权利要求1到24中任一项所述的方法，其中所述多个基因座包含第一染色体上的一个或多个基因座以及除所述第一染色体外的第二染色体上的一个或多个基因座。

26.根据权利要求1到25中任一项所述的方法，其中所述第一组织切片中的映射到所述第一簇的所述探针斑点的细胞是第一细胞类型，并且所述第一组织切片中的映射到所述第二簇的所述探针斑点的细胞是第二细胞类型。

27.根据权利要求26所述的方法，其中所述第一细胞类型是患病细胞，并且所述第二细胞类型是淋巴细胞。

28.根据权利要求1到25中任一项所述的方法，其中所述第一组织切片中的映射到所述第一簇的细胞是第一组织类型，并且所述第一组织切片中的映射到所述第二簇的细胞是第二组织类型。

29.根据权利要求28所述的方法，其中所述第一组织类型是健康组织，并且所述第二组织类型是患病组织。

30.根据权利要求1到29中任一项所述的方法，其中所述形态学模式是分配给所述第一簇的探针斑点相对于分配给所述第二簇的探针斑点的空间布置。

31.根据权利要求1所述的方法，其中所述方法进一步包括：

响应于使用所述第一二维图像的所显示像素值对第一探针斑点子集的第一用户选择而将所述第一探针斑点子集分配给所述第一簇；以及

响应于接收到使用所述第一二维图像的所述所显示像素值对第二探针斑点子集的第二用户选择而将所述第二探针斑点子集分配给所述第二簇。

32.根据权利要求1所述的方法，其中所述方法进一步包括：

响应于使用叠加在所述第一二维图像上的活跃基因列表的所显示离散属性值对第一探针斑点子集的第一用户选择而将所述第一探针斑点子集分配给所述第一簇；以及

响应于使用叠加在所述第一二维图像上的活跃基因列表的所显示离散属性值对第二探针斑点子集的第二用户选择而将所述第二探针斑点子集分配给所述第二簇。

33.根据权利要求1所述的方法，其中

所述一个或多个空间投影是多个空间投影，

所述离散属性值数据集进一步包括第二空间投影的一个或多个二维图像，所述第二空间投影的所述一个或多个二维图像中的每个二维图像(a)拍摄的是从所述生物样品获得的叠置在具有以所述第一空间布置而布置的所述多个探针斑点的基板上的第二组织切片，并且(b)包括至少100,000个像素值，所述方法进一步包括：

在所述显示器上的第二窗口中显示所述第二投影的所述一个或多个二维图像中的第一二维图像的全部或一部分的像素值。

34.根据权利要求33所述的方法，所述方法进一步包括在所述第一窗口与所述第二窗口之间链接簇选择、簇创建、基因座选择、簇成员关系或簇标记选择。

35.根据权利要求1到34中任一项所述的方法，其中所述离散属性值数据集的文件大小大于100兆字节。

36.根据权利要求1到35中任一项所述的方法，其中所述离散属性值数据集进一步包括第一层图，所述第一层图包括第一像素值，其中所述第一层图的所述第一像素值是通过对至少所述第一二维图像的所述像素值或与所述离散属性集相关联的所述多个探针斑点中的每个探针斑点的所述对应多个离散属性值的第二处理得出的，所述方法进一步包括：

在所述显示器上的所述第一二维图像上叠加和显示所述第一层图的与所述第一二维图像的所显示部分相对应的部分。

37.根据权利要求36所述的方法，其中所述离散属性值数据集进一步包括第二层图，所述第二层图包括第二像素值，其中所述第二层图的所述第二像素值是通过对至少所述第一二维图像的所述像素值或与所述离散属性集相关联的所述多个探针斑点中的每个探针斑点的所述对应多个离散属性值的第二处理得出的，所述方法进一步包括：

在所述显示器上的所述第一二维图像上叠加和显示所述第二层图的与所述第一二维图像的所述所显示部分相对应的部分。

38.根据权利要求37所述的方法，其中第一处理和所述第二处理不同。

39.根据权利要求37所述的方法，其中第一处理和所述第二处理各自独立地选自由以下组成的组：细胞分割、染液分析、染液组合分析、识别所述第一二维图像中的形态学结构、识别所述第一二维图像中的组织结构、对所述第一二维图像内的病理学进行分类或响应于输入所述第一二维图像而输出经训练的机械学习算法。

40.根据权利要求36所述的方法，其中所述第一层图包括的像素的数量与所述第一二维图像包括的像素的数量相同。

41.根据权利要求36所述的方法，其中所述第一层图包括所述多个探针斑点中的每个探针斑点的不同值。

42.一种非暂时性计算机可读介质，其存储一个或多个计算机程序，所述一个或多个计算机程序能够由计算机执行以识别形态学模式，所述计算机包括存储器，所述一个或多个计算机程序共同对用于执行包括以下的方法的计算机可执行指令进行编码：

(i)生物样品的一个或多个空间投影，

B)获得所述离散属性值数据集的所述多个探针斑点中的每个相应探针斑点在多个簇中的对应簇分配，其中所述对应簇分配至少部分地基于所述相应探针斑点的所述对应多个离散属性值或至少部分地由所述相应探针斑点的所述对应多个离散属性值得出的对应多个降维成分；以及

C)在显示器上的第一窗口中显示所述第一投影的所述一个或多个二维图像中的第一二维图像的全部或一部分的像素值；以及

43.一种可视化系统，其包括一个或多个处理核、存储器和显示器，其中所述存储器存储用于执行用于识别形态学模式的方法的指令，所述方法包括：

(i)生物样品的一个或多个空间投影，