[go: up one dir, main page]

CN115136245A - 基于人工智能的碱基检出器的基于知识蒸馏和梯度修剪的压缩 - Google Patents

基于人工智能的碱基检出器的基于知识蒸馏和梯度修剪的压缩 Download PDF

Info

Publication number
CN115136245A
CN115136245A CN202180015568.9A CN202180015568A CN115136245A CN 115136245 A CN115136245 A CN 115136245A CN 202180015568 A CN202180015568 A CN 202180015568A CN 115136245 A CN115136245 A CN 115136245A
Authority
CN
China
Prior art keywords
base
cluster
images
data
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180015568.9A
Other languages
English (en)
Inventor
A·杜塔
G·韦瑟尔
D·卡什夫哈吉吉
K·贾加纳坦
A·起亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN115136245A publication Critical patent/CN115136245A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Multimedia (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Neurology (AREA)
  • Signal Processing (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Acyclic And Carbocyclic Compounds In Medicinal Compositions (AREA)

Abstract

所公开的技术将较大教师碱基检出器压缩为较小学生碱基检出器。学生碱基检出器比教师碱基检出器具有更少的处理模块和参数。教师碱基检出器使用硬标签(例如,独热编码)进行训练。经训练的教师碱基检出器用于在推断阶段期间生成软标签作为输出概率。软标签用于训练学生碱基检出器。

Description

基于人工智能的碱基检出器的基于知识蒸馏和梯度修剪的 压缩
技术领域
本发明所公开的技术涉及人工智能类型计算机和数字数据处理系统以及对应数据处理方法和用于仿真智能的产品(即,基于知识的系统、推断系统和知识采集系统);并且包括用于不确定性推断的系统(例如,模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。具体地,所公开的技术涉及将深度神经网络诸如深度卷积神经网络用于分析数据。
优先权申请
本PCT申请要求2020年2月20日提交的名称为“KNOWLEDGE DISTILLATION-BASEDCOMPRESSION OF ARTIFICIAL INTELLIGENCE-BASED BASE CALLER”的美国临时专利申请62/979,385(代理人案卷号ILLM 1017-1/IP-1859-PRV)和2021年2月15日提交的名称为“KNOWLEDGE DISTILLATION-BASED COMPRESSION OF ARTIFICIAL INTELLIGENCE-BASEDBASE CALLER”的美国专利申请17/176,151(代理人案卷号ILLM 1017-2/IP-1859-US)的优先权和权益。据此将这些优先权申请以引用方式并入,即如同在本文完整示出一样,以用于所有目的。
文献并入
以下文献以引用方式并入,即如同在本文完整列出一样:
2020年2月20日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED BASE CALLINGOF INDEX SEQUENCES”的美国临时专利申请62/979,384(代理人案卷号ILLM 1015-1/IP-1857-PRV);
2020年2月20日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED MANY-TO-MANYBASE CALLING”的美国临时专利申请62/979,414(代理人案卷号ILLM 1016-1/IP-1858-PRV);
2020年8月28日提交的名称为“DETECTING AND FILTERING CLUSTERS BASED ONARTIFICIAL INTELLIGENCE-PREDICTED BASE CALLS”的美国临时专利申请63/072,032(代理人案卷号ILLM 1018-1/IP-1860-PRV);
2020年2月20日提交的名称为“MULTI-CYCLE CLUSTER BASED REAL TIMEANALYSIS SYSTEM”的美国临时专利申请62/979,412(代理人案卷号ILLM 1020-1/IP-1866-PRV);
2020年2月20日提交的名称为“DATA COMPRESSION FOR ARTIFICIALINTELLIGENCE-BASED BASE CALLING”的美国临时专利申请62/979,411(代理人案卷号ILLM1029-1/IP-1964-PRV);
2020年2月20日提交的名称为“SQUEEZING LAYER FOR ARTIFICIALINTELLIGENCE-BASED BASE CALLING”的美国临时专利申请62/979,399(代理人案卷号ILLM1030-1/IP-1982-PRV);
2020年3月20日提交的名称为“TRAINING DATA GENERATION FOR ARTIFICIALINTELLIGENCE-BASED SEQUENCING”的美国非临时专利申请16/825,987(代理人案卷号ILLM1008-16/IP-1693-US);
2020年3月20日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED GENERATION OFSEQUENCING METADATA”的美国非临时专利申请16/825,991(代理人案卷号ILLM 1008-17/IP-1741-US);
2020年3月20日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED BASE CALLING”的美国非临时专利申请16/826,126(代理人案卷号ILLM 1008-18/IP-1744-US);
2020年3月20日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED QUALITYSCORING”的美国非临时专利申请16/826,134(代理人案卷号ILLM 1008-19/IP-1747-US);以及
2020年3月21日提交的名称为“ARTIFICIAL INTELLIGENCE-BASED SEQUENCING”的美国非临时专利申请16/826,168(代理人案卷号ILLM 1008-20/IP-1752-PRV-US)。
背景技术
本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为背景技术提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。
为了在移动设备上部署高效的深度神经网络,学术界和工业界已经提出了多种模型压缩方法。压缩方法可大致分为四类:参数共享、网络修剪、低秩因子分解和知识蒸馏。在知识蒸馏中,嵌入繁琐模型(称为教师模型)中的知识被蒸馏,以指导称为学生模型的较小模型的训练。学生模型具有不同的架构和较少的参数,但是可通过模仿繁琐模型的行为来实现相当的性能。其他压缩方法(如量化和低秩因子分解)是知识蒸馏的补充,并且也可用于进一步减小学生模型的大小。
出现了使用知识蒸馏来加速基于人工智能的碱基检出的机会。
附图说明
在附图中,在所有不同视图中,类似的参考符号通常是指类似的部件。另外,附图未必按比例绘制,而是重点说明所公开的技术的原理。在以下描述中,参考以下附图描述了所公开的技术的各种具体实施,其中:
图1示出了将所公开的知识蒸馏用于基于人工智能的碱基检出的各个方面。
图2A描绘了通过使用用第一基准真值数据注释的第一簇图像集来训练教师碱基检出器的一个具体实施,该第一基准真值数据使用离散值标签(独热编码)来识别正确的碱基检出。
图2B描绘了通过使用用第一基准真值数据注释的第一簇图像集来训练教师碱基检出器的另一个具体实施,该第一基准真值数据使用离散值标签(软化的独热编码)来识别正确的碱基检出。
图3示出在第二簇图像集上应用经训练的教师碱基检出器并且生成由连续值权重表示的碱基检出预测的一个具体实施。
图4A和图4B示出了使用离散值标签和连续值权重的组合的所谓“混合基准真值数据”生成的一个具体实施。
图5是使用用混合基准真值数据注释的第二簇图像集来训练学生碱基检出器的一个具体实施,该混合基准真值数据基于离散值标签和连续值权重来识别正确的碱基检出。
图6示出在第三簇图像集上应用经训练的学生碱基检出器并且生成碱基检出预测的一个具体实施。
图7示出了由教师和学生碱基检出器进行的数据处理的一个具体实施。
图8A和图8B描绘了将学生碱基检出器用于碱基检出的测序仪的一个具体实施。
图8C是用于分析来自测序系统的传感器数据(诸如,碱基检出传感器输出)的系统的简化框图。
图8D是示出碱基检出操作的各方面的简化图,该操作包括由主机处理器执行的运行时程序的功能。
图8E是可配置处理器846诸如图8C的可配置处理器的配置的简化图。
图9是可用于实现所公开的技术的计算机系统的简化框图。
图10A示出在簇强度图像上训练第一碱基检出器并产生第一经训练碱基检出器的一个具体实施。图10B示出第一经训练碱基检出器将簇强度图像映射到碱基检出预测的一个具体实施。
图11A和图11B示出由所公开的技术实现以执行计算高效的碱基检出的循环的各个方面。
图12示出了生成簇特征映射图的贡献分数的一个具体实施。
图13示出执行计算高效的碱基检出的基于人工智能的方法的一个具体实施。
图14示出执行计算高效碱基检出的基于人工智能的方法的另一个具体实施。
图15A、图15B、图15C、图15D、图15E和图15F是说明所公开的技术实现计算高效的碱基检出的性能结果。
图16示出具有251,220个总参数的较大教师碱基检出器的一个具体实施。
图17示出具有12,970个总参数的较小学生碱基检出器的一个具体实施,该碱基检出器使用所公开的技术从图16的较大教师碱基检出器中蒸馏。
图18示出较小学生碱基检出器的碱基检出性能与较大教师碱基检出器的碱基检出性能的对比。
图19描绘了用于所公开的技术的一个具体实施的盒须图,该技术生成蒸馏碱基检出器的修剪卷积权重。
图20描绘了用于所公开的技术的一个具体实施的盒须图,该技术生成蒸馏碱基检出器的修剪卷积偏置。
图21描绘了用于所公开的技术的一个具体实施的盒须图,该技术生成蒸馏碱基检出器的修剪卷积权重,其中将正则化应用于卷积权重和卷积偏置两者。
图22描绘了用于所公开的技术的一个具体实施的盒须图,该技术生成蒸馏碱基检出器的修剪卷积偏置,其中将正则化应用于卷积权重和卷积偏置两者。
具体实施方式
呈现以下讨论以使得本领域的任何技术人员能够实现和使用所公开的技术,并且在特定应用及其要求的上下文中提供以下讨论。对所公开的具体实施的各种修改对于本领域的技术人员而言将是显而易见的,并且在不脱离所公开的技术的实质和范围的情况下,本文所定义的一般原理可应用于其他具体实施和应用。因此,所公开的技术并非旨在限于所示的具体实施,而是要符合与本文所公开的原理和特征一致的最广范围。
简介
所公开的技术将较大教师碱基检出器压缩为较小蒸馏的学生碱基检出器。学生碱基检出器比教师碱基检出器具有更少的处理模块和参数。较大教师碱基检出器可包括较大教师碱基检出器的集合。教师碱基检出器使用硬标签(例如,独热编码)进行训练。经训练的教师碱基检出器用于在推断阶段期间生成软标签作为输出概率。软标签用于训练学生碱基检出器。
硬标签是独热向量,其中除了单个条目之外,所有条目都被设置为零,该单个条目对应于被设置为一的正确类别。相比之下,软标签在可能的类别上形成概率分布。想法是,簇图像包含关于多于一个类别的信息(例如,碱基检出“A”的簇图像看起来很像碱基检出“A”的其他簇图像,但它看起来也像碱基检出“C”的一些簇图像)。使用软标签允许我们传达关于相关联簇图像的更多信息,这对于检测簇图像中的簇之间的边界特别有用。
本申请将教师碱基检出器称为第一碱基检出器、较大引擎和较大模型。本申请将学生碱基检出器称为第二碱基检出器、较小引擎和较小模型。本申请将硬标签称为离散值标签。本申请将软标签称为连续值权重。学生碱基检出器可用于在在线模型中执行测序运行,其中碱基检出是在逐个循环的基础上实时生成的,诸如学生碱基检出器处理当前测序循环的传入图像、生成当前测序循环的碱基检出、处理下一测序循环的传入图像、生成下一测序循环的碱基检出等。
碱基检出器
讨论开始于由教师碱基检出器110和学生碱基检出器124进行的数据处理,这些碱基检出器被训练成将测序图像映射到碱基检出。在图7中,出于数据处理的说明的目的,碱基检出器730代表教师碱基检出器110和学生碱基检出器124两者。然而,学生碱基检出器124比教师碱基检出器110具有更少的处理模块和参数。在一个具体实施中,处理模块中的一个处理模块是神经网络层。在一个具体实施中,参数中的一个参数是神经网络层之间的互连。在一个具体实施中,处理模块中的一个处理模块是神经网络过滤器。在一个具体实施中,处理模块中的一个处理模块是神经网络内核。在一个具体实施中,参数中的一个参数是乘法和加法运算。
碱基检出是确定序列的核苷酸组成的过程。碱基检出涉及分析图像数据,即,在由测序仪器(诸如Illumina的iSeq、HiSeqX、HiSeq 3000、HiSeq 4000、HiSeq 2500、NovaSeq6000、NextSeq、NextSeqDx、MiSeq和MiSeqDx)进行的测序反应期间产生的测序图像。根据一个具体实施,以下讨论概述了如何生成测序图像及其所描绘的内容。
碱基检出将测序仪器的原始信号(即,从测序图像中提取的强度数据)解码为核苷酸序列。在一个具体实施中,Illumina平台采用循环可逆终止(CRT)化学来进行碱基检出。该过程依赖于生长与具有荧光标记的核苷酸的模板链互补的新生链,同时跟踪每个新添加的核苷酸的发射信号。荧光标记的核苷酸具有锚定核苷酸类型的荧光团信号的3'可移除块。
测序在重复的循环中进行,每个循环包括三个步骤:(a)通过添加荧光标记的核苷酸延长新生链;(b)使用测序仪器的光学系统的一个或多个激光器激发荧光团并且通过光学系统的不同过滤器成像,从而产生测序图像;以及(c)裂解荧光团并移除3'块,以为下一个测序循环做准备。重复结合和成像循环直至达到指定数量的测序循环,从而限定读取长度。使用该方法,每个循环询问沿着模板链的新位置。
Illumina平台的巨大能力源于其同时执行和感测数百万或甚至数十亿个经历CRT反应的分析物(例如,簇)的能力。簇包括模板链的大约一千个相同副本,但簇的尺寸和形状不同。在测序运行之前,通过对输入文库进行桥式扩增,由模板链生成簇。扩增和簇生长的目的是增加发射信号的强度,因为成像设备不能可靠地感测单链的荧光团信号。然而,簇内的链的物理距离较小,因此成像设备将链的簇感知为单个点。
测序发生在流通池(保持输入链的小载玻片)中。流通池连接到光学系统,该光学系统包括显微镜成像、激发激光器和荧光过滤器。流通池包括被称为槽道的多个室。槽道在物理上彼此分离,并且可包含不同的标记测序文库,这些标记测序文库在无样品交叉污染的情况下可进行区分。测序仪器的成像设备(例如,固态成像器,诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)传感器)在沿着槽道的多个位置处、在一系列非重叠区域(被称为区块)中拍摄快照。例如,Illumina基因组分析仪II中的每个槽道有一百个区块,并且Illumina的HiSeq 2000中的每个槽道有六十八个区块。区块保持数十万至数百万的簇。
测序的输出是测序图像,每个测序图像描绘了簇及其周围背景的强度发射。测序图像描绘了由于在测序期间核苷酸掺入序列中而产生的强度发射。强度发射来自相关联的分析物及其周围背景。
以下讨论将按以下步骤来进行。首先,根据一个具体实施描述到碱基检出器730的输入。然后,提供了碱基检出器730的结构和形式的示例。最后,根据一个具体实施描述碱基检出器730的输出。
关于碱基检出器730的附加细节可见于2019年3月21日提交的名称为“ARTIFICIALINTELLIGENCE-BASED SEQUENCING”的美国临时专利申请62/821,766(代理人案卷号ILLM1008-9/IP-1752-PRV),该申请以引用方式并入本文。
在一个具体实施中,从测序图像中提取图像补片。所提取的图像补片作为“输入图像数据”726提供给碱基检出器730以用于碱基检出。图像补片的尺寸为w×h,其中w(宽度)和h(高度)是在1和10,000范围内的任何数字(例如,3×3、5×5、7×7、10×10、15×15、25×25)。在一些具体实施中,w和h是相同的。在其他具体实施中,w和h是不同的。
测序对于对应的m个图像通道,每个测序循环产生m个图像。在一个具体实施中,每个图像通道对应于多个过滤器波长带中的一个过滤器波长带。在另一个具体实施中,每个图像通道对应于测序循环中的多个成像事件中的一个成像事件。在又一个具体实施中,每个图像通道对应于利用特定激光器照明和通过特定光学过滤器成像的组合。
从m个图像中的每个图像中提取图像补片以准备用于特定测序循环的输入图像数据726。在诸如四通道化学、双通道化学和单通道化学的不同具体实施中,m为4或2。在其他具体实施中,m为1、3或大于4。在一些具体实施中,输入图像数据726在光学像素域中,并且在其他具体实施中,在上采样的子像素域中。
例如,考虑测序使用两个不同的图像通道(即,红色通道和绿色通道)的情况。然后,在每个测序循环处,测序产生红色图像和绿色图像。这样,针对一系列k测序循环,产生具有k对红色和绿色图像的序列作为输出。
输入图像数据726包括针对测序运行的一系列k测序循环生成的每个循环的图像补片的序列。每个循环图像补片包含一个或多个图像通道(例如,红色通道和绿色通道)中的相关联分析物及其周围背景的强度数据。在一个具体实施中,当要对单个目标分析物(例如,簇)进行碱基检出时,针对每个循环的图像补片以包含目标相关联分析物的强度数据的中心像素为中心,并且针对每个循环的图像补片中的非中心像素包含与目标相关分析物相邻的相关联分析物的强度数据。
输入图像数据726包括多个测序循环(例如,当前测序循环、一个或多个先前测序循环以及一个或多个后续测序循环)的数据。在一个具体实施中,输入图像数据726包括用于三个测序循环的数据,使得用于当前(时间t)测序循环的待进行碱基检出的数据伴随有(i)用于左侧翼/上下文/前一个/先前/之前(时间t-1)测序循环的数据和(ii)用于右侧翼/上下文/后一个/后续/之后(时间t+1)测序循环的数据。在其他具体实施中,输入图像数据726包括用于单个测序循环的数据。在又一些具体实施中,输入图像数据726包括58、75、92、130、168、175、209、225、230、275、318、325、330、525或625个测序循环的数据。
在一个具体实施中,碱基检出器730是多层感知器(MLP)。在另一个具体实施中,碱基检出器730是前馈神经网络。在又一个具体实施中,碱基检出器730是全连接神经网络。在另外的具体实施中,碱基检出器730是全卷积神经网络。在又一个具体实施中,碱基检出器730是语义分割神经网络。在又一另外的具体实施中,碱基检出器730是生成对抗网络(GAN)。
在一个具体实施中,碱基检出器730是具有多个卷积层的卷积神经网络(CNN)。在另一个具体实施中,该基于神经网络的碱基检出器是递归神经网络(RNN),诸如长短期记忆网络(LSTM)、双向LSTM(Bi-LSTM)或门控递归单元(GRU)。在又一个具体实施中,该基于神经网络的碱基检出器包括CNN和RNN两者。
在其他具体实施中,碱基检出器730可使用1D卷积、2D卷积、3D卷积、4D卷积、5D卷积、扩张或空洞卷积、转置卷积、深度可分离卷积、逐点卷积、1×1卷积、分组卷积、扁平卷积、空间和跨通道卷积、混洗分组卷积、空间可分离卷积和去卷积。其可使用一种或多种损失函数,诸如逻辑回归/对数损失函数、多类交叉熵/softmax损失函数、二元交叉熵损失函数、均方误差损失函数、L1损失函数、L2损失函数、平滑L1损失函数和Huber损失函数。其可以使用任何并行性、效率性和压缩方案,诸如TFRecords、压缩编码(例如,PNG)、锐化、映射图转换的并行检出、批处理、预取、模型并行性、数据并行性和同步/异步随机梯度下降(SGD)。其可包括上采样层、下采样层、递归连接、栅极和栅极存储器单元(如LSTM或GRU)、残差块、残差连接、高速连接、跳跃连接、窥视孔连接、激活函数(例如,非线性变换函数如修正线性单元(ReLU)、泄露ReLU、指数衬里单元(ELU)、sigmoid和双曲线正切(tanh))、批量归一化层、正则化层、丢弃层、池化层(例如,最大或平均池化)、全局平均池化层和注意力机制。
在一个具体实施中,碱基检出器730输出针对特定测序循环的单个目标分析物的碱基检出。在另一个具体实施中,该碱基检出器输出针对特定测序循环的多个目标分析物中的每个目标分析物的碱基检出。在又一个具体实施中,该碱基检出器输出针对多个测序循环中的每个测序循环的多个目标分析物中的每个目标分析物的碱基检出,从而产生每个目标分析物的碱基检出序列。
在一个具体实施中,来自当前(时间t)的测序循环的测序图像704、714伴随有来自先前(时间范围t-1)测序循环的测序图像702、712和来自后续(时间t+1)的测序循环的测序图像706、716。根据一个具体实施,碱基检出器730通过其卷积层处理测序图像702、712、704、714、706和716并且产生另选表示。然后,输出层(例如,softmax层)使用另选表示来为仅当前(时间t)测序循环或测序循环中的每个测序循环(即,当前(时间t)测序循环、先前(时间t-1)测序循环和后续(时间t+1)测序循环)生成碱基检出。所得碱基检出732形成测序读段。
在一个具体实施中,补片提取过程724从测序图像702、712、704、714、706和716中提取补片并且生成输入图像数据726。然后,将输入图像数据726中的所提取图像补片作为输入提供给碱基检出器730。
使用基于后向传播的梯度更新技术来训练教师碱基检出器110和学生碱基检出器124。可用于训练教师碱基检出器110和学生碱基检出器124的一些类型的梯度下降技术是随机梯度下降、批量梯度下降和小批量梯度下降。可用于训练教师碱基检出器110和学生碱基检出器124的梯度下降优化算法的一些示例是Momentum、Nesterov加速梯度、Adagrad、Adadelta、RMSprop、Adam、AdaMax、Nadam和AMSGrad。
知识蒸馏
图1示出了将所公开的知识蒸馏用于基于人工智能的碱基检出的各个方面。所公开的知识蒸馏包括:
·使用“硬标签”在训练数据上训练教师碱基检出器
·通过在推断数据上应用经训练的教师碱基检出器来生成“软标签”
·使用硬标签和软标签的“组合”(即,“混合”基准真值数据)在训练数据上训练学生碱基检出器
学生碱基检出器124比教师碱基检出器110具有更少的处理模块和参数。在一个具体实施中,处理模块中的一个处理模块是神经网络层。在一个具体实施中,参数中的一个参数是神经网络层之间的互连。在一个具体实施中,处理模块中的一个处理模块是神经网络过滤器。在一个具体实施中,处理模块中的一个处理模块是神经网络内核。在一个具体实施中,参数中的一个参数是乘法和加法运算。
训练教师碱基检出器
在训练102期间,教师碱基检出器110在包括第一簇图像集104的训练数据上训练。第一簇图像集104用使用离散值标签108的基准真值数据来注释。
在一个具体实施中,簇图像106用离散值标签108来注释,该离散值标签是用正确碱基的一值和不正确碱基的零值来独热编码的。以下是四个核苷酸碱基的独热编码的示例:
Figure BDA0003804769430000111
图2A描绘了通过使用用第一基准真值数据214注释的第一簇图像集104来训练200A教师碱基检出器110的一个具体实施,该第一基准真值数据使用离散值标签216(独热编码218)来识别正确的碱基检出。在前向传播206期间,到教师碱基检出器110的输入是描绘簇204A、204B、204C和204D及其周围背景的强度的簇图像202。
在一个具体实施中,簇图像202伴随有补充数据224,诸如距离通道和缩放通道。关于补充数据224的附加细节可见于2019年3月21日提交的名称为“ARTIFICIALINTELLIGENCE-BASED SEQUENCING”的美国临时专利申请62/821,766(代理人案卷号ILLM1008-9/IP-1752-PRV),该申请以引用方式并入本文。
响应于处理簇图像202,教师碱基检出器110产生输出208。基于输出208,进行碱基检出预测210,其识别由教师碱基检出器110分配给碱基A、C、T和G中的每一者的置信度分数。
然后,计算碱基检出预测210和离散值标签216(例如,独热编码218)之间的误差212,即,[1,0,0,0]。后向传播220基于误差212更新教师碱基检出器110的权重和参数。
该过程迭代,直到教师碱基检出器110收敛到验证数据集上的期望碱基检出准确度。训练由训练器222使用基于后向传播的梯度更新技术(诸如上文所讨论的技术)来操作(实现)。
在另一个具体实施中,簇图像106用离散值标签108来注释,该离散值标签对于正确碱基具有近一值并且对于不正确碱基具有近零值,在本文中称为“软化的独热编码”。以下是四个核苷酸碱基的软化的独热编码的示例:
Figure BDA0003804769430000121
图2B描绘了通过使用用第一基准真值数据226注释的第一簇图像集104来训练200B教师碱基检出器110的另一个具体实施,该第一基准真值数据使用离散值标签216(软化的独热编码228)来识别正确的碱基检出。此处,计算碱基检出预测210和软化的独热编码228之间的误差212,即,[0.95,0.02,0.017,0.013]。
生成软标签
在推断112期间,在包括第二簇图像集114的推断数据上应用经训练的教师碱基检出器110。经训练的教师碱基检出器110处理第二簇图像集114,并且生成碱基检出预测作为输出。碱基检出预测由识别预测碱基检出的连续值权重118(软标签)表示。连续值权重118是正确碱基为腺嘌呤(A)、胞嘧啶(C)、胸腺嘧啶(T)和鸟嘌呤(G)的概率分布的一部分。在一个具体实施中,连续值权重118是softmax分数,即,后验概率。
在一个具体实施中,将簇图像116作为输入馈送到经训练的教师碱基检出器110。作为响应,经训练的教师碱基检出器110在当前测序循环为A、C、T和G时生成被合并到由簇图像116描绘的簇中的碱基的指数归一化可能性。
以下是连续值权重118的示例:
Figure BDA0003804769430000131
图3示出在第二簇图像集114上应用300经训练的教师碱基检出器110并且生成由连续值权重310表示的碱基检出预测312的一个具体实施。在前向传播306期间,到经训练的教师碱基检出器110的输入是描绘簇304A、304B、304C和304D及其周围背景的强度的簇图像302。在一个具体实施中,簇图像302伴随有补充数据316,诸如距离通道和缩放通道。
响应于处理簇图像302,经训练的教师碱基检出器110产生输出308。基于输出308,生成碱基检出预测310,其识别由经训练的教师碱基检出器110分配给碱基A(0.175)、C(0.024)T(0.475)和G(0.326)中的每一者的置信度分数。这些置信度分数表示为连续值,即,连续值权重310。
该过程在第二簇图像集114中的许多图像上迭代,使得为每个评估的簇图像生成连续值权重集。评估由测试仪314操作(实现)。
生成混合基准真值数据
图4A和图4B示出了使用离散值标签216和连续值权重310的组合的所谓“混合基准真值数据”生成400A和400B的一个具体实施。
在一个具体实施中,对同一簇图像302访问离散值标签216和连续值权重310,并将其组合以生成簇图像302的混合基准真值数据。在一些具体实施中,将离散值标签216与连续值权重310求和402。在其他具体实施中,将离散值标签216与连续值权重310相乘。在其他具体实施中,将离散值标签216与连续值权重310连接。
在一个具体实施中,离散值标签216和连续值权重310在逐类的基础上组合。也就是说,将碱基检出A的离散值标签与碱基检出A的连续值权重求和、相乘或连接,将碱基检出C的离散值标签与碱基检出C的连续值权重求和、相乘或连接,将碱基检出T的离散值标签与碱基检出T的连续值权重求和、相乘或连接,将碱基检出G的离散值标签与碱基检出G的连续值权重求和、相乘或连接。
在一些具体实施中,在与离散值标签216组合之前,使用修改参数(λ)404修改连续值权重310。在一个具体实施中,基于学生碱基检出器124在验证数据集上的表现来迭代地学习修改参数(λ)404。在连续值权重310上应用修改参数(λ)404之后,得到的是经修改的连续值权重406。
在一个具体实施中,将离散值标签216与经修改的连续值权重406组合以产生簇图像302的未归一化的基准真值数据408。然后对未归一化的基准真值数据408进行归一化以产生簇图像302的归一化基准真值数据412。在一些具体实施中,指数归一化器410(例如,softmax)用于产生归一化的基准真值数据412。
在一个具体实施中,未归一化的基准真值数据408被认为是簇图像302的混合基准真值数据414。在另一个具体实施中,归一化的基准真值数据412被认为是簇图像302的混合基准真值数据416。
训练学生碱基检出器
在训练120期间,学生碱基检出器124在包括第二簇图像集114的训练数据上训练。第二簇图像集114用基准真值数据414/416注释,该基准真值数据基于(i)离散值标签122和(ii)连续值权重118来识别正确的碱基检出。
图5是使用用混合基准真值数据414/416注释的第二簇图像集114来训练学生碱基检出器124的一个具体实施,该混合基准真值数据基于离散值标签216和连续值权重310来识别正确的碱基检出。在前向传播506期间,到学生碱基检出器124的输入是描绘簇304A、304B、304C和304D及其周围背景的强度的簇图像302。在一个具体实施中,簇图像302伴随有补充数据316,诸如距离通道和缩放通道。
响应于处理簇图像302,学生碱基检出器124产生输出508。基于输出508,进行碱基检出预测510,其识别由学生碱基检出器124分配给碱基A、C、T和G中的每一者的置信度分数。
然后,计算碱基检出预测510与混合基准真值数据414/416之间的误差512。后向传播514基于误差512更新学生碱基检出器124的权重和参数。
该过程迭代,直到学生碱基检出器124收敛到验证数据集上的期望碱基检出准确度。训练由训练器222使用基于后向传播的梯度更新技术(诸如上文所讨论的技术)来操作(实现)。
应用经训练的学生碱基检出器
在推断126期间,在包括第三簇图像集128的推断数据上应用经训练的学生碱基检出器124。经训练的学生碱基检出器124处理第三簇图像集128,并且生成碱基检出预测126作为输出。
在一个具体实施中,将簇图像130作为输入馈送到经训练的学生碱基检出器124。作为响应,经训练的学生碱基检出器124在当前测序循环为A、C、T和G时生成被合并到由簇图像130描绘的簇中的碱基的指数归一化可能性。
图6示出在第三簇图像集128上应用600经训练的学生碱基检出器124并且生成碱基检出预测610的一个具体实施。在前向传播606期间,到经训练的学生碱基检出器124的输入是描绘簇604A、604B和604C及其周围背景的强度的簇图像602。在一个具体实施中,簇图像602伴随有补充数据612,诸如距离通道和缩放通道。
响应于处理簇图像602,经训练的学生碱基检出器124产生输出608。基于输出608,生成碱基检出预测610,其识别由经训练的学生碱基检出器124分配给碱基A(0.1)、C(0.1)T(0.2)和G(0.6)中的每一者的置信度分数。
该过程在第三簇图像集128中的许多图像上迭代,使得为每个评估的簇图像生成碱基检出预测。评估由测试仪314操作(实现)。
技术效果/优势
将经过严格训练的模型从资源丰富的平台传输到紧凑平台的教师和学生方法赋予了显著的技术益处。所公开的技术有效地缩小了模型,并且利用它来缩小分析特定输入所需的执行时间和资源。
在大多数每个比例中,收缩程度相当大。图16至图17示出从64个过滤器到14个过滤器的过滤器深度的减小。对于资源丰富的平台,收缩模型(较小学生碱基检出器)具有与大模型(较大教师碱基检出器)的21.9%一样多的过滤器。参数的减少更显著,近似为过滤器深度减小的二次方。图16至图17示出可训练参数计数从250,060减少到仅12,710。收缩模型具有与大模型的5.1%一样多的可训练参数。对于执行资源,可以在计算资源减少20倍的同时执行核心计算:计算与参数计数成线性比例关系,因此5.1%的参数转换为处理相同输入所需的5.1%的计算。还减少了内存使用。
减少资源需求使得能够应用至少一些可商购获得的计算加速器,诸如XilinxFPGA。一般来讲,FPGA具有有限的板载内存和可编程占用空间。图16中的模型将不会在商业FPGA产品上运行,诸如Xilinx Alveo U200、Xilinx Alveo U250、Xilinx Alveo U280、Intel/Altera Stratix GX2800、Intel/Altera Stratix GX2800和Intel Stratix GX10M,但图17中的模型将会在商业FPGA产品上运行。
在不损害结果准确度的情况下实现了减少的资源需求和实耗运行时间。图18用图表示出针对大模型运行收缩模型所实现的结果。对于所有模型,当错误在多个循环内累积时,错误率可测量地增加。在120个循环处,大模型的错误率攀升至0.2%(0.002错误率)。
新类别的紧凑机器以比具有足以运行大模型的资源的机器更低的成本产生。结果变得实时可用,而不是被基于服务器的计算延迟。技术改进是显而易见的。
图16示出具有251,220个总参数的较大教师碱基检出器的一个具体实施。较大教师碱基检出器具有每卷积层包含64个过滤器的卷积层。
图17示出具有12,970个总参数的较小学生碱基检出器的一个具体实施,该碱基检出器使用所公开的技术从图16的较大教师碱基检出器中蒸馏。较小学生碱基检出器具有每卷积层包含14个过滤器的卷积层。
如图17所示,较小学生碱基检出器的总参数为较大教师碱基检出器的约5.1%。在其他具体实施中,当较大教师碱基检出器包括较大教师碱基检出器的集合时,较小学生碱基检出器的总参数为较大教师碱基检出器中的较大教师碱基检出器的集合的1%至3%。模型参数总数的这种显著减少使较小学生碱基检出器更适于在片上处理器(如FPGA、GPU、ASIC、CGRA)上执行。
图18示出较小学生碱基检出器的碱基检出性能与较大教师碱基检出器的碱基检出性能的对比。y轴表示碱基检出错误率(错误%),并且x轴表示测序运行的测序循环。紫色线表示较大教师碱基检出器,其包括每个卷积层具有64个卷积过滤器的四个较大的教师碱基检出器的集合。青色线表示较小学生碱基检出器,其包括每个卷积层具有14个卷积过滤器。使用所公开的技术从较大教师碱基检出器(紫色线)中蒸馏较小学生碱基检出器(青色线)。
如图所示,较小学生碱基检出器(青色线)的碱基检出错误率接近包括四个较大教师碱基检出器的集合的较大教师碱基检出器的碱基检出错误率(紫色线)。因此,所公开的技术的技术优势和技术效果在于,较小学生碱基检出器具有比较大教师碱基检出器小得多的计算占用空间,但碱基检出准确度相似/相当。这使得能够在片上处理器(如FPGA、GPU、ASIC和CGRA)上推断期间有效地执行较小学生碱基检出器。这也提高了碱基检出的速度并减少了延迟。这也导致计算资源的节省。
更重要的是,作为教师模型的蒸馏版本的学生模型胜过具有相同架构的另一模型,该另一模型的系数是独立学习的,而不是从教师模型导出的。
测序系统
图8A和图8B描绘了测序系统800A的一个具体实施。测序系统800A包括可配置处理器846。可配置处理器846实现本文所公开的碱基检出技术。测序系统也称为“测序仪”。
测序系统800A可操作以获得与生物物质或化学物质中的至少一者相关的任何信息或数据。在一些具体实施中,测序系统800A是可类似于台式设备或台式计算机的工作站。例如,用于进行期望反应的大部分(或全部)系统和部件可位于共同的外壳802内。
在特定具体实施中,测序系统800A是被配置用于各种应用的核酸测序系统,各种应用包括但不限于从头测序、全基因组或靶基因组区域的重测序以及宏基因组学。测序仪也可用于DNA或RNA分析。在一些具体实施中,测序系统800A还可被配置为在生物传感器中产生反应位点。例如,测序系统800A可被配置为接收样品并生成来源于样品的克隆扩增核酸的表面附着簇。每个簇可构成生物传感器中的反应位点或作为其一部分。
示例性测序系统800A可包括被配置为与生物传感器812相互作用以在生物传感器812内进行期望反应的系统插座或接口810。在以下关于图8A的描述中,将生物传感器812装载到系统插座810中。然而,应当理解,可将包括生物传感器812的卡盒插入到系统插座810中,并且在一些状态下,可暂时或永久地移除卡盒。如上所述,除了别的以外,卡盒还可包括流体控制部件和流体储存部件。
在特定具体实施中,测序系统800A被配置为在生物传感器812内进行大量平行反应。生物传感器812包括可发生期望反应的一个或多个反应位点。反应位点可例如固定至生物传感器的固体表面或固定至位于生物传感器的对应反应室内的小珠(或其他可移动基板)。反应位点可包括,例如,克隆扩增核酸的簇。生物传感器812可包括固态成像设备(例如,CCD或CMOS成像器)和安装到其上的流通池。流通池可包括一个或多个流动通道,所述一个或多个流动通道从测序系统800A接收溶液并将溶液引向反应位点。任选地,生物传感器812可被配置为接合热元件,以用于将热能传递到流动通道中或从流动通道传递出去。
测序系统800A可包括彼此相互作用以执行用于生物或化学分析的预定方法或测定方案的各种部件、组件和系统(或子系统)。例如,测序系统800A包括系统控制器806,该系统控制器可与测序系统800A的各种部件、组件和子系统以及生物传感器812通信。例如,除了系统插座810之外,测序系统800A还可包括流体控制系统808以控制流体在测序系统800A和生物传感器812的整个流体网络中的流动;流体储存系统814,该流体储存系统被配置为保存生物测定系统可使用的所有流体(例如,气体或液体);温度控制系统804,该温度控制系统可调节流体网络、流体储存系统814和/或生物传感器812中流体的温度;以及照明系统816,该照明系统被配置为照亮生物传感器812。如上所述,如果将具有生物传感器812的卡盒装载到系统插座810中,则该卡盒还可包括流体控制部件和流体储存部件。
还如图所示,测序系统800A可包括与用户交互的用户界面818。例如,用户界面818可包括用以显示或请求来自用户的信息的显示器820和用以接收用户输入的用户输入设备822。在一些具体实施中,显示器820和用户输入设备822是相同的设备。例如,用户界面818可包括触敏显示器,该触敏显示器被配置为检测个体触摸的存在并且还识别触摸在显示器上的位置。然而,可使用其他用户输入设备822,诸如鼠标、触摸板、键盘、小键盘、手持扫描仪、语音识别系统、运动识别系统等。如将在下文更详细地讨论,测序系统800A可与包括生物传感器812(例如,呈卡盒的形式)的各种部件通信,以进行期望反应。测序系统800A还可被配置为分析从生物传感器获得的数据以向用户提供期望信息。
系统控制器806可包括任何基于处理器或基于微处理器的系统,包括使用微控制器、精简指令集计算机(RISC)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、粗粒度可重构架构(CGRA)、逻辑电路以及能够执行本文所述功能的任何其他电路或处理器。上述示例仅是示例性的,因此不旨在以任何方式限制术语系统控制器的定义和/或含义。在示例性具体实施中,系统控制器806执行存储在一个或多个存储元件、存储器或模块中的指令集,以便进行获得检测数据和分析检测数据中的至少一者。检测数据可包括多个像素信号序列,使得可在许多碱基检出循环内检测来自数百万个传感器(或像素)中的每个传感器(或像素)的像素信号序列。存储元件可为测序系统800A内的信息源或物理存储器元件的形式。
指令集可包括指示测序系统800A或生物传感器812执行特定操作(诸如本文所述的各种具体实施的方法和过程)的各种命令。指令集可为软件程序的形式,该软件程序可形成有形的一个或多个非暂态计算机可读介质的一部分。如本文所用,术语“软件”和“固件”是可互换的,并且包括存储在存储器中以供计算机执行的任何计算机程序,包括RAM存储器、ROM存储器、EPROM存储器、EEPROM存储器和非易失性RAM(NVRAM)存储器。上述存储器类型仅是示例性的,因此不限制可用于存储计算机程序的存储器类型。
软件可为各种形式,诸如系统软件或应用软件。此外,软件可以是独立程序的集合的形式,或者是较大程序内的程序模块或程序模块的一部分的形式。软件还可包括面向对象编程形式的模块化编程。在获得检测数据之后,检测数据可由测序系统800A自动处理,响应于用户输入而处理,或者响应于另一处理机提出的请求(例如,通过通信链路的远程请求)而处理。在例示的具体实施中,系统控制器806包括分析模块844。在其他具体实施中,系统控制器806不包括分析模块844,而是可访问分析模块844(例如,分析模块844可单独地托管在云上)。
系统控制器806可经由通信链路连接到生物传感器812和测序系统800A的其他部件。系统控制器806还可通信地连接到非现场系统或服务器。通信链路可以是硬连线的、有线的或无线的。系统控制器806可从用户界面818和用户输入设备822接收用户输入或命令。
流体控制系统808包括流体网络,并且被配置为引导和调节一种或多种流体通过流体网络的流动。流体网络可与生物传感器812和流体储存系统814流体连通。例如,选定的流体可从流体储存系统814抽吸并以受控方式引导至生物传感器812,或者流体可从生物传感器812抽吸并朝向例如流体储存系统814中的废物储存器引导。虽然未示出,但流体控制系统808可包括检测流体网络内的流体的流速或压力的流量传感器。传感器可与系统控制器806通信。
温度控制系统804被配置为调节流体网络、流体储存系统814和/或生物传感器812的不同区域处流体的温度。例如,温度控制系统804可包括热循环仪,该热循环仪与生物传感器812对接并且控制沿着生物传感器812中的反应位点流动的流体的温度。温度控制系统804还可调节测序系统800A或生物传感器812的固体元件或部件的温度。尽管未示出,但温度控制系统804可包括用以检测流体或其他部件的温度的传感器。传感器可与系统控制器806通信。
流体储存系统814与生物传感器812流体连通,并且可储存用于在其中进行期望反应的各种反应组分或反应物。流体储存系统814还可储存用于洗涤或清洁流体网络和生物传感器812以及用于稀释反应物的流体。例如,流体储存系统814可包括各种储存器,以储存样品、试剂、酶、其他生物分子、缓冲溶液、水性溶液和非极性溶液等。此外,流体储存系统814还可包括废物储存器,用于接收来自生物传感器812的废物。在包括卡盒的具体实施中,卡盒可包括流体储存系统、流体控制系统或温度控制系统中的一者或多者。因此,本文所述的与那些系统有关的一个或多个部件可容纳在卡盒外壳内。例如,卡盒可具有各种储存器,以储存样品、试剂、酶、其他生物分子、缓冲溶液、水性溶液和非极性溶液、废物等。因此,流体储存系统、流体控制系统或温度控制系统中的一者或多者可经由卡盒或其他生物传感器与生物测定系统可移除地接合。
照明系统816可包括光源(例如,一个或多个LED)和用于照亮生物传感器的多个光学部件。光源的示例可包括激光器、弧光灯、LED或激光二极管。光学部件可以是例如反射器、二向色镜、分束器、准直器、透镜、滤光器、楔镜、棱镜、反射镜、检测器等。在使用照明系统的具体实施中,照明系统816可被配置为将激发光引导至反应位点。作为一个示例,荧光团可由绿色波长的光激发,因此激发光的波长可为大约532nm。在一个具体实施中,照明系统816被配置为产生平行于生物传感器812的表面的表面法线的照明。在另一个具体实施中,照明系统816被配置为产生相对于生物传感器812的表面的表面法线成偏角的照明。在又一个具体实施中,照明系统816被配置为产生具有多个角度的照明,包括一些平行照明和一些偏角照明。
系统插座或接口810被配置为以机械、电气和流体方式中的至少一种方式接合生物传感器812。系统插座810可将生物传感器812保持在期望取向,以有利于流体流过生物传感器812。系统插座810还可包括电触点,该电触点被配置为接合生物传感器812,使得测序系统800A可与生物传感器812通信和/或向生物传感器812提供功率。此外,系统插座810可包括被配置为接合生物传感器812的流体端口(例如,喷嘴)。在一些具体实施中,生物传感器812以机械方式、电方式以及流体方式可移除地耦接到系统插座810。
此外,测序系统800A可与其他系统或网络或与其他生物测定系统800A远程通信。由生物测定系统800A获得的检测数据可存储在远程数据库中。
图8B是可在图8A的系统中使用的系统控制器806的框图。在一个具体实施中,系统控制器806包括可彼此通信的一个或多个处理器或模块。处理器或模块中的每一者可包括用于执行特定过程的算法(例如,存储在有形和/或非暂态计算机可读存储介质上的指令)或子算法。系统控制器806在概念上被示出为模块的集合,但可利用专用硬件板、DSP、处理器等的任何组合来实现。另选地,系统控制器806可利用具有单个处理器或多个处理器的现成PC来实现,其中功能操作分布在处理器之间。作为进一步的选择,下文所述的模块可利用混合配置来实现,其中某些模块化功能利用专用硬件来执行,而其余模块化功能利用现成PC等来执行。模块还可被实现为处理单元内的软件模块。
在操作期间,通信端口850可向生物传感器812(图8A)和/或子系统808、814、804(图8A)传输信息(例如,命令)或从其接收信息(例如,数据)。在具体实施中,通信端口850可输出多个像素信号序列。通信链路834可从用户界面818(图8A)接收用户输入并将数据或信息传输到用户界面818。来自生物传感器812或子系统808、814、804的数据可在生物测定会话期间由系统控制器806实时处理。除此之外或另选地,数据可在生物测定会话期间临时存储在系统存储器中,并且以比实时或脱机操作更慢的速度进行处理。
如图8B所示,系统控制器806可包括与主控制模块824以及中央处理单元(CPU)852通信的多个模块828-844。主控制模块824可与用户界面818(图8A)通信。尽管模块828-844被示出为与主控制模块824直接通信,但模块828-844也可彼此直接通信,与用户界面818和生物传感器812直接通信。另外,模块828-844可通过其他模块与主控制模块824通信。
多个模块828-844包括分别与子系统808、814、804和816通信的系统模块828-832、826。流体控制模块828可与流体控制系统808通信,以控制流体网络的阀和流量传感器,从而控制一种或多种流体通过流体网络的流动。流体储存模块830可在流体量低时或在废物储存器处于或接近容量时通知用户。流体储存模块830还可与温度控制模块832通信,使得流体可储存在期望温度下。照明模块826可与照明系统816通信,以在方案期间的指定时间照亮反应位点,诸如在已发生期望的反应(例如,结合事件)之后。在一些具体实施中,照明模块826可与照明系统816通信,从而以指定角度照亮反应位点。
多个模块828-844还可包括与生物传感器812通信的设备模块836和确定与生物传感器812相关的识别信息的识别模块838。设备模块836可例如与系统插座810通信以确认生物传感器已与测序系统800A建立电连接和流体连接。识别模块838可接收识别生物传感器812的信号。识别模块838可使用生物传感器812的身份来向用户提供其他信息。例如,识别模块838可确定并随后显示批号、制造日期或建议与生物传感器812一起运行的方案。
多个模块828-844还包括接收和分析来自生物传感器812的信号数据(例如,图像数据)的分析模块844(也称为信号处理模块或信号处理器)。分析模块844包括用于存储检测/图像数据的存储器(例如,RAM或闪存)。检测数据可包括多个像素信号序列,使得可在许多碱基检出循环内检测来自数百万个传感器(或像素)中的每个传感器(或像素)的像素信号序列。信号数据可被存储用于后续分析,或者可被传输到用户界面818以向用户显示期望信息。在一些具体实施中,信号数据可在分析模块844接收到信号数据之前由固态成像器(例如,CMOS图像传感器)处理。
分析模块844被配置为在多个测序循环的每个测序循环处从光检测器获得图像数据。图像数据来源于由光检测器检测到的发射信号,并且通过学生碱基检出器124处理该多个测序循环的每个测序循环的图像数据,并且在该多个测序循环的每个测序循环处针对分析物中的至少一些分析物产生碱基检出。光检测器可以是一个或多个俯视相机的一部分(例如,Illumina的GAIIx的CCD相机从顶部拍摄生物传感器812上的簇的图像),或者可以是生物传感器812本身的一部分(例如,Illumina的iSeq的CMOS图像传感器位于生物传感器812上的簇下面并且从底部拍摄簇的图像)。
光检测器的输出是测序图像,每个测序图像描绘了簇及其周围背景的强度发射。测序图像描绘了由于在测序期间核苷酸掺入序列中而产生的强度发射。强度发射来自相关联的分析物及其周围背景。测序图像存储在存储器848中。
协议模块840和842与主控制模块824通信,以在进行预先确定的测定方案时控制子系统808、814和804的操作。协议模块840和842可包括用于指示测序系统800A根据预先确定的方案执行特定操作的指令集。如图所示,方案模块可以是边合成边测序(SBS)模块840,其被配置为发出用于执行边合成边测序过程的各种命令。在SBS中,监测核酸引物沿核酸模板的延伸,以确定模板中核苷酸的序列。基础化学过程可以是聚合(例如,由聚合酶催化)或连接(例如,由连接酶催化)。在特定的基于聚合酶的SBS具体实施中,以依赖于模板的方式将荧光标记的核苷酸添加至引物(从而使引物延伸),使得对添加至引物的核苷酸的顺序和类型的检测可用于确定模板的序列。例如,为了启动第一SBS循环,可发出命令以将一个或多个标记的核苷酸、DNA聚合酶等递送至/通过容纳有核酸模板阵列的流通池。核酸模板可位于对应的反应位点。其中引物延伸导致标记的核苷酸掺入的那些反应位点可通过成像事件来检测。在成像事件期间,照明系统816可向反应位点提供激发光。任选地,核苷酸还可以包括一旦将核苷酸添加到引物就终止进一步的引物延伸的可逆终止属性。例如,可以将具有可逆终止子部分的核苷酸类似物添加到引物,使得随后的延伸直到递送解封闭剂以除去该部分才发生。因此,对于使用可逆终止的具体实施,可发出命令以将解封闭剂递送到流通池(在检测发生之前或之后)。可发出一个或多个命令以实现各个递送步骤之间的洗涤。然后可重复该循环n次,以将引物延伸n个核苷酸,从而检测长度为n的序列。示例性测序技术描述于:例如Bentley等人,Nature,第456卷,第53-59页(2008年)、WO 04/018497、US 7,057,026、WO 91/06678、WO 07/123744、US7,329,492;US 7,211,414、US 7,315,019、US 7,405,281和US2008/014708082,这些文献中的每一篇均以引用方式并入本文。
对于SBS循环的核苷酸递送步骤,可一次递送单一类型的核苷酸,或者可递送多种不同的核苷酸类型(例如,A、C、T和G一起)。对于一次仅存在单一类型的核苷酸的核苷酸递送构型,不同的核苷酸不需要具有不同的标记,因为它们可基于个体化递送中固有的时间间隔来区分。因此,测序方法或装置可使用单色检测。例如,激发源仅需要提供单个波长或单个波长范围内的激发。对于其中递送导致多种不同核苷酸同时存在于流通池中的核苷酸递送构型,可基于附着到混合物中相应核苷酸类型的不同荧光标记来区分掺入不同核苷酸类型的位点。例如,可使用四种不同的核苷酸,每种核苷酸具有四种不同荧光团中的一种。在一个具体实施中,可使用在光谱的四个不同区域中的激发来区分四种不同的荧光团。例如,可使用四种不同的激发辐射源。另选地,可使用少于四种不同的激发源,但来自单个源的激发辐射的光学过滤可用于在流通池处产生不同范围的激发辐射。
在一些具体实施中,可在具有四种不同核苷酸的混合物中检测到少于四种不同颜色。例如,核苷酸对可在相同波长下检测,但基于对中的一个成员相对于另一个成员的强度差异,或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的变化(例如,通过化学改性、光化学改性或物理改性)来区分。用于使用少于四种颜色的检测来区分四种不同核苷酸的示例性装置和方法描述于例如美国专利申请序列号61/538,294和61/619,878,这些申请全文以引用方式并入本文。2012年9月21日提交的美国申请13/624,200也全文以引用方式并入。
多个方案模块还可包括样品制备(或生成)模块842,该模块被配置为向流体控制系统808和温度控制系统804发出命令,以用于扩增生物传感器812内的产物。例如,生物传感器812可接合至测序系统800A。扩增模块842可向流体控制系统808发出指令,以将必要的扩增组分递送到生物传感器812内的反应室。在其他具体实施中,反应位点可能已包含一些用于扩增的组分,诸如模板DNA和/或引物。在将扩增组分递送至反应室之后,扩增模块842可指示温度控制系统804根据已知的扩增方案循环通过不同的温度阶段。在一些具体实施中,扩增和/或核苷酸掺入等温进行。
SBS模块840可发出命令以执行桥式PCR,其中克隆扩增子的簇形成于流通池的通道内的局部区域上。通过桥式PCR产生扩增子后,可将扩增子“线性化”以制备单链模板DNA或sstDNA,并且可将测序引物杂交至侧接感兴趣的区域的通用序列。例如,可如上所述或如下使用基于可逆终止子的边合成边测序方法。
每个碱基检出或测序循环可通过单个碱基延伸sstDNA,这可例如通过使用经修饰的DNA聚合酶和四种类型的核苷酸的混合物来完成。不同类型的核苷酸可具有独特的荧光标记,并且每个核苷酸还可具有可逆终止子,该可逆终止子仅允许在每个循环中发生单碱基掺入。在将单个碱基添加到sstDNA之后,激发光可入射到反应位点上并且可检测荧光发射。在检测后,可从sstDNA化学切割荧光标记和终止子。接下来可为另一个类似的碱基检出或测序循环。在这种测序方案中,SBS模块840可指示流体控制系统808引导试剂和酶溶液流过生物传感器812。可与本文所述的设备和方法一起使用的基于可逆终止子的示例性SBS方法描述于美国专利申请公布2007/0166705A1、美国专利申请公布2006/0188901A1、美国专利7,057,026、美国专利申请公布2006/0240439A1、美国专利申请公布2006/02814714709A1、PCT公布WO 05/065814、美国专利申请公布2005/014700900A1、PCT公布WO06/08B199和PCT公布WO07/01470251,这些专利中的每一篇均全文以引用方式并入本文。用于基于可逆终止子的SBS的示例性试剂描述于:US 7,541,444、US 7,057,026、US7,414,14716、US 7,427,673、US 7,566,537、US 7,592,435和WO07/14835368,这些专利中的每一篇均全文以引用方式并入本文。
在一些具体实施中,扩增模块和SBS模块可在单个测定方案中操作,其中例如扩增模板核酸并随后将其在同一盒内测序。
测序系统800A还可允许用户重新配置测定方案。例如,测序系统800A可通过用户界面818向用户提供用于修改所确定的方案的选项。例如,如果确定生物传感器812将用于扩增,则测序系统800A可请求退火循环的温度。此外,如果用户已提供对于所选测定方案通常不可接受的用户输入,则测序系统800A可向用户发出警告。
在具体实施中,生物传感器812包括数百万个传感器(或像素),每个传感器(或像素)在后续的碱基检出循环内生成多个像素信号序列。分析模块844根据传感器阵列上传感器的逐行和/或逐列位置来检测多个像素信号序列并将它们归属于对应的传感器(或像素)。
图8C是用于分析来自测序系统800A的传感器数据(诸如,碱基检出传感器输出)的系统的简化框图。在图8C的示例中,系统包括可配置处理器846。可配置处理器846可与由中央处理单元(CPU)852(即,主机处理器)执行的运行时程序协调地执行碱基检出器(例如,学生碱基检出器124)。测序系统800A包括生物传感器812和流通池。流通池可包括一个或多个区块,其中遗传物质的簇暴露于分析物流的序列,该分析物流的序列用于引起簇中的反应以识别遗传物质中的碱基。传感器感测流通池的每个区块中该序列的每个循环的反应以提供区块数据。遗传测序是数据密集型操作,其将碱基检出传感器数据转换为在碱基检出操作期间感测到的遗传物质的每个簇的碱基检出序列。
该示例中的系统包括执行运行时程序以协调碱基检出操作的CPU852、用于存储区块数据阵列的序列的存储器848B、由碱基检出操作产生的碱基检出读段,以及碱基检出操作中使用的其他信息。另外,在该图示中,系统包括存储器848A,以存储配置文件(或多个文件)诸如FPGA位文件和用于配置和重新配置可配置处理器846的神经网络的模型参数,并且执行神经网络。测序系统800A可包括用于配置可配置处理器以及在一些实施方案中的可重构处理器的程序,以执行神经网络。
测序系统800A通过总线854耦接至可配置处理器846。总线854可使用高通量技术来实现,诸如在一个示例中,总线技术与当前由PCI-SIG(PCI特别兴趣小组)维护和开发的PCIe标准(快速外围组件互连)兼容。同样在该示例中,存储器848A通过总线856耦接到可配置处理器846。存储器848A可以是设置在具有可配置处理器846的电路板上的板上存储器。存储器848A用于由可配置处理器846高速访问在碱基检出操作中使用的工作数据。总线856还可使用高通量技术诸如与PCIe标准兼容的总线技术来实现。
可配置处理器,包括现场可编程门阵列FPGA、粗粒度可重构阵列CGRA以及其他可配置和可重构的设备,可被配置为比使用执行计算机程序的通用处理器可能实现的更有效或更快地实现各种功能。可配置处理器的配置涉及编译功能描述以产生有时称为位流或位文件的配置文件,以及将配置文件分发到处理器上的可配置元件。该配置文件通过将电路配置为设置数据流模式、分布式存储器和其他片上存储器资源的使用、查找表内容、可配置逻辑块和可配置执行单元(如乘法累加单元、可配置互连和可配置阵列的其他元件)的操作,来定义要由可配置处理器执行的逻辑功能。如果配置文件可在现场通过改变加载的配置文件而改变,则可配置处理器是可重构的。例如,配置文件可存储在易失性SRAM元件中、非易失性读写存储器元件中以及它们的组合中,分布在可配置或可重构处理器上的可配置元件阵列中。多种可商购获得的可配置处理器适用于如本文所述的碱基检出操作。示例包括Google的Tensor Processing Unit(TPU)TM、机架解决方案(如GX4 Rackmount SeriesTM、GX9 Rackmount SeriesTM)、NVIDIA DGX-1TM、Microsoft的Stratix V FPGATM、Graphcore的Intelligent Processor Unit(IPU)TM、Qualcomm的具有Snapdragon processorsTM的Zeroth PlatformTM、NVIDIA的VoltaTM、NVIDIA的DRIVE PXTM、NVIDIA的JETSON TX1/TX2MODULETM、Intel的NirvanaTM、Movidius VPUTM、Fujitsu DPITM、ARM的DynamicIQTM、IBMTrueNorthTM、具有Testa V100sTM的Lambda GPU服务器、Xilinx AlveoTMU200、XilinxAlveoTMU250、Xilinx AlveoTMU280、Intel/Altera StratixTMGX2800、Intel/AlteraStratixTMGX2800和Intel StratixTMGX10M。在一些示例中,主机CPU可在与可配置处理器相同的集成电路上实现。
本文描述的实施方案使用可配置处理器846实现学生碱基检出器124。可配置处理器846的配置文件可通过使用高级描述语言HDL或寄存器传输级RTL语言规范指定要执行的逻辑功能来实现。可使用被设计用于所选择的可配置处理器的资源来编译规范以生成配置文件。为了生成可能不是可配置处理器的专用集成电路的设计,可编译相同或相似的规范。
因此,在本文所述的所有实施方案中,可配置处理器846的另选方案包括配置的处理器,该配置的处理器包括专用ASIC或专用集成电路或集成电路组,或片上系统(SOC)器件,或图形处理单元(GPU)处理器或粗粒度可重构架构(CGRA)处理器,该配置的处理器被配置为执行如本文所述的基于神经网络的碱基检出操作。
一般来讲,如被配置为执行神经网络的运行的本文所述的可配置处理器和配置的处理器在本文中称为神经网络处理器。
在该示例中,可配置处理器846由使用CPU 852执行的程序所加载的配置文件配置,或由在可配置处理器上配置可配置元件866(例如,配置逻辑块(CLB),诸如查找表(LUT)、触发器、计算处理单元(PMU)和计算存储器单元(CMU)、可配置I/O块、可编程互连)的阵列的其他源配置,以执行碱基检出功能。在该示例中,该配置包括数据流逻辑862,该数据流逻辑耦接到总线854和856并且执行用于在碱基检出操作中使用的元件之间分发数据和控制参数的功能。
而且,可配置处理器846配置有碱基检出执行逻辑862以执行学生碱基检出器124。逻辑862包括多循环执行簇(例如,864),在该示例中,该多循环执行簇包括执行簇1至执行簇X。可根据涉及操作的期望通量和可配置处理器846上的可用资源的权衡来选择多循环执行簇的数量。
多循环执行簇通过使用可配置处理器846上的可配置互连和存储器资源实现的数据流路径858耦接到数据流逻辑862。另外,多循环执行簇通过使用例如可配置处理器846上的可配置互连和存储器资源实现的控制路径860耦接到数据流逻辑862,该控制路径提供指示可用执行簇、准备好为学生碱基检出器124的运行的执行提供输入单元、准备好为学生碱基检出器124提供经训练参数、准备好提供碱基检出分类数据的输出补片的控制信号,以及用于执行学生碱基检出器124的其他控制数据。
可配置处理器846被配置为使用经训练参数来执行学生碱基检出器124的运行,以产生用于碱基检出操作的感测循环的分类数据。执行学生碱基检出器124的运行以产生用于碱基检出操作的受试者感测循环(subject sensing cycle)的分类数据。学生碱基检出器124的运行对序列(包括来自N个感测循环的相应感测循环的区块数据的数字N个阵列)进行操作,其中N个感测循环在本文所述示例中针对时间序列中每个操作的一个碱基位置提供用于不同碱基检出操作的传感器数据。任选地,如果需要,根据正在执行的特定神经网络模型,N个感测循环中的一些可能会失序。数字N可以是大于1的任何数字。在本文所述的一些示例中,N个感测循环中的感测循环表示时间序列中受试者感测循环之前的至少一个感测循环和受试者循环(subject cycle)之后的至少一个感测循环的一组感测循环。本文描述了其中数字N为等于或大于五的整数的示例。
数据流逻辑862被配置为使用用于给定运行的输入单元将区块数据和模型参数的至少一些经训练参数从存储器848A移动到用于学生碱基检出器124的运行的可配置处理器846,该输入单元包括用于N个阵列的空间对准的补片的区块数据。输入单元可通过一个DMA操作中的直接存储器存取操作来移动,或者在可用时隙期间与所部署的神经网络的执行相协调地移动的较小单元中移动。
如本文所述的用于感测循环的区块数据可包括具有一个或多个特征的传感器数据阵列。例如,传感器数据可包括两个图像,对这两个图像进行分析以识别在DNA、RNA或其他遗传物质的遗传序列中的碱基位置处的四种碱基中的一种。区块数据还可包括关于图像和传感器的元数据。例如,在碱基检出操作的实施方案中,区块数据可包括关于图像与簇的对准的信息,诸如距中心距离的信息,该距离指示传感器数据阵列中的每个像素距区块上遗传物质的簇的中心的距离。
在如下所述的学生碱基检出器124的执行期间,区块数据还可包括在执行学生碱基检出器124期间产生的数据,称为中间数据,其可以在学生碱基检出器124的运行期间被重复使用而不是重新计算。例如,在执行学生碱基检出器124期间,数据流逻辑862可将中间数据代替用于区块数据阵列的给定补片的传感器数据写入到存储器848A。下文更详细地描述了类似于此的实施方案。
如图所示,描述了用于分析碱基检出传感器输出的系统,该系统包括可由运行时程序访问的存储器(例如,848A),该存储器存储区块数据,该区块数据包括来自碱基检出操作的感测循环的区块的传感器数据。另外,该系统包括神经网络处理器,诸如可访问存储器的可配置处理器846。神经网络处理器被配置为使用经训练参数来执行神经网络的运行,以产生用于感测循环的分类数据。如本文所述,神经网络的运行对来自N个感测循环的相应感测循环(包括受试者循环)的区块数据的N个阵列的序列进行操作,以产生受试者循环的分类数据。提供数据流逻辑862以使用输入单元(包括来自N个感测循环的相应感测循环的N个阵列的空间对准补片的数据)将区块数据和经训练参数从存储器移动到神经网络处理器以用于神经网络的运行。
另外,描述了一种系统,其中神经网络处理器可访问存储器,并且包括多个执行簇,所述多个执行簇中的执行簇被配置为执行神经网络。数据流逻辑862可访问存储器和多个执行簇中的执行簇,以将区块数据的输入单元提供至所述多个执行簇中的可用执行簇,该输入单元包括来自相应感测循环(包括受试者感测循环)的区块数据阵列的数字N个空间对准补片,并且使执行簇将N个空间对准补片应用于神经网络以产生用于受试者感测循环的空间对准补片的分类数据的输出补片,其中N大于1。
图8D是示出碱基检出操作的各方面的简化图,该操作包括由主机处理器执行的运行时程序的功能。在该图中,来自流通池的图像传感器的输出在线868上提供给图像处理线程869,该图像处理线程可对图像执行处理,诸如各个区块的传感器数据阵列中的对准和布置以及图像的重采样,并且可由为流通池中的每个区块计算区块簇掩膜的过程使用,该过程识别与流通池的对应区块上的遗传物质的簇对应的传感器数据阵列中的像素。根据碱基检出操作的状态,图像处理线程869的输出在线870上提供给CPU中的调度逻辑877,该调度逻辑将区块数据阵列在高速总线871上路由到数据高速缓存872(例如,SSD存储装置),或者在高速总线873上路由到神经网络处理器硬件874,诸如图8C的可配置处理器846。经处理和变换的图像可存储在数据高速缓存872上,以用于先前使用的感测循环。硬件874将由神经网络输出的分类数据返回到调度逻辑877,该调度逻辑将信息传递到数据高速缓存872,或者在线875上传递到使用分类数据执行碱基检出和质量得分计算的线程870,并且可以标准格式布置用于碱基检出读段的数据。在线876上将执行碱基检出和质量得分计算的线程870的输出提供给线程871,该线程聚合碱基检出读段,执行其他操作诸如数据压缩,并且将所得的碱基检出输出写入指定目的地以供客户利用。
在一些实施方案中,主机可包括执行硬件874的输出的最终处理以支持神经网络的线程(未示出)。例如,硬件874可提供来自多簇神经网络的最终层的分类数据的输出。主机处理器可对分类数据执行输出激活功能诸如softmax功能,以配置供碱基检出和质量评分线程870使用的数据。另外,主机处理器可执行输入操作(未示出),诸如在输入到硬件874之前对区块数据进行批量归一化。
图8E是可配置处理器846诸如图8C的可配置处理器的配置的简化图。在图8E中,可配置处理器846包括具有多个高速PCIe接口的FPGA。FPGA配置有封装器(wrapper)880,该封装器包括参考图8C描述的数据流逻辑862。封装器880通过CPU通信链路878来管理与CPU中的运行时程序的接口和协调,并且经由DRAM通信链路881来管理与板载DRAM879(例如,存储器848A)的通信。封装器880中的数据流逻辑862将通过遍历板载DRAM 879上的数字N个循环的区块数据阵列而检索到的补片数据提供到簇884,并且从簇884检索过程数据882以递送回板载DRAM879。封装器880还管理板载DRAM 879和主机存储器之间的数据传输,以用于区块数据的输入阵列和分类数据的输出补片两者。封装器将线887上的补片数据传输到分配的簇884。封装器在线886上将经训练参数诸如权重和偏置提供到从板载DRAM 302检索的簇884。封装器在线885上将配置和控制数据提供到簇884,该簇经由CPU通信链路878从主机上的运行时程序提供或响应于该运行时程序而生成。簇还可在线883上向封装器880提供状态信号,该状态信号与来自主机的控制信号协作使用,以管理区块数据阵列的遍历,从而提供空间对准的补片数据,并且使用簇884的资源对补片数据执行多循环神经网络。
如上所述,在由封装器880管理的单个可配置处理器上可存在多个簇,所述多个簇被配置用于在区块数据的多个补片的对应补片上执行。每个簇可被配置为使用本文所述的多个感测循环的区块数据来提供受试者感测循环中的碱基检出的分类数据。
在系统的示例中,可将模型数据(包括内核数据,如过滤器权重和偏置)从主机CPU发送到可配置处理器,使得模型可根据循环数进行更新。举一个代表性示例,碱基检出操作可包括大约数百个感测循环。在一些实施方案中,碱基检出操作可包括双端读段。例如,模型训练参数可以每20个循环(或其他数量的循环)更新一次,或者根据针对特定系统和神经网络模型实现的更新模式来更新。在包括双端读段的一些实施方案中,其中区块上的遗传簇中的给定字符串的序列包括从第一末端沿字符串向下(或向上)延伸的第一部分和从第二末端沿字符串向上(或向下)延伸的第二部分,可在从第一部分到第二部分的过渡中更新经训练参数。
在一些示例中,可将区块的感测数据的多个循环的图像数据从CPU发送到封装器880。封装器880可任选地对感测数据进行一些预处理和转换,并且将信息写入板载DRAM879。每个感测循环的输入区块数据可包括传感器数据阵列,包括每个感测循环每个区块大约4000×3000个像素或更多,其中两个特征表示区块的两个图像的颜色,并且每个特征每个像素一个或两个字节。对于其中数字N为要在多循环神经网络的每个运行中使用的三个感测循环的实施方案,用于多循环神经网络的每个运行的区块数据阵列可消耗每个区块大约数百兆字节。在系统的一些实施方案中,区块数据还包括每个区块存储一次的DFC数据的阵列,或关于传感器数据和区块的其他类型的元数据。
在操作中,当多循环簇可用时,封装器将补片分配给簇。封装器在区块的遍历中获取区块数据的下一个补片,并将其连同适当的控制和配置信息一起发送到所分配的簇。簇可被配置为在可配置处理器上具有足够的存储器,以保存包括来自一些系统中的多个循环的补片且正被就地处理的数据补片,以及当在各种实施方案中使用乒乓缓冲技术或光栅扫描技术完成对当前补片的处理时将被处理的数据补片。
当分配的簇完成其对当前补片的神经网络的运行并产生输出补片时,其将发信号通知封装器。封装器将从分配的簇读取输出补片,或者另选地,分配的簇将数据推送到封装器。然后,封装器将为DRAM 879中的经处理区块组装输出补片。当整个区块的处理已完成并且数据的输出补片已传输到DRAM时,封装器将区块的经处理输出阵列以指定格式发送回主机/CPU。在一些实施方案中,板载DRAM 879由封装器880中的存储器管理逻辑管理。运行时程序可控制测序操作,以连续流的方式完成运行中所有循环的区块数据的所有阵列的分析,从而提供实时分析。
如本文所用,“逻辑”(例如,数据流逻辑)可以以计算机产品的形式实现,该计算机产品包括具有用于执行本文所述的方法步骤的计算机可用程序代码的非暂态计算机可读存储介质。“逻辑”可以以包括存储器和至少一个处理器的装置的形式实现,该至少一个处理器耦接到存储器并且可操作以执行示例性方法步骤。“逻辑”可以以用于执行本文所述的方法步骤中的一个或多个方法步骤的装置的形式来实现;该装置可包括(i)硬件模块,(ii)在一个或多个硬件处理器上执行的软件模块,或(iii)硬件模块和软件模块的组合;(i)-(iii)中的任一者实现本文阐述的特定技术,并且软件模块存储在计算机可读存储介质(或多个这样的介质)中。在一个具体实施中,逻辑实现数据处理功能。逻辑可以是具有指定功能的计算机程序的通用单核或多核处理器、具有计算机程序的数字信号处理器、诸如具有配置文件的FPGA之类的可配置逻辑、诸如状态机之类的专用电路、或这些的任何组合。另外,计算机程序产品可以体现逻辑的计算机程序和配置文件部分。
计算机系统
图9是可由测序系统800A用来实现本文所公开的碱基检出技术的计算机系统900。计算机系统900包括经由总线子系统955与多个外围设备通信的至少一个中央处理单元(CPU)972。这些外围设备可包括存储子系统858,该存储子系统包括例如存储器设备和文件存储子系统936、用户界面输入设备938、用户界面输出设备976和网络接口子系统974。输入和输出设备允许用户与计算机系统900进行交互。网络接口子系统974提供到外部网络的接口,包括提供到其他计算机系统中的对应接口设备的接口。
在一个具体实施中,系统控制器806可通信地链接到存储子系统858和用户界面输入设备938。
用户界面输入设备938可包括:键盘;指向设备,诸如鼠标、轨迹球、触摸板或图形输入板;扫描仪;结合到显示器中的触摸屏;音频输入设备,诸如语音识别系统和麦克风;以及其他类型的输入设备。一般来讲,使用术语“输入设备”旨在包括将信息输入到计算机系统900中的所有可能类型的设备和方式。
用户界面输出设备976可包括显示子系统、打印机、传真机或非视觉显示器诸如音频输出设备。显示子系统可包括LED显示器、阴极射线管(CRT)、平板设备诸如液晶显示器(LCD)、投影设备或用于产生可见图像的一些其他机构。显示子系统还可提供非视觉显示器,诸如音频输出设备。一般来讲,使用术语“输出设备”旨在包括将信息从计算机系统900输出到用户或输出到另一机器或计算机系统的所有可能类型的设备和方式。
存储子系统858存储提供本文所述的模块的一些或全部功能和方法的编程和数据构造。这些软件模块通常由深度学习处理器978执行。
深度学习处理器978可以是图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)和/或粗粒度可重构架构(CGRA)。深度学习处理器978可以由深度学习云平台诸如Google Cloud PlatformTM、XilinxTM和CirrascaleTM托管。深度学习处理器978的示例包括Google的Tensor Processing Unit(TPU)TM、机架解决方案(如GX4RackmountSeriesTM、GX9 Rackmount SeriesTM)、NVIDIA DGX-1TM、Microsoft的Stratix V FPGATM、Graphcore的Intelligent Processor Unit(IPU)TM、Qualcomm的具有SnapdragonprocessorsTM的Zeroth PlatformTM、NVIDIA的VoltaTM、NVIDIA的DRIVE PXTM、NVIDIA的JETSON TX1/TX2 MODULETM、Intel的NirvanaTM、Movidius VPUTM、Fujitsu DPITM、ARM的DynamicIQTM、IBM TrueNorthTM、具有Testa V100sTM的Lambda GPU服务器等。
在存储子系统858中使用的存储器子系统922可包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)932和其中存储固定指令的只读存储器(ROM)934。文件存储子系统936可为程序文件和数据文件提供持久性存储,并且可包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质磁带盘。实现某些具体实施的功能的模块可由文件存储子系统936存储在存储子系统858中,或存储在处理器可访问的其他机器中。
总线子系统955提供用于使计算机系统900的各种部件和子系统按照预期彼此通信的机构。尽管总线子系统955被示意性地示出为单个总线,但总线子系统的另选具体实施可使用多条总线。
计算机系统900本身可具有不同类型,包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视机、主机、服务器群、一组广泛分布的松散联网的计算机或任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质,对图9中描绘的计算机系统900的描述仅旨在作为用于示出本发明的优选具体实施的具体示例。计算机系统900的许多其他配置是可能的,其具有比图9中描绘的计算机系统更多或更少的部件。
修剪
我们还公开了一种执行计算高效的碱基检出的基于人工智能的技术。图10A示出在簇强度图像1002上训练1004第一碱基检出器1006并产生第一经训练碱基检出器1006的一个具体实施。图10B示出第一经训练碱基检出器1006将簇强度图像1002(例如,簇图像1008)映射到碱基检出预测1010的一个具体实施。
图11A和图11B示出由所公开的技术实现以执行计算高效的碱基检出的循环的各个方面。
控制器1148开始于第一经训练碱基检出器1006并执行循环1102,其中每个迭代使用起始的经训练碱基检出器1112作为输入并且产生修剪的经训练碱基检出器1142作为输出。修剪的经训练碱基检出器1142具有比起始的经训练碱基检出器1112更少的处理元件。在一个具体实施中,第一经训练碱基检出器1006是神经网络,并且处理元件是神经网络的神经元。在另一个具体实施中,第一经训练碱基检出器1006是卷积神经网络,并且处理元件是卷积神经网络的卷积过滤器。在又一个具体实施中,处理元件是卷积神经网络的卷积内核。在又一个具体实施中,处理元件是卷积神经网络的卷积内核的权重。在另一个具体实施中,第一经训练碱基检出器1006是递归神经网络,并且处理元件是递归神经网络的门的权重。
在又一个具体实施中,第一经训练碱基检出器1006是全连接神经网络。
在又一个具体实施中,处理元件是簇特征映射图。当第一经训练碱基检出器1006是卷积神经网络时,簇特征映射图可以是卷积特征或卷积表示。当第一经训练碱基检出器1006是递归神经网络时,簇特征映射图可以是隐藏状态特征或隐藏状态表示。
当卷积过滤器在簇图像(或簇强度图像)上卷积时,所得输出被称为簇特征映射图。类似地,当卷积滤波器在另一个卷积层(例如,先前卷积层)中产生的簇特征映射图上卷积时,所得输出也被称为簇特征映射图。在一个具体实施中,簇特征映射图通过以下方式来产生:将卷积过滤器的元素(神经元)与簇强度图像或在另一卷积层(例如,先前卷积层)中产生的簇特征映射图的对应元素(例如,强度值)逐元素相乘,对逐元素乘法的结果求和以产生簇特征映射图。
在每次迭代中,簇特征映射图生成器1150在前向传播1108期间通过起始的经训练碱基检出器1112的处理元件处理簇强度图像(例如,簇图像1110)的子集1106,使用每个处理元件生成一个或多个簇特征映射图1114,并且基于簇特征映射图1114产生碱基检出预测1116。这被认为是簇特征映射图生成步骤1104。
在每次迭代中,梯度确定器1152在后向传播1126期间基于碱基检出预测1116与基准真值碱基检出1120之间的误差1122确定簇特征映射图1114的梯度1124。这被认为是梯度确定步骤1118。
在每次迭代中,贡献测量器1154将梯度1124应用于簇特征映射图1114中的相应簇特征映射图,并且为簇特征映射1114中的每一者生成贡献分数1130,该贡献分数识别簇特征映射图对碱基检出预测1116的贡献程度。这被认为是贡献测量步骤1128。
图12示出了生成簇特征映射图的贡献分数的一个具体实施。在一个具体实施中,用于簇特征映射图1202的贡献分数1214通过以下方式生成:将簇特征映射图1202中的特征值1204中的每一者与梯度1206中的相应梯度相乘并产生中间特征值1208,将绝对函数1210应用于中间特征值1208并且生成绝对中间特征值1212,以及对绝对中间特征值1212求和并且为簇特征映射图1202产生贡献分数1214。
在另一具体实施中,在不使用梯度1206的情况下为簇特征映射图1202生成贡献分数1214。这包括将绝对函数1210应用于簇特征映射图1202中的特征值(权重)1204并生成绝对特征值,以及对绝对特征值求和以为簇特征映射图1202产生贡献分数1214。
在每次迭代中,修剪器1156基于簇特征映射图的贡献分数1130选择簇特征映射图的子集1134,并且通过从起始的经训练碱基检出器1112中移除那些处理元件1138来产生修剪的经训练碱基检出器1142,那些处理元件用于在前向传播1108期间生成簇特征映射图的所选择的子集1134。这被认为是修剪步骤1132。
在每次迭代中,重新训练器1158进一步在簇强度图像1002上训练修剪的经训练碱基检出器1142,并且使修剪的经训练碱基检出器1142作为起始的经训练碱基检出器1112可用于连续迭代。
终止器1160在n次迭代之后终止循环1102,并且使用由第n次迭代产生的修剪的经训练碱基检出器1142进行进一步碱基检出。
在一个具体实施中,在前向传播期间,每次迭代通过起始的经训练碱基检出器的处理元件分批处理簇强度图像的子集。在这样的具体实施中,在逐批的基础上确定簇特征映射图的梯度,在逐批的基础上生成簇特征映射图的绝对中间特征值,并且通过对批次中的每个批次的绝对中间特征值求和来为簇特征映射图生成贡献分数。
在一个具体实施中,Lp归一化用于第一碱基检出器1106的训练。Lp归一化可以是L-1归一化、L-2归一化和L-无穷大归一化。在一个具体实施中,对于第一次迭代,Lp归一化产生其贡献分数为零的簇特征映射图的子集。对于第一次迭代,修剪步骤1132首先从第一经训练碱基检出器1006移除用于生成其贡献分数由于Lp归一化而为零的簇特征映射图的那些处理元件,并且然后从第一经训练碱基检出器1006移除用于在前向传播期间生成簇特征映射图的所选择的子集1134的处理元件。
归一化的其他示例包括:L-0归一化、绝对值归一化、Euclidean归一化、Taxicab或Manhattan归一化、p归一化、最大归一化、无穷大归一化、均匀归一化、上确界归一化和零归一化。可以在Wikipedia(https://en.wikipedia.org/wiki/Norm_(mathematics)-1/15/2029,9:54AM)处找到关于归一化技术的附加信息及其示例。
在一些具体实施中,每个卷积过滤器可以通过卷积过滤器中的像素的计数来归一化。归一化可以沿着空间和/或时间维度。也就是说,空间层1处的大小为115×115的输入簇强度图像的所得特征映射图的像素/特征值/单位/大小/维数的计数可以是113×113,而在时间层7处,其可以是101×101。绝对值的点积的所得和可通过过滤器大小来归一化。另外,碱基检出器的时间层具有变化的时间分量维度,其可以用于归一化。
在一个具体实施中,基于具有最低贡献分数的簇特征映射图的百分比来选择簇特征映射图的子集1106。在一些具体实施中,百分比范围为2%至5%。
在一个具体实施中,在重新训练步骤1144中用于进一步训练修剪的经训练碱基检出器1142的时期数小于在第一碱基检出器1006的训练1004中使用的时期数。例如,在重新训练步骤1144中用于进一步训练修剪的经训练碱基检出器1142的时期数为十五,并且在第一碱基检出器10006的训练1004中使用的时期数为五十。
在一个具体实施中,簇特征映射图生成步骤1104中使用的簇强度图像的子集1106是用于第一碱基检出器1006的训练1004的簇强度图像1002的15%至30%,并且在每次迭代时随机选择。在其他具体实施中,簇特征映射图生成步骤1104中使用的簇强度图像的子集1106可以小于簇强度图像1002的15%并且大于30%,或者在15%与30%之间。
图13示出执行计算高效的碱基检出的基于人工智能的方法的一个具体实施。
在动作1302处,方法包括在簇强度图像上训练第一碱基检出器并产生将簇强度图像映射到碱基检出预测的第一经训练碱基检出器。
在动作1312处,方法包括以第一经训练碱基检出器开始,执行循环,其中每次迭代使用起始的经训练碱基检出器作为输入并且产生修剪的经训练碱基检出器作为输出,其中修剪的经训练碱基检出器比起始的经训练碱基检出器具有更少的处理元件。
每次迭代包括(i)簇特征映射图生成步骤、(ii)梯度确定步骤、(iii)贡献测量步骤、(iv)修剪步骤和(v)重新训练步骤。
在动作1322处,簇特征映射图生成步骤在前向传播期间通过起始的经训练碱基检出器的处理元件处理簇强度图像的子集,使用每个处理元件生成一个或多个簇特征映射图,并且基于簇特征映射图产生碱基检出预测。
在动作1332处,梯度确定步骤在后向传播期间基于碱基检出预测与基准真值碱基检出之间的误差确定簇特征映射图的梯度。
在动作1342处,贡献测量步骤将梯度应用于簇特征映射图中的相应簇特征映射图,并且为簇特征映射中的每一者生成贡献分数,该贡献分数识别簇特征映射图对碱基检出预测的贡献程度。
在动作1352处,修剪步骤基于簇特征映射图的贡献分数选择簇特征映射图的子集,并且通过从起始的经训练碱基检出器中移除那些处理元件来产生修剪的经训练碱基检出器,那些处理元件用于在前向传播期间生成簇特征映射图的所选择的子集。
在动作1362处,重新训练步骤进一步在簇强度图像上训练修剪的经训练碱基检出器,并且使修剪的经训练碱基检出器作为起始的经训练碱基检出器可用于连续迭代。
在动作1372处,方法包括在n次迭代之后终止循环,并使用由第n次迭代产生的修剪的经训练碱基检出器进行进一步碱基检出。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
图14示出执行计算高效碱基检出的基于人工智能的方法的另一个具体实施。
在动作1402处,方法包括在簇强度图像上训练第一碱基检出器并产生将簇强度图像映射到碱基检出预测的第一经训练碱基检出器。
在动作1412处,方法包括以第一经训练碱基检出器开始,执行循环,其中每次迭代使用起始的经训练碱基检出器作为输入并且产生修剪的经训练碱基检出器作为输出,其中修剪的经训练碱基检出器比起始的经训练碱基检出器具有更少的处理元件。
每次迭代包括(i)簇特征映射图生成步骤、(ii)贡献测量步骤、(iii)修剪步骤和(iv)重新训练步骤。
在动作1422处,簇特征映射图生成步骤在前向传播期间通过起始的经训练碱基检出器的处理元件处理簇强度图像的子集,使用每个处理元件生成一个或多个簇特征映射图,并且基于簇特征映射图产生碱基检出预测。
在动作1432处,贡献测量步骤为簇特征映射中的每一者生成贡献分数,该贡献分数识别簇特征映射图对碱基检出预测的贡献程度。
在动作1442处,修剪步骤基于簇特征映射图的贡献分数选择簇特征映射图的子集,并且通过从起始的经训练碱基检出器中移除那些处理元件来产生修剪的经训练碱基检出器,那些处理元件用于在前向传播期间生成簇特征映射图的所选择的子集。
在动作1452处,重新训练步骤进一步在簇强度图像上训练修剪的经训练碱基检出器,并且使修剪的经训练碱基检出器作为起始的经训练碱基检出器可用于连续迭代。
在动作1462处,方法包括在n次迭代之后终止循环,并使用由第n次迭代产生的修剪的经训练碱基检出器进行进一步碱基检出。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
图15A、图15B、图15C、图15D、图15E和图15F是说明所公开的技术实现计算高效的碱基检出的性能结果。
下面的图示出了所公开的技术的迭代修剪过程输出。我们从我们的标准多簇算法开始,其中第一经训练碱基检出器1006具有各自具有48个过滤器的七个空间层,以及各自具有96个过滤器的2个逐时间卷积层。我们添加L1范数正则化标准以获得过滤器的稀疏集,这产生初始经训练模型,其包含设置为全零的许多卷积内核(具有后缀“_tf2_human”的第一图中的蓝色模型)。较高的L1正则化参数导致更多的过滤器在该初始训练的模型上被设置为全零。
从该模型开始,我们开始一轮修剪迭代,在此期间,我们计算训练集的随机15%上的修剪标准。在根据该标准对过滤器进行排序之后,我们消除了被认为最不重要的过滤器(典型地,我们在每次迭代时消除模型上所有过滤器的2%),然后重新训练模型以进行微调。根据后缀“prunedxx_human”(其中xx是从00到35的数字)在以下图中标记在每次迭代时由修剪和微调产生的每个模型。
最初,我们看到,在每次新的修剪迭代时,模型在迭代14之前表现得越来越好(模型“pruned13_human”)。这可能是由于利用我们的学习率退火方法对模型进行重新训练(利用高学习速率进行训练并且逐步降低我们的学习速率)。使用循环学习速率训练时间表(高到低学习速率,因为我们增加了更多的训练时期,之后是高到低学习速率的更多训练时期,根据关于主题的文献,得到更好的模型)。
随后,在迭代14之后,随着模型被进一步缩减,我们注意到模型不匹配率逐渐下降。
训练迭代24(模型“_pruned23_human”)表明是良好的候选者,根据我们的流水线输出日志,模型具有以下过滤器:
·模型从损失0.029168058224022388微调到0.022608762811869382
·修剪迭代24/35
·空间校正卷积堆栈
·L1保持14/14个过滤器
·L2保持14/14个过滤器
·L3保持11/12个过滤器
·L4保持16/16个过滤器
·L5保持15/15个过滤器
·L6保持18/18个过滤器
·L7保持6/6个过滤器
·逐时间校正卷积堆栈
·L8保持12/13个过滤器
·L9保持17/18个过滤器
采用这些过滤器计数并将其转换为每个补片的运算数,我们有295813196个运算,这比我们的标准K=14模型少8%的运算。
有趣的是,我们还注意到将空间卷积堆栈中的最后一个过滤器向下挤压到6个过滤器,这证实了我们的发现(在美国临时专利申请62/979,411中公开),即数据可以在空间校正层和逐时间卷积层之间被显著压缩。
以下图中的每一者示出迭代修剪和微调的不同模型。已经针对沿着x轴的每个循环执行修剪会话,因此在不同循环处的点之间的线仅用于链接在相同修剪迭代处的独立模型。
图例部分地隐藏在这些图上,并且颜色从上到下(在图例中)为蓝色、橙色、绿色、红色、黑色。黑色拟合线表示通过Illumina的实时分析(RTA)软件(在本文中用作基线模型)在与公开的深度学习模型相同的簇上测量的性能。
图19描绘了用于所公开的技术的一个具体实施的盒须图,该技术生成蒸馏碱基检出器的修剪卷积权重。
图20描绘了用于所公开的技术的一个具体实施的盒须图,该技术生成蒸馏碱基检出器的修剪卷积偏置。
图21描绘了用于所公开的技术的一个具体实施的盒须图,该技术生成蒸馏碱基检出器的修剪卷积权重,其中将正则化应用于卷积权重和卷积偏置两者。
图22描绘了用于所公开的技术的一个具体实施的盒须图,该技术生成蒸馏碱基检出器的修剪卷积偏置,其中将正则化应用于卷积权重和卷积偏置两者。
在一些具体实施中,所公开的技术使用另选学习调度器,该学习调度器从较高学习速率开始并且产生更好的蒸馏模型。图19至图22示出了当蒸馏模型时作为内核和偏置正则化器的不同正则化参数和l2(0.00001)上的收敛。通过这样做,蒸馏模型的准确度不受影响,但权重和偏置减少到可以在FPGA上容纳的范围。
术语和附加具体实施
碱基检出包括将荧光标记的标签与分析物结合或连接。分析物可为核苷酸或寡核苷酸,并且标签可用于特定核苷酸类型(A、C、T或G)。激发光被导向具有标签的分析物,并且标签发射可检测的荧光信号或强度发射。强度发射指示由化学附着到分析物的激发标签发射的光子。
在包括权利要求书的整个本申请中,当使用诸如或类似于“描绘分析物及其周围背景的强度发射的图像、图像数据或图像区域”的短语时,它们是指附着到分析物的标签的强度发射。本领域的技术人员将会知道,附着的标签的强度发射代表或等同于标签所附着到的分析物的强度发射,因此可互换使用。类似地,分析物的属性是指附着到分析物的标签的属性或来自所连接标签的强度发射的属性。例如,分析物的中心是指由附着到分析物的标签发射的强度发射的中心。在另一个示例中,分析物的周围背景是指由附着到分析物的标签发射的强度发射的周围背景。
本申请中引用的所有文献和类似材料,包括但不限于专利、专利申请、文章、书籍、论文和网页,无论这些文献和类似材料的格式如何,都明确地全文以引用方式并入。如果所并入文献和类似材料中的一者或多者与本申请不同或矛盾,包括但不限于所定义的术语、术语用法、所描述的技术等,则以本申请为准。
所公开的技术使用神经网络来改善可从核酸样品(诸如核酸模板或其互补序列,例如DNA或RNA多核苷酸或其他核酸样品)获得的核酸序列信息的质量和数量。因此,相对于先前可用的方法,所公开的技术的某些具体实施提供更高通量的多核苷酸测序,例如更高的DNA或RNA序列数据收集速率、更高的序列数据收集效率和/或获得这种序列数据的更低成本。
所公开的技术使用神经网络来识别固相核酸簇的中心并且分析在此类簇的测序期间生成的光信号,以明确地区分相邻、邻接或重叠的簇,以便将测序信号分配给单个离散源簇。因此,这些和相关具体实施允许从高密度簇阵列的区域检索有意义的信息诸如序列数据,其中由于重叠或非常紧密间隔的相邻簇的混杂效应,包括从其发出的重叠信号(例如,如在核酸测序中所用)的效应,先前无法从此类区域获得可用信息。
如下文更详细地描述,在某些具体实施中,提供了包含固体载体的组合物,该固体载体具有固定到其上的一个或多个如本文提供的核酸簇。每个簇包含多个相同序列的固定化核酸并且具有可识别中心,该可识别中心具有如本文所提供的可检测中心标记,通过该可检测中心标记可将可识别中心与簇中周围区域中的固定化核酸区分开。本文还描述了用于制造和使用具有可识别中心的此类簇的方法。
本发明所公开的具体实施将在许多情况下使用,其中从识别、确定、注释、记录或以其他方式分配簇内基本上中心位置的位置的能力中获得优势,诸如高通量核酸测序、用于将光学或其他信号分配给离散源簇的图像分析算法的开发,以及其中识别固定化核酸簇中心是期望的且有益的其他应用。
在某些具体实施中,本发明设想了涉及高通量核酸分析诸如核酸序列测定(例如,“测序”)的方法。示例性的高通量核酸分析包括但不限于从头测序、重新测序、全基因组测序、基因表达分析、基因表达监测、表观遗传分析、基因组甲基化分析、等位基因特异性引物延伸(APSE)、遗传多样性分析、全基因组多态性发现和分析、单核苷酸多态性分析、基于杂交的序列测定方法等。本领域的技术人员将会知道,可使用本发明的方法和组合物分析多种不同的核酸。
虽然关于核酸测序描述了本发明的具体实施,但它们适用于分析在不同时间点、空间位置或其他时间或物理视角采集的图像数据的任何领域。例如,本文所述的方法和系统可用于分子和细胞生物学领域,其中在不同的时间点或视角采集来自微阵列、生物标本、细胞、生物体等的图像数据并进行分析。图像可使用本领域已知的任何数量的技术获得,包括但不限于荧光显微镜法、光学显微镜法、共聚焦显微镜法、光学成像、磁共振成像、断层扫描等。又如,可应用本文所述的方法和系统,其中在不同的时间点或视角采集通过监测、空中或卫星成像技术等获得的图像数据并进行分析。该方法和系统尤其可用于分析针对视野获得的图像,其中被观察的分析物在视野中相对于彼此保持在相同位置。然而,该分析物可能具有在单独图像中不同的特征,例如,该分析物可能在视野的单独图像中看起来不同。例如,就在不同图像中检测到的给定分析物的颜色、在不同图像中检测到的给定分析物的信号强度的变化、或者甚至在一个图像中检测到的给定分析物的信号出现以及在另一个图像中检测到的该分析物的信号消失而言,分析物可能看起来不同。
本文所述的示例可用于学术或商业分析的各种生物或化学过程和系统。更具体地,本文所述的示例可用于期望检测指示指定反应的事件、属性、质量或特征的各种过程和系统中。例如,本文所述的示例包括光检测设备、生物传感器及其部件,以及与生物传感器一起操作的生物测定系统。在一些示例中,设备、生物传感器和系统可包括流通池和一个或多个光传感器,它们以基本上一体的结构(可移除地或固定地)耦接在一起。
这些设备、生物传感器和生物测定系统可被配置为执行可单独或共同检测的多个指定反应。这些设备、生物传感器和生物测定系统可被配置为执行多个循环,其中所述多个指定反应同步发生。例如,这些设备、生物传感器和生物测定系统可用于通过酶操纵和光或图像检测/采集的迭代循环对DNA特征的密集阵列进行测序。因此,这些设备、生物传感器和生物测定系统(例如,经由一个或多个盒)可包括一个或多个微流体通道,所述一个或多个微流体通道将反应溶液中的试剂或其他反应组分递送到这些设备、生物传感器和生物测定系统的反应位点。在一些示例中,反应溶液可为基本上酸性的,诸如具有小于或等于约5,或小于或等于约4,或小于或等于约3的pH。在一些其他示例中,反应溶液可为基本上碱的/碱性的,诸如具有大于或等于约8,或大于或等于约9,或大于或等于约10的pH。如本文所用,术语“酸度”及其语法变型是指小于约7的pH值,并且术语“碱度”、“碱性”及其语法变型是指大于约7的pH值。
在一些示例中,反应位点以预定方式提供或间隔开,诸如以均匀或重复的模式提供或间隔开。在一些其他示例中,反应位点是随机分布的。反应位点中的每个位点可与一个或多个光导以及检测来自相关联反应位点的光的一个或多个光传感器相关联。在一些示例中,反应位点位于反应凹槽或反应室中,这可至少部分地分隔其中的指定反应。
如本文所用,“指定反应”包括感兴趣的化学或生物物质(例如,感兴趣的分析物)的化学、电、物理或光学性质(或质量)中的至少一者的变化。在特定示例中,指定反应为阳性结合事件,例如,将荧光标记的生物分子与感兴趣的分析物结合。更一般地,指定反应可以是化学转化、化学变化或化学相互作用。指定反应也可为电属性的变化。在特定示例中,指定反应包括将荧光标记的分子与分析物结合。分析物可为寡核苷酸,并且荧光标记的分子可为核苷酸。当激发光被导向具有标记核苷酸的寡核苷酸,并且荧光团发出可检测的荧光信号时,可检测到指定反应。在另选的示例中,检测到的荧光是化学发光或生物发光的结果。指定反应还可例如通过使供体荧光团接近受体荧光团来增加荧光(或
Figure BDA0003804769430000451
)共振能量转移(FRET),通过分离供体荧光团和受体荧光团来降低FRET,通过分离淬灭基团与荧光团来增加荧光,或通过共定位淬灭基团和荧光团来减少荧光。
如本文所用,“反应溶液”、“反应组分”或“反应物”包括可用于获得至少一种指定反应的任何物质。例如,可能的反应组分包括例如试剂、酶、样品、其他生物分子和缓冲液。可将反应组分递送至溶液中的反应位点和/或固定在反应位点处。反应组分可直接或间接地与另一种物质相互作用,诸如固定在反应位点的感兴趣的分析物。如上所述,反应溶液可以是基本上酸性的(即,包括相对高的酸度)(例如,具有小于或等于约5的pH,小于或等于约4的pH,或小于或等于约3的pH)或基本上碱的/碱性的(即,包括相对高的碱性/碱度)(例如,具有大于或等于约8的pH,大于或等于约9的pH,或大于或等于约10的pH)。
如本文所用,术语“反应位点”是可发生至少一个指定反应的局部区域。反应位点可包括其上可固定物质的反应结构或基板的支撑表面。例如,反应位点可包括其上具有反应组分(诸如其上的核酸群体)的反应结构的表面(可位于流通池的通道中)。在一些此类示例中,群体中的核酸具有相同的序列,例如为单链或双链模板的克隆拷贝。然而,在一些示例中,反应位点可仅包含单个核酸分子,例如单链或双链形式。
多个反应位点可沿着反应结构随机分布或以预定方式布置(例如,在矩阵中并排布置,诸如在微阵列中)。反应位点还可包括反应室或反应凹槽,其至少部分地限定了被配置为分隔指定反应的空间区域或体积。如本文所用,术语“反应室”或“反应凹槽”包括支撑结构的限定空间区域(其通常与流动通道流体连通)。反应凹槽可至少部分地与其他或空间区域的周围环境隔开。例如,多个反应凹槽可通过共用壁诸如检测表面彼此隔开。作为更具体的示例,反应凹槽可以是包括由检测表面的内表面限定的凹痕、凹坑、孔、槽、腔或凹陷的纳米孔,并且具有开口或孔隙(即,为敞开的),使得纳米孔可与流动通道流体连通。
在一些示例中,反应结构的反应凹槽的尺寸和形状相对于固体(包括半固体)被设定成使得固体可完全或部分地插入其中。例如,反应凹槽的尺寸和形状可被设定成容纳捕获小珠。该捕获小珠可在其上具有克隆扩增的DNA或其他物质。或者,反应凹槽的尺寸和形状可被设定成接纳大约数量的小珠或固体基板。又如,反应凹槽可填充有多孔凝胶或物质,该多孔凝胶或物质被配置为控制扩散或过滤可流入反应凹槽的流体或溶液。
在一些示例中,光传感器(例如,光电二极管)与对应的反应位点相关联。与反应位点相关联的光传感器被配置为当在相关联的反应位点处已发生指定反应时,经由至少一个光导检测来自相关联的反应位点的光发射。在一些情况下,多个光传感器(例如,光检测或相机设备的若干像素)可与单个反应位点相关联。在其他情况下,单个光传感器(例如,单个像素)可与单个反应位点或与一组反应位点相关联。光传感器、反应位点和生物传感器的其他特征可被配置为使得光中的至少一些被光传感器直接检测到而不被反射。
如本文所用,“生物或化学物质”包括生物分子、感兴趣的样品、感兴趣的分析物和其他化合物。生物或化学物质可用于检测、识别或分析其他化合物,或者用作研究或分析其他化合物的中间物。在特定示例中,生物或化学物质包括生物分子。如本文所用,“生物分子”包括生物聚合物、核苷、核酸、多核苷酸、寡核苷酸、蛋白质、酶、多肽、抗体、抗原、配体、受体、多糖、碳水化合物、多磷酸盐、细胞、组织、生物体或它们的片段中的至少一种,或任何其他生物活性化合物诸如前述物质的类似物或模拟物。在另一个示例中,生物或化学物质或生物分子包括在偶联反应中用于检测另一反应的产物的酶或试剂,诸如酶或试剂,诸如用于在焦磷酸测序反应中检测焦磷酸盐的酶或试剂。可用于焦磷酸盐检测的酶和试剂描述于例如美国专利公布2005/0244870A1中,其全文以引用方式并入。
生物分子、样品以及生物或化学物质可为天然存在的或合成的,并且可悬浮在反应凹槽或区域内的溶液或混合物中。生物分子、样品以及生物或化学物质也可结合至固相或凝胶材料。生物分子、样品以及生物或化学物质也可包括药物组合物。在一些情况下,感兴趣的生物分子、样品以及生物或化学物质可称为靶标、探针或分析物。
如本文所用,“生物传感器”包括具有多个反应位点的反应结构的设备,该设备被配置为检测在反应位点处或附近发生的指定反应。生物传感器可包括固态光检测或“成像”设备(例如,CCD或CMOS光检测设备)以及任选地安装到其上的流通池。流通池可包括与反应位点流体连通的至少一个流动通道。作为一个具体示例,生物传感器被配置为流体耦接和电耦接到生物测定系统。生物测定系统可根据预定方案(例如,边合成边测序)将反应溶液递送到反应位点,并且执行多个成像事件。例如,生物测定系统可引导反应溶液沿反应位点流动。反应溶液中的至少一种可包含四种类型的具有相同或不同荧光标记的核苷酸。核苷酸可结合至反应位点,诸如结合至反应位点处的对应寡核苷酸。然后,生物测定系统可使用激发光源(例如,固态光源,诸如发光二极管(LED))照亮反应位点。激发光可具有预定的一个或多个波长,包括一个波长范围。由入射激发光激发的荧光标记可提供可由光传感器检测的发射信号(例如,与激发光不同并且可能彼此不同的一个或多个波长的光)。
如本文所用,当关于生物分子或生物或化学物质使用时,术语“固定的”包括在分子水平上基本上将生物分子或生物或化学物质连接到表面,诸如连接到光检测设备或反应结构的检测表面。例如,可使用吸附技术将生物分子或生物或化学物质固定到反应结构的表面,所述吸附技术包括非共价相互作用(例如,静电力、范德华力以及疏水界面的脱水)和共价结合技术,其中官能团或接头有利于将生物分子连接到表面。将生物分子或生物或化学物质固定到表面可基于表面的属性、携带生物分子或生物或化学物质的液体介质以及生物分子或生物或化学物质本身的属性。在一些情况下,表面可被官能化(例如,化学或物理改性),以有利于将生物分子(或生物或化学物质)固定到表面。
在一些示例中,核酸可固定到反应结构,诸如固定到其反应凹槽的表面。在特定示例中,本文所述的设备、生物传感器、生物测定系统和方法可包括使用天然核苷酸以及被配置为与天然核苷酸相互作用的酶。天然核苷酸包括例如核糖核苷酸或脱氧核糖核苷酸。天然核苷酸可为单磷酸盐、二磷酸盐或三磷酸盐形式,并且可具有选自腺嘌呤(A)、胸腺嘧啶(T)、尿嘧啶(U)、鸟嘌呤(G)或胞嘧啶(C)的碱基。然而,应当理解,可使用非天然核苷酸、经修饰的核苷酸或前述核苷酸的类似物。
如上所述,生物分子或生物或化学物质可固定在反应结构的反应凹槽中的反应位点处。此类生物分子或生物物质可通过过盈配合、粘附、共价键或截留物理地保持或固定在反应凹槽内。可设置在反应凹槽内的物品或固体的示例包括聚合物小珠、微丸、琼脂糖凝胶、粉末、量子点或可被压缩和/或保持在反应室内的其他固体。在某些具体实施中,反应凹槽可涂覆或填充有能够共价结合DNA寡核苷酸的水凝胶层。在特定示例中,核酸超结构(诸如DNA球)可例如通过附接至反应凹槽的内表面或通过停留在反应凹槽内的液体中而设置在反应凹槽中或反应凹槽处。可进行DNA球或其他核酸超结构,然后将其设置在反应凹槽中或反应凹槽处。另选地,DNA球可在反应凹槽处原位合成。固定在反应凹槽中的物质可为固态、液态或气态。
如本文所用,术语“分析物”旨在表示图案中的点或区域,其可根据相对位置区别于其他点或区域。单个分析物可包括一种或多种特定类型的分子。例如,分析物可包括具有特定序列的单个靶核酸分子,或者分析物可包括具有相同序列(和/或其互补序列)的若干核酸分子。位于图案的不同分析物处的不同分子可根据分析物在图案中的位置而彼此区分。示例性分析物包括但不限于基板中的孔、基板中或基板上的小珠(或其他颗粒)、基板的突出部、基板上的脊、基板上的凝胶材料垫或基板中的通道。
待检测、表征或鉴定的多种靶分析物中的任一种可用于本文所述的设备、系统或方法中。示例性分析物包括但不限于核酸(例如,DNA、RNA或它们的类似物)、蛋白质、多糖、细胞、抗体、表位、受体、配体、酶(例如,激酶、磷酸酶或聚合酶)、小分子候选药物、细胞、病毒、生物体等。
术语“分析物”、“核酸”、“核酸分子”和“多核苷酸”在本文中可互换使用。在各种具体实施中,核酸可用作如本文所提供的模板(例如,核酸模板,或与核酸模板互补的核酸互补序列)以用于特定类型的核酸分析,包括但不限于核酸扩增、核酸表达分析和/或核酸序列测定或它们的合适组合。在某些具体实施中,核酸包括例如3'-5'磷酸二酯或其他键中的脱氧核糖核苷酸的线性聚合物,诸如脱氧核糖核酸(DNA),例如单链和双链DNA、基因组DNA、拷贝DNA或互补DNA(cDNA)、重组DNA或任何形式的合成或修饰DNA。在其他具体实施中,核酸包括例如3’-5’磷酸二酯或其他键中的核糖核苷酸的线性聚合物,诸如核糖核酸(RNA),例如单链和双链RNA、信使(mRNA)、拷贝RNA或互补RNA(cRNA)、选择性剪接的mRNA、核糖体RNA、核仁小RNA(snoRNA)、微小RNA(miRNA)、小干扰RNA(sRNA)、piwi RNA(piRNA)或任何形式的合成或修饰的RNA。用于本发明的组合物和方法中的核酸的长度可变化,并且可以是完整的或全长的分子或片段或较大核酸分子的较小部分。在特定具体实施中,核酸可具有一种或多种可检测标记,如本文别处所述。
术语“分析物”、“簇”、“核酸簇”、“核酸群体”和“DNA簇”可互换使用,指附着到固体载体的核酸模板和/或其互补序列的多个拷贝。通常并且在某些优选的具体实施中,核酸簇包含模板核酸和/或其互补序列的多个拷贝,所述多个拷贝通过它们的5’末端连接至固体载体。构成核酸簇的核酸链的拷贝可为单链或双链形式。簇中存在的核酸模板的拷贝可在例如由于标记部分的存在而彼此不同的对应位置处具有核苷酸。对应的位置还可包含具有不同化学结构但具有相似Watson-Crick碱基配对属性的类似结构,诸如尿嘧啶和胸腺嘧啶的情况。
核酸群体也可称为“核酸簇”。核酸群体可任选地通过簇扩增或桥式扩增技术产生,如本文其他地方进一步详细阐述的。靶序列的多个重复可存在于单个核酸分子中,诸如使用滚环扩增程序产生的多联体。
根据所用的条件,本发明的核酸簇可具有不同的形状、大小和密度。例如,簇可具有基本上圆形、多边形、圆环形或环形的形状。核酸簇的直径可被设计成约0.2μm至约6μm、约0.3μm至约4μm、约0.4μm至约3μm、约0.5μm至约2μm、约0.75μm至约1.5μm或任何介于其间的直径。在特定具体实施中,核酸簇的直径为约0.5μm、约1μm、约1.5μm、约2μm、约2.5μm、约3μm、约4μm、约5μm或约6μm。核酸簇的直径可受到多个参数的影响,包括但不限于产生簇时进行的扩增循环数、核酸模板的长度或附着到其上形成有簇的表面的引物的密度。核酸簇的密度可被设计成通常在0.1/mm2、1/mm2、10/mm2、100/mm2、1,000/mm2、10,000/mm2至100,000/mm2的范围内。本发明还部分地设想了较高密度的核酸簇,例如100,000/mm2至1,000,000/mm2和1,000,000/mm2至10,000,000/mm2
如本文所用,“分析物”是标本或视野内的感兴趣区域。当与微阵列设备或其他分子分析设备结合使用时,分析物是指由类似或相同分子占据的区域。例如,分析物可以是扩增的寡核苷酸或具有相同或相似序列的任何其他组的多核苷酸或多肽。在其他具体实施中,分析物可为占据标本上的物理区域的任何元素或元素组。例如,分析物可以是一片土地、一片水域等。当对分析物成像时,每种分析物都会有一定的面积。因此,在许多具体实施中,分析物不仅仅是一个像素。
分析物之间的距离可用任意多种方式描述。在一些具体实施中,分析物之间的距离可被描述为从一种分析物的中心到另一种分析物的中心。在其他具体实施中,距离可被描述为从一种分析物的边缘到另一种分析物的边缘,或者在每种分析物的最外侧可识别点之间。分析物的边缘可被描述为芯片上的理论或实际物理边界,或分析物边界内的某个点。在其他具体实施中,距离可相对于标本上的固定点或标本的图像中的固定点来描述。
一般来讲,本文将关于分析方法来描述若干具体实施。应当理解,还提供了用于以自动化或半自动化的方式执行方法的系统。因此,本公开提供了基于神经网络的模板生成和碱基检出系统,其中该系统可包括处理器;存储设备;以及用于图像分析的程序,该程序包括用于执行本文所述方法中的一种或多种方法的指令。因此,本文所述的方法可在例如具有本文所述或本领域已知的组件的计算机上进行。
本文示出的方法和系统可用于分析多种对象中的任一种。特别有用的对象是具有连接的分析物的固体载体或固相表面。当用于在xy平面中具有分析物的重复图案的对象时,本文示出的方法和系统提供优点。一个示例是具有细胞、病毒、核酸、蛋白质、抗体、碳水化合物、小分子(诸如候选药物)、生物活性分子或其他感兴趣的分析物的连接集合的微阵列。
已经开发出越来越多的应用,用于具有生物分子(诸如核酸和多肽)的分析物的阵列。此类微阵列通常包括脱氧核糖核酸(DNA)或核糖核酸(RNA)探针。这些探针对人类和其他生物体中存在的核苷酸序列为特异性的。在某些应用中,例如,可将单个DNA或RNA探针连接到阵列的单个分析物上。可将诸如来自已知的人或生物体的试样暴露于阵列,使得靶核酸(例如,基因片段、mRNA或其扩增子)与阵列中相应分析物处的互补探针杂交。探针可在靶标特异性过程中进行标记(例如,由于存在于靶核酸上的标记或由于在分析物中以杂交形式存在的探针或靶标的酶标记)。然后可通过扫描分析物上特定频率的光来检查阵列,以识别样品中存在哪些靶核酸。
生物微阵列可用于基因测序和类似应用。一般来讲,基因测序包括确定靶核酸(诸如DNA或RNA的片段)的长度中的核苷酸顺序。相对短的序列通常在每种分析物处进行测序,并且所得的序列信息可用于各种生物信息学方法中以将序列片段逻辑地拟合在一起,从而可靠地确定从其衍生出片段的遗传物质的长度范围更广的序列。已开发出用于特征性片段的自动化的、基于计算机的算法,并且最近已将其用于基因组作图、基因及其功能的鉴定等。微阵列尤其可用于表征基因组含量,因为存在大量变体,并且这取代了对单个探针和靶标进行许多实验的选择方案。微阵列是用于以实际方式进行此类研究的理想形式。
本领域已知的多种分析物阵列(也称为“微阵列”)中的任一种均可用于本文所述的方法或系统中。典型的阵列包含分析物,每种分析物具有单独的探针或探针群。在后一种情况下,每种分析物处的探针群通常是同质的,具有单一种类的探针。例如,就核酸阵列而言,每种分析物可具有多个核酸分子,每个核酸分子具有共同的序列。然而,在一些具体实施中,阵列的每种分析物处的探针群可以是异质的。类似地,蛋白质阵列可具有含单个蛋白质或蛋白质群的分析物,单个蛋白质或蛋白质群通常但不总是具有相同的氨基酸序列。探针可例如通过探针与表面的共价键合或通过探针与表面的非共价相互作用附着到阵列的表面。在一些具体实施中,探针诸如核酸分子可经由凝胶层附着到表面,如例如在以下专利申请中所述:美国专利申请序列号13/784,368和美国专利申请公布2011/0059865A1中所述的那些,这些文献中的每一篇均以引用方式并入本文。
示例性阵列包括但不限于得自Illumina公司(San Diego,Calif.)的BeadChip阵列或其他阵列,诸如其中探针附着到存在于表面上的小珠(例如,表面上的孔中的小珠)的那些阵列,诸如美国专利6,266,459、6,355,431、6,770,441、6,859,570、或7,622,294、或PCT公布WO 00/63437中所述的那些阵列,这些文献中的每一篇均以引用方式并入本文。可使用的可商购获得的微阵列的其他示例包括,例如,
Figure BDA0003804769430000521
微阵列或根据有时称为VLSIPSTM(超大规模固定化聚合物合成)技术合成的其他微阵列。点状微阵列也可用于根据本发明的一些具体实施的方法或系统中。示例性点状微阵列是得自AmershamBiosciences的CodeLinkTM阵列。可用的另一个微阵列是使用喷墨印刷方法(诸如得自Agilent Technologies的SurePrintTM技术)制造的微阵列。
其他可用的阵列包括用于核酸测序应用的阵列。例如,具有基因组片段扩增子的阵列(通常称为簇)是特别有用的,诸如在Bentley等人,Nature 456:53-59(2008);WO 04/018497;WO 91/06678、WO 07/123744、美国专利7,329,492、7,211,414、7,315,019、7,405,281或7,057,026;或美国专利申请公布2008/0108082 A1中所述的那些,这些文献中的每一篇均以引用方式并入本文。可用于核酸测序的另一种类型的阵列是由乳液PCR技术产生的颗粒的阵列。示例描述于Dressman等人,Proc.Natl.Acad.Sci.USA,第100卷,第8817-8822页(2003年),WO 05/010145,美国专利申请公布2005/0130173,或美国专利申请公布2005/0064460中,这些文献中的每一篇均全文以引用方式并入本文。
用于核酸测序的阵列通常具有核酸分析物的随机空间模式。例如,得自Illumina公司(San Diego,Calif.)的HiSeq或MiSeq测序平台利用流通池,在该流通池上通过随机接种然后桥式扩增形成核酸阵列。然而,图案化阵列也可用于核酸测序或其他分析应用。示例性图案化阵列、其制造方法及其使用方法阐述于美国序列号13/787,396、美国序列号13/783,043、美国序列号13/784,368、美国专利申请公布2013/0116153 A1、以及美国专利申请公布No.2012/0316086 A1中,这些文献中的每一篇均以引用方式并入本文。此类图案化阵列的分析物可用于捕获单个核酸模板分子以进行接种,随后例如经由桥式扩增形成同质群体。此类图案化阵列尤其可用于核酸测序应用。
可选择阵列(或本文的方法或系统中使用的其他对象)上的分析物的尺寸以适合特定应用。例如,在一些具体实施中,阵列的分析物可具有仅容纳单个核酸分子的尺寸。具有多个在该尺寸范围内的分析物的表面可用于构造分子阵列,从而以单分子分辨率进行检测。该尺寸范围内的分析物也可用于具有分析物的阵列中,这些分析物各自包含核酸分子的群体。因此,阵列的分析物可各自具有不大于约1mm2、不大于约500μm2、不大于约100μm2、不大于约10μm2、不大于约1μm2、不大于约500nm2、或不大于约100nm2、不大于约10nm2、不大于约5nm2或不大于约1nm2的面积。另选地或除此之外,阵列的分析物将不小于约1mm2、不小于约500μm2、不小于约100μm2、不小于约10μm2、不小于约1μm2、不小于约500nm2、不小于约100nm2、不小于约10nm2、不小于约5nm2或不小于约1nm2。实际上,分析物可具有在选自上文所例示的那些上限和下限之间的范围内的尺寸。尽管已关于核酸和核酸的尺度举例说明了表面的分析物的若干尺寸范围,但应当理解,这些尺寸范围内的分析物可用于不包括核酸的应用。还应当理解,分析物的尺寸不必局限于核酸应用中使用的尺度。
对于包括具有多种分析物的对象(诸如,分析物的阵列)的具体实施而言,分析物可以是离散的,彼此之间有间隔。可用于本发明的阵列可具有由至多100μm、50μm、10μm、5μm、1μm、0.5μm或更小的边缘到边缘距离隔开的分析物。另选地或除此之外,阵列可具有由至少0.5μm、1μm、5μm、10μm、50μm、100μm或更大的边缘到边缘距离隔开的分析物。这些范围可适用于分析物的平均边缘到边缘间距以及最小或最大间距。
在一些具体实施中,阵列的分析物不必是离散的,相反相邻的分析物可彼此邻接。无论分析物是否为离散的,分析物的尺寸和/或分析物的间距都可变化,使得阵列可具有期望的密度。例如,规则图案中的平均分析物间距可为至多100μm、50μm、10μm、5μm、1μm、0.5μm或更小。另选地或除此之外,规则图案中的平均分析物间距可为至少0.5μm、1μm、5μm、10μm、50μm、100μm或更大。这些范围也可适用于规则图案的最大或最小间距。例如,规则图案的最大分析物间距可为至多100μm、50μm、10μm、5μm、1μm、0.5μm或更小;并且/或者规则图案中的最小分析物间距可为至少0.5μm、1μm、5μm、10μm、50μm、100μm或更大。
阵列中分析物的密度也可根据每单位面积存在的分析物数量来理解。例如,阵列的平均分析物密度可为至少约1×103个分析物/mm2、1×104个分析物/mm2、1×105个分析物/mm2、1×106个分析物/mm2、1×107个分析物/mm2、1×108个分析物/mm2或1×109个分析物/mm2或更高。另选地或除此之外,阵列的平均分析物密度可为至多约1×109个分析物/mm2、1×108个分析物/mm2、1×107个分析物/mm2、1×106个分析物/mm2、1×105个分析物/mm2、1×104个分析物/mm2或1×103个分析物/mm2或更低。
上述范围可适用于规则图案的全部或部分,包括例如分析物阵列的全部或部分。
图案中的分析物可具有多种形状中的任一种。例如,当在二维平面内(诸如在阵列的表面上)观察时,分析物可看起来为圆形、环形、椭圆形、矩形、正方形、对称的、不对称的、三角形、多边形等。分析物可以规则的重复图案布置,包括例如六边形或直线形图案。可选择图案以实现所需的填充水平。例如,圆形分析物以六边形布置进行最佳填充。当然,其他填充布置也可用于圆形分析物,并且反之亦然。
图案可根据在形成该图案的最小几何单元的子集中存在的分析物的数量来表征。该子集可包括例如至少约2、3、4、5、6、10种或更多种分析物。根据分析物的尺寸和密度,几何单元可占据小于1mm2、500μm2、100μm2、50μm2、10μm2、1μm2、500nm2、100nm2、50nm2、10nm2或更小的面积。另选地或除此之外,几何单元可占据大于10nm2、50nm2、100nm2、500nm2、1μm2、10μm2、50μm2、100μm2、500μm2、1mm2或更大的面积。几何单元中的分析物的特征(诸如形状、尺寸、间距等)可选自本文针对阵列或图案中的分析物更一般地阐述的那些。
具有分析物的规则图案的阵列关于分析物的相对位置可为有序的,但关于每种分析物的一个或多个其他特征为随机的。例如,就核酸阵列而言,核酸分析物关于其相对位置可为有序的,但关于人们对存在于任何特定分析物处的核酸物质的序列的了解为随机的。作为更具体的示例,通过用模板核酸接种分析物的重复图案,并在每种分析物处扩增模板以在分析物处形成模板的拷贝(例如,通过簇扩增或桥式扩增)形成的核酸阵列将具有核酸分析物的规则图案,但关于核酸序列在整个阵列中的分布将是随机的。因此,通常在阵列上检测核酸材料的存在可产生分析物的重复图案,而序列特异性检测可产生信号在整个阵列上的非重复分布。
应当理解,本文对图案、顺序、随机性等的描述不仅涉及对象上的分析物,诸如阵列上的分析物,而且还涉及图像中的分析物。因此,图案、顺序、随机性等可以用于存储、操纵或传送图像数据的多种格式中的任一种存在,包括但不限于计算机可读介质或计算机部件,诸如图形用户界面或其他输出设备。
如本文所用,术语“图像”旨在表示对象的全部或部分的表示。该表示可以是光学检测的再现。例如,可从荧光、发光、散射或吸收信号获得图像。存在于图像中的对象的部分可以是对象的表面或其他xy平面。通常,图像为二维表示,但在一些情况下,图像中的信息可来源于3个或更多个维度。图像不需要包括光学检测的信号。相反,可存在非光信号。图像可以计算机可读格式或介质提供,诸如在本文其他地方阐述的那些中的一者或多者。
如本文所用,“图像”是指标本或其他对象的至少一部分的再现或表示。在一些具体实施中,再现是例如由相机或其他光学检测器产生的光学再现。该再现可以是非光学再现,例如,从纳米孔分析物阵列获得的电信号的表示或从离子敏感型CMOS检测器获得的电信号的表示。在特定具体实施中,非光学再现可从本文阐述的方法或设备中排除。图像可具有能够区分以多种间距中的任一种存在的标本的分析物的分辨率,所述间距包括例如间隔小于100μm、50μm、10μm、5μm、1μm或0.5μm的那些间距。
如本文所用,“获取”、“采集”等术语是指获得图像文件的过程的任何部分。在一些具体实施中,数据采集可包括生成标本的图像,查找标本中的信号,指示检测设备查找或生成信号的图像,给出用于进一步分析或转换图像文件的指令,以及图像文件的任何数量的转换或操纵。
如本文所用,术语“模板”是指信号或分析物之间的位置或关系的表示。因此,在一些具体实施中,模板是具有对应于标本中的分析物的信号的表示的物理网格。在一些具体实施中,模板可以是指示与分析物对应的位置的图表、表格、文本文件或其他计算机文件。在本文呈现的具体实施中,生成模板以便跟踪在不同参考点处捕获的标本的图像集上标本的分析物的位置。例如,模板可以是一组x,y坐标或描述一种分析物相对于另一种分析物的方向和/或距离的一组值。
如本文所用,术语“标本”可指捕获图像的对象或对象的区域。例如,在拍摄地球表面的图像的具体实施中,一片土地可为标本。在流通池中进行生物分子的分析的其他具体实施中,流通池可被分成任何数量的子部分,每个子部分可为标本。例如,流通池可被分成各种流动通道或槽道,并且每个槽道可被进一步分成2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、110、120、140、160、180、200、400、600、800、1000或更多个单独的成像区域。流通池的一个示例具有8个槽道,其中每个槽道被分成120个标本或区块。在另一个具体实施中,标本可由多个区块或甚至整个流通池组成。因此,每个标本的图像可表示较大表面的成像区域。
应当理解,本文所述的对范围和序数列表的引用不仅包括所枚举的数字,而且还包括所枚举的数字之间的所有实数。
如本文所用,“参考点”是指图像之间的任何时间或物理区别。在优选的具体实施中,参考点为时间点。在更优选的具体实施中,参考点是测序反应期间的时间点或循环。然而,术语“参考点”可包括区分或分离图像的其他方面,诸如角度方面、旋转方面、时间方面或可区分或分离图像的其他方面。
如本文所用,“图像子集”是指集合内的图像集。例如,子集可包含1个、2个、3个、4个、6个、8个、10个、12个、14个、16个、18个、20个、30个、40个、50个、60个图像或选自图像集的任意数量个图像。在特定具体实施中,子集可包含不超过1个、2个、3个、4个、6个、8个、10个、12个、14个、16个、18个、20个、30个、40个、50个、60个图像或选自图像集的任意数量个图像。在优选的具体实施中,从一个或多个测序循环获得图像,其中四个图像与每个循环相关。因此,例如,子集可以是通过四个循环获得的一组16个图像。
碱基是指如下核苷酸碱基或核苷酸,A(腺嘌呤)、C(胞嘧啶)、T(胸腺嘧啶)或G(鸟嘌呤)。本专利申请可互换使用“碱基”和“核苷酸”。
术语“染色体”是指活细胞的携带遗传性的基因载体,其来源于包含DNA和蛋白质组分(尤其是组蛋白)的染色质链。本文采用了常规的国际公认的个体人类基因组染色体编号系统。
术语“位点”是指参考基因组上的独特位置(例如,染色体ID、染色体位置和取向)。在一些具体实施中,位点可为残基、序列标签或片段在序列上的位置。术语“基因位点”可用于指核酸序列或多态性在参考染色体上的特定位置。
本文的术语“样本”是指通常来源于生物流体、细胞、组织、器官或生物体且包含核酸或核酸混合物的样本,该核酸或核酸混合物包含待测序和/或定相的至少一种核酸序列。此类样本包括但不限于痰/口腔液、羊水、血液、血液级分、细针活检样本(例如,外科活检、细针活检等)、尿液、腹膜液、胸膜液、组织外植体、器官培养物和任何其他组织或细胞制剂,或其级分或衍生物,或从其分离的级分或衍生物。虽然样本通常取自人类受试者(例如,患者),但样本可取自具有染色体的任何生物体,包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。样本可按从生物来源获得的原样直接使用,或者经过预处理以改变样本的性质后使用。例如,此类预处理可包括由血液制备血浆、稀释粘性流体等。预处理的方法还可涉及但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分的灭活、添加试剂、裂解等。
术语“序列”包括或代表彼此偶联的核苷酸链。核苷酸可基于DNA或RNA。应当理解,一个序列可包括多个子序列。例如,单个序列(例如,PCR扩增子的序列)可具有350个核苷酸。样本读段可包括这350个核苷酸内的多个子序列。例如,样本读段可包括具有例如20-50个核苷酸的第一侧翼子序列和第二侧翼子序列。第一侧翼子序列和第二侧翼子序列可位于具有对应子序列(例如,40个-100个核苷酸)的重复片段的任一侧上。每个侧翼子序列可包括引物子序列(例如,10个-30个核苷酸)(或包括其部分)。为了便于阅读,术语“子序列”将被称为“序列”,但应当理解,两个序列不一定在共同链上彼此分开。为了区分本文所述的各种序列,可给序列赋予不同的标记(例如,靶序列、引物序列、侧翼序列、参考序列等)。其他术语诸如“等位基因”可被赋予不同的标记,以区分相似的对象。本申请可互换使用“读段”和“序列读段”。
术语“双端测序”是指对靶片段的两端进行测序的测序方法。双端测序可有助于检测基因组重排和重复片段,以及基因融合和新转录本。用于双端测序的方法描述于PCT公布WO07010252、PCT申请序列号PCTGB2007/003798和美国专利申请公布US 2009/0088327中,这些专利中的每一篇均以引用方式并入本文。在一个示例中,可如下执行一系列操作;(a)生成核酸簇;(b)使核酸线性化;(c)使第一测序引物杂交,并如上所述进行延伸、扫描和解封闭的重复循环;(d)通过合成互补拷贝“反转”流通池表面上的靶核酸;(e)使重新合成的链线性化;以及(f)使第二测序引物杂交,并如上所述进行延伸、扫描和解封闭的重复循环。反转操作可通过将如上所述的试剂递送用于桥式扩增的单个循环来进行。
术语“参考基因组”或“参考序列”是指可用于参考来自受试者的已鉴定序列的任何生物体的任何特定已知基因组序列,无论是部分的还是完整的。例如,可在ncbi.nlm.nih.gov的美国国家生物技术信息中心(National Center for BiotechnologyInformation)找到用于人类受试者以及许多其他生物体的参考基因组。“基因组”是指以核酸序列表达的生物体或病毒的完整遗传信息。基因组既包括基因又包括DNA的非编码序列。参考序列可大于与其比对的读段。例如,参考序列可为比对读段的至少约100倍大、或至少约1000倍大、或至少约10,000倍大、或至少约105倍大、或至少约106倍大、或至少约107倍大。在一个示例中,参考基因组序列是全长人类基因组的序列。在另一个示例中,参考基因组序列限于特定的人类染色体,诸如13号染色体。在一些具体实施中,参考染色体是来自人类基因组版本hg19的染色体序列。此类序列可称为染色体参考序列,但术语参考基因组旨在涵盖此类序列。参考序列的其他示例包括其他物种的基因组,以及任何物种的染色体、亚染色体区域(诸如链)等。在各种具体实施中,参考基因组是来源于多个个体的共有序列或其他组合。然而,在某些应用中,参考序列可取自特定个体。在其他具体实施中,“基因组”还涵盖所谓的“图形基因组”,其使用基因组序列的特定存储格式和表示。在一个具体实施中,图形基因组将数据存储在线性文件中。在另一个具体实施中,图形基因组是指其中另选序列(例如,具有小差异的染色体的不同拷贝)作为不同路径存储在图中的表示。关于图形基因组具体实施的其他详细信息可见于https://www.biorxiv.org/content/biorxiv/early/2018/03/20/194530.full.pdf,其内容据此全文以引用方式并入本文。
术语“读段”是指描述核苷酸样本或参考的片段的序列数据的集合。术语“读段”可指样本读段和/或参考读段。通常,尽管不是必须的,读段表示样本或参考中邻接碱基对的短序列。读段可由样本或参考片段的碱基对序列(ACTG形式)象征性地表示。读段可存储在存储器设备中并视情况进行处理,以确定该读段是匹配参考序列还是满足其他标准。读段可直接从测序装置获得或间接从所存储的关于样本的序列信息获得。在一些情况下,读段为足够长度(例如,至少约25bp)的DNA序列,其可用于鉴定更大的序列或区域,例如,其可被比对并特异性地分配给染色体或基因组区域或基因。
下一代测序方法包括例如边合成边测序技术(Illumina)、焦磷酸测序(454)、离子半导体技术(Ion Torrent测序)、单分子实时测序和边连接边测序(SOLiD测序)。根据测序方法,每个读段的长度可在约30bp至超过10,000bp之间变化。例如,使用SOLiD测序仪的DNA测序方法产生约50bp的核酸读段。又如,Ion Torrent测序产生最多400bp的核酸读段并且454焦磷酸测序产生约700bp的核酸读段。又如,单分子实时测序方法可产生10,000bp至15,000bp的读段。因此,在某些具体实施中,核酸序列读段的长度为30bp-100bp、50bp-200bp或50bp-400bp。
术语“样本读段”、“样本序列”或“样本片段”是指来自样本的感兴趣的基因组序列的序列数据。例如,样本读段包含来自具有正向和反向引物序列的PCR扩增子的序列数据。序列数据可从任何选择的序列方法中获得。样本读段可例如来自边合成边测序(SBS)反应、边连接边测序反应或需要确定重复元件的长度和/或同一性的任何其他合适的测序方法。样本读段可以是来源于多个样本读段的共有(例如,平均或加权)序列。在某些具体实施中,提供参考序列包括基于PCR扩增子的引物序列鉴定感兴趣的基因位点。
术语“原始片段”是指感兴趣的基因组序列的一部分的序列数据,该序列数据与样本读段或样本片段中感兴趣的指定位置或次要位置至少部分地重叠。原始片段的非限制性示例包括双重拼接片段、单重拼接片段、双重未拼接片段和单重未拼接片段。术语“原始”用于表示原始片段包括与样本读段中的序列数据具有一些关系的序列数据,而不管原始片段是否表现出对应于并验证或确认样本读段中的潜在变异的支持变异。术语“原始片段”不表示该片段必然包括在样本读段中验证变异检出的支持变异。例如,当变异检出应用程序确定样本读段表现出第一变异时,变异检出应用程序可确定一个或多个原始片段缺少对应类型的“支持”变异,原本在给定样本读段中的变异的情况下可能预计会出现该“支持”变异。
术语“映射”、“比对(aligned、alignment或aligning)”是指将读段或标签与参考序列进行比较,从而确定参考序列是否包含该读段序列的过程。如果参考序列包含该读段,则该读段可映射到参考序列,或者在某些具体实施中,映射到参考序列中的特定位置。在一些情况下,比对简单地告知读段是否为特定参考序列的成员(即,该读段是否存在于该参考序列中)。例如,读段与人类13号染色体的参考序列的比对将告知该读段是否存在于13号染色体的参考序列中。提供该信息的工具可被称为集合成员资格测试仪(set membershiptester)。在一些情况下,比对另外指示读段或标签映射到的参考序列中的位置。例如,如果参考序列是人类全基因组序列,则比对可指示读段存在于13号染色体上,并且还可指示该读段存在于13号染色体的特定链和/或位点上。
术语“插入缺失”指生物体DNA中碱基的插入和/或缺失。微插入缺失表示导致1至50个核苷酸的净变化的插入缺失。在基因组的编码区中,除非插入缺失的长度是3的倍数,否则会产生移码突变。插入缺失可与点突变形成对比。插入缺失插入片段从序列中插入和缺失核苷酸,而点突变是置换其中一个核苷酸而不改变DNA中的核苷酸总数的置换形式。插入缺失也可与串联碱基突变(TBM)形成对比,该串联碱基突变可被定义为相邻核苷酸处的置换(主要是两个相邻核苷酸处的置换,但已观察到三个相邻核苷酸处的置换)。
术语“变异”是指与核酸参照物不同的核酸序列。典型的核酸序列变异包括但不限于单核苷酸多态性(SNP)、短缺失和插入多态性(Indel)、拷贝数变异(CNV)、微卫星标记或短串联重复序列和结构变异。体细胞变异检出是识别以低频率存在于DNA样本中的变异的工作。体细胞变异检出在癌症治疗的背景下是令人感兴趣的。癌症是由DNA中突变的积聚引起的。来自肿瘤的DNA样本通常是异质的,包括一些正常细胞、癌症进展早期的一些细胞(具有较少突变)和一些晚期细胞(具有较多突变)。由于这种异质性,当对肿瘤(例如,来自FFPE样本)测序时,体细胞突变将通常以低频率出现。例如,可在覆盖给定碱基的读段的仅10%中看到SNV。待由变异分类器分类为体细胞或种系的变异在本文中也被称为“待测变异”。
术语“噪声”是指由测序过程和/或变异检出应用程序中的一个或多个错误引起的错误变异检出。
术语“变异频率”表示等位基因(基因变异)在群体中特定基因位点处的相对频率,以分数或百分比表示。例如,分数或百分比可以是群体中所有携带该等位基因的染色体的分数。以举例的方式,样本变异频率表示等位基因/变异在沿感兴趣的基因组序列的特定基因位点/位置处相对于“群体”的相对频率,群体对应于从个体获得的感兴趣的基因组序列的读段和/或样本的数量。又如,基线变异频率表示等位基因/变异在沿一个或多个基线基因组序列的特定基因位点/位置处的相对频率,其中“群体”对应于从正常个体的群体获得的一个或多个基线基因组序列的读段和/或样本的数量。
术语“变异等位基因频率(VAF)”是指观察到的匹配变异的测序读段的百分比除以靶位置处的总体覆盖率。VAF是携带变异的测序读段的比例的量度。
术语“位置”、“指定位置”和“基因位点”是指核苷酸序列内的一个或多个核苷酸的位置或坐标。术语“位置”、“指定位置”和“基因位点”也指核苷酸序列中的一个或多个碱基对的位置或坐标。
术语“单倍型”指染色体上相邻位点处一起遗传的等位基因的组合。单倍型可为一个基因位点、多个基因位点或整个染色体,具体取决于在给定的一组基因位点之间发生的重组事件的数目(如果有的话)。
术语“阈值”在本文中是指用作表征样本、核酸或其部分(例如,读段)的截止值的数字或非数字值。阈值可基于经验分析而改变。可将阈值与测量值或计算值进行比较,以确定是否应以特定方式对产生此类值的源进行分类。阈值可根据经验或分析来识别。阈值的选择取决于用户希望必须进行分类的置信水平。阈值可被选择用于特定目的(例如,以平衡灵敏度和选择性)。如本文所用,术语“阈值”指示可改变分析过程的点和/或可触发动作的点。阈值不需要是预定数量。相反,阈值可以是例如基于多个因素的函数。阈值可根据情况进行调整。此外,阈值可指示上限、下限或限值之间的范围。
在一些具体实施中,可将基于测序数据的度量或分数与阈值进行比较。如本文所用,术语“度量”或“分数”可包括由测序数据确定的值或结果,或者可包括基于由测序数据确定的值或结果的函数。与阈值一样,度量或分数可根据情况进行调整。例如,度量或分数可以是归一化值。作为分数或度量的示例,一个或多个具体实施可在分析数据时使用计数分数。计数分数可基于样本读段的数量。样本读段可能已经历一个或多个过滤阶段,使得样本读段具有至少一个共同的特征或质量。例如,用于确定计数分数的每个样本读段可能已经与参考序列比对,或者可能被分配为潜在等位基因。可对具有共同特征的样本读段的数量进行计数以确定读段计数。计数分数可基于读段计数。在一些具体实施中,计数分数可以是等于读段计数的值。在其他具体实施中,计数分数可基于读段计数和其他信息。例如,计数分数可基于基因位点的特定等位基因的读段计数和基因位点的读段总数。在一些具体实施中,计数分数可基于基因位点的读段计数和先前获得的数据。在一些具体实施中,计数分数可以是预定值之间的归一化分数。计数分数还可以是来自样本的其他基因位点的读段计数的函数或来自与感兴趣的样本并行运行的其他样本的读段计数的函数。例如,计数分数可以是特定等位基因的读段计数和样本中其他基因位点的读段计数和/或来自其他样本的读段计数的函数。例如,来自其他基因位点的读段计数和/或来自其他样本的读段计数可用于归一化特定等位基因的计数分数。
术语“覆盖率”或“片段覆盖率”是指序列的相同片段的多个样本读段的计数或其他量度。读段计数可表示覆盖对应片段的读段数量的计数。另选地,可通过将读段计数乘以基于历史知识、样本知识、基因位点知识等的指定因子来确定覆盖率。
术语“读段深度”(通常为数字后跟“×”)是指在靶位置处具有重叠比对的序列读段的数量。这通常表示为一组区间(诸如外显子、基因或组)内的平均值或超过截止值的百分比。例如,临床报告可能说组平均覆盖率为1,105×,其中98%的靶碱基覆盖率>100×。
术语“碱基检出质量分数”或“Q分数”是指与单个测序碱基正确的概率成反比的0-50范围内的PHRED标度概率。例如,Q为20的T碱基检出被认为可能是正确的,概率为99.99%。Q<20的任何碱基检出应被认为是低质量的,并且在支持变异的相当大比例的测序读段具有低质量的情况下识别的任何变异应被认为是潜在假阳性的。
术语“变异读段”或“变异读段数量”是指支持变异存在的测序读段的数量。
关于“链型”(或DNA链型),DNA中的遗传信息可表示为字母A、G、C和T的字符串。例如,5’–AGGACA–3’。通常,序列沿此处所示的方向书写,即,5’端向左而3’端向右。DNA有时可以单链分子的形式出现(如在某些病毒中),但通常我们发现DNA为双链单元。它具有双螺旋结构,该结构具有两条逆平行链。在这种情况下,词语“逆平行”是指两条链平行延伸,但具有相反的极性。双链DNA通过碱基之间的配对保持在一起,并且配对总是使得腺嘌呤(A)与胸腺嘧啶(T)配对并且胞嘧啶(C)与鸟嘌呤(G)配对。这种配对被称为互补性,并且DNA的一条链被称为另一条链的互补序列。因此,双链DNA可表示为两个字符串,像这样:5’–AGGACA–3’和3’–TCCTGT–5’。注意,两条链具有相反的极性。因此,两条DNA链的链型可称为参考链及其互补链、正向链和反向链、顶部链和底部链、有义链和反义链或沃森链和克里克链。
读段比对(也称为读段映射)是找出序列在基因组中的位置的过程。一旦进行了比对,给定读段的“映射质量”或“映射质量分数(MAPQ)”对其在基因组上的位置正确的概率进行定量。映射质量以phred标度进行编码,其中P是比对不正确的概率。概率计算为:P=10(-MAQ/10),其中MAPQ是映射质量。例如,40的映射质量=10的-4次方,这意味着读段有0.01%的机会被错误地比对。因此,映射质量与若干比对因素相关联,诸如读段的碱基质量、参考基因组的复杂性以及双端信息。关于第一个因素,如果读段的碱基质量低,则意味着观察到的序列可能是错误的,因此其比对是错误的。关于第二个因素,可映射性是指基因组的复杂性。重复区域更难以映射,并且落入这些区域中的读段通常获得低映射质量。在这种情况下,MAPQ反映了这样一个事实,即读段不是唯一比对的,它们的真正来源无法确定。关于第三个因素,在双端测序数据的情况下,一致的对更可能是良好比对的。映射质量越高,比对越好。以良好映射质量比对的读段通常意味着读段序列良好,并且在高可映射性区域中几乎没有错配地进行比对。MAPQ值可用作比对结果的质量控制。MAPQ高于20的所比对读段的比例通常用于下游分析。
如本文所用,“信号”是指可检测的事件,诸如图像中的发射,优选地为光发射。因此,在优选的具体实施中,信号可表示在图像中捕获的任何可检测的光发射(即,“光点”)。因此,如本文所用,“信号”可指来自标本的分析物的实际发射,并且可指与实际分析物不相关的杂散发射。因此,信号可能由噪声产生,并且由于不代表标本的实际分析物而可能随后被丢弃。
如本文所用,术语“丛”是指一组信号。在特定具体实施中,信号来源于不同的分析物。在优选的具体实施中,信号丛是聚集在一起的一组信号。在更优选的具体实施中,信号丛表示由一个扩增的寡核苷酸覆盖的物理区域。每个信号丛在理想情况下应被观察为若干信号(每个模板循环一个,并且可能由于串扰而更多)。因此,在来自同一信号丛的模板中包括两个(或更多个)信号的情况下,检测到重复信号。
如本文所用,术语诸如“最小”、“最大”、“最小化”、“最大化”及其语法变型可包括不是绝对最大值或最小值的值。在一些具体实施中,这些值包括接近最大值和接近最小值。在其他具体实施中,这些值可包括局部最大值和/或局部最小值。在一些具体实施中,这些值仅包括绝对最大值或最小值。
如本文所用,“串扰”是指在一个图像中检测到的信号也在单独的图像中检测到。在优选的具体实施中,当在两个单独的检测通道中检测到发射的信号时,可发生串扰。例如,在发射信号以一种颜色出现的情况下,该信号的发射光谱可与另一种颜色的另一个发射信号重叠。在优选的具体实施中,在单独的通道中检测用于指示核苷酸碱基A、C、G和T的存在的荧光分子。然而,因为A和C的发射光谱重叠,所以可在使用A颜色通道的检测期间检测C颜色信号中的一些。因此,A信号和C信号之间的串扰允许来自一个彩色图像的信号出现在另一个彩色图像中。在一些具体实施中,G和T串扰。在一些具体实施中,通道之间的串扰量为不对称的。应当理解,通道之间的串扰量可通过(除了别的以外)选择具有适当发射光谱的信号分子以及选择检测通道的尺寸和波长范围来控制。
如本文所用,“配准(register、registering、registration)”和类似术语是指将来自第一时间点或视角的图像或数据集中的信号与来自另一时间点或视角的图像或数据集中的信号相关联的任何过程。例如,配准可用于对准来自图像集的信号以形成模板。又如,配准可用于将来自其他图像的信号与模板对准。一个信号可直接或间接配准到另一个信号。例如,来自图像“S”的信号可直接配准到图像“G”。又如,来自图像“N”的信号可直接配准到图像“G”,或者另选地,来自图像“N”的信号可配准到先前已配准到图像“G”的图像“S”。因此,来自图像“N”的信号间接配准到图像“G”。
如本文所用,术语“基准”旨在表示对象中或对象上的可区分的参考点。参考点可为例如标记、第二对象、形状、边缘、区域、不规则性、通道、凹坑、柱等。参考点可存在于对象的图像中或存在于从检测对象导出的另一数据集中。参考点可由对象平面中的x和/或y坐标来指定。另选地或除此之外,参考点可由正交于xy平面的z坐标指定,例如由对象和检测器的相对位置限定。可相对于对象或图像或从对象导出的其他数据集的一个或多个其他分析物来指定参考点的一个或多个坐标。
如本文所用,术语“光信号”旨在包括例如荧光信号、发光信号、散射信号或吸收信号。可在电磁光谱的紫外(UV)范围(约200纳米至390纳米)、可见(VIS)范围(约391纳米至770纳米)、红外(IR)范围(约0.771微米至25微米)或其他范围内检测光信号。可以排除这些范围中的一个或多个的全部或部分的方式检测光信号。
如本文所用,术语“信号电平”旨在表示具有期望或预定义特征的检测到的能量或编码信息的量或数量。例如,光信号可通过强度、波长、能量、频率、功率、亮度等中的一者或多者来量化。其他信号可根据特征诸如电压、电流、电场强度、磁场强度、频率、功率、温度等进行量化。信号缺失被理解为信号电平为零或信号电平与噪声没有明显区别。
如本文所用,术语“模拟”旨在表示创建物理事物或动作的表示或模型,其预测该事物或动作的特征。在许多情况下,表示或模型可与事物或动作区分开来。例如,就一个或多个特征诸如颜色、从事物的全部或部分检测到的信号强度、尺寸或形状而言,表示或模型可与事物区分开来。在特定具体实施中,当与事物或动作相比时,表示或模型可以是理想化的、放大的、变暗的或不完整的。因此,在一些具体实施中,例如,就上述特征中的至少一个特征而言,模型的表示可与其所表示的事物或动作区分开来。该表示或模型可以计算机可读格式或介质提供,诸如在本文其他地方阐述的那些中的一者或多者。
如本文所用,术语“特定信号”旨在表示相对于其他能量或信息(诸如背景能量或信息)选择性地观察到的检测到的能量或编码信息。例如,特定信号可以是在特定强度、波长或颜色下检测到的光信号;在特定频率、功率或场强下检测到的电信号;或本领域已知的与光谱和分析检测有关的其他信号。
如本文所用,术语“长条”旨在表示对象的矩形部分。长条可为细长的条带,其通过在平行于该条带的最长维度的方向上对象与检测器之间的相对运动来扫描。一般来讲,矩形部分或条带的宽度沿其全长将是恒定的。对象的多个长条可彼此平行。对象的多个长条可彼此相邻、彼此重叠、彼此邻接或通过间隙区域彼此隔开。
如本文所用,术语“方差”旨在表示预期值与观察值之间的差值或两个或更多个观察值之间的差值。例如,方差可以是期望值与测量值之间的差异。方差可使用统计函数来表示,诸如标准偏差、标准偏差的平方、变异系数等。
如本文所用,术语“xy坐标”旨在表示指定xy平面中的位置、尺寸、形状和/或取向的信息。该信息可以是例如笛卡尔系统中的数字坐标。坐标可相对于x轴和y轴中的一者或两者提供,或者可相对于xy平面中的另一个位置提供。例如,对象的分析物的坐标可指定分析物相对于对象的基准或其他分析物的位置的位置。
如本文所用,术语“xy平面”旨在表示由直线轴x和y限定的二维区域。当参考检测器和检测器所观察的对象使用时,该区域可被进一步指定为与检测器和所检测的对象之间的观察方向正交。
如本文所用,术语“z坐标”旨在表示指定沿着正交于xy平面的轴的点、线或区域的位置的信息。在特定具体实施中,z轴正交于检测器所观察的对象的区域。例如,光学系统的焦点方向可沿z轴指定。
在一些具体实施中,使用仿射变换来变换所采集的信号数据。在一些此类具体实施中,模板生成利用颜色通道之间的仿射变换在运行之间是一致的这一事实。由于这种一致性,当确定标本中分析物的坐标时,可使用一组默认偏移量。例如,默认偏移文件可包含不同通道相对于一个通道(诸如A通道)的相对变换(移动、缩放、偏斜)。然而,在其他具体实施中,颜色通道之间的偏移在运行期间和/或运行之间漂移,使得偏移驱动的模板生成变得困难。在此类具体实施中,本文所提供的方法和系统可利用无偏移模板生成,这将在下文进一步描述。
在上述具体实施中的一些具体实施中,该系统可包括流通池。在一些具体实施中,流通池包括区块的槽道或其他配置,其中至少一些区块包括一个或多个分析物阵列。在一些具体实施中,分析物包含多个分子诸如核酸。在某些方面,流通池被配置为将标记的核苷酸碱基递送至核酸阵列,从而延伸与分析物内的核酸杂交的引物,以便产生对应于包含核酸的分析物的信号。在优选的具体实施中,分析物内的核酸彼此相同或基本上相同。
在本文所述的一些图像分析系统中,图像集中的每个图像包括颜色信号,其中不同的颜色对应于不同的核苷酸碱基。在一些具体实施中,该图像集中的每个图像包括具有选自至少四种不同颜色的单一颜色的信号。在一些具体实施中,该图像集中的每个图像包括具有选自四种不同颜色的单一颜色的信号。在本文所述的一些系统中,可通过向分子阵列提供四种不同的标记核苷酸碱基来对核酸进行测序,从而产生四种不同的图像,每种图像包含具有单一颜色的信号,其中信号颜色对于四种不同图像中的每一种都是不同的,从而产生对应于核酸中特定位置存在的四种可能核苷酸的四种颜色图像的循环。在某些方面,该系统包括流通池,该流通池被配置为将另外的标记核苷酸碱基递送到分子阵列,从而产生彩色图像的多个循环。
在优选的具体实施中,本文提供的方法可包括确定处理器是否正在主动采集数据或处理器是否处于低活动状态。采集和存储大量高质量图像通常需要大量存储容量。另外,一旦采集和存储,对图像数据的分析可能变为资源密集型,并且可能干扰其他功能的处理能力,诸如正在进行的额外图像数据的采集和存储。因此,如本文所用,术语低活动状态是指处理器在给定时间的处理能力。在一些具体实施中,当处理器未采集和/或存储数据时,低活动状态发生。在一些具体实施中,当进行一些数据采集和/或存储时,低活动状态发生,但是额外的处理能力保持不变,使得图像分析可在不干扰其他功能的情况下同时发生。
如本文所用,“识别冲突”是指识别多个进程竞争资源的情况。在一些此类具体实施中,一个进程被赋予比另一个进程更高的优先级。在一些具体实施中,冲突可能涉及为时间分配、处理能力、存储容量或被赋予优先级的任何其他资源赋予优先级的需要。因此,在一些具体实施中,当处理时间或能力要分布在两个进程(诸如分析数据集和采集和/或存储数据集)之间时,两个进程之间存在冲突,并且可通过赋予其中一个进程优先级来解决冲突。
本文还提供了用于执行图像分析的系统。该系统可包括处理器;存储容量;以及用于图像分析的程序,该程序包括用于处理用于存储的第一数据集和用于分析的第二数据集的指令,其中该处理包括在存储设备上采集和/或存储第一数据集,并且当处理器未采集第一数据集时分析第二数据集。在某些方面,该程序包括用于以下操作的指令:识别采集和/或存储第一数据集与分析第二数据集之间的冲突的至少一个实例;以及解决冲突以有利于采集和/或存储图像数据,使得采集和/或存储第一数据集被赋予优先级。在某些方面,第一数据集包括从光学成像设备获得的图像文件。在某些方面,系统还包括光学成像设备。在一些具体实施中,光学成像设备包括光源和检测设备。
如本文所用,术语“程序”是指执行任务或进程的指令或命令。术语“程序”可与术语模块互换使用。在某些具体实施中,程序可以是在同一命令集下执行的各种指令的编译。在其他具体实施中,程序可指离散的批或文件。
下文阐述了利用本文所述的用于执行图像分析的方法和系统的一些令人惊讶的效果。在一些测序具体实施中,测序系统效用的重要量度是其总体效率。例如,每天产生的可映射数据量以及安装和运行仪器的总成本是经济测序解决方案的重要方面。为了减少生成可映射数据的时间并提高系统的效率,可在仪器计算机上启用实时碱基检出,并且可与测序化学过程和成像同步运行。这允许许多数据处理和分析在测序化学过程结束之前完成。另外,它可减少中间数据所需的存储,并限制需要通过网络传输的数据量。
虽然序列输出增加了,但从本文提供的系统传输到网络和辅助分析处理硬件的每次运行的数据已显著减少。通过在仪器计算机(采集计算机)上转换数据,显著降低了网络负载。如果没有这些机载的、离线的数据简化技术,一组DNA测序仪器的图像输出将使大多数网络瘫痪。
高通量DNA测序仪器的广泛采用部分是由于易于使用、对各种应用的支持以及对几乎任何实验室环境的适用性。本文介绍的高效算法允许将重要的分析功能添加到可控制测序仪器的简单工作站中。对计算硬件要求的这种降低具有若干实际益处,这些益处将随着对测序输出水平的不断提高而变得甚至更重要。例如,通过在简单塔上执行图像分析和碱基检出,将热量产生、实验室占地面积和功耗保持在最低水平。相比之下,其他商业测序技术最近已将其计算基础结构扩展到用于主要分析,处理能力高达五倍以上,从而导致热量输出和功耗的相应增加。因此,在一些具体实施中,本文提供的方法和系统的计算效率使得客户能够增加其测序通量,同时将服务器硬件费用保持在最小。
因此,在一些具体实施中,本文提出的方法和/或系统充当状态机,跟踪每个标本的单独状态,并且当其检测到标本准备前进到下一状态时,其进行适当的处理并使标本前进到该状态。根据优选的具体实施,状态机如何监控文件系统以确定标本何时准备好前进到下一状态的更详细示例在下面的实施例1中示出。
在优选的具体实施中,本文提供的方法和系统是多线程的,并且可与可配置数量的线程一起工作。因此,例如在核酸测序的情况下,本文提供的方法和系统能够在实时分析的实时测序运行期间在后台工作,或者其可使用预先存在的图像数据集运行以用于离线分析。在某些优选的具体实施中,方法和系统通过为每个线程赋予其自身所负责的标本的子集来处理多线程。这将线程争用的可能性降至最低。
本公开的方法可包括使用检测装置获得对象的目标图像的步骤,其中图像包括对象上分析物的重复图案。能够对表面进行高分辨率成像的检测装置尤其有用。在特定具体实施中,检测装置将具有足够的分辨率,从而以本文所述的密度、间距和/或分析物尺寸来区分分析物。能够从表面获得图像或图像数据的检测装置特别有用。示例性检测器是被配置为在获得区域图像时使对象和检测器保持静态关系的那些检测器。也可使用扫描装置。例如,可使用获得顺序区域图像的装置(例如,所谓的“步进拍摄”检测器)。在对象的表面上连续扫描点或线以积累数据来构建表面图像的设备也是有用的。点扫描检测器可被配置为经由表面的x-y平面中的光栅运动来扫对象表面上的点(即,小的检测区域)。线扫描检测器可被配置为沿着对象表面的y维度扫描线,该线的最长维度沿着x维度出现。应当理解,可移动检测设备、对象或两者以实现扫描检测。特别适用于例如核酸测序应用的检测装置在以下专利中有所描述:美国专利申请公布2012/0270305A12013/0023422A1和2013/0260372A1;和美国专利5,528,050、5,719,391、8,158,926和8,241,573中,这些专利中的每一篇均以引用方式并入本文。
本文所公开的具体实施可被实现为使用编程或工程技术来产生软件、固件、硬件或它们的任何组合的方法、装置、系统或制品。如本文所用,术语“制品”是指在硬件或计算机可读介质诸如光学存储设备和易失性或非易失性存储器设备中实现的代码或逻辑。此类硬件可包括但不限于现场可编程门阵列(FPGA)、粗粒度可重构架构(CGRA)、专用集成电路(ASIC)、复杂可编程逻辑器件(CPLD)、可编程逻辑阵列(PLA)、微处理器或其他类似的处理设备。在特定具体实施中,本文阐述的信息或算法存在于非暂态存储介质中。
在特定具体实施中,本文阐述的计算机实现的方法可在获得对象的多个图像时实时发生。此类实时分析尤其可用于核酸测序应用,其中核酸阵列经受流体和检测步骤的重复循环。测序数据的分析通常可能是计算密集型的,使得在进行其他数据采集或分析算法时实时或在后台执行本文所述的方法可能是有益的。可与本发明方法一起使用的示例性实时分析方法是用于可从Illumina公司(San Diego,Calif.)商购获得和/或描述于美国专利申请公布2012/0020537 A1中的MiSeq和HiSeq测序设备的那些方法,该专利申请公布以引用方式并入本文。
由一个或多个编程的计算机形成的示例性数据分析系统,其中编程存储在一个或多个机器可读介质上,其中执行代码以进行本文所述方法的一个或多个步骤。在一个具体实施中,例如,该系统包括被设计成允许系统联网到被配置为从目标对象采集数据的一个或多个检测系统(例如,光学成像系统)的接口。接口可在适当的地方接收和调节数据。在特定具体实施中,检测系统将输出数字图像数据,例如,代表单独的图片元素或像素的图像数据,它们共同形成阵列或其他对象的图像。处理器根据由处理代码定义的一个或多个例程来处理接收到的检测数据。处理代码可存储在各种类型的存储器电路中。
根据当前设想的具体实施,对检测数据执行的处理代码包括数据分析例程,该例程被设计成分析检测数据以确定在数据中可见或编码的单独分析物的位置和元数据,以及没有检测到分析物的位置(即,没有分析物的位置,或没有从现有分析物检测到有意义信号的位置)。在特定具体实施中,由于存在附着到成像分析物的荧光染料,阵列中的分析物位置通常将看起来比非分析物位置更亮。应当理解,例如,当探针在分析物处的靶标不存在于被检测的阵列中时,分析物不需要看起来比其周围区域更亮。单独分析物出现的颜色可取决于所采用的染料以及成像系统用于成像目的所用的光的波长。靶标不与之结合或以其他方式缺乏特定标记的分析物可根据其他特征(诸如它们在微阵列中的预期位置)进行鉴定。
一旦数据分析例程已在数据中定位单独分析物,就可进行值分配。一般来讲,值分配将基于由对应位置处的检测器组件(例如,像素)表示的数据的特征,将数字值分配给每个分析物。也就是说,例如当处理成像数据时,值分配例程可被设计成识别在特定位置处检测到特定颜色或波长的光,如由该位置处的像素组或簇所指示的。例如,在典型的DNA成像应用中,四种常见核苷酸将由四种独立且可区分的颜色表示。然后,可为每种颜色分配对应于该核苷酸的值。
如本文所用,术语“模块”、“系统”或“系统控制器”可包括操作以执行一个或多个功能的硬件和/或软件系统和电路。例如,模块、系统或系统控制器可包括基于存储在有形和非暂态计算机可读存储介质诸如计算机存储器上的指令来执行操作的计算机处理器、控制器或其他基于逻辑的设备。另选地,模块、系统或系统控制器可包括基于硬接线逻辑和电路来执行操作的硬接线设备。附图中所示的模块、系统或系统控制器可表示基于软件或硬接线指令来操作的硬件和电路、指导硬件执行操作的软件或它们的组合。模块、系统或系统控制器可包括或表示硬件电路或电路,该硬件电路或电路包括一个或多个处理器并且/或者与该一个或多个处理器连接,诸如一个或多个计算机微处理器。
如本文所用,术语“软件”和“固件”是可互换的,并且包括存储在存储器中以供计算机执行的任何计算机程序,包括RAM存储器、ROM存储器、EPROM存储器、EEPROM存储器和非易失性RAM(NVRAM)存储器。上述存储器类型仅为示例,因此不限制可用于存储计算机程序的存储器类型。
在分子生物学领域中,所使用的核酸测序方法中的一种方法是边合成边测序。该技术可应用于大规模并行测序项目。例如,通过使用自动化平台,可以同时进行成千上万的测序反应。因此,本发明的具体实施中的一个具体实施涉及用于采集、存储和分析在核酸测序期间生成的图像数据的仪器和方法。
可采集和存储的数据量的巨大增益使得简化的图像分析方法甚至更加有益。例如,本文所述的图像分析方法允许设计者和最终用户有效地利用现有计算机硬件。因此,面对快速增加的数据输出,本文呈现了减少处理数据的计算负担的方法和系统。例如,在DNA测序领域中,在最近一年中产出已按比例缩放了15倍,并且现在可在DNA测序设备的单次运行中达到数百个十亿碱基。如果计算基础设施要求成比例增长,则大多数研究者将仍然无法实现大型基因组级实验。因此,生成更原始的序列数据将增加对二次分析和数据存储的需要,使得对数据传输和存储的优化极其有价值。本文呈现的方法和系统的一些具体实施可减少产生可用序列数据所需的时间、硬件、网络和实验室基础设施要求。
本公开描述了用于执行这些方法的各种方法和系统。方法中一些的示例被描述为一系列步骤。然而,应当理解,具体实施不限于本文所述的特定步骤和/或步骤顺序。可省略步骤,可修改步骤,并且/或者可添加其他步骤。此外,可组合本文所述的步骤,可同时执行步骤,可并行执行步骤,可将步骤分成多个子步骤,可以不同顺序执行步骤,或者可以迭代方式重新执行步骤(或一系列步骤)。此外,尽管本文阐述了不同方法,但应当理解,在其他具体实施中可组合这些不同方法(或这些不同方法的步骤)。
在一些具体实施中,“被配置为”执行任务或操作的处理单元、处理器、模块或计算系统可被理解为被特别地构造成执行任务或操作(例如,使存储在其上或与其结合使用的一个或多个程序或指令被定制成或旨在执行任务或操作,并且/或者使处理电路的布置被定制成或旨在执行任务或操作)。出于清楚和免生疑问的目的,除非或直到被特别编程或在结构上经修改以执行任务或操作,通用计算机(如果适当编程,则其可被“配置为”执行任务或操作)不被“配置为”执行任务或操作。
此外,本文所述的方法的操作可足够复杂,使得在商业上合理的时间段内这些操作无法由普通技术人员或本领域的普通技术人员实际执行。例如,这些方法可依赖于相对复杂的计算,使得人员无法在商业上合理的时间内完成这些方法。
在整个本申请中,已引用了各种公布、专利或专利申请。这些公布的公开内容据此全文以引用方式并入本申请中,以便更全面地描述与本发明有关的现有技术。
术语“包含”在本文中旨在为开放式的,不仅包括所列举的要素,而且还涵盖任何附加要素。
如本文所用,当参考项目的集合使用时,术语“每个”旨在识别集合中的单个项目,但不一定是指集合中的每个项目。如果明确公开或上下文另有明确规定,则可能会出现例外情况。
尽管已参考上文提供的示例描述了本发明,但应当理解,在不脱离本发明的前提下,可进行各种修改。
本申请中的模块可在硬件或软件中实现,并且不需要按如图所示那样精确地划分成相同的框。这些模块中的一些还可在不同的处理器或计算机上实现,或者在多个不同的处理器或计算机之间扩展。此外,应当理解,在不影响所实现的功能的情况下,可组合、同步操作或以与图中所示不同的序列操作模块中的一些。同样如本文所用,术语“模块”可包括“子模块”,“子模块”本身在本文中可被认为构成模块。图中被分配为模块的框也可被认为是方法中的流程图步骤。
如本文所用,信息项的“识别”不一定需要直接指定该信息项。通过简单地利用一个或多个间接层参考实际信息,或者通过识别一起足以确定实际信息项的一个或多个不同信息项,可以在字段中“识别”信息。此外,术语“指定”在本文中用来指与“识别”相同的含义。
如本文所用,给定信号、事件或值“依赖于”先导信号、该先导信号的事件或值、受给定信号、事件或值影响的事件或值。如果存在居间处理元件、步骤或时间段,则给定信号、事件或值仍然可以“依赖于”先导信号、事件或值。如果居间处理元件或步骤组合多于一个信号、事件或值,则处理元件或步骤的信号输出被认为“依赖于”信号、事件或值输入中的每一者。如果给定信号、事件或值与先导信号、事件或值相同,则这仅仅是其中给定信号、事件或值仍然被认为“依赖于”或“取决于”或“基于”先导信号、事件或值的简并情况。给定信号、事件或值对另一信号、事件或值的“响应性”以类似方式定义。
如本文所用,“并行”或“同步”不需要精确的同时性。如果这些个体中的一个的评估在这些个体中的另一个的评估完成之前开始,则就足够了。
本申请可互换地指“簇图像”和“簇强度图像”。
特定具体实施
我们描述了使用知识蒸馏技术的基于人工智能的碱基检出的各种具体实施。具体实施的一个或多个特征可与基本具体实施组合。不互相排斥的具体实施被教导为可组合的。具体实施的一个或多个特征可与其他具体实施组合。本公开周期性地提醒用户这些选项。从一些具体实施中省略重复这些选项的表述不应被视为限制前述部分中教导的组合,这些表述将据此以引用方式并入以下具体实施中的每个具体实施中。
我们公开了碱基检出的基于人工智能的方法。该方法包括通过使用第一簇图像集作为训练数据来训练教师(第一、较大)碱基检出器。第一簇图像集用第一基准真值数据注释,该第一基准真值数据使用离散值标签来识别正确的碱基检出。在一个具体实施中,离散值标签是用正确碱基的一值和不正确碱基的零值来独热编码的。在一个具体实施中,离散值标签对于正确碱基具有近一值并且对于不正确碱基具有近零值。
该方法包括通过在第二簇图像集上应用经训练的教师(第一、较大)碱基检出器并生成碱基检出预测来评估第二簇图像集作为推断数据。碱基检出预测由识别预测碱基检出的连续值权重表示。在一个具体实施中,连续值权重是正确碱基为腺嘌呤(A)、胞嘧啶(C)、胸腺嘧啶(T)和鸟嘌呤(G)的概率分布的一部分。
该方法包括使用第二簇图像集作为训练数据来训练学生(第二、较小)碱基检出器。第二簇图像集用第二基准真值数据注释,该第二基准真值数据基于(i)离散值标签和(ii)连续值权重来识别正确的碱基检出。
学生(第二、较小)碱基检出器比教师(第一、较大)碱基检出器具有更少的处理模块和参数。在一个具体实施中,处理模块中的一个处理模块是神经网络层。在一个具体实施中,参数中的一个参数是神经网络层之间的互连。在一个具体实施中,处理模块中的一个处理模块是神经网络过滤器。在一个具体实施中,处理模块中的一个处理模块是神经网络内核。在一个具体实施中,参数中的一个参数是乘法和加法运算。
该方法包括通过在第三簇图像集上应用经训练的学生(第二、较小)碱基检出器并生成碱基检出预测来评估第三簇图像集作为推断数据。
在所公开的技术的本部分和其他部分中描述的方法可包括以下特征中的一者或多者和/或结合所公开的附加方法所述的特征。为了简洁起见,本申请中公开的特征的组合不是单独列举的,并且不与每个基本特征组一起重复。读者将理解在这些具体实施中识别的特征可如何容易地与在其他具体实施中识别的基本特征组组合。
在一个具体实施中,该方法包括使用第二簇图像集作为训练数据来训练学生(第二、较小)碱基检出器。第二簇图像集用第二基准真值数据注释,该第二基准真值数据基于连续值权重来识别正确的碱基检出。
在一个具体实施中,簇图像描绘簇的强度发射。在测序运行的测序循环期间捕获强度发射。在一个具体实施中,簇图像进一步描绘了簇周围的背景的强度发射。
在一个具体实施中,第一簇图像集、第二簇图像集和第三簇图像集共享一个或多个共同的簇图像。
在一个具体实施中,该方法包括通过使用第一簇图像集作为训练数据来训练教师(第一、较大)碱基检出器的集合。第一簇图像集用第一基准真值数据注释,该第一基准真值数据使用离散值标签来识别正确的碱基检出。集合包括教师(第一、较大)碱基检出器的两个或更多个实例。
该方法包括通过在第二簇图像集上应用经训练的教师(第一、较大)碱基检出器并生成碱基检出预测来评估第二簇图像集作为推断数据。碱基检出预测由识别预测碱基检出的连续值权重表示。
该方法包括使用第二簇图像集作为训练数据来训练学生(第二、较小)碱基检出器。第二簇图像集用第二基准真值数据注释,该第二基准真值数据基于(i)离散值标签和(ii)连续值权重来识别正确的碱基检出。学生(第二、较小)碱基检出器比教师(第一、较大)碱基检出器的集合具有更少的处理模块和参数。
该方法包括通过在第三簇图像集上应用经训练的学生(第二、较小)碱基检出器并生成碱基检出预测来评估第三簇图像集作为推断数据。
在一个具体实施中,该方法包括在测序仪器的一个或多个并行处理器上实现经训练的学生(第二、较小)碱基检出器以用于实时碱基检出。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
在另一个具体实施中,我们公开了一种用于基于人工智能的碱基检出的系统。该系统包括在簇图像上训练的碱基检出器(学生、第二、较小碱基检出器/引擎),该簇图像用基准真值数据来注释,该基准真值数据基于(i)用于训练另一碱基检出器的基准真值数据的离散值标签以及(ii)在推断期间由另一碱基检出器(教师、第一、较大碱基检出器/引擎)为簇图像生成的碱基检出预测的连续值权重来识别正确的碱基检出。
碱基检出器(学生、第二、较小碱基检出器/引擎)比另一碱基检出器具有更少的处理模块和参数(教师、第一、较大碱基检出器/引擎)。在一个具体实施中,处理模块中的一个处理模块是神经网络层。在一个具体实施中,参数中的一个参数是神经网络层之间的互连。在一个具体实施中,处理模块中的一个处理模块是神经网络过滤器。在一个具体实施中,处理模块中的一个处理模块是神经网络内核。在一个具体实施中,参数中的一个参数是乘法和加法运算。
碱基检出器(学生、第二、较小碱基检出器/引擎)被配置为评估附加簇图像并且为附加簇图像生成碱基检出预测。
离散值标签是用正确碱基的一值和不正确碱基的零值来独热编码的。连续值权重是正确碱基为腺嘌呤(A)、胞嘧啶(C)、胸腺嘧啶(T)和鸟嘌呤(G)的概率分布的一部分。
在又一个具体实施中,我们公开了一种用于基于人工智能的碱基检出的系统。该系统包括在簇图像上训练的教师(第一、较大)碱基检出器,该簇图像用基准真值数据来注释,该基准真值数据基于由学生(第二、较小)碱基检出器生成的碱基检出预测来识别正确的碱基检出。
在又一个具体实施中,我们公开了碱基检出的基于人工智能的方法。该方法包括通过使用第一簇图像集作为训练数据来训练教师(第一、较大)碱基检出器。第一簇图像集用第一基准真值数据注释,该第一基准真值数据使用离散值标签来识别正确的碱基检出。在一个具体实施中,离散值标签是用正确碱基的一值和不正确碱基的零值来独热编码的。在一个具体实施中,离散值标签对于正确碱基具有近一值并且对于不正确碱基具有近零值。
该方法包括通过在第二簇图像集上应用经训练的教师(第一、较大)碱基检出器并生成碱基检出预测来评估第二簇图像集作为推断数据。碱基检出预测由识别预测碱基检出的连续值权重表示。在一个具体实施中,连续值权重是正确碱基为腺嘌呤(A)、胞嘧啶(C)、胸腺嘧啶(T)和鸟嘌呤(G)的概率分布的一部分。
该方法包括使用第二簇图像集作为训练数据来训练学生(第二、较小)碱基检出器。第二簇图像集用第二基准真值数据注释,该第二基准真值数据基于(i)离散值标签和(ii)连续值权重来识别正确的碱基检出。
在一些具体实施中,教师碱基检出器(第一、较大引擎/模型)是基于神经网络的碱基检出器。在一个具体实施中,教师碱基检出器(第一、较大引擎/模型)是具有多个卷积层的卷积神经网络(CNN)。在另一个具体实施中,该基于神经网络的碱基检出器是递归神经网络(RNN),诸如长短期记忆网络(LSTM)、双向LSTM(Bi-LSTM)或门控递归单元(GRU)。在又一个具体实施中,该教师碱基检出器包括CNN和RNN两者。
在其他具体实施中,教师碱基检出器(第一、较大引擎/模型)可使用1D卷积、2D卷积、3D卷积、4D卷积、5D卷积、扩张或空洞卷积、转置卷积、深度可分离卷积、逐点卷积、1×1卷积、分组卷积、扁平卷积、空间和跨通道卷积、混洗分组卷积、空间可分离卷积和去卷积。其可使用一种或多种损失函数,诸如逻辑回归/对数损失函数、多类交叉熵/softmax损失函数、二元交叉熵损失函数、均方误差损失函数、L1损失函数、L2损失函数、平滑L1损失函数和Huber损失函数。其可以使用任何并行性、效率性和压缩方案,诸如TFRecords、压缩编码(例如,PNG)、锐化、映射图转换的并行检出、批处理、预取、模型并行性、数据并行性和同步/异步随机梯度下降(SGD)。其可包括上采样层、下采样层、递归连接、栅极和栅极存储器单元(如LSTM或GRU)、残差块、残差连接、高速连接、跳跃连接、窥视孔连接、激活函数(例如,非线性变换函数如修正线性单元(ReLU)、泄露ReLU、指数衬里单元(ELU)、sigmoid和双曲线正切(tanh))、批量归一化层、正则化层、丢弃层、池化层(例如,最大或平均池化)、全局平均池化层和注意力机制。
在一些具体实施中,学生碱基检出器(第二、较小引擎/模型)是基于神经网络的碱基检出器。在一个具体实施中,学生碱基检出器(第二、较小引擎/模型)是具有多个卷积层的卷积神经网络(CNN)。在另一个具体实施中,该基于神经网络的碱基检出器是递归神经网络(RNN),诸如长短期记忆网络(LSTM)、双向LSTM(Bi-LSTM)或门控递归单元(GRU)。在又一个具体实施中,该基于神经网络的碱基检出器包括CNN和RNN两者。
在其他具体实施中,学生碱基检出器(第二、较小引擎/模型)可使用1D卷积、2D卷积、3D卷积、4D卷积、5D卷积、扩张或空洞卷积、转置卷积、深度可分离卷积、逐点卷积、1×1卷积、分组卷积、扁平卷积、空间和跨通道卷积、混洗分组卷积、空间可分离卷积和去卷积。其可使用一种或多种损失函数,诸如逻辑回归/对数损失函数、多类交叉熵/softmax损失函数、二元交叉熵损失函数、均方误差损失函数、L1损失函数、L2损失函数、平滑L1损失函数和Huber损失函数。其可以使用任何并行性、效率性和压缩方案,诸如TFRecords、压缩编码(例如,PNG)、锐化、映射图转换的并行检出、批处理、预取、模型并行性、数据并行性和同步/异步随机梯度下降(SGD)。其可包括上采样层、下采样层、递归连接、栅极和栅极存储器单元(如LSTM或GRU)、残差块、残差连接、高速连接、跳跃连接、窥视孔连接、激活函数(例如,非线性变换函数如修正线性单元(ReLU)、泄露ReLU、指数衬里单元(ELU)、sigmoid和双曲线正切(tanh))、批量归一化层、正则化层、丢弃层、池化层(例如,最大或平均池化)、全局平均池化层和注意力机制。
条款
本发明公开了以下条款:
36.一种执行计算高效的碱基检出的基于人工智能的方法,该方法包括:
在簇强度图像上训练第一碱基检出器并产生将簇强度图像映射到碱基检出预测的第一经训练碱基检出器;
以第一经训练碱基检出器开始,执行循环,其中每次迭代使用起始的经训练碱基检出器作为输入并且产生修剪的经训练碱基检出器作为输出,其中修剪的经训练碱基检出器比起始的经训练碱基检出器具有更少的处理元件;
其中每次迭代包括(i)碱基检出预测步骤、(ii)贡献测量步骤、(iii)修剪步骤和(iv)重新训练步骤;
其中碱基检出预测步骤在前向传播期间通过起始的经训练碱基检出器的处理元件处理簇强度图像的子集并产生碱基检出预测;
其中贡献测量步骤为处理元件中的每个处理元件生成贡献分数,该贡献分数识别处理元件对碱基检出预测的贡献程度;
其中修剪步骤基于处理元件的贡献分数来选择处理元件的子集并且通过从起始的经训练碱基检出器移除处理元件的所选择的子集来产生修剪的经训练碱基检出器;
其中重新训练步骤进一步在簇强度图像上训练修剪的经训练碱基检出器,并且使修剪的经训练碱基检出器作为起始的经训练碱基检出器可用于连续迭代;以及
在n次迭代之后终止循环,并使用由第n次迭代产生的修剪的经训练碱基检出器进行进一步碱基检出。
37.根据条款36所述的基于人工智能的方法,其中处理元件的贡献分数通过以下方式生成:
将绝对函数应用于处理元件的权重并生成绝对权重值;以及对绝对权重值求和并为处理元件产生贡献分数。
38.根据条款36所述的基于人工智能的方法,其实现最终从属于条款1和27的条款中的每一者。
39.一种执行计算高效的碱基检出的基于人工智能的方法,该方法包括:
在簇强度图像上训练第一碱基检出器并产生将簇强度图像映射到碱基检出预测的第一经训练碱基检出器;
以第一经训练碱基检出器开始,执行循环,其中每次迭代使用起始的经训练碱基检出器作为输入并且产生修剪的经训练碱基检出器作为输出,其中修剪的经训练碱基检出器比起始的经训练碱基检出器具有更少的处理元件;
其中每次迭代包括(i)簇特征映射图生成步骤、(ii)梯度确定步骤、(iii)中间特征值生成步骤、(iv)特征和生成步骤、(v)子集输出生成步骤、(vi)子集选择步骤、(vii)修剪步骤、(viii)簇特征映射图识别步骤以及(ix)重新训练步骤;
其中簇特征映射图生成步骤在前向传播期间通过起始的经训练碱基检出器的处理元件处理簇强度图像的子集,使用每个处理元件生成一个或多个簇特征映射图,并且基于簇特征映射图产生碱基检出预测;
其中梯度确定步骤在后向传播期间基于碱基检出预测与基准真值碱基检出之间的误差确定簇特征映射图的梯度;
其中中间特征值生成步骤将簇特征映射图中的特征值与梯度中的相应梯度相乘,并且为簇特征映射图中的每一者产生中间特征值集;
其中特征和生成步骤将中间特征值集中的中间特征值求和,并且为簇特征映射图中的每一者产生特征和,从而为起始的经训练碱基检出器产生特征和集;
其中子集输出生成步骤处理特征和集中的特征和的子集,并且为子集中的每个子集生成子集输出;
其中子集选择步骤基于针对特征和集中的特征和中的一个或多个特征和评估其相应子集输出来选择特征和的子集中的一个或多个子集;
其中簇特征映射图识别步骤识别其特征和是特征和的所选择的子集的一部分的那些簇特征映射图;
其中修剪步骤通过从起始的经训练碱基检出器中移除那些处理元件来产生修剪的经训练碱基检出器,那些处理元件用于在前向传播期间生成所识别的簇特征映射图;
其中重新训练步骤进一步在簇强度图像上训练修剪的经训练碱基检出器,并且使修剪的经训练碱基检出器作为起始的经训练碱基检出器可用于连续迭代;以及
在n次迭代之后终止循环,并使用由第n次迭代产生的修剪的经训练碱基检出器进行进一步碱基检出。
40.根据条款39所述的基于人工智能的方法,其中特征和的子集的子集输出基于子集中的特征和的相加和。
41.根据条款40所述的基于人工智能的方法,其中特征和的子集的子集输出基于子集中的特征和的平均值。
42.根据条款41所述的基于人工智能的方法,其中特征和的子集的子集输出基于子集中的特征和的指数和。
43.根据条款42所述的基于人工智能的方法,其中特征和的子集的子集输出基于子集中的特征和的乘法交互。
44.根据条款43所述的基于人工智能的方法,其中子集选择步骤基于以下方式来选择特征和的子集:针对特征和集中的特征和中的最低者评估其相应子集输出,以及选择其子集输出低于特征和集中的特征和中的最低者的那些特征和子集。
45.根据条款44所述的基于人工智能的方法,其中子集选择步骤基于以下方式来选择特征和的子集:针对特征和集中的特征和中的多个最低者评估其相应子集输出,以及选择其子集输出低于特征和中的多个最低者中的特征和中的最低者的那些特征和子集。
46.根据条款45所述的基于人工智能的方法,其中子集选择步骤选择其子集输出为零的那些特征和子集。
47.根据条款46所述的基于人工智能的方法,其中子集选择步骤选择其子集输出最接近零的那些特征和子集。
48.一种执行计算高效的碱基检出的基于人工智能的方法,该方法包括:
在簇强度图像上训练第一碱基检出器并产生将簇强度图像映射到碱基检出预测的第一经训练碱基检出器;
以第一经训练碱基检出器开始,执行循环,其中迭代使用起始的经训练碱基检出器作为输入并且产生修剪的经训练碱基检出器作为输出,其中修剪的经训练碱基检出器比起始的经训练碱基检出器具有更少的处理元件;
其中迭代包括(i)碱基检出预测步骤、(ii)贡献测量步骤和(iii)修剪步骤;
其中碱基检出预测步骤在前向传播期间通过起始的经训练碱基检出器的处理元件处理簇强度图像中的一个或多个簇强度图像并产生碱基检出预测;
其中贡献测量步骤为处理元件中的每个处理元件确定贡献分数,该贡献分数识别处理元件对碱基检出预测的贡献程度;并且
其中修剪步骤基于处理元件的贡献分数来选择处理元件的子集并且通过从起始的经训练碱基检出器移除处理元件的所选择的子集来产生修剪的经训练碱基检出器。
49.根据权利要求48所述的基于人工智能的方法,其中基于处理元件的对应特征映射图确定处理元件中的每个处理元件的贡献分数。
50.根据权利要求48所述的基于人工智能的方法,其中循环包括一次或多次迭代。
51.根据权利要求48所述的基于人工智能的方法,其中处理元件是过滤器。
52.根据权利要求51所述的基于人工智能的方法,其中处理元件是卷积过滤器。
53.根据权利要求48所述的基于人工智能的方法,其中处理元件是内核。
54.根据权利要求53所述的基于人工智能的方法,其中处理元件是卷积内核。
55.根据权利要求48所述的基于人工智能的方法,其中处理元件是层。
56.根据权利要求55所述的基于人工智能的方法,其中处理元件是卷积层。
上文描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一个具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。

Claims (20)

1.一种碱基检出的基于人工智能的方法,所述方法包括:
通过使用第一簇图像集作为训练数据来训练第一碱基检出器,
其中所述第一簇图像集用第一基准真值数据注释,所述第一基准真值数据使用离散值标签来识别正确的碱基检出;
通过在第二簇图像集上应用经训练的第一碱基检出器并生成碱基检出预测来评估所述第二簇图像集作为推断数据,
其中所述碱基检出预测由识别预测碱基检出的连续值权重表示;
使用所述第二簇图像集作为训练数据来训练第二碱基检出器,
其中所述第二簇图像集用第二基准真值数据注释,所述第二基准真值数据基于以下各项来识别正确的碱基检出:
(i)所述离散值标签,以及
(ii)所述连续值权重;
其中所述第二碱基检出器比所述第一碱基检出器具有更少的处理模块和参数;以及
通过在第三簇图像集上应用经训练的第二碱基检出器并生成碱基检出预测来评估所述第三簇图像集作为推断数据。
2.根据权利要求1所述的基于人工智能的方法,其中所述离散值标签是用正确碱基的一值和不正确碱基的零值来独热编码的。
3.根据权利要求2所述的基于人工智能的方法,其中所述离散值标签对于所述正确碱基具有近一值并且对于所述不正确碱基具有近零值。
4.根据权利要求1所述的基于人工智能的方法,其中所述连续值权重是正确碱基为腺嘌呤(A)、胞嘧啶(C)、胸腺嘧啶(T)和鸟嘌呤(G)的概率分布的一部分。
5.根据权利要求1所述的基于人工智能的方法,其中所述处理模块中的一个处理模块是神经网络层。
6.根据权利要求5所述的基于人工智能的方法,其中所述参数中的一个参数是所述神经网络层之间的互连。
7.根据权利要求1所述的基于人工智能的方法,其中所述处理模块中的一个处理模块是神经网络过滤器。
8.根据权利要求1所述的基于人工智能的方法,其中所述处理模块中的一个处理模块是神经网络内核。
9.根据权利要求1所述的基于人工智能的方法,其中所述参数中的一个参数是乘法和加法运算。
10.根据权利要求1所述的基于人工智能的方法,所述方法还包括:
使用所述第二簇图像集作为训练数据来训练所述第二碱基检出器,
其中所述第二簇图像集用所述第二基准真值数据注释,所述第二基准真值数据基于以下各项来识别所述正确的碱基检出:
(i)所述连续值权重。
11.根据权利要求1所述的基于人工智能的方法,其中簇图像描绘簇的强度发射,并且
其中在测序运行的测序循环期间捕获所述强度发射。
12.根据权利要求11所述的基于人工智能的方法,其中所述簇图像进一步描绘所述簇周围的背景的强度发射。
13.根据权利要求1所述的基于人工智能的方法,其中所述第一簇图像集、所述第二簇图像集和所述第三簇图像集共享一个或多个共同的簇图像。
14.根据权利要求1所述的基于人工智能的方法,所述方法还包括:
通过使用所述第一簇图像集作为训练数据来训练所述第一碱基检出器的集合,
其中所述第一簇图像集用所述第一基准真值数据注释,所述第一基准真值数据使用所述离散值标签来识别所述正确的碱基检出,并且
其中所述集合包括所述第一碱基检出器的两个或更多个实例;
通过在所述第二簇图像集上应用所述经训练的第一碱基检出器并生成所述碱基检出预测来评估所述第二簇图像集作为推断数据,
其中所述碱基检出预测由识别所述预测碱基检出的所述连续值权重表示;
使用所述第二簇图像集作为训练数据来训练所述第二碱基检出器,
其中所述第二簇图像集用所述第二基准真值数据注释,所述第二基准真值数据基于以下各项来识别所述正确的碱基检出:
(i)所述离散值标签,以及
(ii)所述连续值权重;
其中所述第二碱基检出器比所述第一碱基检出器的所述集合具有更少的处理模块和参数;以及
通过在所述第三簇图像集上应用所述经训练的第二碱基检出器并生成所述碱基检出预测来评估所述第三簇图像集作为推断数据。
15.根据权利要求1所述的基于人工智能的方法,所述方法还包括:
在测序仪器的一个或多个并行处理器上实现所述经训练的第二碱基检出器以用于实时碱基检出。
16.一种用于基于人工智能的碱基检出的系统,所述系统包括:
在簇图像上训练的碱基检出器,所述簇图像用基准真值数据注释,所述基准真值数据基于以下各项来识别正确的碱基检出:
(i)用于训练另一碱基检出器的基准真值数据的离散值标签,以及
(ii)在推断期间由所述另一碱基检出器为所述簇图像生成的碱基检出预测的连续值权重;
其中所述碱基检出器比所述另一碱基检出器具有更少的处理模块和参数;并且
其中所述碱基检出器被配置为评估附加簇图像并且为附加簇图像生成碱基检出预测。
17.根据权利要求16所述的系统,其中所述离散值标签是用正确碱基的一值和不正确碱基的零值来独热编码的。
18.根据权利要求16所述的系统,其中所述连续值权重是正确碱基为腺嘌呤(A)、胞嘧啶(C)、胸腺嘧啶(T)和鸟嘌呤(G)的概率分布的一部分。
19.根据权利要求16所述的系统,其中:
所述处理模块中的一个处理模块是神经网络层,
所述参数中的一个参数是所述神经网络层之间的互连,
所述处理模块中的一个处理模块是神经网络过滤器,
所述处理模块中的一个处理模块是神经网络内核,并且
所述参数中的一个参数是乘法和加法运算。
20.一种用于基于人工智能的碱基检出的系统,所述系统包括:
在簇图像上训练的第一碱基检出器,所述簇图像用基准真值数据来注释,所述基准真值数据基于由第二碱基检出器生成的碱基检出预测来识别正确的碱基检出。
CN202180015568.9A 2020-02-20 2021-02-17 基于人工智能的碱基检出器的基于知识蒸馏和梯度修剪的压缩 Pending CN115136245A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202062979385P 2020-02-20 2020-02-20
US62/979385 2020-02-20
US17/176151 2021-02-15
US17/176,151 US12354008B2 (en) 2020-02-20 2021-02-15 Knowledge distillation and gradient pruning-based compression of artificial intelligence-based base caller
PCT/US2021/018422 WO2021168014A1 (en) 2020-02-20 2021-02-17 Knowledge distillation and gradient pruning-based compression of artificial intelligence-based base caller

Publications (1)

Publication Number Publication Date
CN115136245A true CN115136245A (zh) 2022-09-30

Family

ID=77366220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180015568.9A Pending CN115136245A (zh) 2020-02-20 2021-02-17 基于人工智能的碱基检出器的基于知识蒸馏和梯度修剪的压缩

Country Status (12)

Country Link
US (2) US12354008B2 (zh)
EP (1) EP4107737B1 (zh)
JP (1) JP7754822B2 (zh)
KR (1) KR20220144372A (zh)
CN (1) CN115136245A (zh)
AU (1) AU2021224592A1 (zh)
BR (1) BR112022016409A2 (zh)
CA (1) CA3168451A1 (zh)
IL (1) IL295568A (zh)
MX (1) MX2022010275A (zh)
MY (1) MY209788A (zh)
WO (1) WO2021168014A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372785A (zh) * 2023-12-04 2024-01-09 吉林大学 一种基于特征簇中心压缩的图像分类方法
CN117393043A (zh) * 2023-12-11 2024-01-12 浙江大学 一种甲状腺乳头状瘤braf基因突变检测装置
CN118570601A (zh) * 2024-08-05 2024-08-30 广东海洋大学 一种联合高级视觉任务的红外与可见光图像融合方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
EP4107735B1 (en) 2020-02-20 2025-11-26 Illumina, Inc. Artificial intelligence-based many-to-many base calling
WO2021255516A1 (en) * 2020-06-15 2021-12-23 Universidade Do Porto Multi-convolutional two-dimensional attention unit for analysis of a multivariable time series three-dimensional input data
US12254062B2 (en) * 2020-08-26 2025-03-18 International Business Machines Corporation Domain adaptation
KR102232138B1 (ko) * 2020-11-17 2021-03-25 (주)에이아이매틱스 지식 증류 기반 신경망 아키텍처 탐색 방법
CN113159173B (zh) * 2021-04-20 2024-04-26 北京邮电大学 一种结合剪枝与知识蒸馏的卷积神经网络模型压缩方法
US11620993B2 (en) * 2021-06-09 2023-04-04 Merlyn Mind, Inc. Multimodal intent entity resolver
EP4125003A1 (en) * 2021-07-16 2023-02-01 Tata Consultancy Services Limited System and method for learning disentangled representations for temporal causal inference
CN114140619B (zh) * 2021-10-31 2024-09-06 浪潮电子信息产业股份有限公司 图像数据生成方法、模型训练方法、装置、设备及介质
CN113987187B (zh) * 2021-11-09 2024-06-28 重庆大学 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN114170599B (zh) * 2021-12-14 2024-08-23 华中科技大学 一种基于蒸馏比较的异常物体分割方法
CN114492731B (zh) * 2021-12-23 2024-12-20 北京达佳互联信息技术有限公司 图像处理模型的训练方法及装置、电子设备
CN114299993B (zh) * 2021-12-24 2024-12-03 中北大学 一种基于数据蒸馏的多枪声混合智能分类识别系统及方法
CN114780709B (zh) * 2022-03-22 2023-04-07 北京三快在线科技有限公司 文本匹配方法、装置及电子设备
CN114998648B (zh) * 2022-05-16 2024-07-23 电子科技大学 一种基于梯度架构搜索的表现预测压缩方法
WO2024049151A1 (ko) * 2022-08-29 2024-03-07 주식회사 딥엑스 인공신경망의 분산 연산 시스템 및 방법
CN116542320B (zh) * 2023-05-06 2025-05-30 广东工业大学 一种基于持续学习的小样本事件检测方法和系统
CN116451771B (zh) * 2023-06-14 2023-09-15 中诚华隆计算机技术有限公司 图像分类卷积神经网络压缩方法及芯粒器件数据分配方法
CN117095217A (zh) * 2023-08-22 2023-11-21 电子科技大学 多阶段对比知识蒸馏方法
CN118942549A (zh) * 2024-04-30 2024-11-12 深圳市真迈生物科技有限公司 碱基识别方法、装置、设备及存储介质
CN120762420B (zh) * 2025-09-09 2025-11-07 蜂巢智行(上海)技术有限公司 基于vla架构与蒸馏学习的无人物流车驾驶决策方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040122790A1 (en) * 2002-12-18 2004-06-24 Walker Matthew J. Computer-assisted data processing system and method incorporating automated learning
US20170061072A1 (en) * 2015-09-02 2017-03-02 Guardant Health, Inc. Machine Learning for Somatic Single Nucleotide Variant Detection in Cell-free Tumor Nucleic acid Sequencing Applications
US20190237160A1 (en) * 2018-01-26 2019-08-01 Quantum-Si Incorporated Machine learning enabled pulse and base calling for sequencing devices
CN110223281A (zh) * 2019-06-06 2019-09-10 东北大学 一种数据集中含有不确定数据时的肺结节图像分类方法
CN110674880A (zh) * 2019-09-27 2020-01-10 北京迈格威科技有限公司 用于知识蒸馏的网络训练方法、装置、介质与电子设备

Family Cites Families (189)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1991006678A1 (en) 1989-10-26 1991-05-16 Sri International Dna sequencing
US5641658A (en) 1994-08-03 1997-06-24 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid with two primers bound to a single solid support
US6090592A (en) 1994-08-03 2000-07-18 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid on supports
DE69530072T2 (de) 1994-12-08 2004-03-04 Molecular Dynamics, Sunnyvale System zur fluoreszenzabbildung unter verwendung eines objektivs mit makroabtastung
US5528050A (en) 1995-07-24 1996-06-18 Molecular Dynamics, Inc. Compact scan head with multiple scanning modalities
US6023540A (en) 1997-03-14 2000-02-08 Trustees Of Tufts College Fiber optic sensor with encoded microspheres
US6327410B1 (en) 1997-03-14 2001-12-04 The Trustees Of Tufts College Target analyte sensors utilizing Microspheres
US7622294B2 (en) 1997-03-14 2009-11-24 Trustees Of Tufts College Methods for detecting target analytes and enzymatic reactions
EP0975802B1 (en) 1997-04-01 2004-06-23 Manteia S.A. Method of nucleic acid sequencing
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
ATE413467T1 (de) 1999-04-20 2008-11-15 Illumina Inc Detektion von nukleinsäurereaktionen auf kügelchen-arrays
US6355431B1 (en) 1999-04-20 2002-03-12 Illumina, Inc. Detection of nucleic acid amplification reactions using bead arrays
US20050191698A1 (en) 1999-04-20 2005-09-01 Illumina, Inc. Nucleic acid sequencing using microsphere arrays
US6770441B2 (en) 2000-02-10 2004-08-03 Illumina, Inc. Array compositions and methods of making same
AU8288101A (en) 2000-07-07 2002-01-21 Visigen Biotechnologies Inc Real-time sequence determination
US7211414B2 (en) 2000-12-01 2007-05-01 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
AR031640A1 (es) 2000-12-08 2003-09-24 Applied Research Systems Amplificacion isotermica de acidos nucleicos en un soporte solido
EP1436596A2 (en) 2001-09-28 2004-07-14 Ciencia, Incorporated Compact multiwavelength phase fluorometer
GB0127564D0 (en) 2001-11-16 2002-01-09 Medical Res Council Emulsion compositions
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US20040002090A1 (en) 2002-03-05 2004-01-01 Pascal Mayer Methods for detecting genome-wide sequence variations associated with a phenotype
ES2550513T3 (es) 2002-08-23 2015-11-10 Illumina Cambridge Limited Nucleótidos modificados para secuenciación de polinucleótidos
AU2003290429A1 (en) 2002-12-25 2004-07-22 Casio Computer Co., Ltd. Optical dna sensor, dna reading apparatus, identification method of dna and manufacturing method of optical dna sensor
US7575865B2 (en) 2003-01-29 2009-08-18 454 Life Sciences Corporation Methods of amplifying and sequencing nucleic acids
EP1594950A4 (en) 2003-01-29 2007-07-25 454 Corp PRODUCT FOR THE PREPARATION OF SIMPLE STRANDED DNA BANKS
CA2531105C (en) 2003-07-05 2015-03-17 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP2789383B1 (en) 2004-01-07 2023-05-03 Illumina Cambridge Limited Molecular arrays
CA2575859A1 (en) 2004-08-11 2006-02-23 Aureon Laboratories, Inc. Systems and methods for automated diagnosis and grading of tissue images
WO2006044078A2 (en) 2004-09-17 2006-04-27 Pacific Biosciences Of California, Inc. Apparatus and method for analysis of molecules
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
JP4941990B2 (ja) 2005-02-21 2012-05-30 味の素株式会社 Nε−アシル−L−リジン特異的アミノアシラーゼ
EP1889032A1 (en) 2005-05-25 2008-02-20 Stiftelsen Universitetsforskning Bergen Microscope system and screening method for drugs, physical therapies and biohazards
FR2886433B1 (fr) 2005-05-30 2007-09-07 Commissariat Energie Atomique Methode de segmentation d'une sequence d'images tridimensionnelles, notamment en pharmaco-imagerie.
US8045998B2 (en) 2005-06-08 2011-10-25 Cisco Technology, Inc. Method and system for communicating using position information
CA2611671C (en) 2005-06-15 2013-10-08 Callida Genomics, Inc. Single molecule arrays for genetic and chemical analysis
GB0514910D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Method for sequencing a polynucleotide template
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
GB0517097D0 (en) 2005-08-19 2005-09-28 Solexa Ltd Modified nucleosides and nucleotides and uses thereof
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
GB0522310D0 (en) 2005-11-01 2005-12-07 Solexa Ltd Methods of preparing libraries of template polynucleotides
US7329860B2 (en) 2005-11-23 2008-02-12 Illumina, Inc. Confocal imaging methods and apparatus
JP2007199397A (ja) 2006-01-26 2007-08-09 Nikon Corp 顕微鏡装置
EP2021503A1 (en) 2006-03-17 2009-02-11 Solexa Ltd. Isothermal methods for creating clonal single molecule arrays
EP4105644A3 (en) 2006-03-31 2022-12-28 Illumina, Inc. Systems and devices for sequence by synthesis analysis
US7754429B2 (en) 2006-10-06 2010-07-13 Illumina Cambridge Limited Method for pair-wise sequencing a plurity of target polynucleotides
US7414716B2 (en) 2006-10-23 2008-08-19 Emhart Glass S.A. Machine for inspecting glass containers
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US20080242560A1 (en) 2006-11-21 2008-10-02 Gunderson Kevin L Methods for generating amplified nucleic acid arrays
EP2374902B1 (en) 2007-01-26 2017-11-01 Illumina, Inc. Nucleic acid sequencing system and method
JP2010521272A (ja) 2007-03-16 2010-06-24 エスティーアイ・メディカル・システムズ・エルエルシー 標準化された撮像データを実現するために撮像デバイスに自動品質フィードバックを与える方法
AU2008261935B2 (en) 2007-06-06 2013-05-02 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
US8703422B2 (en) 2007-06-06 2014-04-22 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
US8039817B2 (en) 2008-05-05 2011-10-18 Illumina, Inc. Compensator for multiple surface imaging
US8407012B2 (en) 2008-07-03 2013-03-26 Cold Spring Harbor Laboratory Methods and systems of DNA sequencing
WO2010019925A1 (en) 2008-08-15 2010-02-18 Brown Technology Partnerships Method and apparatus for estimating body shape
US8175379B2 (en) 2008-08-22 2012-05-08 Adobe Systems Incorporated Automatic video image segmentation
WO2010039553A1 (en) 2008-10-03 2010-04-08 Illumina, Inc. Method and system for determining the accuracy of dna base identifications
US20100157086A1 (en) 2008-12-15 2010-06-24 Illumina, Inc Dynamic autofocus method and system for assay imager
EP2435983A4 (en) 2009-05-28 2017-08-23 Hewlett-Packard Development Company, L.P. Image processing
US9524369B2 (en) 2009-06-15 2016-12-20 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
US8182994B2 (en) 2009-09-15 2012-05-22 Illumina Cambridge Limited Centroid markers for image analysis of high denisty clusters in complex polynucleotide sequencing
US20140152801A1 (en) 2009-10-28 2014-06-05 Alentic Microscience Inc. Detecting and Using Light Representative of a Sample
US9023769B2 (en) 2009-11-30 2015-05-05 Complete Genomics, Inc. cDNA library for nucleic acid sequencing
US8965076B2 (en) 2010-01-13 2015-02-24 Illumina, Inc. Data processing system and methods
US10619195B2 (en) 2010-04-06 2020-04-14 Massachusetts Institute Of Technology Gene-expression profiling with reduced numbers of transcript measurements
CN103003814A (zh) 2010-05-14 2013-03-27 数据逻辑Adc公司 使用大型数据库进行对象识别的系统及方法
EP2390810B1 (en) 2010-05-26 2019-10-16 Tata Consultancy Services Limited Taxonomic classification of metagenomic sequences
US20120015825A1 (en) 2010-07-06 2012-01-19 Pacific Biosciences Of California, Inc. Analytical systems and methods with software mask
US9096899B2 (en) 2010-10-27 2015-08-04 Illumina, Inc. Microdevices and biosensor cartridges for biological or chemical analysis and systems and methods for the same
DE102010062341B4 (de) 2010-12-02 2023-05-17 Carl Zeiss Microscopy Gmbh Vorrichtung zur Erhöhung der Tiefendiskriminierung optisch abbildender Systeme
US10241075B2 (en) 2010-12-30 2019-03-26 Life Technologies Corporation Methods, systems, and computer readable media for nucleic acid sequencing
US20130060482A1 (en) 2010-12-30 2013-03-07 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
CN103843001B (zh) 2011-04-14 2017-06-09 考利达基因组股份有限公司 复杂核酸序列数据的处理和分析
EP2718465B1 (en) 2011-06-09 2022-04-13 Illumina, Inc. Method of making an analyte array
WO2013044018A1 (en) 2011-09-23 2013-03-28 Illumina, Inc. Methods and compositions for nucleic acid sequencing
US8778849B2 (en) 2011-10-28 2014-07-15 Illumina, Inc. Microarray fabrication system and method
WO2013096692A1 (en) 2011-12-21 2013-06-27 Illumina, Inc. Apparatus and methods for kinetic analysis and determination of nucleic acid sequences
US8660342B2 (en) 2012-01-24 2014-02-25 Telefonica, S.A. Method to assess aesthetic quality of photographs
EP2834622B1 (en) 2012-04-03 2023-04-12 Illumina, Inc. Integrated optoelectronic read head and fluidic cartridge useful for nucleic acid sequencing
US8906320B1 (en) 2012-04-16 2014-12-09 Illumina, Inc. Biosensors for biological or chemical analysis and systems and methods for same
US10068054B2 (en) 2013-01-17 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
AU2013382195B2 (en) 2013-03-13 2019-09-19 Illumina, Inc. Methods and systems for aligning repetitive DNA elements
ES2674043T5 (es) 2013-03-14 2021-11-03 Illumina Inc Polimerasas modificadas para una incorporación mejorada de análogos de nucleótidos
DK2973397T3 (en) 2013-03-15 2017-10-02 Ventana Med Syst Inc Tissue-object-based machine learning system for automated assessment of digital whole-slide glass
WO2014182630A1 (en) 2013-05-06 2014-11-13 Pacific Biosciences Of California , Inc. Real-time electronic sequencing
ES2875892T3 (es) 2013-09-20 2021-11-11 Spraying Systems Co Boquilla de pulverización para craqueo catalítico fluidizado
US9299004B2 (en) 2013-10-24 2016-03-29 Adobe Systems Incorporated Image foreground detection
CA3181696A1 (en) 2013-12-03 2015-06-11 Paul BELITZ Methods and systems for analyzing image data
CN105980832B (zh) 2013-12-10 2019-08-16 伊鲁米那股份有限公司 用于生物或化学分析的生物传感器及其制造方法
CN105980578B (zh) 2013-12-16 2020-02-14 深圳华大智造科技有限公司 用于使用机器学习进行dna测序的碱基判定器
GB201408853D0 (en) 2014-05-19 2014-07-02 Diamond Light Source Ltd Analysis of signals from pixellated detectors of ionizing radiation
US10127448B2 (en) 2014-08-27 2018-11-13 Bae Systems Information And Electronic Systems Integration Inc. Method and system for dismount detection in low-resolution UAV imagery
DK3191993T3 (da) 2014-09-12 2022-07-25 Illumina Cambridge Ltd Detektion af repeatudvidelser med short read-sekventeringsdata
US10181191B2 (en) 2014-12-02 2019-01-15 Shanghai United Imaging Healthcare Co., Ltd. Methods and systems for identifying spine or bone regions in computed tomography image sequence
GB2548733B (en) 2014-12-26 2020-04-08 Hitachi High Tech Corp Nucleic acid analysis device
IL236598A0 (en) 2015-01-05 2015-05-31 Superfish Ltd Image similarity as a function of image weighted image descriptors generated from neural networks
WO2016145516A1 (en) 2015-03-13 2016-09-22 Deep Genomics Incorporated System and method for training neural networks
WO2016172612A1 (en) 2015-04-23 2016-10-27 Cedars-Sinai Medical Center Automated delineation of nuclei for three dimensional (3-d) high content screening
US10061972B2 (en) 2015-05-28 2018-08-28 Tokitae Llc Image analysis systems and related methods
US9836839B2 (en) 2015-05-28 2017-12-05 Tokitae Llc Image analysis systems and related methods
US10185803B2 (en) 2015-06-15 2019-01-22 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
CA2894317C (en) 2015-06-15 2023-08-15 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
US20160371431A1 (en) 2015-06-22 2016-12-22 Counsyl, Inc. Methods of predicting pathogenicity of genetic sequence variants
WO2017027783A1 (en) 2015-08-13 2017-02-16 Centrillion Technology Holdings Corporation Methods for synchronising nucleic acid molecules
US10176408B2 (en) 2015-08-14 2019-01-08 Elucid Bioimaging Inc. Systems and methods for analyzing pathologies utilizing quantitative imaging
US11094058B2 (en) 2015-08-14 2021-08-17 Elucid Bioimaging Inc. Systems and method for computer-aided phenotyping (CAP) using radiologic images
US10755810B2 (en) 2015-08-14 2020-08-25 Elucid Bioimaging Inc. Methods and systems for representing, storing, and accessing computable medical imaging-derived quantities
EP3147650A1 (en) 2015-09-22 2017-03-29 MyCartis N.V. Cross-talk correction in multiplexing analysis of biological sample
US10930372B2 (en) 2015-10-02 2021-02-23 Northrop Grumman Systems Corporation Solution for drug discovery
US10474951B2 (en) 2015-10-23 2019-11-12 Nec Corporation Memory efficient scalable deep learning with model parallelization
EP3387613B1 (en) 2015-12-10 2020-07-01 QIAGEN GmbH Background compensation
KR102592076B1 (ko) 2015-12-14 2023-10-19 삼성전자주식회사 딥러닝 기반 영상 처리 장치 및 방법, 학습 장치
GB2549554A (en) 2016-04-21 2017-10-25 Ramot At Tel-Aviv Univ Ltd Method and system for detecting an object in an image
US11579336B2 (en) 2016-04-22 2023-02-14 Illumina, Inc. Photonic structure-based devices and compositions for use in luminescent imaging of multiple sites within a pixel, and methods of using the same
US20180211001A1 (en) 2016-04-29 2018-07-26 Microsoft Technology Licensing, Llc Trace reconstruction from noisy polynucleotide sequencer reads
US10354747B1 (en) 2016-05-06 2019-07-16 Verily Life Sciences Llc Deep learning analysis pipeline for next generation sequencing
US10711299B2 (en) 2016-06-01 2020-07-14 Quantum-Si Incorporated Pulse caller and base caller
US20180107927A1 (en) 2016-06-15 2018-04-19 Deep Genomics Incorporated Architectures for training neural networks using biological sequences, conservation, and molecular phenotypes
EP3497233B1 (en) 2016-08-08 2021-11-10 F. Hoffmann-La Roche AG Basecalling for stochastic sequencing processes
CN106529424B (zh) 2016-10-20 2019-01-04 中山大学 一种基于选择性搜索算法的车标检测识别方法及系统
EP3552389A4 (en) 2016-11-11 2021-07-28 University of South Florida AUTOMATED STEREOLOGY FOR DETERMINING FABRIC PROPERTIES
WO2018115055A1 (en) 2016-12-22 2018-06-28 Ventana Medical Systems, Inc. Computer scoring based on primary stain and immunohistochemistry images
JP2020504620A (ja) 2016-12-28 2020-02-13 アスカス バイオサイエンシーズ, インコーポレイテッド 複雑な不均一コミュニティの完全微生物株の解析、その機能的関連性及び相互作用の決定、ならびにそれに基づく生物反応性の改変剤の同定及び合成、のための方法、装置、及びシステム
JP7110207B2 (ja) 2017-01-06 2022-08-01 イルミナ インコーポレイテッド フェージング補正方法
US10740880B2 (en) 2017-01-18 2020-08-11 Elucid Bioimaging Inc. Systems and methods for analyzing pathologies utilizing quantitative imaging
BR112019014651A2 (pt) 2017-01-18 2020-07-21 Illumina, Inc. métodos para sequenciar moléculas de ácido nucleico e para preparar adaptadores de sequenciamento, produto de programa de computador, e, sistema de computador.
US10491239B1 (en) 2017-02-02 2019-11-26 Habana Labs Ltd. Large-scale computations using an adaptive numerical format
NL2018852B1 (en) 2017-05-05 2018-11-14 Illumina Inc Optical distortion correction for imaged samples
BR112019014683A2 (pt) 2017-03-07 2020-02-18 Illumina, Inc. Sequenciamento com dois canais óticos, com fonte de luz única
US10713794B1 (en) 2017-03-16 2020-07-14 Facebook, Inc. Method and system for using machine-learning for object instance segmentation
CA3060979C (en) 2017-04-23 2023-07-11 Illumina Cambridge Limited Compositions and methods for improving sample identification in indexed nucleic acid libraries
WO2018204423A1 (en) 2017-05-01 2018-11-08 Illumina, Inc. Optimal index sequences for multiplex massively parallel sequencing
US10552663B2 (en) 2017-05-02 2020-02-04 Techcyte, Inc. Machine learning classification and training for digital microscopy cytology images
GB201707138D0 (en) 2017-05-04 2017-06-21 Oxford Nanopore Tech Ltd Machine learning analysis of nanopore measurements
CA3062174A1 (en) 2017-05-08 2018-11-15 Illumina, Inc. Universal short adapters for indexing of polynucleotide samples
US10249389B2 (en) 2017-05-12 2019-04-02 The Regents Of The University Of Michigan Individual and cohort pharmacological phenotype prediction platform
EP3631018B1 (en) 2017-05-26 2024-07-24 Life Technologies Corporation Methods to detect large rearrangements in brca1/2
US11587644B2 (en) 2017-07-28 2023-02-21 The Translational Genomics Research Institute Methods of profiling mass spectral data using neural networks
US20200202977A1 (en) 2017-07-31 2020-06-25 Illumina, Inc. Sequencing system with multiplexed biological sample aggregation
CN111108219B (zh) 2017-08-01 2024-12-27 伊鲁米纳公司 使用的水凝胶珠和流动池的遗传物质的空间索引和文库制备
CN107563150B (zh) 2017-08-31 2021-03-19 深圳大学 蛋白质结合位点的预测方法、装置、设备及存储介质
US10706535B2 (en) 2017-09-08 2020-07-07 International Business Machines Corporation Tissue staining quality determination
US11507806B2 (en) 2017-09-08 2022-11-22 Rohit Seth Parallel neural processor for Artificial Intelligence
JP2020533951A (ja) 2017-09-15 2020-11-26 イルミナ インコーポレイテッド 配列検出システムの調整および較正の特徴
US11143789B2 (en) 2017-10-11 2021-10-12 Beyond Limits, Inc. Static engine and neural network for a cognitive reservoir system
US10423861B2 (en) 2017-10-16 2019-09-24 Illumina, Inc. Deep learning-based techniques for training deep convolutional neural networks
US10540591B2 (en) 2017-10-16 2020-01-21 Illumina, Inc. Deep learning-based techniques for pre-training deep convolutional neural networks
KR102662206B1 (ko) 2017-10-16 2024-04-30 일루미나, 인코포레이티드 심층 학습 기반 비정상 스플라이싱 검출
CN112689757A (zh) 2017-10-26 2021-04-20 Essenlix公司 使用crof和机器学习的基于图像测定的系统和方法
EP3700856A4 (en) 2017-10-26 2021-12-15 Ultima Genomics, Inc. METHODS AND SYSTEMS FOR SEQUENCE CALL
WO2019084559A1 (en) 2017-10-27 2019-05-02 Apostle, Inc. SOMATIC MUTATION CANCER PATHOGENIC IMPACT PREDICTION USING DEEP LEARNING BASED METHODS
IL271239B2 (en) 2017-11-06 2024-11-01 Illumina Inc Nucleic acid indexing techniques
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
US11164312B2 (en) 2017-11-30 2021-11-02 The Research Foundation tor the State University of New York System and method to quantify tumor-infiltrating lymphocytes (TILs) for clinical pathology analysis based on prediction, spatial analysis, molecular correlation, and reconstruction of TIL information identified in digitized tissue images
WO2019110567A1 (en) 2017-12-05 2019-06-13 Ventana Medical Systems, Inc. Method of computing tumor spatial and inter-marker heterogeneity
US11288576B2 (en) 2018-01-05 2022-03-29 Illumina, Inc. Predicting quality of sequencing results using deep neural networks
US11378544B2 (en) 2018-01-08 2022-07-05 Illumina, Inc. High-throughput sequencing with semiconductor-based detection
US20190237163A1 (en) 2018-01-12 2019-08-01 Life Technologies Corporation Methods for flow space quality score prediction by neural networks
AU2019206709B2 (en) 2018-01-15 2021-09-09 Illumina Cambridge Limited Deep learning-based variant classifier
JP6992590B2 (ja) 2018-02-23 2022-01-13 日本電信電話株式会社 特徴表現装置、特徴表現方法、およびプログラム
WO2019200338A1 (en) 2018-04-12 2019-10-17 Illumina, Inc. Variant classifier based on deep neural networks
EP3776337B1 (en) 2018-04-13 2024-09-11 Ventana Medical Systems, Inc. Systems for cell shape estimation
US10649459B2 (en) 2018-04-26 2020-05-12 Zoox, Inc. Data segmentation using masks
US12073922B2 (en) 2018-07-11 2024-08-27 Illumina, Inc. Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors (SSEs)
US10635979B2 (en) 2018-07-20 2020-04-28 Google Llc Category learning neural networks
US11446008B2 (en) 2018-08-17 2022-09-20 Tokitae Llc Automated ultrasound video interpretation of a body part with one or more convolutional neural networks
US11600360B2 (en) 2018-08-20 2023-03-07 Microsoft Technology Licensing, Llc Trace reconstruction from reads with indeterminant errors
RU2706960C1 (ru) 2019-01-25 2019-11-22 Самсунг Электроникс Ко., Лтд. Вычислительно эффективное многоклассовое распознавание изображений с использованием последовательного анализа нейросетевых признаков
EP3640837A1 (en) 2018-10-15 2020-04-22 Koninklijke Philips N.V. System for co-registration of medical images using a classifier
KR20200043169A (ko) 2018-10-17 2020-04-27 삼성전자주식회사 뉴럴 네트워크의 파라미터를 양자화하는 방법 및 장치
GB201819378D0 (en) 2018-11-28 2019-01-09 Oxford Nanopore Tech Ltd Analysis of nanopore signal using a machine-learning technique
CN113168890B (zh) 2018-12-10 2024-05-24 生命科技股份有限公司 用于Sanger测序的深度碱基识别器
US10783632B2 (en) 2018-12-14 2020-09-22 Spectral Md, Inc. Machine learning systems and method for assessment, healing prediction, and treatment of wounds
US10789462B2 (en) 2019-01-15 2020-09-29 International Business Machines Corporation Weakly and fully labeled mammogram classification and localization with a dual branch deep neural network
NL2023311B9 (en) 2019-03-21 2021-03-12 Illumina Inc Artificial intelligence-based generation of sequencing metadata
NL2023310B1 (en) 2019-03-21 2020-09-28 Illumina Inc Training data generation for artificial intelligence-based sequencing
NL2023316B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based sequencing
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
NL2023312B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based base calling
NL2023314B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based quality scoring
US11783917B2 (en) 2019-03-21 2023-10-10 Illumina, Inc. Artificial intelligence-based base calling
SG10201902958PA (en) 2019-04-02 2020-11-27 Accenture Global Solutions Ltd Artificial intelligence based plantable blank spot detection
CN110245685B (zh) 2019-05-15 2022-03-25 清华大学 基因组单位点变异致病性的预测方法、系统及存储介质
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
CN112313750B (zh) 2019-05-16 2023-11-17 因美纳有限公司 使用卷积的碱基识别
EP4018365A1 (en) 2019-08-23 2022-06-29 Memorial Sloan Kettering Cancer Center Identifying regions of interest from whole slide images
US11327178B2 (en) 2019-09-06 2022-05-10 Volvo Car Corporation Piece-wise network structure for long range environment perception

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040122790A1 (en) * 2002-12-18 2004-06-24 Walker Matthew J. Computer-assisted data processing system and method incorporating automated learning
US20170061072A1 (en) * 2015-09-02 2017-03-02 Guardant Health, Inc. Machine Learning for Somatic Single Nucleotide Variant Detection in Cell-free Tumor Nucleic acid Sequencing Applications
US20190237160A1 (en) * 2018-01-26 2019-08-01 Quantum-Si Incorporated Machine learning enabled pulse and base calling for sequencing devices
TW201935294A (zh) * 2018-01-26 2019-09-01 美商寬騰矽公司 用於定序裝置之機器學習致能脈衝及鹼基判定
CN110223281A (zh) * 2019-06-06 2019-09-10 东北大学 一种数据集中含有不确定数据时的肺结节图像分类方法
CN110674880A (zh) * 2019-09-27 2020-01-10 北京迈格威科技有限公司 用于知识蒸馏的网络训练方法、装置、介质与电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117372785A (zh) * 2023-12-04 2024-01-09 吉林大学 一种基于特征簇中心压缩的图像分类方法
CN117372785B (zh) * 2023-12-04 2024-03-26 吉林大学 一种基于特征簇中心压缩的图像分类方法
CN117393043A (zh) * 2023-12-11 2024-01-12 浙江大学 一种甲状腺乳头状瘤braf基因突变检测装置
CN117393043B (zh) * 2023-12-11 2024-02-13 浙江大学 一种甲状腺乳头状瘤braf基因突变检测装置
CN118570601A (zh) * 2024-08-05 2024-08-30 广东海洋大学 一种联合高级视觉任务的红外与可见光图像融合方法

Also Published As

Publication number Publication date
KR20220144372A (ko) 2022-10-26
US20210265018A1 (en) 2021-08-26
US20250371352A1 (en) 2025-12-04
IL295568A (en) 2022-10-01
CA3168451A1 (en) 2021-08-26
US12354008B2 (en) 2025-07-08
JP7754822B2 (ja) 2025-10-15
MY209788A (en) 2025-08-04
MX2022010275A (es) 2022-09-19
EP4107737B1 (en) 2024-08-21
AU2021224592A1 (en) 2022-09-08
EP4107737A1 (en) 2022-12-28
JP2023515110A (ja) 2023-04-12
WO2021168014A1 (en) 2021-08-26
EP4107737C0 (en) 2024-08-21
BR112022016409A2 (pt) 2022-10-11

Similar Documents

Publication Publication Date Title
US12354008B2 (en) Knowledge distillation and gradient pruning-based compression of artificial intelligence-based base caller
US11908548B2 (en) Training data generation for artificial intelligence-based sequencing
US11347965B2 (en) Training data generation for artificial intelligence-based sequencing
WO2020205296A1 (en) Artificial intelligence-based generation of sequencing metadata
US20230343414A1 (en) Sequence-to-sequence base calling
NL2023311B9 (en) Artificial intelligence-based generation of sequencing metadata
CN117581305A (zh) 基于状态的碱基调用
HK40076748B (zh) 基於人工智能的base caller的知識蒸餾和基於梯度剪枝的壓縮
HK40076748A (zh) 基於人工智能的base caller的知識蒸餾和基於梯度剪枝的壓縮
HK40058973B (zh) 用於基於人工智能的測序的訓練數據生成
HK40058973A (zh) 用於基於人工智能的測序的訓練數據生成

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination