CN118606611A - 一种基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法及应用 - Google Patents
一种基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法及应用 Download PDFInfo
- Publication number
- CN118606611A CN118606611A CN202410281229.0A CN202410281229A CN118606611A CN 118606611 A CN118606611 A CN 118606611A CN 202410281229 A CN202410281229 A CN 202410281229A CN 118606611 A CN118606611 A CN 118606611A
- Authority
- CN
- China
- Prior art keywords
- matrix
- regression
- semi
- negative
- cell type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Chemical & Material Sciences (AREA)
- Algebra (AREA)
- Bioethics (AREA)
- Operations Research (AREA)
- Pharmacology & Pharmacy (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Crystallography & Structural Chemistry (AREA)
- Medicinal Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于半监督非负矩阵分解(ssNMF)和最小角回归(LARS)的空间转录组(ST)解卷积方法及应用。本发明所述方法首先利用ssNMF将单细胞转录组(scRNA‑seq)数据分解为基矩阵和系数矩阵,然后LARS将ST数据映射到基于基矩阵的主题分布中,最后非负最小二乘(NNLS)将系数矩阵与LARS得到的矩阵之间的残差最小化,计算每个细胞类型的权重,进一步评估推断spot组成的可靠性。本发明以更高的精度和灵敏度体现了细胞类型标注的性能,精确地捕获了ST数据中的细胞类型分布,应用于截然不同的生物组织和测序平台,解决了现有技术中空间转录组分析方法在对细胞类型标注的灵敏度和稳健性仍有待提高的问题。
Description
技术领域
本发明涉及生物信息技术领域,更具体地,涉及一种基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法及应用。
背景技术
组织由不同的细胞类型和状态组成,它们的空间位置表征着细胞的相互作用和功能。揭示细胞的空间分布使研究人员能够确定细胞-细胞相互作用和组织重建,从而更好地了解体内平衡和疾病机制。传统的单细胞RNA测序(scRNAseq)需要分离组织或分离单细胞,导致细胞位置丢失。因此,作为scRNAseq的补充,引入了空间分辨转录组分析方法。
基于阵列的空间转录组学(ST)是一种无偏倚和高通量的方法,可以绘制基因在空间背景中的位置。202210552093.3整合单细胞转录组与空间转录组数据的分析方法及系统公开包括:获取空间转录组数据,对空间转录组数据进行预处理;通过聚类方法将空间转录组数据中的采样点划分为若干个类别,每一个类别表示组织切片图像中一个组织区域;根据去污染后的空间基因表达数据,和空间聚类步骤的结果,筛选出在空间中具有差异性表达的基因;根据输入的单细胞数据进行分析,基于筛选出在空间中具有差异性表达的基因得出每个细胞亚群的表达模式;根据单细胞数据集中的细胞亚群表达模式,将所有spot的基因表达作为输入,获得细胞类型在各个组织区域中的分布。然而,ST数据的分辨率远低于单细胞水平,通过在特定位置捕获的转录本(spot)通常由异质细胞的混合物组成,许多原位捕获技术,如空间转录组学中的10X Genomics Visium利用直径为55-100μm的spot,可能覆盖多个同质或异质细胞(1-20个细胞)。即使对于高分辨率方法,如Slide-seq,细胞类型的分析上也是具有挑战性的,因为尽管像素分辨率可以接近哺乳动物细胞的大小(例如,Slide-seq,10μm),固定的像素位置也可能与多个细胞重叠,也就造成了在一个spot上测量的基因表达可能反映了细胞的混合物。虽然ST分析方法对ST数据进行了有效的细胞类型标注,然而它们的灵敏度和稳健性仍然具有挑战性。
发明内容
本发明要解决的主要技术问题是针对现有技术中空间转录组分析方法在对细胞类型标注的灵敏度和稳健性仍有待提高的不足,提供一种基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法及应用。
本发明的目的通过以下技术方案予以实现:
一种基于半监督非负矩阵分解和最小角回归的空间转录组(ST)解卷积方法,步骤包括:
S1.将X所表示的scRNA-seq和X′所表示的ST的基因表达矩阵进行归一化,然后对基矩阵A和系数矩阵S进行初始化,再基于半监督非负矩阵分解将初始基因表达矩阵X分解为两个低维非负矩阵A和S,表示为:
X≈A*S
其中,A表示为每个主题的基因分布矩阵,S表示为每个细胞的主题分布矩阵;
S2.给定三个非负矩阵以及G个预测因子,根据最小角回归算法依次选择k(k≤G)个预测因子,建立目标向量z的线性回归模型,并计算得到目标变量z的回归值向量为:
其中,A={a1,a2,…,aG},aj为预测因子,为回归系数;
S3.将X′中每个spot的转录组映射到S′中,并利用每个spot上的主题分布通过以下公式解码其组成:X′≈A*S′;
S4.计算每种细胞类型的权重:S′≈Q*P,并且使用最小权值θ用于确定每个空间转录组样本(spot)属于哪个细胞类型。
进一步地,所述基矩阵A的每个主题基于使用Seurat包中的FindAllMarkers函数选择的唯一标记基因进行初始化,所述系数矩阵S中的每个细胞与其对应的细胞类型被初始化为1。
进一步地,所述两个矩阵相似性度量项包括标准Frobenius范数||U-V||F和信息散度,所述信息散度的公式为:
其中,当U=V时,则D(U||V)≥0,Uij为矩阵U第i行第j列的值,Vij为矩阵V第i行第j列的值。
进一步地,所述基于ssNMF将初始基因表达矩阵X分解为两个低维非负矩阵的过程包括:构建以下目标函数,将scRNA-seq数据集X与其细胞类型联合起来,所述目标函数为:
其中,Y为目标矩阵,W和L为两个元素值均为1的矩阵,⊙和AS分别表示点乘和叉乘,
A、B、S求解得到:
进一步地,所述求解过程包括:
通过以下公式进行迭代更新:
推导得到A、B、S的一阶导数为:
进一步地,目标向量z的线性回归模型的建立过程包括:
S21.将G中的所有回归系数设为零,并从G个预测因子中选择与z相关性最密切的预测因子a1;
S22.基于a1建立a2与z之间的线性回归模型,a2从剩下的沿a1方向的G-1个预测因子中选择,直到a1和a2之间的残差最小,同理,依次选择预测因子;
S23.从G个预测因子和对应的回归系数根据得到的k个非零回归值进行更新。
进一步地,S23中最优的k值为:
进一步地,每个spot的总平方和TSS和残差平方和RSS分别为:
其中p和分别表示spot内的细胞类型分布金标准和预测细胞类型分布。
进一步地,每个spot未解释残差Ru的比率为:
进一步地,所述基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法用于注释细胞类型的构成和分布。
与现有技术相比,有益效果是:
本发明所述方法首先利用ssNMF将scRNA-seq数据分解为基矩阵和系数矩阵,然后利用将LARS将ST数据映射到基于基矩阵的主题分布中,最后NNLS将系数矩阵与LARS得到的矩阵之间的残差最小化,计算每个细胞类型的权重,进一步评估推断spot组成的可靠性。本发明通过构建多个模拟ST数据集,SSLAR以更高的精度和灵敏度体现了细胞类型标注的性能,精确地捕获了ST数据中的细胞类型分布,可以应用于截然不同的生物组织和测序平台,能够从空间水平上识别出不同测序平台在细胞亚型划分上的细微差异,计算细胞类型特异性基因的预期表达,使我们能够根据基因的空间图谱捕捉基因的表达变化。
附图说明
图1为本发明所述SSLAR流程图;
图2为迭代次数n和最小权值θ对SSLAR的性能影响图;
图3为SSLAR在不同组织上与最新方法的性能比较图;
图4为SSLAR在前6种不同测序平台PBMC数据与最新方法的性能比较图;
图5为SSLAR在其余6种不同测序平台PBMC数据与最新方法的性能比较图;
图6为对SSLAR进行基准测试图。
具体实施方式
下面结合实施例进一步解释和阐明,但具体实施例并不对本发明有任何形式的限定。
实施例1
本实施例提供一种基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法,步骤包括:
S1.基于半监督非负矩阵分解(ssNMF)利用细胞类型的标记基因识别细胞类型主题;
S11.使用Seurat包中的SCTransform函数实现单位方差归一化,分别对X和X′即scRNA-seq和ST基因表达矩阵进行归一化;
S12.对基矩阵A和系数矩阵S进行初始化,使用FindAllMarkers函数找到每个细胞类型的标记基因,利用标记基因对基矩阵A中的每个主题进行初始化,系数矩阵S中的每个细胞与其对应的细胞类型被初始化为1,通过标记基因降低SSLAR可变性并促进其一致性;
S13.基于ssNMF将初始基因表达矩阵X分解为两个低维非负矩阵;
S131.利用两个矩阵相似性度量项将scRNA-seq数据分解为两个非负矩阵,两个矩阵相似性度量项分别为标准Frobenius范数||U-V||F和信息散度,表示为:
其中,当U=V时,则D(U||V)≥0,Uij为矩阵U第i行第j列的值,Vij为矩阵V第i行第j列的值。
S132.对于scRNA-seq数据集ssNMF通过X≈A*S将其分解为两个低维非负矩阵A和S,其中和A表示每个主题的基因分布矩阵,维数为G×T,S表示每个细胞的主题分布矩阵,维数为T×N,G为ST和scRNA-seq数据中所有基因的交集,N为scRNA-seq数据集的细胞数量,维度T<min{||G||,||N||}用于对scRNA-seq数据进行降维。
S14.构建目标函数,将scRNA-seq数据集X与细胞类型联合起来,所述目标函数为:
其中,Y为目标矩阵,M和L为两个元素值均为1的矩阵,⊙和AS分别表示点乘和叉乘。参数用于平衡重构误差(第一项)与由Frobenius范数惩罚的监督项(第二项)之间的相对重要性。
S15.求解目标函数,通过以下公式进行迭代更新:
所述公式为梯度下降模型,可以逐级近似结果,并保证非负性。进一步推导出A、B、S的一阶导数为:
求解得到A、B、S分别为:
S2.基于最小角回归(LARS)捕获spot的主题分布;
S21.给定三个非负矩阵以及G个预测因子,LARS算法依次选择k(k≤G)个预测因子,建立目标向量z的线性回归模型,其中z表示spot的基因表达。
S211.将G中的所有回归系数设为零,并G个预测因子中选择与z相关性最密切的预测因子a1;
S212.基于a1建立a2与z之间的线性回归模型。a2从剩下的沿a1方向的G-1个预测因子中选择,直到a1和a2之间的残差最小。同理,依次选择预测因子。
S213.从G个预测因子和对应的回归系数根据得到的k个非零回归值进行更新。
S22.计算目标变量z的回归值向量为:
其中,A={a1,a2,…,aG},
S23.使用Cp统计方法得到最优的k值为:
S24.将X′中每个spot的转录组映射到S′中,并利用每个spot上的主题分布解码其组成为:
X′≈A*S′。
S3.基于非负最小二乘(NNLS)对spot进行细胞类型注释;
S31.从相同的细胞类型中捕获所有主题,并计算每个主题的中位数,从细胞特异性主题信息S中获得了一致的细胞类型特异性主题概况Q;
S32.利用NNLS计算每种细胞类型的权重:
S′≈Q*P,
利用最小权值θ用于确定一个spot属于哪个细胞类型。对于一个spot上的b个细胞类型{c1,c2,…,cb},它们的权值为{w1,w2,…,wb},当wi≥θ,wj≥θ时,该spot属于ci和cj。
S33.计算每个spot的总平方和(TSS)和残差平方和(RSS)分别为:
其中p和分别表示spot内的细胞类型分布金标准和预测细胞类型分布。
S34.计算每个spot未解释残差Ru的比率,评估预测spot组成的质量:
实施例2
本实施例根据实施例1所述基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法提供其应用例,具体包括;
本实施例使用17个真实的scRNA-seq数据集,包括已经被注释的细胞类型,来评估SSLAR在不同组织上的性能。前13个数据集来自人外周血单个核细胞(PBMC),分别基于13个不同的测序平台,包括Cel-Seq2、Chromium、Chromium(sn)、C1HT-medium、C1HT-Small、ddSeq、Drop-Seq、gmcSCRB-Seq、ICELL8、inDrop、MARS-Seq、QUARTZ-Seq2和SMART-Seq2。PBMC从Gene Expression Omnibus(GSE133549)下载,其他4个scRNA-seq数据集分别来自头颈部鳞状细胞癌(HNSCC)、黑色素瘤、胰腺、肾肿瘤。具体如下表1所示:
表1
为了衡量不同方法对来自不同测序平台和不同组织的各种数据的细胞类型注释性能,分别为来自PBMC、HNSCC、黑色素瘤、胰腺和肾肿瘤的每个scRNA-seq数据集生成了1000个细胞合成混合物。1000个细胞合成混合物代表1000个合成spot,并作为ST数据集。从每个scRNA-seq数据集中随机选择2-8个细胞,然后使用结合它们的转录组谱生成合成混合物。如果产生的混合物有>25000个UMI计数,随机将其下采样到20000个UMI计数,以更好地模拟真实的捕获信息。最后,为每个scRNA-seq数据集生成了10个ST数据集。
使用F1评分、Jensen-Shannon散度(JSD)、皮尔逊相关系数(PCC)和均方根误差(RMSE)4个评价指标来评估SSLAR细胞类型标注在真实和合成数据集上的表现。PCC指数用于衡量合成ST数据上的细胞类型分布P与预测细胞类型分布Q之间的相似性。RMSE和JSD指数用于评估上述两个分布P和Q之间的差异。具体地:
所述PCC值由以下公式定义:
其中cov表示P与Q的协方差,σP和σQ分别表示P与Q标准差
所述RMSE值由以下公式定义:
所述JSD值由以下公式定义:
其中
F1 Score和PCC值越高,JSD和RMSE值越低,说明细胞类型标注性能越好。所有实验均反复进行10次,最终性能为10次实验结果的平均值。
ssNMF的迭代次数n和NNLS的最小权值θ对SSLAR单元类型标注性能影响很大。如图2所示,当n和θ分别为10和0.07时,SSLAR获得了较好的解卷积效果,因此将这两个参数设置为相应的值。
首先将其与五种ST分析工具进行了比较,即SPOTlight、MuSiC、SCDC、DSTG和STRIDE,SPOTlight使用非光滑非负矩阵分解(nsNMF)实现矩阵分解,并在解卷积过程中使用NNLS进行线性回归。为了分析不同的NMF方法和线性回归模型对细胞类型注释性能的影响,分别在主题识别过程中使用nsNMF代替ssNMF,在主题分布分析过程中使用NNLS代替LARS。最后,在17个合成数据集上,将SSLAR、nsNMF、NNLS和五种最先进的ST分析工具进行了比较。
使用来自不同测序平台的13个PBMC数据集来评估用于生成合成ST数据的不同scRNAseq技术是否会影响细胞类型鉴定的准确性。同时为了检验SSLAR和其他7种ST分析方法对不同组织的鲁棒性,使用了来自不同组织4个scRNA-seq数据集来生成基准合成数据。这四种组织分别来自HNSCC、黑色素瘤、胰腺、肾肿瘤。使用以上共17个scRNA-seq数据集中的每一个数据集生成10个ST数据集。分别检测不同方法下的数据集的F1得分、RMSE、PCC和JSD。
具体如下:
表2
如表2所示的不同方法在17个数据集上的F1得分情况可知,SSLAR对17种不同组织和测序平台的平均F1评分最高,且在大多数情况下也是最优,显示了其强大的细胞类型注释能力。
表3
由表3可知,SSLAR对17种不同组织和测序平台的平均RMSE最低,且在大多数情况下也是最低,显示了其强大的细胞类型注释能力。
表4
由表4可知,SSLAR对17种不同组织和测序平台的平均PCC最高,且在大多数情况下也是最优,显示了其强大的细胞类型注释能力。
表5
由表5可知,SSLAR对17种不同组织和测序平台的平均JSD最低,且在大多数情况下也是最低,显示了其强大的细胞类型注释能力。
实施例3
在真实的ST数据上,由于spot可能被部分捕获,测序深度可能会影响捕获的基因数量,进而影响解卷积性能。本实施例评估了SSLAR和7种比较方法在不同测序深度下的性能。
图6A显示了上述八种方法分别在测序深度为1,000、5,000、10,000、20,000和30,000时计算的F1 Score、PCC、JSD和RMSE。SSLAR计算的F1评分和PCC最高,RMSE和JSD最低,其次是NNLS。虽然SSLAR的解卷积性能随着序列深度的逐渐减小而下降,但在8种方法中仍然是最鲁棒的。总的来说,SSLAR可以更准确地捕获一个spot上的细胞类型比例,而对空间共定位的细胞类型分布和低测序深度仍具有鲁棒性。图6B显示了SSLAR和其他七种方法在PBMC(Smart-seq2)上的F1 Score、PCC、RMSE和JSD(Smart-seq2)。
在ST数据进行了下采样(每个细胞20000个读数),并在每个测序平台的合成混合物上训练SSLAR模型中,图6C说明了F1 Score、JSD、PCC、RMSE和SSLAR在13个PBMC数据集上的运行时间。SSLAR在Quartz-Seq2、Smart-Seq2和Chromium协议上获得了最佳性能。
图6D显示了每种细胞类型中不同细胞数(即1、20、40、60、80、100、120、140、160、180、200和所有细胞)对PBMC(Smart-seq2)数据集上SSLAR性能的影响。结果表明,每种细胞类型中的细胞数量严重影响SSLAR细胞类型注释能力。此外,当选择所有细胞时,SSLAR获得了最佳的解卷积性能,并且花费了更少的计算时间。
如图6E所示,我们基于PBMC(Smart-seq2)数据集上不同的高变量基因数(即0、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000和所有基因)计算了SSLAR的F1 Score、PCC、RMSE、JSD和运行时间。当所有基因都被选择时,SSLAR能以更少的计算时间更好地破译细胞类型组成。特别是,当选择所有基因时,SSLAR的表现明显优于其他设置下的SSLAR。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法,其特征在于,步骤包括:
S1.将X所表示的scRNA-seq和X′所表示的ST的基因表达矩阵进行归一化,然后对基矩阵A和系数矩阵S进行初始化,再基于半监督非负矩阵分解将初始基因表达矩阵X分解为两个低维非负矩阵A和S,表示为:
X≈A*S
其中,A表示为每个主题的基因分布矩阵,S表示为每个细胞的主题分布矩阵;
S2.给定三个非负矩阵以及G个预测因子,根据最小角回归算法依次选择k(k≤G)个预测因子,建立目标向量z的线性回归模型,并计算得到目标变量z的回归值向量为:
其中,A={a1,a2,…,aG},aj为预测因子,为回归系数;
S3.将X′中每个spot的基因表达映射到S′中,并利用每个spot上的主题分布分解其组成:X'≈A*S′;
S4.计算每种细胞类型的权重:S′≈Q*P,并且使用最小权值θ用于确定每个空间转录组样本属于哪个细胞类型。
2.根据权利要求1所述基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法,其特征在于,所述基矩阵A的每个主题基于使用Seurat包中的FindAllMarkers函数选择的唯一标记基因进行初始化,所述系数矩阵S中的每个细胞与其对应的细胞类型被初始化为1。
3.根据权利要求1所述基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法,其特征在于,所述两个矩阵相似性度量项包括标准Frobenius范数∥U-V∥F和信息散度,所述信息散度的公式为:
其中,当U=V时,则D(U∥V)≥0,Uij为矩阵U第i行第j列的值,Vij为矩阵V第i行第j列的值。
4.根据权利要求1所述基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法,其特征在于,所述基于ssNMF将初始基因表达矩阵X分解为两个低维非负矩阵的过程包括:构建以下目标函数,将scRNA-seq数据集X与其细胞类型联合起来,所述目标函数为:
其中,Y为目标矩阵,W和L为两个元素值均为1的矩阵,⊙和AS分别表示点乘和叉乘,
A、B、S求解得到:
5.根据权利要求4所述基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法,其特征在于,所述求解过程包括:
通过以下公式进行迭代更新:
推导得到A、B、S的一阶导数为:
6.根据权利要求1所述基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法,其特征在于,目标向量z的线性回归模型的建立过程包括:
S21.将G中的所有回归系数设为零,并从G个预测因子中选择与z相关性最密切的预测因子a1;
S22.基于a1建立a2与z之间的线性回归模型,a2从剩下的沿a1方向的G-1个预测因子中选择,直到a1和a2之间的残差最小,同理,依次选择预测因子;
S23.从G个预测因子和对应的回归系数根据得到的k个非零回归值进行更新。
7.根据权利要求1所述基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法,其特征在于,S3中最优的k值为:
8.根据权利要求1所述基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法,其特征在于,每个spot的总平方和TSS和残差平方和RSS分别为:
其中p和分别表示spot内的细胞类型分布金标准和预测细胞类型分布。
9.根据权利要求8所述基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法,其特征在于,每个spot未解释残差Ru的比率为:
10.根据权利要求1-9任一所述的基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法用于注释细胞类型的构成和分布。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410281229.0A CN118606611A (zh) | 2024-03-12 | 2024-03-12 | 一种基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法及应用 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410281229.0A CN118606611A (zh) | 2024-03-12 | 2024-03-12 | 一种基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法及应用 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN118606611A true CN118606611A (zh) | 2024-09-06 |
Family
ID=92557968
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202410281229.0A Pending CN118606611A (zh) | 2024-03-12 | 2024-03-12 | 一种基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法及应用 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN118606611A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN120319326A (zh) * | 2025-06-18 | 2025-07-15 | 杭州联川生物技术股份有限公司 | 基于元细胞的空间转录组细胞类型注释方法、设备和介质 |
-
2024
- 2024-03-12 CN CN202410281229.0A patent/CN118606611A/zh active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN120319326A (zh) * | 2025-06-18 | 2025-07-15 | 杭州联川生物技术股份有限公司 | 基于元细胞的空间转录组细胞类型注释方法、设备和介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Wan et al. | Integrating spatial and single-cell transcriptomics data using deep generative models with SpatialScope | |
| CN108830045B (zh) | 一种基于多组学的生物标记物系统筛选方法 | |
| CN108920889B (zh) | 化学品健康危害筛查方法 | |
| JP2023522377A (ja) | 細胞の生物学的性質間における対応を判定する方法 | |
| Resutik et al. | Comparative evaluation of the MAPlex, Precision ID Ancestry Panel, and VISAGE Basic Tool for biogeographical ancestry inference | |
| CN118606611A (zh) | 一种基于半监督非负矩阵分解和最小角回归的空间转录组解卷积方法及应用 | |
| CN120319318B (zh) | 基因数据的处理方法、系统、电子设备及存储介质 | |
| CN110223786B (zh) | 基于非负张量分解的药物-药物相互作用预测方法及系统 | |
| CN112771618B (zh) | 疾病治疗管理因素特征自动预测方法及电子设备 | |
| Bhattacharya et al. | Effects of gene–environment and gene–gene interactions in case-control studies: A novel Bayesian semiparametric approach | |
| CN120089190B (zh) | 基于MLP-Mixer的ncRNA与蛋白质相互作用关联性预测方法 | |
| He et al. | A statistical method for quantifying progenitor population reveals incipient cell fate commitments | |
| Charitakis et al. | Comparative Analysis of Packages and Algorithms for the Analysis | |
| Zhou et al. | Computational systems bioinformatics and bioimaging for pathway analysis and drug screening | |
| CN115273987B (zh) | 一种特征品质成分的识别方法、系统、设备及存储介质 | |
| CN112930573A (zh) | 疾病类型自动确定方法及电子设备 | |
| DÉJEAN et al. | Multivariate Models for Data Integration and Biomarker Selection in ‘Omics Data | |
| Bicciato et al. | Disjoint PCA models for marker identification and classification of cancer types using gene expression data | |
| Ouzounis et al. | and Open Challenges | |
| Pan et al. | Mapping lineage-resolved scRNA-seq data with spatial transcriptomics using TemSOMap | |
| Lee et al. | Novelty and Coverage: An Integrated Metric Addressing Quality Trade-offs in AI-Generated Compounds for Drug Discovery | |
| Fu et al. | STsisal: a reference-free deconvolution pipeline for spatial transcriptomics data | |
| CN121191598A (zh) | 基于类内散度矩阵的随机向量函数链网络用于gpcr-蛋白质相互作用的预测方法 | |
| CN120783901A (zh) | 基于对比学习变分自编码器的分子成药性潜力评分方法 | |
| CN120472987A (zh) | 基于血红素代谢相关基因的肺腺癌预后预测模型及构建方法和应用 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |