港中大开发了连接批量RNAseq和单细 - 预激综合症

TUhjnbcbe - 2024/9/2 18:44:00

北京那个白癜风医院比较好 https://m.39.net/disease/a_m7kpmsm.html

编辑

萝卜皮

单细胞RNA测序已成为以明确的高分辨率研究生物学意义的强大工具。然而，它在新兴数据上的应用目前受到其内在技术的限制。

在这里，香港中文大学的研究人员介绍了Tissue-AdaPtiveautoEncoder（TAPE），这是一种连接批量RNA-seq和单细胞RNA-seq的深度学习方法，可在短时间内实现精确的反卷积。通过构建可解释的解码器并在独特的方案下进行训练，TAPE可以自适应地预测细胞类型分数和细胞类型特异性基因表达组织。

与几个数据集上的流行方法相比，TAPE在细胞类型水平上具有更好的整体性能和相当的准确性。此外，它在不同的细胞类型中更稳健、更快、更敏感，可以提供具有生物学意义的预测。

该研究以「Deepautoencoderforinterpretabletissue-adaptivedeconvolutionandcell-type-specificgeneanalysis」为题，于年11月8日发布在《NatureCommunications》。

批量RNA测序(RNA-seq)是一种广泛使用的高通量测序技术，为研究生物事件的转录组变异提供了强大的工具。RNA-seq测量平均表达水平，它提供了来自转录水平的大样本的宏观图谱，没有细胞特异性信息。然而，在某些情况下，研究样本的细胞组成和比例也很重要，尤其是在具有细胞发育和增殖的系统中（例如癌症）。

最近，单细胞RNA测序(scRNA-seq)为识别和分析复杂组织的细胞异质性提供了前所未有的机会。虽然scRNA-seq在细胞粒度方面提供了令人印象深刻的分辨率，但它仍然昂贵且易受噪声影响，从而禁止对大规模样本进行测序。为了克服这些障碍，研究人员可以将丰富的批量RNA-seq数据与scRNA-seq数据相结合，参考小型scRNA-seq数据集从批量RNA-seq样本执行细胞类型反卷积。

近年来，许多单细胞图谱辅助算法如雨后春笋般涌现，以剖析大量RNA-seq数据。现有的方法大致可以分为两类：基于统计学习的方法和基于深度学习的方法。基于传统的回归模型，如非负最小二乘（NNLS）和支持向量回归（SVR），CIBERSORT（CS）、MuSiC、CIBERSORTx（CSx）、Bisque、DWLS、RNA-Sieve和BLADE等一系列方法已被开发出来。

所有这些工具都需要预先选择的细胞类型特异性基因表达谱（GEP）或根据统计值（例如，均值和方差）为不同的基因分配不同的权重。相比之下，深度学习方法Scaden使用模拟的批量数据进行训练，无需依赖预定义的GEP，它可以自动从GEP中提取特征。

尽管取得了这些进展，但这些方法忽略了运行时间成本，尤其是在处理大数据集的需求不断增长的情况下。此外，除了CSx，其他方法，如Scaden，无法预测关键的细胞类型特异性基因表达。这种限制导致Scaden和其他方法的可解释性差。即使对于CSx，它也需要多个样本(15)来纯化表达。

为了克服这些限制，香港中文大学的研究人员提出了一种使用深度神经网络（DNN）的准确、高效且可解释的深度学习算法Tissue-AdaPtiveautoEncoder（TAPE）。基本思想是编码器可以学习更高阶的潜在表示，解码器可以在自编码器的框架下实现输出的可解释性。

此外，他们引入了一种名为自适应训练的新训练方案，以自适应地优化GEP组织。研究人员表示，他们的方法可以实现比以前最先进的方法更好的整体性能。

图示：TAPE工作流程和自适应阶段的说明。（来源：论文）

TAPE作为数字组织解剖的深度学习算法，它与以前方法的主要区别包括（1）高度准确和敏感的反卷积，以捕捉临床数据的生物学显著变化；(2)组织适应性细胞类型特异性基因表达谱预测，以识别细胞类型水平的潜在基因表达差异。TAPE受益于自编码器的架构和自适应阶段独特的训练方法。编码器-解码器架构使可解释的解码器能够回答编码器做出此类预测的原因。

更有趣的是，解码器是一个自然的特定于细胞类型的签名矩阵，可以在训练阶段之后学习，然后在自适应阶段之后适应批量数据。TAPE的特殊训练过程使其与其他方法有根本不同，其他方法仅预测细胞分数或需要大量队列批量RNA序列数据来计算细胞类型特异性GEP，或很难推断细胞类型特异的GEP中不显著的基因表达。

图示：基准数据集上反卷积算法的比较。（来源：论文）

TAPE的另一个优势是它在对大量样本进行反卷积时的超快速推理。TAPE在常用的图形处理单元(GPU)上运行，其速度可与最快的统计方法相媲美，甚至比之前的深度学习方法还要快。

尽管已经证明TAPE的反卷积性能在许多场景中都相当不错，但它在「罕见」场景中表现不佳，因为它显示出较低的CCC值。但是，在基准测试过程中，结果表明其他工具的性能在「罕见」情况下也会下降。这种现象表明当前的方法没有很好地解决「罕见」的情况，需要在未来的工作中加以解决。

在临床数据预测的场景下，TAPE能够稳定地预测临床病例中大多数细胞类型的比值变化，具有统计功效，其结果与以往相关临床研究一致。在实际使用过程中，为了使研究更有针对性，研究人员建议用户根据现有的实验证据从TAPE输出中选择他们想要进一步分析的细胞类型。

图示：TAPE和CSx的基因一致性。（来源：论文）

同时，TAPE可以自适应地预测细胞类型特异性GEP。但不可否认，它还可以进一步改进。首先，当使用「整体」模式研究基因水平的相关性时，大约30%的预测基因具有负相关性。尽管该方法的性能（中值CCC0.）优于CSx（中值CCC0.），但仍有很大的改进空间。

图示：从批量GEP和推断的GEP计算的DEG火山图。（来源：论文）

其次，当用它来预测DEGs时，TAPE很难预测适当的倍数变化，这部分是由归一化方法引起的，因为基因值在0和1之间归一化。然而，这种现象也可以在CIBERSORTx中观察到，这表明大样本和推断的细胞类型特异性GEP之间的信息丢失很难重建。在该研究的测试中，考虑到预测的foldchange不正确这一事实，研究人员仅使用t检验来查找p0.05的DEG，并且可以从该标准获得合理的DEG结果。

图示：DEG检测会受到相似细胞类型的影响（个随机选择的具有相似细胞类型的DEG）。（来源：论文）

第三，研究人员注意到如果DEG不是特征基因，CIBERSORTx和该方法都无法正确区分DEG和相似的细胞亚型，这意味着它们的分辨率仍然有限。但CIBERSORTx在区分特征DEG与相似细胞类型方面显示出其优势，因为结合了特征矩阵。

图示：在四种场景中对TAPE和CIBERSORTx进行综合测试。（来源：论文）

虽然该方法不能精确地预测来自细胞亚型的DEG，或者如果所有特征基因都是可能不会出现在现实世界中的DEG，则其性能比CIBERSORTx更好，但它仍然通过排除不相关的细胞类型来减少潜在的候选者。因此，他们的方法仍然有用，可以应用于现实生活场景以加速生物学研究。

图示：细胞特异性GEP的功能富集。（来源：论文）

受益于「高分辨率」模式下预测的细胞类型特异性GEP，它可以识别每个样本的每种细胞类型中特定的激活功能通路，这可能是该算法的另一个潜在优势。根据测试结果，研究人员可以确定参与功能失调通路的细胞类型。结合ssGSEA和TAPE可以帮助使用大量RNA-seq数据识别特定细胞类型中的特定功能障碍途径，这将基本上利用以前的群体转录组数据集。

总之，TAPE代表了一个广泛适用的框架，用于在细胞类型水平上破译组织的异质性，并为有监督的自动编码器执行域适应提供了一种实用的训练方案。考虑到它可以与其他工具无缝集成，相信TAPE将有助于研究单细胞数据与丰富的批量数据之间的联系。

论文链接：