以10x Visium为主要例子,说明基于空间条形码测序数据的常见分析流程。
预处理和表达增强
通常,在基于空间条形码的ST技术中,每个测序点都标记有spatial barcode与UMI,用于捕获RNA序列并测量相应位置的特定基因表达。然而,实验证据揭示了一种现象,称为“spot swapping”,即相邻点之间的交叉污染,这可能对ST分析构成挑战。因此,研究者开发了一个名为SpotClean的概率框架来减轻点交换在ST实验中的影响,并进一步增强下游分析[92]。这个概率模型通过去除点交换污染,为每个点的每个基因提供更准确的UMI计数估计。此外,SpotClean在标记基因识别和空间域检测方面显示出显著的改进。
ST测序的低深度与较低的捕获效率相关,从而导致更高的dropout率。最近,一些计算工具被开发出来,通过聚合空间邻近点的表达数据来填补由于dropout导致的缺失表达水平。此外,这些方法中的一些在选择空间邻近点时还考虑了在组织学图像中观察到的组织结构的相似性。其中一种方法,Sprod,采用潜在图学习技术整合基因表达数据和成像数据,允许精确的ST基因表达的插补和去噪[93]。另一种方法,MIST,能够进行区域检测、边界检测和基于区域的缺失表达值的插补[94]。基于预定的区域,MIST利用基于区域的小批次低秩近似算法,通过平均所有小批次的结果来估计最终去噪的表达值。另一方面,GNTD是一种图引导的神经张量分解模型,旨在重建组织中的整个空间转录组[95]。GNTD采用分层张量结构和形式,通过三层神经网络的分层非线性分解,明确地建模高阶空间基因表达数据。该模型通过结合空间邻域关系和先前的基因功能模块,确保了ST表达数据的准确重建。插补后的空间转录组提供了更完整的基因表达图谱,促进了下游分析,如空间域检测、空间共表达基因簇的功能解释、差异表达分析、通路富集和细胞间相互作用推断。
提升ST数据的分辨率也是表达增强的一种形式,旨在提高测序区域的表达分辨率,并恢复未测序区域的高分辨率表达。相关算法主要分为两类:
- 利用空间平滑假设进行表达外推的算法;
包括DIST和BayesSpace。DIST是一种深度学习方法,结合了自监督和迁移学习技术,以细化原始测量点和未测量位置的基因表达数据。BayesSpace通过采用一种基于马尔可夫随机场的贝叶斯统计方法,利用空间邻域信息,在sub-spot分辨率上剖析ST数据。
- 利用高分辨率图像预测spot-level表达并进一步实现高分辨率表达恢复的算法。
这类方法利用图像信息获得像素级分辨率的ST数据。XFuse整合空间转录组数据与同时获取的组织学图像,推断未被测量点覆盖区域的基因表达谱[98]。ImSpiRE采用一种最优传输方法,从现有点重新分配表达谱,从而创建具有更高分辨率的精细转录谱[99]。ImSpiRE还具有在未直接测量的区域插补基因表达谱的能力。TESLA生成超像素,通过聚合空间邻近点具有相似组织学图像的表达,预测超像素的表达水平[100]。随后,TESLA可以在组织学图像上以超像素级分辨率注释不同的肿瘤/肿瘤微环境细胞类型。
归一化
空间转录组数据的归一化对于点或基因之间表达值的比较至关重要。这个处理步骤可以近似于单细胞转录组数据的归一化。常见的一种方法是单细胞转录组数据分析中的文库大小归一化方法,即将每个点的特征计数除以该点的总计数,然后乘以一个尺度因子。然而,这种方法并不严格,因为ST数据中每个点的总读取计数本质上反映了组织形态和局部细胞密度的相关特征[142]。单细胞或ST测序数据的性质由于技术影响在个体细胞或点之间引入了显著的变异,从而将技术变异与生物多样性交织在一起。为了解决这个问题,开发了scTransform用于归一化和稳定分子计数数据的方差[101]。这种方法涉及通过正则化负二项回归获得的Pearson残差,其中测序深度作为广义线性模型中的协变量。通过应用这种方法,有效地过滤掉数据中的技术偏差,从而保留真正的生物变异性,并使下游分析更加准确。
空间可变基因的识别
准确识别空间可变基因(spatially variable genes, SVGs)对于定位不同细胞类型和促进聚类过程至关重要。SVG检测方法可以根据其利用空间坐标的方式大致分为三类:空间核方法、有标记点过程方法和基于相关的方法。空间核方法,如SpatialDE[102]和SPARK[103],主要利用高斯核和高斯过程回归模型来定义细胞或点之间的空间关系。基于有标记点过程的方法包括trendsceek[104]和scGCO[105]。例如,scGCO将基因表达建模为一个有标记点过程,将表达值离散化为不同的bin以表示观察到的基因表达状态。SPARK-X作为第三类方法的代表,通过定义基因表达值与空间坐标之间的一类相关性来有效检测空间表达的基因[106]。最近增加的方法包括STAMarker,它通过集成图注意力自编码器、多层感知器(MLP)分类器和反向传播梯度计算的显著图,体现了三阶段集成框架[107]。这种方法同时处理所有基因,并且善于定位空间域特异的SVGs。
空间域检测
与单细胞转录组数据的聚类分析相比,ST聚类不仅结合了每个点的表达值,还结合了空间位置信息和组织学图像信息。解决这个问题的方法通常可以分为三类。第一类以stLearn[108]为代表,基于形态相似性和空间位置进行基因表达的空间平滑。随后,它采用标准的Louvain聚类程序来检测空间域。第二类方法基于标准的隐马尔可夫随机场(HMRF)框架开发,允许表示域类别的潜在状态在空间上连续。代表性工具包括BayesSpace[97]、Giotto[109]、SC-MEB[110]、DR-SC[111]和BASS[112]。以Giotto为例,它首先选择空间差异表达基因,然后利用HMRF聚类来检测空间域。第三类方法采用图神经网络(GNNs)处理从空间位置、表达数据和可能的组织学图像信息中衍生的图。这种方法通过学习点之间的复杂关系来增强点嵌入,从而最终改善空间域和基因表达模式的检测。代表性算法包括SpaGCN[113]、STAGATE[114]、CCST[115]和GraphST[116]。例如,GraphST将图神经网络与自监督对比学习相结合,以改善点的表示。它优化了空间邻近或遥远点之间的嵌入距离,以获得信息丰富且具有辨别力的点表示,最终实现了基于空间信息的聚类、整合和去卷积。
去卷积
去卷积是一种在bulk RNA测序中广泛使用的方法,用于将混合表达信号区分为可识别的细胞类型。在空间转录组学中,例如在Visium平台上,每个点聚合了来自多个细胞的转录本,因此去卷积方法变得尤为有用。通常,这种方法使用细胞类型注释的单细胞测序数据作为参考,促进了对每个点内细胞类型比例的准确估计,从而揭示了组织微环境的复杂性和潜在的细胞结构。该领域已经开发了多种工具来有效地进行去卷积,如SPOTlight[117]、SpatialDWLS[118]、DSTG[130]、cell2location[119]、CARD[120]、RCTD[123]、destVI[121]和STRIDE[122]。SPOTlight利用有种子非负矩阵分解(NMF)回归将ST信息与scRNA-seq数据进行去卷积。DSTG通过模拟细胞混合物生成伪ST数据,并利用基于图的卷积网络进行去卷积。Cell2location是一种贝叶斯模型,展示了在ST数据中解析细粒度细胞类型并高敏感度和高分辨率地整合单细胞和ST数据的能力。为了评估和比较这些算法的性能,已进行了一些基准研究,为选择合适的方法进行点的细胞类型去卷积提供了宝贵的见解[143, 144]。
另一类去卷积方法称为无参考去卷积方法,这些方法不需要单细胞转录组数据作为参考。代表性方法包括CARDfree[120]、STdeconvolve[124]和SMART[125]。在肿瘤的空间转录组样本中,由于肿瘤细胞的异质性,估计癌细胞丰度特别具有挑战性。SpaCET[126]通过整合拷贝数变异和表达变化的基因模式字典来估计癌细胞丰度。此外,它采用约束回归模型来确定免疫细胞和基质细胞谱系的比例。然而,这些方法的一个局限是,它们只能估计给定点的细胞类型比例,而不能提供单细胞水平的去卷积。
另一种方法是增强ST数据以达到单细胞分辨率。工具如CellTrek[127]和CytoSPACE[128]将ST数据中每个单细胞的最可能空间位置进行分配,随后估计组织内的细胞组成。SpatialScope[129]利用深度生成模型精确地将每个点的观察基因表达分解为单细胞水平的基因表达。
细胞间通信
细胞相互作用调节多种生物活动,对于维持器官和组织中细胞的功能性和微环境的稳态至关重要。为了分析单细胞转录组数据中的细胞相互作用,有几种优秀的分析软件工具,如CellPhoneDB[131]和CellChat[132]。这些算法通常涉及随机化细胞标签,并使用置换检验来估计细胞相互作用的显著性。值得注意的是,这些软件工具已经更新,能够在分析中整合空间信息。
CellChat采用基于质量作用的模型来计算两组细胞之间信号传递的可能性。该模型考虑了多亚基结构的配体和受体之间的基本相互作用,以及辅因子的影响。增强版CellChat v2整合了细胞的实际空间位置,以推导近距离空间邻近细胞之间的通信[133]。另一方面,CellPhoneDB利用空间信息的方式更为直接,通过限制共享微环境的簇(细胞类型)才会形成相互作用[131, 145]。因此,它仅在簇共存于同一微环境中时测试簇的组合。
SpaOTsc使用在scRNA-seq数据和空间数据之间的最优传输映射来构建scRNA-seq数据中细胞的空间度量,并重建空间约束的细胞间通信网络[134]。SpaOTsc的主要作者后来提出了COMMOT,它考虑了细胞之间的空间距离,有助于推导不同配体和受体之间的竞争动态[135]。这种方法为检查肿瘤生态系统中免疫细胞和肿瘤细胞之间的空间相互作用提供了新视角。
多切片的对齐与整合
多切片空间转录组数据的对齐与整合是当前空间数据分析中的一个挑战,主要可以分为三类:重建三维(3D)结构、识别共享空间域以及揭示生物过程的动态。
对于3D结构的重建,可以使用PASTE[138]、PASTE2[139]、SLAT[140]和SPACEL[136]等方法。这些方法通常涉及对不同切片之间的点进行对齐,或者执行不同切片的坐标变换和旋转,以实现由多个切片组成的3D结构。例如,PASTE利用最优传输公式计算切片的成对对齐,然后将其组合以构建组织的堆叠3D对齐[138]。PASTE2允许部分对齐和3D重建,适应对齐切片之间的部分重叠和/或切片特异性细胞类型[139]。基于最小成本二分匹配问题的SLAT对来自两个切片的相似嵌入点进行对齐[140]。对于带有预标记空间域的多切片数据集,SPACEL的Scube模块有助于跨连续切片的空间坐标系转换,允许构建3D结构[136]。
STAGATE[114]、SPACEL[136]、SpaGCN[113]、STAligner[137]和STitch3D[141]是常用于跨多个切片识别空间共享域的工具。STAGATE通过同时考虑每个切片内的二维空间邻居网络(SNN)和相邻切片之间的邻近点,缓解了连续切片之间的批次效应,并实现了3D空间域识别[114]。SPACEL的Splane模块采用图卷积网络和对抗学习算法来识别共享空间域[136]。SpaGCN通过手动拼接和校准两个相邻切片来构建一个大图,利用图卷积网络(GCN)实现联合降维和聚类[113]。STAligner采用图注意力神经网络,实现了空间感知数据整合和同时的空间域识别[137]。STitch3D通过联合建模多个切片,增强点表示和细胞类型比例估计,促进了3D空间区域的识别和3D细胞类型分布的揭示。
第三类任务是揭示与发育相关的空间转录组数据中的动态生物过程,这可以通过SLAT[140]和STAligner[137]等算法实现。例如,Zhou等人通过在小鼠器官发生的四个连续阶段之间建立相同空间域的连接,并生成一个无环有向图,重建了每个组织结构的发育轨迹[137]。目前,由于获取具有时间信息的肿瘤样本的挑战,这种应用在肿瘤学领域的应用较为有限。