近期,英国上市公司官网365/医学院临床研究中心俞章盛教授课题组与合作者《Nature Communications》在线发表“HEARTSVG: a fast and accurate method for identifying spatially variable genes in large-scale spatial transcriptomics”论文。该研究提出了一种用于快速、精确检测大规模空间转录组数据中空间可变基因(SVG)的方法——HEARTSVG,并揭示了其在肿瘤研究等领域的重要应用。我院博士生袁欣为论文第一作者,我院/医学院临床研究中心俞章盛教授和耶鲁大学生物统计系马双鸽教授为共同通讯作者。
空间转录组学能够测量组织中的基因表达和位置信息,其技术的发展为组织结构重建及多个领域提供了深刻见解。在空间转录组学研究中,识别空间可变基因(SVG)有助于理解疾病的时空特征和组织结构。然而,空间转录组学数据的复杂性和高维性对分析方法提出了新挑战,现有用于检测SVG的方法在大规模数据集适用性、计算效率、准确性等方面存在局限性。该研究提出的HEARTSVG方法是一种无需预设数据分布的统计测试方法,通过排除non-SVG基因来推断SVG的存在,因此能在各种ST数据集中以高精度、有效性和泛化性识别任何空间表达模式的SVG,并适用于大规模空间转录组学数据。
图1 HEARTSVG流程图
该研究假定non-SVG的空间表达为独立同分布,因此其边际表达也独立同分布,而SVG的空间表达和边际表达则存在序列相关性。因此算法HEARTSVG利用semi-pooling processing将基因的二维空间表达转换为一维边际表达序列,通过Portmanteau测试检验序列自相关,然后结合Stouffer方法和Holm方法确定最终p值,以识别SVG。对应的R package还提供了自动聚类模块,用于预测空间域、进行功能研究和可视化。团队进行了广泛模拟,并将HEARTSVG应用于不同技术生成的12个真实ST数据集,证明了其准确性、有效性和计算效率。
图2 HEARTSVG应用于人类结直肠癌数据集
团队将HEARTSVG应用于不同空间技术的ST数据集,在10X Visium技术生成的人类结直肠癌数据集中,HEARTSVG鉴定出的SVG表现出显著生物学相关性,在肿瘤相关KEGG通路中显示出优势,能预测空间域并有效检测具有不同空间表达模式的SVG。
图3 HEARTSVG应用于小鼠小脑数据集
在分析Slide-seqV2技术生成的小鼠小脑数据时,HEARTSVG能检测到具有空间限制表达模式的细胞类型标记基因,进行组织特异性富集分析,证明在结构复杂的组织中检测SVGs的可靠性。
在其他不同空间技术和其他癌症的ST数据集中,该方法也表现出良好的性能,展示了其通用性和卓越性。在MERFISH技术生成的小鼠视前下丘脑的两个数据集中,该方法能识别与细胞类型相关的SVG,且自动聚类模块获取的空间域与细胞类型相匹配。应用于HDST技术生成的小鼠嗅球数据时,HEARTSVG展示了在大规模稀疏数据集中的适用性。在分析原发性肝癌和肾细胞癌脑转移的ST数据集时,该方法展示了其在癌症研究中的通用性和卓越性能。总体而言,HEARTSVG是一种检测空间可变基因的强大方法,能够识别任意形状的空间表达模式。其自动聚类模块有助于预测不同肿瘤相关空间域,为理解肿瘤组织的生物学复杂性提供了新视角。
该研究得到了国家自然科学基金、上海市科学技术委员会基金、上海交通大学“医工交叉研究基金”等项目资助。同时感谢上海交通大学高性能计算中心“思源一号”集群平台提供的技术支持。
论文链接:
https://www.nature.com/articles/s41467-024-49846-1