细胞间相互作用(Cell-cell interaction, CCI)是多细胞生物生命活动的基础。细胞之间可以通过配体、受体、代谢物等信号分子进行信号传递,并构成复杂的相互作用网络,从而与细胞内调控网络一并实现对细胞形态与功能的动态调控[1]。近年来,单细胞转录组测序技术(Single-cell RNA-sequencing, scRNA-seq)的发展,使得通过计算手段预测CCIs成为可能,大量相应的预测方法应运而生[2],并在肿瘤微环境及组织发育等研究领域中得到了广泛应用[3, 4]。尽管此类方法可以基于scRNA-seq数据预测细胞间相互作用,但由于目前尚无可作为金标准的CCI数据集,无法高效验证计算预测结果的准确性[1, 5]。虽然目前可通过实验验证预测所得的相互作用,但也受较高的人力与物力成本限制,且无法同时对大批量的相互作用进行验证。随着CCI预测方法数量的逐渐上升,目前急需可替代的评估手段,以实现对不同方法预测结果准确性的快速评估。
2022年10月17日,同济大学王晨飞课题组在Genome Biology杂志上在线发表文章Evaluation of cell-cell interaction methods by integrating single-cell RNA sequencing data with spatial information,使用15套模拟与5套真实的配套单细胞与空间转录组数据,基于CCI的空间距离倾向和细胞类型空间分布距离的一致性,对16种CCI预测方法进行了结果准确性评估,并同时比较了不同预测方法结果的相似性与软件可拓展性。其中CellChat,CellPhoneDB与NicheNet相较其他预测方法展现出了更好的综合表现。
不同相互作用有着不同的作用范围,如自分泌(Autocrine)与邻分泌(Juxtacrine)型CCIs仅可在细胞自身或相互接触的细胞间发生,而旁分泌(Paracrine)与内分泌(Endocrine)型CCIs则在空间上具有较远的作用范围[1]。在实际体内环境中,CCIs发生的可能性受到对应配体、受体基因的表达水平与细胞在组织中的空间结构的共同影响,只有当细胞间的空间距离满足对应CCI的空间作用距离倾向时,相应CCI才更有可能发生。文章以此为切入点,通过量化衡量CCI的空间作用距离倾向与对应细胞类型之间空间分布距离的一致性,对不同CCI预测方法的准确性进行了评估。
文章首先基于CellChat内置的配体-受体相互作用数据库和空间转录组(Spatial transcriptomics, ST)数据,使用Wasserstein距离与置换检验定义了已知配体-受体相互作用的空间距离倾向性,将其分为长程和短程相互作用。然后,文章基于该空间距离倾向性,构建了一个综合的流程以评估CCI预测方法结果的准确性。对每一套配对scRNA-seq与ST数据,首先筛选出ST数据对应的短程与长程相互作用,并将其视作预期空间距离倾向。然后将CCI预测方法应用于对应的scRNA-seq与ST数据,记录预测所得CCIs(图1)。文章共评估了15种常用CCI预测方法和一种仅基于配体-受体基因表达水平乘积排序的基准方法(命名为”LR product”)。该15种CCI预测方法被文章依据算法类型分为如下三类:1) 基于统计型(Statistical-based):CellCall,CellChat,CellPhoneDB,ICELLNET,iTALK,SingleCellSignalR;2) 基于网络型(Network-based):Connectome,CytoTalk,Domino,NATMI,NicheNet,scMLnet;3) 基于ST数据型(ST-based):CellPhoneDB v3,Giotto,stLearn。接着文章使用配对scRNA-seq数据对ST数据进行细胞类型注释,依据各细胞类型位点间的平均欧式距离将配对的细胞类型划分为近距离(Near)分布和远距离(Far)分布,并将其视为所观测到的CCI的空间距离倾向性(图1)。基于GSEA[7]中的ES (Enrichment score),文章定义了距离富集分数(Distance enrichment score, DES)以量化期望与观测的CCI空间距离倾向的一致性,从而衡量CCI预测结果是否符合实际的空间分布。除空间距离一致性外,文章还基于多个预测方法的公共结果评估了不同方法结果的相似性(图1)。
图1 评估流程示意图
文章将评估流程应用于15套配对的scRNA-seq与ST模拟数据,并以此证明了DES评估指标可用于评估不同CCI预测方法的准确性。随后,文章将评估流程应用于5套共11个样本的真实数据上,并比较了各CCI预测方法在5套数据中的平均DES排名。CellChat,ICELLNET,SingleCellSignalR,NicheNet在5套真实数据中平均排名位于前列,其结果展现出了与期望空间距离倾向较好的一致性(图2 a)。综合真实数据与模拟数据中的DES排名,CellChat依然位列首位,体现出了其较好的预测准确性和稳健性(图2 b)。文章同时比较了各方法的平均运行时间与平均最大内存占用情况,基于统计的CCI预测方法由于使用的模型较为简单,故其普遍有着更小的内存占用与更短的运行时间(图2 c)。
图2 CCI预测方法综合评估结果与软件可拓展性
综上所述,文章基于CCI的空间分布倾向和细胞类型空间分布距离的一致性,构建了一套综合评估流程,评估16种CCI的方法的准确性,结果显示CellChat,CellPhoneDB与NicheNet等整合多模态信息的预测方法具有较优表现。此外,通过对不同CCI预测方法结果相似性的比较,文章也指出,由于不同方法的公共结果具有算法偏好性,即相似的算法更倾向于获得更多的公共结果,故不能使用公共结果衡量CCI预测准确性,其仅可作为结果相似性的参考。虽然基于统计的预测方法总体有着较高的结果相似性,但不同预测方法的结果仍有较大差异,所以文章最后也建议综合考虑多种方法的预测结果以提高准确性。
同济大学生命科学与技术学院王晨飞研究员为该论文通讯作者,同济大学生命科学与技术学院博士研究生刘朝阳为文章的第一作者。该项工作得到了国家自然科学基金委及上海市科委等项目的重要支持。
同济大学王晨飞课题组聚焦单细胞及空间多组学数据机器学习方法开发,并将其应用于解决肿瘤免疫微环境、胚胎发育过程中表观修饰及空间信息的异质性,探索其对细胞状态改变及命运决定的调控机制。课题组长期招收计算生物学、单细胞多组学方向的研究生及博士后,欢迎大家加入,联系邮箱:08chenfeiwang@tongji.edu.cn。
参考文献:
1. Armingol E, Officer A, Harismendy O, Lewis NE. Deciphering cell–cell interactions and communication from gene expression. Nature Reviews Genetics. 2021;22:71–88.
2. Shao X, Lu X, Liao J, Chen H, Fan X. New avenues for systematically inferring cell-cell communication: through single-cell transcriptomics data. Protein & Cell. 2020;11:866–80.
3. Browaeys R, Saelens W, Saeys Y. NicheNet: modeling intercellular communication by linking ligands to target genes. Nature Methods. 2020;17:159–62.
4. Camp JG, Sekine K, Gerber T, Loeffler-Wirth H, Binder H, Gac M, et al. Multilineage communication regulates human liver bud development from pluripotency. Nature. 2017;546:533–8.
5. Almet AA, Cang Z, Jin S, Nie Q. The landscape of cell–cell communication through single-cell transcriptomics. Current Opinion in Systems Biology. 2021;26:12–23.
6. Cherry C, Maestas DR, Han J, Andorko JI, Cahan P, Fertig EJ, et al.. Intercellular signaling dynamics from a single cell atlas of the biomaterials response. 2020.
7. Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA, et al. Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences. 2005;102:15545–50.