软件速递 | 如何快速预览单细胞水平的基因组变异情况?

肿瘤组织是由正常细胞和肿瘤细胞组成的复杂组织,在以往基因组或转录组的研究中,很难对其中各种细胞间关系和组织微环境进行系统全面的解释。那么,如何将其与单细胞技术结合,根据单细胞水平的基因表达情况对每一个细胞进行精确分类呢?

单细胞测序中,对肿瘤组织细胞进行分类的方法通常基于无监督聚类分析,根据已知Marker基因的表达对细胞类型进行判定,以及基于拷贝数变异(copy number variation, CNV)从单细胞的表达数据推断细胞类型。前者基于聚类分析的方法可能受到多种因素影响,包括聚类算法、用于注释的Marker基因选择等,准确判定需要结合大量过往生物学知识;而后者基于cnv的方法则需要进行大量密集型计算,相对耗时。

因此,Mariano Alvarez 团队提出了一种名为基因组不稳定性分析(genomic instability analysis, GIA)的新方法,运行速度相比inferCNV快至少5~6倍,能够快速评估单个细胞内的基因组变化情况,辅助肿瘤细胞的判定。

Genomic Instability原理

该软件使用aREA算法,对单细胞基因表达谱中的连续编码基因(位点块)进行富集分析,从而定量估计出基因表达与染色体位置之间的关联性(inferCNV)。

genomicInstability软件主要整合了三大功能函数:

①inferCNV:量化表达谱与位点块之间的关联函数;

②genomicInstabilityScore:估计每个细胞的基因组不稳定性评分;

③giLikelihood:估计每个细胞基因组不稳定的可能性。

基因组不稳定性分析

2.1 不稳定性打分和高斯建模

首先根据物种信息(人/小鼠),对表达数据的基因和蛋白ID进行匹配,得到与数据库基因位点块对应的表达数据,从而进行关联性分析。软件用归一化富集分数(NES)表示每个细胞在每个位点块的富集程度,该位点块富集到的基因表达范围越广,NES离散度越大,该区域的基因组不稳定性也越高。接着根据富集分数计算基因组不稳定性评分(GIS),并对整体细胞建立多个高斯模型。最后,根据GIS由高斯模型确定细胞基因组不稳定概率(gi_likelihood_score)。

表1 不同细胞基因组不稳定性评分示

从表1可以看出,control组较case组的细胞基因组不稳定概率更低,可以较明显的区分开肿瘤和非肿瘤细胞。

2.2 模型可视化和CNV热图

分析过程中会默认建立三个高斯模型,在不同高斯模型中,具有最低GIS均值的细胞被定义为基因组稳定细胞,其他模型则代表基因组不稳定细胞(即肿瘤细胞)。由图1可以看出,灰色/蓝色模型中更多的是GIS在-1 ~1.5 的非肿瘤细胞,而肿瘤细胞主要集中在右侧GIS大于1.5的橙色模型中。

图1 基因组不稳定性评分分布以及高斯模型示例

根据基因组不稳定性评分(GIS)和不稳定概率,可以绘制染色体水平热图和featureplot,从而更直观地看出基因组、各clusters细胞的不稳定情况。图2热图中,红色表示位点块区域存在扩增,蓝色则表示存在缺失或删除,其中Unstable表示细胞gi_likelihood_score 大于0.8, Stable 小于0.2。

图2 染色体水平的位点块富集热图示例

图3 featureplot图中,红色区域表示细胞有较高的不稳定性,可以看出右侧一小簇细胞有更高的不稳定性。

图3 基因组不稳定性featureplot可视化示例

genomicInstability软件能够根据单细胞基因表达数据,快速预估每个细胞是肿瘤细胞或正常细胞的概率,为肿瘤细胞的判定提供参考。

参考文献:

[1] Patel, A. P. et al. Single-cell RNA-seq highlights intratumoral heterogeneity in primary glioblastoma. Science 344, 1396–1401 (2014).

[2] Puram, S. V. et al. Single-Cell Transcriptomic Analysis of Primary and Metastatic Tumor Ecosystems in Head and Neck Cancer. Cell 171, 1611–1624 (2017).

[3] Muller, S. & Diaz, A. Single-Cell mRNA Sequencing in Cancer Research: Integrating the Genomic Fingerprint. Front. Genet. 8, 73 (2017).

[4] Fan, J., Slowikowski, K. & Zhang, F. Single-cell transcriptomics in cancer: computational challenges and opportunities. Exp. Mol. Med. 52, 1452–1465 (2020).

[5] Fan, J. et al. Linking transcriptional and genetic tumor heterogeneity through allele analysis of single-cell RNA-seq data. Genome Res. 28, 1217–1227 (2018).

[6] Serin Harmanci, A., Harmanci, A. O. & Zhou, X. CaSpER identifies and visualizes CNV events by integrative analysis of single-cell or bulk RNA-sequencing data. Nat. Commun. 11, 89 (2020)

[7] Alvarez, M. J. et al. Functional characterization of somatic mutations in cancer using network-based inference of protein activity. Nat. Genet. 48, 838–47 (2016).

本文系欧易生物原创

关键词: 不稳定性 肿瘤细胞 基因表达

推荐DIY文章
主机存在磨损或划痕风险 PICO4便携包宣布召回
穿越湖海!特斯拉Cybertruck电动皮卡可以当“船”用
vivoXFold+折叠旗舰开售 配备蔡司全焦段旗舰四摄
飞凡R7正式上市 全系标配换电架构
中兴Axon30S开售 拥有黑色蓝色两款配色
荣耀MagicBookV14 2022正式开售 搭载TOF传感器
it