嗯,我是有脚本的

背景调研和思路是必不可少的, 分析只是思路的展示

前言

癌症基因组图谱计划([TCGA: The Cancer Genome Atlas Program](The Cancer Genome Atlas Program - National Cancer Institute), 通过收集整理癌症相关的各种组学数据,提供了一个大型的,免费的癌症研究参考数据库。目前共收录了33种癌症类型,超过了2个PB的数据,其中包括了基因表达数据、miRNA表达数据、拷贝数变异、DNA甲基化、SNP等。除此以外, 还有临床诊断信息, 预后信息,以及免疫组化切片等信息. 该数据是免费公开的,极大的帮助癌症研究者提高对癌症的预防,诊断和治疗。

image-20210822214646291

1. 下载数据

TCGA提供了下载数据的通道, 但也不是所有数据都可以下载,主要的下载的数据类型如下图所示, 基本覆盖了常用分析需要的数据.

image-20210822221227702

选择其中一种肿瘤类型,进行数据下载. 根据肿瘤类型, 需要下载的样本数据从100+到1000+不等.

2. 数据分组

下载数据后, 从分析的必要性上, 首先要进行分组. 其可以根据:

  1. 肿瘤亚型,例如肝癌 (PLC)可以再分为肝细胞癌 (HCC) 和肝内胆囊癌 (ICC)
  2. 某些基因的表达特征,比如肿瘤相关成纤维CAFs有时候细分为CD146+, 和CD146-
  3. 生信分析摸索,比如肿瘤微环境(TME)的得分, 又或者免疫细胞的丰富度等.

以上最好是在构思文章思路的时候, 就已经有一些基础的分组, 后续再根据分析结果, 酌情考虑新的分组方式. 否则一开始就生信摸索费时费力且缺乏主动性.

image-20210822231606090

3. 数据质控和矫正

TCGA的数据一般不需要质控图,不过需要的也可以增加, 例如相关性热图, 基因检出率, 基因表达分布, PCA图.当然TCGA的数据一般也不需要矫正, 酌情考虑.

图片

4. 差异分析

可以选择egdeR, Deseq2利用count值进行差异分析, 也可以选择用FPKM进行limma差异分析, 建议用Deseq2, 亲测会更好一些.

image-20210822223219156

5. 富集分析

一般生信分析往往会得到一些基因集合, 对于动则数百上千的基因, 去一个个做基因功能调研显然是很困难的, 富集分析的方法可以选择. 1)超几何检验富集 2)GSVA富集

image-20210823100313795

6. 免疫侵润

TCGA都是bulk-RNAseq测序, 是测序不到免疫细胞的种类和数目. 所以对于这种情况,往往需要根据Marker gene打分, 或者根据反卷积方法进行预测. 可选的方法和软件也比较多. 可选择的方法如下, 这些方法都可以得到多种免疫细胞的预估丰度.

建议用CIBERSORT和xCell来进行分析, 一个认可度高, 一个分群种类多.

image-20210822224604008

通过免疫侵润得分, 可以得到每个样本中, 各个类型免疫细胞的预估丰度, 间接的获得各个样本中免疫细胞的丰度. 再次基础上可以进行拓展分析.

结果展示方式, 可以通过热图, 堆叠图, 箱线图等来进行展示.

image-20210822225754783

7. TME分析

肿瘤微环境是肿瘤研究的热点, 肿瘤微环境被定义为肿瘤存在的细胞环境。这包括周围的血管、免疫细胞、成纤维细胞、其他细胞、信号分子以及细胞外基质(ECM)。根据文献调研收集整理了TME的11个评估指标(Bareche et al., 2020;JNCI, Puram et al., 2017 Cell).分别有: Lymphocyte,Cytolytic Activity, Hypoxia, Angiogenesis, Lymphangiogenesis, Stroma, CAF, Glycolysis, Lipid Metabolism, Pentose Phosphate Pathway, Oxidative phosphortlation.

利用GSVA打分, 进行TME分类和探究.

image-20210822231230816

8. Marker筛选和分子诊断

根据分组信息, 想获得不同分组间的分子标记, 进行临床上的诊断信息和治疗靶点等方向的探究, 可以运用随机森林进行biomarker查找, 再通过ROC曲线展现biomarker的稳健性. 再辅以已知标记物的相关性分析, 最终确定新发现biomarker的临床价值和准确性.

image-20210823102328774

9. 生存曲线

TCGA统计了大量病人的生预后信息, 根据上述分析的结果, 无论是从基因表达上分组, 还是从肿瘤亚型上分组, 或者肿瘤微环境, 以及其他指标打分等方面进行分组. 生存曲线都可以展示组间,处理和对照间的预后差异. 从而对临床具有一定的指导意义.

image-20210823092240235

10. 突变位点分析

同时从TCGA上可以下载SNP的数据,进行整合,可以用于展现不用癌症之间,或者不同亚型之间的突变情况差异。img

其他分析

文章不可能都是套路分析, 肯定有各自的特色分析内容, 针对上述没有包含的分析内容, 可以加以相应分析的参考文献, 经过文献调研后,看是否能够复现. 总体上而言:

  1. 如果原文有提供软件, 尤其是R包, 基本上都可以复现
  2. 如果分析内容, 只是一种可视化方式, 一般都可以复现
  3. 分析内容涉及到算法, 但是又不提供软件的, 基本上都比较困难复现

总结

目前这些分析内容的脚本都已经归纳整理,实现自动化分析,虽然不知道目前有啥用,但是让脚本能够实现自动化,并且整洁的结果,是生信的追求。

image-20220113202540801

跳转