嗯,我是有脚本的
背景调研和思路是必不可少的, 分析只是思路的展示
前言
癌症基因组图谱计划([TCGA: The Cancer Genome Atlas Program](The Cancer Genome Atlas Program - National Cancer Institute), 通过收集整理癌症相关的各种组学数据,提供了一个大型的,免费的癌症研究参考数据库。目前共收录了33种癌症类型,超过了2个PB的数据,其中包括了基因表达数据、miRNA表达数据、拷贝数变异、DNA甲基化、SNP等。除此以外, 还有临床诊断信息, 预后信息,以及免疫组化切片等信息. 该数据是免费公开的,极大的帮助癌症研究者提高对癌症的预防,诊断和治疗。

1. 下载数据
TCGA提供了下载数据的通道, 但也不是所有数据都可以下载,主要的下载的数据类型如下图所示, 基本覆盖了常用分析需要的数据.

选择其中一种肿瘤类型,进行数据下载. 根据肿瘤类型, 需要下载的样本数据从100+到1000+不等.
2. 数据分组
下载数据后, 从分析的必要性上, 首先要进行分组. 其可以根据:
- 肿瘤亚型,例如肝癌 (PLC)可以再分为肝细胞癌 (HCC) 和肝内胆囊癌 (ICC)
- 某些基因的表达特征,比如肿瘤相关成纤维CAFs有时候细分为CD146+, 和CD146-
- 生信分析摸索,比如肿瘤微环境(TME)的得分, 又或者免疫细胞的丰富度等.
以上最好是在构思文章思路的时候, 就已经有一些基础的分组, 后续再根据分析结果, 酌情考虑新的分组方式. 否则一开始就生信摸索费时费力且缺乏主动性.

3. 数据质控和矫正
TCGA的数据一般不需要质控图,不过需要的也可以增加, 例如相关性热图, 基因检出率, 基因表达分布, PCA图.当然TCGA的数据一般也不需要矫正, 酌情考虑.

4. 差异分析
可以选择egdeR, Deseq2利用count值进行差异分析, 也可以选择用FPKM进行limma差异分析, 建议用Deseq2, 亲测会更好一些.

5. 富集分析
一般生信分析往往会得到一些基因集合, 对于动则数百上千的基因, 去一个个做基因功能调研显然是很困难的, 富集分析的方法可以选择. 1)超几何检验富集 2)GSVA富集

6. 免疫侵润
TCGA都是bulk-RNAseq测序, 是测序不到免疫细胞的种类和数目. 所以对于这种情况,往往需要根据Marker gene打分, 或者根据反卷积方法进行预测. 可选的方法和软件也比较多. 可选择的方法如下, 这些方法都可以得到多种免疫细胞的预估丰度.
建议用CIBERSORT和xCell来进行分析, 一个认可度高, 一个分群种类多.

通过免疫侵润得分, 可以得到每个样本中, 各个类型免疫细胞的预估丰度, 间接的获得各个样本中免疫细胞的丰度. 再次基础上可以进行拓展分析.
结果展示方式, 可以通过热图, 堆叠图, 箱线图等来进行展示.

7. TME分析
肿瘤微环境是肿瘤研究的热点, 肿瘤微环境被定义为肿瘤存在的细胞环境。这包括周围的血管、免疫细胞、成纤维细胞、其他细胞、信号分子以及细胞外基质(ECM)。根据文献调研收集整理了TME的11个评估指标(Bareche et al., 2020;JNCI, Puram et al., 2017 Cell).分别有: Lymphocyte,Cytolytic Activity, Hypoxia, Angiogenesis, Lymphangiogenesis, Stroma, CAF, Glycolysis, Lipid Metabolism, Pentose Phosphate Pathway, Oxidative phosphortlation.
利用GSVA打分, 进行TME分类和探究.

8. Marker筛选和分子诊断
根据分组信息, 想获得不同分组间的分子标记, 进行临床上的诊断信息和治疗靶点等方向的探究, 可以运用随机森林进行biomarker查找, 再通过ROC曲线展现biomarker的稳健性. 再辅以已知标记物的相关性分析, 最终确定新发现biomarker的临床价值和准确性.

9. 生存曲线
TCGA统计了大量病人的生预后信息, 根据上述分析的结果, 无论是从基因表达上分组, 还是从肿瘤亚型上分组, 或者肿瘤微环境, 以及其他指标打分等方面进行分组. 生存曲线都可以展示组间,处理和对照间的预后差异. 从而对临床具有一定的指导意义.

10. 突变位点分析
同时从TCGA上可以下载SNP的数据,进行整合,可以用于展现不用癌症之间,或者不同亚型之间的突变情况差异。
其他分析
文章不可能都是套路分析, 肯定有各自的特色分析内容, 针对上述没有包含的分析内容, 可以加以相应分析的参考文献, 经过文献调研后,看是否能够复现. 总体上而言:
- 如果原文有提供软件, 尤其是R包, 基本上都可以复现
- 如果分析内容, 只是一种可视化方式, 一般都可以复现
- 分析内容涉及到算法, 但是又不提供软件的, 基本上都比较困难复现
总结
目前这些分析内容的脚本都已经归纳整理,实现自动化分析,虽然不知道目前有啥用,但是让脚本能够实现自动化,并且整洁的结果,是生信的追求。
