这个软件很强大,但是坑也特别多,但是至少也比那些常年不更新,连给bug的机会都不给,因为你根本安装不上的的整合分析软件强多了!!!

基因整合位点的检测

0.1版本安装

用的软件是放在Github上的CTAT-VirusIntegrationFinder软件,这个软件是麻省理工学院和哈佛大学联合Broad Institute开发的软件,这个研究所声名远扬,如雷贯耳,去他们的Github主页看,就知道是开发picard和GTAK的大牛研究机构。

CTAT-VirusIntegrationFinderTrinity Cancer Transcriptome Analysis Toolkit 工具套件其中一个模块,CTAT-VirusIntegrationFinder顾名思义,主要是做病毒基因整合的检测。而整个套件中其他模块有做融合基因,有作突变位点,也有做CNV和SV的。总之就是很强大。

安装

现在Releases · broadinstitute/CTAT-VirusIntegrationFinder (github.com)上下载软件包,然后解压缩,看到一个download的sh文件,bash运行,注意要在联网环境下

tar -zxvf CTAT-VirusIntegrationFinder-v1.0.1.FULL.tar.gz
bash  download_cromwell.sh

注意,cromwell 必须要jdk 1.8.0+ 的环境,具体可以看我当时提的issue.这第一个坑,卡我了至少三天。

下载好后,就可以用make命令编译,如果没有报错,那么恭喜你你已经跳过安装最大的坑了,如果报错了,需要根据报错信息,进行环境的补全,可能文章后面的0.04版本的安装会给一些提示。

基因组索引

基因组索引需要在[网站](Index of /Trinity/CTAT_RESOURCE_LIB (broadinstitute.org))下载基本的源文件, 虽然解压缩后,这个文件夹里有很多文件,但是还是需要重新构建(你敢信,这个又卡了我三天,我以为直接可以用!!!,脸上笑眯眯,心里MMP)

Github上下载构建索引的脚本:

git clone https://github.com/NCIP/ctat-genome-lib-builder/
ls ctat-genome-lib-builder/prep_genome_lib.pl
# 查看位置
ctat-genome-lib-builder/prep_genome_lib.pl \
--genome_fa GRCh38.primary_assembly.genome.fa \
--gtf gencode.v37.annotation.gtf \
--dfam_db human \
--fusion_annot_lib fusion_lib.Mar2021.dat.gz \
--human_gencode_filter \
--pfam_db current

当这个运行可以构建基因,但是我的环境好像少了perl环境,服气了。

我还是直接从网站down构建好的基因组吧,果然下载构建好的基因,运行直接成功了。虽然这个构建好的基因组index有31G的大小,贼难下载的说。

~/wangjiaxuan/biosoft/CTAT-vif/ctat-vif \
--left ./genome_lib/test.fq   \
--genome_lib_dir ~/CTAT-vif/genome_lib/ctat_genome_lib_build_dir \
--sample_id yesimola \
-O ./test \
--cpu 2 \
--virus_type hpv33 # 这个参数是我自己加上的,原软件是没有的

以上就会运行成功,结果预览:

注意:因为脚本会默认用的是,来分割read,所以如果你的fq文件的reads名字增加了一些特殊字符是回报错的。所以针对这点需要在此基础上修改脚本,比如我就是修改成以~来作为分割符。

0.04版本安装时候的坑

最早期的时候安装过这个软件,但是踩了很多坑,后面作者更新(因为我们和作者联系,希望增加SE测序的支持,正好作者准备更新),所以我就重新走了一遍安装和索引流程,但我觉得之前的坑排雷经验也很重要,留下来做个备份。

也许对于其他环境的问题,之前的坑还在,只不过我这次更新,已经把之前的坑填了而已。

言归正传、CTAT-VirusIntegrationFinder需要在Github上下载,下载(先别下载有坑!看后面),运行参数很简单:

tat-VIF.py --left_fq reads_1.fastq \
            --right_fq reads_2.fastq \
            --genome_lib_dir /path/to/ctat_genome_lib_dir \
            --viral_db_fasta viruses.fasta

但其中主要是这个genome_lib_dir的文件需要构建参考库、当然也可以直接从已经构建上的数据库上下载。但是已经构建好的索引库太大,所以最好是下载其中源文件,然后自己进行构建库。具体可以看其他人的文章

好了,当构建好索引库,也不是万事大吉。首先因为该软件的Github仓库中有子模块,所以基本上你下载下来后,还是会发现少了一些文件。

解决方法看知乎上文章。 然后就算你用他的方法下载后,还是会发现CTAT-VirusIntegrationFinder/util/bamsifter中的htslib文件夹还有一个隐藏的子模块,所以上述操作还要再来一遍。下载完成后,你看在htslib文件中发现有个makefile的文件,终端输入make进行编译。

完成后,进行运行ctat-VIF.py ,然后就会报错,需要安装相应的python模块和R包,这个算是自己检查吧,但是接下来的才是一步步更加崩溃。

首先报错libstdc++.so.6: version GLIBCXX_3.4.21' not found,得了,需要进行LD库的更新,可以看文章.

我是去更新了系统变量

# gcc
export PATH=/share/app/gcc/9.3.0/bin:$PATH
export LD_LIBRARY_PATH="/share/app/gcc/9.3.0/lib64:$LD_LIBRARY_PATH"

这样才解决问题。

然后又报错,我检查了原始作者的py脚本,最后发现是我的samtool版本太低了,所以报错了。我简直要气爆炸了。忍忍,继续更新samtools。

更新好就可以成功运行了