这个软件很强大,但是坑也特别多,但是至少也比那些常年不更新,连给bug的机会都不给,因为你根本安装不上的的整合分析软件强多了!!!
基因整合位点的检测
0.1版本安装
用的软件是放在Github上的CTAT-VirusIntegrationFinder软件,这个软件是麻省理工学院和哈佛大学联合Broad Institute开发的软件,这个研究所声名远扬,如雷贯耳,去他们的Github主页看,就知道是开发picard和GTAK的大牛研究机构。
CTAT-VirusIntegrationFinder是Trinity Cancer Transcriptome Analysis Toolkit 工具套件其中一个模块,CTAT-VirusIntegrationFinder顾名思义,主要是做病毒基因整合的检测。而整个套件中其他模块有做融合基因,有作突变位点,也有做CNV和SV的。总之就是很强大。
安装
现在Releases · broadinstitute/CTAT-VirusIntegrationFinder (github.com)上下载软件包,然后解压缩,看到一个download的sh文件,bash运行,注意要在联网环境下
tar -zxvf CTAT-VirusIntegrationFinder-v1.0.1.FULL.tar.gz
bash download_cromwell.sh
注意,cromwell 必须要jdk 1.8.0+ 的环境,具体可以看我当时提的issue.这第一个坑,卡我了至少三天。
下载好后,就可以用make
命令编译,如果没有报错,那么恭喜你你已经跳过安装最大的坑了,如果报错了,需要根据报错信息,进行环境的补全,可能文章后面的0.04版本的安装会给一些提示。
基因组索引
基因组索引需要在[网站](Index of /Trinity/CTAT_RESOURCE_LIB (broadinstitute.org))下载基本的源文件, 虽然解压缩后,这个文件夹里有很多文件,但是还是需要重新构建(你敢信,这个又卡了我三天,我以为直接可以用!!!,脸上笑眯眯,心里MMP)
从Github上下载构建索引的脚本:
git clone https://github.com/NCIP/ctat-genome-lib-builder/
ls ctat-genome-lib-builder/prep_genome_lib.pl
# 查看位置
ctat-genome-lib-builder/prep_genome_lib.pl \
--genome_fa GRCh38.primary_assembly.genome.fa \
--gtf gencode.v37.annotation.gtf \
--dfam_db human \
--fusion_annot_lib fusion_lib.Mar2021.dat.gz \
--human_gencode_filter \
--pfam_db current
当这个运行可以构建基因,但是我的环境好像少了perl环境,服气了。
我还是直接从网站down构建好的基因组吧,果然下载构建好的基因,运行直接成功了。虽然这个构建好的基因组index有31G的大小,贼难下载的说。
~/wangjiaxuan/biosoft/CTAT-vif/ctat-vif \
--left ./genome_lib/test.fq \
--genome_lib_dir ~/CTAT-vif/genome_lib/ctat_genome_lib_build_dir \
--sample_id yesimola \
-O ./test \
--cpu 2 \
--virus_type hpv33 # 这个参数是我自己加上的,原软件是没有的
以上就会运行成功,结果预览:
注意:因为脚本会默认用的是
,
来分割read,所以如果你的fq文件的reads名字增加了一些特殊字符是回报错的。所以针对这点需要在此基础上修改脚本,比如我就是修改成以~
来作为分割符。
0.04版本安装时候的坑
最早期的时候安装过这个软件,但是踩了很多坑,后面作者更新(因为我们和作者联系,希望增加SE测序的支持,正好作者准备更新),所以我就重新走了一遍安装和索引流程,但我觉得之前的坑排雷经验也很重要,留下来做个备份。
也许对于其他环境的问题,之前的坑还在,只不过我这次更新,已经把之前的坑填了而已。
言归正传、CTAT-VirusIntegrationFinder需要在Github上下载,下载(先别下载有坑!看后面),运行参数很简单:
tat-VIF.py --left_fq reads_1.fastq \
--right_fq reads_2.fastq \
--genome_lib_dir /path/to/ctat_genome_lib_dir \
--viral_db_fasta viruses.fasta
但其中主要是这个genome_lib_dir的文件需要构建参考库、当然也可以直接从已经构建上的数据库上下载。但是已经构建好的索引库太大,所以最好是下载其中源文件,然后自己进行构建库。具体可以看其他人的文章。
好了,当构建好索引库,也不是万事大吉。首先因为该软件的Github仓库中有子模块,所以基本上你下载下来后,还是会发现少了一些文件。
解决方法看知乎上文章。 然后就算你用他的方法下载后,还是会发现CTAT-VirusIntegrationFinder/util/bamsifter
中的htslib文件夹还有一个隐藏的子模块,所以上述操作还要再来一遍。下载完成后,你看在htslib文件中发现有个makefile
的文件,终端输入make
进行编译。
完成后,进行运行ctat-VIF.py
,然后就会报错,需要安装相应的python模块和R包,这个算是自己检查吧,但是接下来的才是一步步更加崩溃。
首先报错libstdc++.so.6: version GLIBCXX_3.4.21' not found
,得了,需要进行LD库的更新,可以看文章.
我是去更新了系统变量
# gcc
export PATH=/share/app/gcc/9.3.0/bin:$PATH
export LD_LIBRARY_PATH="/share/app/gcc/9.3.0/lib64:$LD_LIBRARY_PATH"
这样才解决问题。
然后又报错,我检查了原始作者的py脚本,最后发现是我的samtool版本太低了,所以报错了。我简直要气爆炸了。忍忍,继续更新samtools。
更新好就可以成功运行了