首先提醒一下,该工具需要下载 108 G 的数据库文件才能运行,而且仅仅是针对hg19这一个参考基因组。但是因为其发表的非常早,即使不好用,也仍然是目前最主流的转录组数据找融合基因工具之一。 该工具发表于 2011,文章是deFuse: An Algorithm for Gene Fusion Discovery in Tumor RNA-Seq Data 软件,其readme写的非常简陋:https://sourceforge.net/p/defuse/wiki/DeFuse/ ,不过其bitbucket上面稍微详细一点; https://bitbucket.org/dranew/defuse 但是可以用conda来安装,不过其依赖比较多,如果conda没有配置好,估计好几天才能安装成功。 conda install -c dranew defuse
因为在海外,所以几分钟就OK拉,或者下载源代码自己安装咯 mkdir -p ~/biosoft/defuse
cd ~/biosoft/defuse
wget https://sourceforge.net/projects/defuse/files/defuse/0.6/defuse-0.6.2.tar.gz
## 依赖非常多的软件,自己安装太费劲
tar zxvf defuse-0.6.2.tar.gz
head ~/biosoft/defuse/defuse-0.6.2/scripts/config.txt ## 这个配置文件需要修改的东西太多了。
运行该软件直接从fastq数据开始,它自己承包了比对这个任务,所以需要非常复杂的参考基因组及注释文件数据库构建。虽然它只有一个代码即可,但是耗费一整天的时间下载数据库。 运行也非常简单,示例代码如下: defuse_create_ref.pl -d dataset_directory -c myconfig.txt ## 超过12个小时
run_defuse.pl -d dataset_directory -1 reads1.fq -2 reads2.fq -o output_dir
上面的代码会使用 myconfig.txt 文件,在该软件的源代码压缩包里面有示例文件 ~/biosoft/defuse/defuse-0.6.2/scripts/config.txt ,需要修改适应自己的系统,主要是修改 source_directory 和 dataset_directory ,详细说明如下: #
# Configuration file for defuse
#
# At a minimum, replace all values enclosed by []
#
# For example:
# source_directory = /path/to/defuse
#
ensembl_version = 69
ensembl_genome_version = GRCh37
ucsc_genome_version = hg19
# Directory where the defuse code was unpacked
source_directory = [Where you unpacked the defuse code]
# Directory where you want your dataset
dataset_directory = [Where you intend to store the reference dataset]
# Input genome and gene models
gene_models = $(dataset_directory)/Homo_sapiens.$(ensembl_genome_version).$(ensembl_version).gtf
genome_fasta = $(dataset_directory)/Homo_sapiens.$(ensembl_genome_version).$(ensembl_version).dna.chromosomes.fa
太麻烦,所有的中括号里面的东西都需要修改,该软件默认调用 gmap这个软件来做转录组数据的比对,所以还需要提供gmap的转录组索引文件。 但是因为是用conda进行安装的,所以一切都被安排好了,只需要找到自己想存放数据的地址,然后运行即可。 mkdir -p ~/biosoft/defuse/database/
nohup defuse_create_ref.pl -d ~/biosoft/defuse/database/ &
## 还是取决于网速,需要下载 108G 的文件, 仅仅是针对hg19这个参考基因组
## 84G /home/jianmingzeng/biosoft/defuse/database/gmap
## 108G /home/jianmingzeng/biosoft/defuse/database/
## 自己检查 ~/biosoft/defuse/database/ 文件夹的下载情况咯。
### 该脚本会自动调用conda为defuse配置好的config.txt
## 如果是其它物种,可以修改 ~/miniconda3/pkgs/defuse-0.8.1-r3.3.2_0/opt/defuse/scripts/config.txt 文件
|