用deFuse来对转录组数据找融合基因

笔者苏洛 2018-9-4 12:00 AM 2624人围观技术

首先提醒一下，该工具需要下载 108 G 的数据库文件才能运行，而且仅仅是针对hg19这一个参考基因组。但是因为其发表的非常早，即使不好用，也仍然是目前最主流的转录组数据找融合基因工具之一。

该工具发表于 2011，文章是deFuse: An Algorithm for Gene Fusion Discovery in Tumor RNA-Seq Data 软件，其readme写的非常简陋：https://sourceforge.net/p/defuse/wiki/DeFuse/ ，不过其bitbucket上面稍微详细一点; https://bitbucket.org/dranew/defuse

但是可以用conda来安装，不过其依赖比较多，如果conda没有配置好，估计好几天才能安装成功。

conda install -c dranew defuse

因为在海外，所以几分钟就OK拉，或者下载源代码自己安装咯

mkdir -p ~/biosoft/defuse
cd ~/biosoft/defuse
wget https://sourceforge.net/projects/defuse/files/defuse/0.6/defuse-0.6.2.tar.gz
## 依赖非常多的软件，自己安装太费劲
tar zxvf defuse-0.6.2.tar.gz
head ~/biosoft/defuse/defuse-0.6.2/scripts/config.txt ## 这个配置文件需要修改的东西太多了。

运行该软件

直接从fastq数据开始，它自己承包了比对这个任务，所以需要非常复杂的参考基因组及注释文件数据库构建。虽然它只有一个代码即可，但是耗费一整天的时间下载数据库。

运行也非常简单，示例代码如下：

defuse_create_ref.pl -d dataset_directory  -c myconfig.txt ## 超过12个小时
run_defuse.pl -d dataset_directory -1 reads1.fq -2 reads2.fq -o output_dir

上面的代码会使用 myconfig.txt文件，在该软件的源代码压缩包里面有示例文件 ~/biosoft/defuse/defuse-0.6.2/scripts/config.txt ，需要修改适应自己的系统，主要是修改 source_directory 和 dataset_directory ，详细说明如下：

#
# Configuration file for defuse
#
# At a minimum, replace all values enclosed by []
#
# For example:
# source_directory = /path/to/defuse
#
ensembl_version                             = 69
ensembl_genome_version                      = GRCh37
ucsc_genome_version                         = hg19
# Directory where the defuse code was unpacked
source_directory                            = [Where you unpacked the defuse code]
# Directory where you want your dataset
dataset_directory                           = [Where you intend to store the reference dataset]
# Input genome and gene models
gene_models                                 = $(dataset_directory)/Homo_sapiens.$(ensembl_genome_version).$(ensembl_version).gtf
genome_fasta                                = $(dataset_directory)/Homo_sapiens.$(ensembl_genome_version).$(ensembl_version).dna.chromosomes.fa

太麻烦，所有的中括号里面的东西都需要修改，该软件默认调用 gmap这个软件来做转录组数据的比对，所以还需要提供gmap的转录组索引文件。

但是因为是用conda进行安装的，所以一切都被安排好了，只需要找到自己想存放数据的地址，然后运行即可。

mkdir -p ~/biosoft/defuse/database/ 
nohup defuse_create_ref.pl -d ~/biosoft/defuse/database/  &
## 还是取决于网速，需要下载 108G 的文件, 仅仅是针对hg19这个参考基因组
## 84G    /home/jianmingzeng/biosoft/defuse/database/gmap
## 108G    /home/jianmingzeng/biosoft/defuse/database/
## 自己检查 ~/biosoft/defuse/database/  文件夹的下载情况咯。
### 该脚本会自动调用conda为defuse配置好的config.txt
## 如果是其它物种，可以修改 ~/miniconda3/pkgs/defuse-0.8.1-r3.3.2_0/opt/defuse/scripts/config.txt 文件

查融合基因是抽血还是做骨髓穿刺? 白血病常见融合基因临床意义

来源: 生信技能树

我有话说......

账号		自动登录	找回密码
密码			立即注册

用deFuse来对转录组数据找融合基因

运行该软件

相关分类

热门关注