找回密码
 立即注册

QQ登录

只需一步,快速开始

  • QQ空间
  • 回复
  • 收藏

用deFuse来对转录组数据找融合基因

笔者苏洛 2018-9-4 12:00 AM 2624人围观 技术

首先提醒一下,该工具需要下载 108 G 的数据库文件才能运行,而且仅仅是针对hg19这一个参考基因组。但是因为其发表的非常早,即使不好用,也仍然是目前最主流的转录组数据找融合基因工具之一。

该工具发表于 2011,文章是deFuse: An Algorithm for Gene Fusion Discovery in Tumor RNA-Seq Data 软件,其readme写的非常简陋:https://sourceforge.net/p/defuse/wiki/DeFuse/ ,不过其bitbucket上面稍微详细一点; https://bitbucket.org/dranew/defuse

但是可以用conda来安装,不过其依赖比较多,如果conda没有配置好,估计好几天才能安装成功。

  1. conda install -c dranew defuse

因为在海外,所以几分钟就OK拉,或者下载源代码自己安装咯

  1. mkdir -p ~/biosoft/defuse

  2. cd ~/biosoft/defuse

  3. wget https://sourceforge.net/projects/defuse/files/defuse/0.6/defuse-0.6.2.tar.gz

  4. ## 依赖非常多的软件,自己安装太费劲

  5. tar zxvf defuse-0.6.2.tar.gz

  6. head ~/biosoft/defuse/defuse-0.6.2/scripts/config.txt ## 这个配置文件需要修改的东西太多了。

运行该软件

直接从fastq数据开始,它自己承包了比对这个任务,所以需要非常复杂的参考基因组及注释文件数据库构建。虽然它只有一个代码即可,但是耗费一整天的时间下载数据库。

运行也非常简单,示例代码如下:

  1. defuse_create_ref.pl -d dataset_directory  -c myconfig.txt ## 超过12个小时

  2. run_defuse.pl -d dataset_directory -1 reads1.fq -2 reads2.fq -o output_dir

上面的代码会使用 myconfig.txt文件,在该软件的源代码压缩包里面有示例文件 ~/biosoft/defuse/defuse-0.6.2/scripts/config.txt ,需要修改适应自己的系统,主要是修改 source_directory 和 dataset_directory ,详细说明如下:

  1. #

  2. # Configuration file for defuse

  3. #

  4. # At a minimum, replace all values enclosed by []

  5. #

  6. # For example:

  7. # source_directory = /path/to/defuse

  8. #

  9. ensembl_version                             = 69

  10. ensembl_genome_version                      = GRCh37

  11. ucsc_genome_version                         = hg19

  12. # Directory where the defuse code was unpacked

  13. source_directory                            = [Where you unpacked the defuse code]

  14. # Directory where you want your dataset

  15. dataset_directory                           = [Where you intend to store the reference dataset]

  16. # Input genome and gene models

  17. gene_models                                 = $(dataset_directory)/Homo_sapiens.$(ensembl_genome_version).$(ensembl_version).gtf

  18. genome_fasta                                = $(dataset_directory)/Homo_sapiens.$(ensembl_genome_version).$(ensembl_version).dna.chromosomes.fa

太麻烦,所有的中括号里面的东西都需要修改,该软件默认调用 gmap这个软件来做转录组数据的比对,所以还需要提供gmap的转录组索引文件。

但是因为是用conda进行安装的,所以一切都被安排好了,只需要找到自己想存放数据的地址,然后运行即可。

  1. mkdir -p ~/biosoft/defuse/database/

  2. nohup defuse_create_ref.pl -d ~/biosoft/defuse/database/  &

  3. ## 还是取决于网速,需要下载 108G 的文件, 仅仅是针对hg19这个参考基因组

  4. ## 84G    /home/jianmingzeng/biosoft/defuse/database/gmap

  5. ## 108G    /home/jianmingzeng/biosoft/defuse/database/

  6. ## 自己检查 ~/biosoft/defuse/database/  文件夹的下载情况咯。

  7. ### 该脚本会自动调用conda为defuse配置好的config.txt

  8. ## 如果是其它物种,可以修改 ~/miniconda3/pkgs/defuse-0.8.1-r3.3.2_0/opt/defuse/scripts/config.txt 文件

来源: 生信技能树
我有话说......