搜索
查看: 10106|回复: 0

[mRNA-seq] 转录组入门分析4_参考基因组和注释文件的下载及IGV的...

[复制链接]

9

主题

15

帖子

132

积分

注册会员

Rank: 2

积分
132
发表于 2017-8-19 10:35:01 | 显示全部楼层 |阅读模式
本帖最后由 laofuzi 于 2017-8-19 10:33 编辑

1. 任务
在UCSC下载hg19参考基因组,从gencode数据库下载基因注释文件,用IGV查看基因结构,使用IGV软件截几个基因的可视化结构图。

2.基因组各版本的对应关系(Jimmy总结)
目前最常用的人的参考基因组版本如下:
NCBI      UCSC        Ensemble
GRCh36  hg18         ENSEMBL release_52
GRCh37  hg19         ENSEMBL release_59/61/64/68/69/75
GRCh38  hg38         ENSEMBL release_76/77/78/80/81/82
可以看到ENSEMBL的版本特别复杂!!!很容易搞混!是UCSC的版本就简单了,就hg18,19,38, 常用的是hg19,但是Jimmy推荐大家都转为hg38。

3. 参考基因组的下载
参考基因组的下载是生物信息学必备的功课。有三大网站提供参考基因组下载,它们分别是NCBI、UCSC、Ensemble。
鉴于本入门文章中采用的是hg19,所以,选择hg19下载数据。选择UCSC为数据源下载参考基因组.
进入UCSC主页http://genome.ucsc.edu,选择菜单项Downloads,在打开的菜单中选择Genome Data ,在打开的网页中点击Human,向下拉动,找到GRCh37/hg19,点击“Full data set” 。
在打开的网页中,先阅读一下instruction部分中的各类文件的说明,比如chromAgp.tar.gz是描述测序片段如何组装的文件。
chromFa.tar.gz是组装后的序列,每条染色体一个文件(chromFa.tar.gz - The assembly sequence in one file per chromosome.),所以,chromFa.tar.gz是我们需要下载的文件,点击右键,选择“复制链接地址”然后回到Terminal,使用wget进行下载。键入如下命令:

[AppleScript] 纯文本查看 复制代码
#创建文件夹
mkdir  /mnt/d/reference  
#连续创建两个级联目录
mkdir  -p /mnt/d/reference/genomes/hg19 
#更换目录
cd /mnt/d/reference/genomes/hg19 
#下载基因组序列
wget [url=http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz]http://hgdownload.soe.ucsc.edu/g ... Zips/chromFa.tar.gz[/url]  
#下载md5sum文件
wget [url=http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/md5sum.txt]http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/md5sum.txt[/url]  
#校验md5sum值是否一致
md5sum chromFa.tar.gz  
#解压,获得93个文件
tar -zxvf chromFa.tar.gz 
#合并文件,cat >表示将文件合并为一个文件
cat *.fa > hg19.fa  
#删除无关数据
rm chr*.fa  


Tips_1: 对于这种基因组文件来说,由于今后可能经常用到,建议单独建个文件夹,下载保存。
Tips_2: mkdir  -p如果要创建目录A并创建目录A的子目录B,没有用-p的情况下是mkdir 2次。如果用-p 可以直接创建2个目录 mkdir -p 目录A/子目录B。
Tips_3: wget -P 指定下载目录。
Tips_4:对于大数据文件,建议用md5sum进行校验。
Tips_5:论坛里有大神采用nohup 进行后台下载的方法,可以作为一种备选方案。nohup就是不挂起的意思( no hang up)。语法一般是 nohup [要执行的语言] &

4. 基因注释文件的下载
从gencode数据库(http://www.gencodegenes.org/)下载基因组注释文件。打开Gencode网站主页,在主页上选择Data菜单,从打开的菜单中选择Human,然后选择GRCh37-mapped Releases。选择GENCODE release列的26(version)。在打开的网页中,选择“Comprehensive gene annotation”行末尾的GFF3,获取下载地址。

[AppleScript] 纯文本查看 复制代码
#安装axel
sudo apt-get install axel
# 转换目录
cd /mnt/d/reference/genomes/hg19 
#下载GFF3
axel [url=ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gff3.gz]ftp://ftp.sanger.ac.uk/pub/genco ... .annotation.gff3.gz[/url]
#解压GFF3文件, -d 将压缩文件解压。
gzip -d gencode.v26lift37.annotation.gff3.gz


Tips:GFF全称为general feature format,这种格式主要是用来描述基因组特征的文件(注释基因组)。GTF全称为gene transfer format,主要是用来对基因进行注释。现在我们所使用的大部分GFF文件都是第三版(GFF3)。两个文件格式上略有差别。可以使用直接使用Cufflinks里面的工具gffread进行两种文件格式之间的转换。命令如下:

[AppleScript] 纯文本查看 复制代码
#gff2gtf
gffread my.gff3 -T -o my.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3


Tips:gzip会将原压缩文件解压缩,原来的文件则没有了。

5. IGV软件的安装
[AppleScript] 纯文本查看 复制代码
#安装IGV(Integrative Genomics Viewer)软件
conda install -c biobuilds igv


启动Windows Xming,输入以下命令,启动IGV:
[AppleScript] 纯文本查看 复制代码
DISPLAY=:0 igv



6. IGV加载个人数据
IGV允许客户可以自己加载个人数据。
首先,通过genome -> Load Genome From Files,加载之前得到基因组文件hg19.fa。第二,将下载解压好的gff3,在tools-run igvtools中,选择command -> sort,在input框中选择gff3文件,进行分类处理。第三,打开菜单栏的File,选择load from files,找到排序过的GTF/GFF3文件,加载,一会儿便出现结果(如下图)。



7. IGV加载公共参考基因组数据
在基因组序列的位置上,选择Human hg19,便会加载公共数据,在最右侧的输入框中输入基因的名称,点击后面的Go即可查看基因了,将鼠标悬放在图里面的基因名称上会出来相关介绍,另外输入基因名称以后,输入框会自动变成基因的位置。

后记:论坛里有Jimmy大神的批量查看基因结构的帖子,值得一学。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:转录组入门分析3_fastq进行质控
下一篇:转录组入门05-序列比对
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-10-22 15:15 , Processed in 0.032157 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.