搜索
查看: 2643|回复: 1

[mRNA-seq] 转录组作业(四):来自零基础的小白

[复制链接]

5

主题

19

帖子

209

积分

中级会员

Rank: 3Rank: 3

积分
209
发表于 2017-8-9 16:55:33 | 显示全部楼层 |阅读模式
本帖最后由 空格键在末尾 于 2017-8-9 17:27 编辑

一、任务回顾
转录组入门(4):了解参考基因组及基因注释
在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。
作业,截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构。了解IGV常识。
(链接地址:http://www.biotrainee.com/thread-1745-1-1.html
二、团长的博客
1.【直播】我的基因组(五):测试数据及参考基因组的准备 | 生信菜鸟团 (http://www.bio-info-trainee.com/1985.html
2.基因组各种版本对应关系(http://www.bio-info-trainee.com/1469.html
三、数据下载
1.参考基因组下载流程
进入UCSC网站(http://genome.ucsc.edu/  )
选择Downloads里面的Genome Data
选择Human,找到Feb.2009(GRCh37/hg19),选择Full date set
选择chromFa.tar.gz #大小905M,下载该文件,记住下载位置;用cd命令进入到下载位置以后,用tar解压命令解压;该页面最上面有关于该文件的说明
也可以使用下载命令:
[AppleScript] 纯文本查看 复制代码
cd ~/hg19/ #我的下载位置是hg19文件夹
wget [url=http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz]http://hgdownload.soe.ucsc.edu/g ... Zips/chromFa.tar.gz[/url] #右键chromFa.tar.gz就能获得下载链接
tar -zxvf chromFa.tar.gz #解压该文件
cat *.fa.>hg19.fa #将解压文件统一放在一起
rm chr*.fa #删除无关数据

最后获得一个hg19.fa的文件。
解压内容:

2.注释文件下载
进入Gencode网站(http://www.gencodegenes.org/)
找到Data里面的Human,选择GRCh-37-mapped Releases
选择Releases里面的第一行信息,点击GENCODE releases下面的26
选择GTF/GFF3 files里面的第一行信息(Conprehensive gene annotation),点击末尾的GTF/GFF3下载 #可以一起下载,或者选择其中一个,下载好以后和参考基因放在一起,cd命令进入下载位置,使用gzip命令解压;文件总共大小100M左右;中间是关于该行信息的描述情况

也可以使用下载命令,这次我们不用wget下载,换成axel命令下载(需要先安装,有两个安装命令,结合自己的系统下载)
[AppleScript] 纯文本查看 复制代码
#安装axel
sudo apt install axel #Ubuntu系统,青山屋主一直说这个命令相对wget很快,之前没安装好,没试过,现在安装了,还可以
sudo yum install axel #CentOS系统
#下载GTF/GFF3
cd ~/hg19/ #进入我的下载文件夹
axel  [url=ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz]ftp://ftp.sanger.ac.uk/pub/genco ... 7.annotation.gtf.gz[/url] #获取链接方法也是右键GTF/GFF3其中一个,这里下载的是GTF
axel [url=ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gff3.gz]ftp://ftp.sanger.ac.uk/pub/genco ... .annotation.gff3.gz[/url] #这里下载的是GFF3
gzip -d gencode.v26lift37.annotation.gtf.gz #解压GTF文件,GFF3文件解压同理,把安装包的完整名称换掉即可
四、IGV的下载与使用
1.IGV下载:http://software.broadinstitute.org/software/igv/download(结合自己的系统进行下载)
由于我装的是Windows+Ubuntu双系统,所以把在Ubuntu系统里面下载好的文件放在Windows系统的盘里面,再回Windows系统安装IGV完成使用。如果你是Linux单系统的,建议看看末尾的参考链接3,我没有实践,不知能否顺利进行。或者在终端把解压后的两个文件(参考基因的解压后又放一起的文件,加上解压 后的GTF/GFF3文件)拷贝下来,再到Windows系统上运行IGV。单独的Windows系统操作IGV,可能在处理参考基因的压缩文件时有些困难,因为你直接下载下来解压出来就是93个文件,而IGV操作需要把这些文件合并(个人猜测Windows系统应该有这种功能的软件),这是我自己的思考,小白刚起步,希望多多理解。
2.IGV的使用:
打开Windows系统下载的文件包,双击igv.bat运行 #启动需要一点时间
打开菜单栏的Genome,选择load genome from files,找到我们的hg19.fa文件,加载进去
打开菜单栏的File,选择load from files,找到我们解压后的GTF/GFF3,加载进去 #发现不能顺利进行,需要建立index
打开菜单栏的Tools,选择run igvtools,command选择sort,Input File选择GTF/GFF3文件,点击run #建立index需要排序
#完成上面排序和建立索引以后,文件夹中增加两个文件,一个是后缀名有.sort的文件,另外一个是GTF/GFF的idx文件
打开菜单栏的File,选择load from files,找到排序过的GTF/GFF3文件,加载进去,一会儿便出现结果
运行igvtools完成后的提示:

关于结果的查看方法,下面的几个参考链接说的很详细,这部分新东西还是挺多的,小白得反复操作才能熟练。我们先看看参考链接1和参考链接5,这样便于自己理解和操作。我们把数据都加载进去以后,去NCBI网站上检索人类基因,然后记住基因名称,在下面这个输入框这里输入基因名称(输入过程中,会发现输入框会下拉你输入的基因),点击后面的Go即可查看基因了,将鼠标悬放在图里面的基因名称上会出来相关介绍。
另外输入基因名称以后,输入框会自动变成基因的位置,我用的参考基因组Human hg19,选了ACE基因和APOE基因(因为信息介绍不好截图,所以没有放进截图里):
ACE
APOE:
不知道为什么我自己的hg19.fa跑不出来,而且排序也有问题,找到原因后我会分享出来:
参考链接1:http://blog.sina.com.cn/s/blog_165caa4fd0102wh0n.html (IGV的使用,讲了一些基本操作)

参考链接2:http://mp.weixin.qq.com/s/mUAe4balPhSuYFjuyChCzQ (批量IGV截图,团长原创)
参考链接3:http://www.cnblogs.com/leezx/p/5603481.html (VNC法在linux上使用IGV,未实践,linux单系统的试试)
参考链接4:https://zhuanlan.zhihu.com/p/28126314 (青山屋主,NCBI上获得染色体信息导入IGV查看结构的方法)
参考链接5:http://www.docin.com/p-1847147664.html (IGV的使用教程,基迪奥生物教学资料,非常详细,推荐看看)




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:转录组入门作业——1
下一篇:转录组入门——2
My heart is in the work.
回复

使用道具 举报

5

主题

19

帖子

209

积分

中级会员

Rank: 3Rank: 3

积分
209
 楼主| 发表于 2017-8-9 17:00:46 | 显示全部楼层
这章的收获,把之前没有装好的axel装上了,下载速度确实挺快的。
问题方面,就是自己加载的hg19基因组问题很大,还有就是没能顺利完成团长附加任务,去ncbi下载gtf文件,我把两个问题都记录下来了,并会寻找解决方法。
后面几次的任务,等把全部完成以后再发吧。争取25号之前能够顺利完成。
My heart is in the work.
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-10-14 22:13 , Processed in 0.029241 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.