搜索
查看: 4738|回复: 12

[other] HOPTOP转录组入门(四)参考基因组和注释信息

[复制链接]

18

主题

56

帖子

385

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
385
发表于 2017-7-12 16:17:27 | 显示全部楼层 |阅读模式

准备工作最重要的一步就是扫描关注生信媛

参考基因组
测序得到的是几百bp的短read, 相当于把拼图打散了给你。如果没有参考基因组,从头(de novo)组装等于是重走人类基因组计划的老路,也就是打散了拼图,却不告诉你原来是什么样子,那么任务将会及其艰巨。
还好人类基因组已经组装好了,我们只需要把我们测得序列回贴(mapping)回去,毕竟人与人之间的差距只有不到1%差异, 允许mismatch就行。

不同文件的所包含的数据在该页面有介绍,其中
chromFa.tar.gz - The assembly sequence in one file per chromosome.Repeats from RepeatMasker and Tandem Repeats Finder (with period of 12 or less) are shown in lower case; non-repeating sequence is shown in upper case.

我将数据存放在Windows的F盘的Data文件夹下,用于后续操作
[AppleScript] 纯文本查看 复制代码
cd /mnt/f/Data
mkdir reference && cd reference
mkdir -p genome/hg19 && cd genome/hg19
nohup wget [url=http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz]http://hgdownload.soe.ucsc.edu/g ... Zips/chromFa.tar.gz[/url] &
tar -zvf chromFa.tar.gz
cat *.fa > hg19.fa
rm chr*

下面的内容是Jimmy在【直播】我的基因组(五):测试数据及参考基因组的准备关于参考基因组的介绍
这个对新手来说,是一个很大的坑,hg19、GRCH37、 ensembl 75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC及ENSEMBL各自发布的基因组信息而已。有一些参考基因组比较小众,存储的序列也不一样,比如BGI做的炎黄基因组,还有DNA双螺旋结构提出者沃森(Watson)的基因组,还有2016年发表在nature上面的号称最完善的韩国人做的基因组。前期我们先不考虑这些小众基因组,主要就下载hg19和hg38,都是UCSC提供的,虽然hg38相比hg19来说,做了很多改进,优点也不少,但因为目前为止很多注释信息都是针对于hg19的坐标系统来的,我们就都下载了,正好自己探究一下。也顺便下载一个小鼠的最新版参考基因组吧,反正比对也就是睡个觉的功夫,顺便分析一下结果,看看比对率是不是很低。

吐槽: Jimmy大神的博客排版真的是非常考验我们对知识的渴望,每当看到他的排版的时候,我必须得忍住不去点击浏览器右上角。为了求知,我忍了。


注释信息
然而参考基因组是一部无字天书,要想解读书中的内容,需要额外的注释信息协助。
因此第二步,就是去gencode数据库(http://www.gencodegenes.org/)下载基因组注释文件。

看了下面这个图,我才明白Jimmy为什么会吐槽基因组各种版本对应关系了。

又到了GTF还是GFF3的抉择时刻,简单介绍了一下他们的格式

GTF(General Transfer Format)其实就是GFF2,以Tab分割,分为如下几列
  • seqname - name of the chromosome or scaffold; chromosome names can be given with or without the 'chr' prefix. Important note: the seqname must be one used within Ensembl, i.e. a standard chromosome name or an Ensembl identifier such as a scaffold ID, without any additional content such as species or assembly. See the example GFF output below.
  • source - name of the program that generated this feature, or the data source (database or project name)
  • feature - feature type name, e.g. Gene, Variation, Similarity
  • start - Start position of the feature, with sequence numbering starting at 1.
  • end - End position of the feature, with sequence numbering starting at 1.
  • score - A floating point value.
  • strand - defined as + (forward) or - (reverse).
  • frame - One of '0', '1' or '2'. '0' indicates that the first base of the feature is the first base of a codon, '1' that the second base is the first base of a codon, and so on..
  • attribute - A semicolon-separated list of tag-value pairs, providing additional information about each feature.

而GFF3(General Feature Format)的格式如下
  • seqid - name of the chromosome or scaffold; chromosome names can be given with or without the 'chr' prefix. Important note: the seq ID must be one used within Ensembl, i.e. a standard chromosome name or an Ensembl identifier such as a scaffold ID, without any additional content such as species or assembly. See the example GFF output below.
  • source - name of the program that generated this feature, or the data source (database or project name)
  • type - type of feature. Must be a term or accession from the SOFA sequence ontology
  • start - Start position of the feature, with sequence numbering starting at 1.
  • end - End position of the feature, with sequence numbering starting at 1.
  • score - A floating point value.
  • strand - defined as + (forward) or - (reverse).
  • phase - One of '0', '1' or '2'. '0' indicates that the first base of the feature is the first base of a codon, '1' that the second base is the first base of a codon, and so on..
  • attributes - A semicolon-separated list of tag-value pairs, providing additional information about each feature. Some of these tags are predefined, e.g. ID, Name, Alias, Parent - see the GFF documentation for more details.

看不出来有啥区别,不想纠结就全下载好了。
[AppleScript] 纯文本查看 复制代码
nohup wget [url=ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz]ftp://ftp.sanger.ac.uk/pub/genco ... 7.annotation.gtf.gz[/url] &
nohuop wget [url=ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gff3.gz]ftp://ftp.sanger.ac.uk/pub/genco ... .annotation.gff3.gz[/url] &

我们对文字的理解能力远远小于图片,所以下一步需要下载基因组浏览器
IGV, Integrative Genomics Viewer
下载地址为: http://software.broadinstitute.org/software/igv/download
Windows下载如下版本, 会自带一个java运行环境

双击igv.bat, 就会出现运行界面。

通过genome -> Load Genome From Files加载之前得到基因组文件。

进一步,还需要加载gff基因注释文件,File -> Load From Files


显示未排序出错,可以使用Tool -> Run igvtools,进行排序。




之后就可以重新加载排序后的gtf文件进行操作。生信宝典写过一篇文章介绍测序数据可视化(http://mp.weixin.qq.com/s/Q7pqycmQH58xU6hw_LECWA) 我也在看文档摸索中,先放上基因截图










上一篇:用ggplot2给散点图添加回归方程和注释居然可以这么多花样
下一篇:求python大神指导如何写python脚本实现序列筛选
回复

使用道具 举报

3

主题

18

帖子

346

积分

中级会员

Rank: 3Rank: 3

积分
346
发表于 2017-8-30 19:07:00 | 显示全部楼层
运行 tar -zvf chromFa.tar.gz 时报错 tar: You must specify one of the '-Acdtrux' or '--test-label' options
换了一下  tar -xzvf chromFa.tar.gz 就可以了
回复 支持 1 反对 0

使用道具 举报

9

主题

22

帖子

162

积分

注册会员

Rank: 2

积分
162
发表于 2017-7-12 17:04:31 | 显示全部楼层
好快啊,都第四部分了!赞!
回复 支持 反对

使用道具 举报

18

主题

56

帖子

385

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
385
 楼主| 发表于 2017-7-12 17:56:13 | 显示全部楼层
青山屋主 发表于 2017-7-12 17:04
好快啊,都第四部分了!赞!

先发出来 后面还会增加IGV的使用手法
回复 支持 反对

使用道具 举报

0

主题

1

帖子

275

积分

中级会员

Rank: 3Rank: 3

积分
275
发表于 2017-7-15 22:18:32 | 显示全部楼层
正为此问题困惑呢,谢谢~
回复 支持 反对

使用道具 举报

2

主题

41

帖子

367

积分

中级会员

Rank: 3Rank: 3

积分
367
发表于 2017-7-17 17:14:20 | 显示全部楼层
感谢分享~~
最近杂事太多了,还是得静下心来认真学习~
回复 支持 反对

使用道具 举报

0

主题

11

帖子

149

积分

注册会员

Rank: 2

积分
149
发表于 2017-8-7 15:11:12 | 显示全部楼层
>chr10
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
为什么我按照帖子中的步骤下载的基因组都是NNNNNNN呢?
回复 支持 反对

使用道具 举报

4

主题

51

帖子

327

积分

中级会员

Rank: 3Rank: 3

积分
327
发表于 2017-8-8 11:23:20 | 显示全部楼层
Dorom 发表于 2017-8-7 15:11
>chr10
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN ...

可能在着丝粒或者没测出来吧
回复 支持 反对

使用道具 举报

18

主题

56

帖子

385

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
385
 楼主| 发表于 2017-8-9 14:04:35 | 显示全部楼层
Dorom 发表于 2017-8-7 15:11
>chr10
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN ...

没事你继续看下去,就会发现N只是一部分而已,已经有人算了一下 是10%
回复 支持 反对

使用道具 举报

3

主题

18

帖子

346

积分

中级会员

Rank: 3Rank: 3

积分
346
发表于 2017-8-30 19:03:10 | 显示全部楼层
你好,请问这两条命令是什么意思呀?
cat *.fa > hg19.fa
rm chr*
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2018-8-16 01:01 , Processed in 0.127740 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.