搜索
查看: 3673|回复: 0

【直播】我的基因组(五):测试数据及参考基因组的准备

[复制链接]

103

主题

133

帖子

860

积分

版主

Rank: 7Rank: 7Rank: 7

积分
860
发表于 2017-1-26 14:55:10 | 显示全部楼层 |阅读模式
本帖最后由 zckoo007 于 2017-1-26 14:56 编辑

【直播】我的基因组(五):测试数据及参考基因组的准备
目录
1.  测序公司的俩个回答
2.  测试数据
3.  参考基因组

1     测序公司的俩个回答
1.   我的样品提取的DNA从量来讲,报告一直强调只够一次建库测序。因为我抽取的是5ml的全血,所以我想问一下,是不是5ml对一个正常人来说,提取到的DNA量,就是level B呢,也就是本应该就只够一次建库测序呢?

首先跟您解释一下,您的血液样本本身没有什么问题,对于检测结果等级的判定是根据我们生产流程来的,作为评估后续建库测序的指标,其次,您的血液样本确实是送来5ml,但是我们检测时,根据积累经验一般会取大约足够一次建库的血液样本用于提取和检测,实际还有剩余3次建库的血液样本被保存起来,这样既可以节约样本,也是作为备份。所以单次检测的结果只是单次使用的标准。
2.   我看报告里面提到了Nanodrop,Qubit Fluorometer,Agilent 2100 这3个仪器,分别检测浓度,完整度和纯度。但是只有一个电泳图,我不是很明白,其余的结果呢?

我们在检测样本时会用到检测报告前面带勾选的仪器和方法,nanodrop只是初步定量结果不显示;Qubit是对样本DNA的精准定量,也就是检测报告中的浓度;利用琼脂糖凝胶电泳比较直观的看样本DNA的完整度,也就是检测报告中展示的电泳图。
单从这个回答上来看,感觉对方公司还是挺专业的!

好了,下面讲一下本次直播的主题吧,下载测试全基因组测序数据跟参考基因组,使用上一次直播下载安装好的软件对我们的参考基因组进行索引,以待后续操作。


2    测试数据
因为我的全基因组测序数据不可能公开供大伙来处理学习,所以我们只能选择一组公开数据进行处理。Jimmy再次啰嗦的说一遍,我们选择的是还算比较新的illumina机器的测序数据(Korean Personal GenomeProject中的,该项目共有68WGS11WES,这里统一下载编号为KPGP-00001的样本的数据吧,网址是ftp://ftp.kobic.re.kr/pub/KPGP/2015_release_candidate/WGS/KPGP-00001/,大家在自己的服务器敲这个命令就好了:nohup wget  -c -r -nd -np -k -L -p ftp://ftp.kobic.re.kr/pub/KPGP/2 ... 000011>/dev/null  2>&1 &  
我会同步处理这个数据,还有我自己的数据。下载完了之后,用md5文件进行校验一下(该截图是未完全下载的例子,只是想说md5码相同代表下载完全)。
a9fbff8926390bbfc37b736b5293cb8b.jpg

3    参考基因组
这个对新手来说,是一个很大的坑,hg19、GRCH37、 ensembl 75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC及ENSEMBL各自发布的基因组信息而已。有一些参考基因组比较小众,存储的序列也不一样,比如BGI做的炎黄基因组,还有DNA双螺旋结构提出者沃森(Watson)的基因组,还有2016年发表在nature上面的号称最完善的韩国人做的基因组。前期我们先不考虑这些小众基因组,主要就下载hg19和hg38,都是UCSC提供的,虽然hg38相比hg19来说,做了很多改进,优点也不少,但因为目前为止很多注释信息都是针对于hg19的坐标系统来的,我们就都下载了,正好自己探究一下。也顺便下载一个小鼠的最新版参考基因组吧,反正比对也就是睡个觉的功夫,顺便分析一下结果,看看比对率是不是很低。
基因组各种版本对应关系:http://www.bio-info-trainee.com/1469.html
下载好的基因组需要构建索引,因为我们会比较bowtie2,hisat2和bwa这3个主流比对软件的区别,所以我们会构建所有的索引,下载完毕后如下大小:
a6be213b7c7df84b9b0424336774f5b9.png


以下是下载参考基因组及比对软件的代码:
[mw_shl_code=applescript,true]下载hg19:
cd ~/reference
mkdir -p genome/hg19  && cd genome/hg19
nohup wget http://hgdownload.cse.ucsc.edu/g ... Zips/chromFa.tar.gz &
tar zvfx chromFa.tar.gz
cat *.fa > hg19.fa
rm chr*.fa



下载hg38
cd ~/reference
mkdir -p genome/hg38  && cd genome/hg38
nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz  &



下载的小鼠基因组
cd ~/reference
mkdir -p  genome/mm10  && cd genome/mm10
nohup wget http://hgdownload.cse.ucsc.edu/g ... Zips/chromFa.tar.gz  &
tar zvfx chromFa.tar.gz
cat *.fa > mm10.fa
rm chr*.fa



bowtie软件建立索引文件
cd ~/reference
mkdir -p index/bowtie && cd index/bowtie
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  ~/reference/genome/hg19/hg19.fa  ~/reference/index/bowtie/hg19 1>hg19.bowtie_index.log 2>&1 &
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  ~/reference/genome/hg38/hg38.fa  ~/reference/index/bowtie/hg38 1>hg38.bowtie_index.log 2>&1 &
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build  ~/reference/genome/mm10/mm10.fa  ~/reference/index/bowtie/mm10 1>mm10.bowtie_index.log 2>&1 &


bwa软件建立索引文件
cd ~/reference
mkdir -p index/bwa && cd index/bwa
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index   -a bwtsw   -p ~/reference/index/bwa/hg19  ~/reference/genome/hg19/hg19.fa 1>hg19.bwa_index.log 2>&1   &
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index   -a bwtsw   -p ~/reference/index/bwa/hg38  ~/reference/genome/hg38/hg38.fa 1>hg38.bwa_index.log 2>&1   &
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index   -a bwtsw   -p ~/reference/index/bwa/mm10  ~/reference/genome/mm10/mm10.fa 1>mm10.bwa_index.log 2>&1   &


hisat软件建立索引文件
cd ~/reference
mkdir -p index/hisat && cd index/hisat
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz  &
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg38.tar.gz  &
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/grcm38.tar.gz &
tar zxvf hg19.tar.gz
tar zxvf grcm38.tar.gz
tar zxvf hg38.tar.gz[/mw_shl_code]







上一篇:【直播】我的基因组(四):计算资源的准备
下一篇:PCA和MDS降维的区别
基因组,转绿组,肿瘤信息,生物统计,Python, Linux.
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2020-4-2 07:30 , Processed in 0.021469 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.