搜索
查看: 6464|回复: 3

【直播】我的基因组(八):原始测序数据质量报告

[复制链接]

103

主题

133

帖子

854

积分

版主

Rank: 7Rank: 7Rank: 7

积分
854
发表于 2017-1-28 16:40:21 | 显示全部楼层 |阅读模式
本帖最后由 zckoo007 于 2017-1-28 16:42 编辑

【直播】我的基因组(八):原始测序数据质量报告


目次
1.    报告简易流程
2.    测序数据质量评估
3.    参考序列比对分析
4.     HiSeq X Ten测序系统简介

1    报告简易流程

由于我是分期付款,所以我先拿到了我的测序数据的质控结果和比对情况分析报告,需要补齐全款后才能拿到原始测序数据!(中间还出了个小意外,打款的时候不小心多打了30块钱!(⊙o⊙)…不过多打的30块钱想拿回来估计不太可能了,需要填写书面申请表格并且自费快递到公司,这边跨境快递费都不止这个数了)
报告的简易流程如下:


前面的实验流程不是我关心的重点,而且在前面的文章中我们已经谈到过了建库测序相关实验细节(Nanodrop和Qubit仪器检测提取到DNA,检验合格的DNA样品通过Covaris破碎机随机打断成长度为350bp的片段,用TruSeq Library Construction Kit进行建库,PE150测序方式,Agilent 2100检查文库的insert size,具体名词自行搜索理解)。现在这个报告重点就是分析结果里面的测序数据质量评估和参考序列比对分析。

2    测序数据质量评估
测序数据质量评估部分提到了fastq格式的定义,接头,测序错误率的处理,GC含量,质量情况汇总如下:


可以看到,本次全基因组测序共占用了XTenseq的5条lane(具体自行搜索测序仪原理),略优于官网的介绍,但是表格里面的数字不加逗号,看得可是有点吃力!(具体就不再解释reads总数、Q20、Q30和GC含量这些概念了,可自行搜索或查看之前帖子)

Rawreads统计原始序列双端read pair总数目;根据FASTQ的格式,以四行为一个单位进行统计。
Raw data:统计原始序列数据量。
Effective:过滤后用于后续的生物信息分析的Clean reads占原始数据的比例。
Error rate:通过公式一计算得到。
Q20Q30:分别计算 Phred 数值大于20、30的碱基占总体碱基的百分比。
GC content:计算碱基G和C的数量总和占总的碱基数量的百分比。

Q30和reads总数都超出预期,非常赞!但这只是公司给出报告而已,我还是需要拿到数据后自己对原始测序数据自己做统计。公司给出的图表,其实都是可以通过自己写代码来实现的。



3    参考序列比对分析
参考序列比对分析也是重点,如果测了一大堆的序列,都无法比对到人的基因组上面,或有倾向性的比对到部分基因组,又或者基因组某些区域没有覆盖到,那再好的数据也是白瞎!下面这幅图就打消了我的疑虑!
通过这幅图可以看到,该公司的测序数据能较好的覆盖基因组的所有染色体,覆盖率都近似于100%,所以根据这个数据,我可以充分地的对我的基因组中的每一个基因是否跟参考基因组有区别,有哪些区别进行全面分析!而且平均测序深度也比合同规定的30X要超出很多!


下面的数字表格也能很好的说明,本来应该只需要给我6亿条的reads(PE150测序,人30X),但是足足给了我8.9亿条!!!

表格里面提到了好几个概念,比如duplicate的reads,一般来说是PCR造成的duplicate,在找变异的时候需要去除掉。然后是那些比对到了不同染色体的reads pair,虽然只有2.29% ,也是需要重点分析的。

Totalclean data双端总reads数目
Duplicate:重复的reads数目
Mapped:比对到参考基因组上的总reads数目(比例)
Properlymapped:比对到参考基因组且方向正确的reads数目(比例)
PEmapped:双端reads比对到参考基因组上的reads数目(比例)
SEmapped:仅单端read比对到参考基因组上的reads数目(比例)
withmate mapped to a different chr:比对到不同染色体的reads数目
withmate mapped to a different chr (mapQ>=5):比对到不同染色体且比对质量不低于5的reads数目
Average_sequencing_depth::比对到参考基因组的平均测序深度(测序数据量/基因组大小)
Coverage:比对数据对全基因组区域的覆盖度(碱基覆盖长度占全基因组碱基总长的比例)
Coverage_at_least_4X::全基因组区域中碱基覆盖深度不低于4X的比例
Coverage_at_least_10X:全基因组区域中碱基覆盖深度不低于10X的比例
Coverage_at_least_20X:全基因组区域中碱基覆盖深度不低于20X的比例

我拿到的大概就是这些信息,随后数据到了我们对这些内容也会进行重新分析的。

4    HiSeq X Ten测序系统简介
HiSeq X Ten测序系统于2014年1月份推出,是目前最高通量的测序平台。它由10台HiSeq X测序仪组成,每台仪器可在3天内产生高达1.8 Tb测序数据即每天高达600 Gb。若同时运行10台仪器,人们每年可测序>18,000个人类基因组。据介绍,HiSeq+X+Ten也是首个实现千元基因组测序的平台,这其中包括仪器折旧、DNA提取、文库制备及劳动力成本。(以下是对X-Ten测序结果的展示和介绍,有兴趣了解的可自行查看)
http://www.illumina.com/content/dam/illumina-marketing/documents/products/appnotes/appnote-hiseq-x.pdf
http://www.macrogencn.com/_d276676746.htm


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:【直播】我的基因组(七):从整体理解全基因组测序数据...
下一篇:【直播】我的基因组(九):拿到数据后要做的事情
基因组,转绿组,肿瘤信息,生物统计,Python, Linux.
回复

使用道具 举报

0

主题

15

帖子

88

积分

注册会员

Rank: 2

积分
88
发表于 2017-2-18 22:36:41 | 显示全部楼层
为何X染色体覆盖深度明显相对较低?(之前做过各个染色体GC含量分布的问题,人类X染色体GC%估计47.9%,感觉不应该是Illunima偏移导致的)
回复 支持 反对

使用道具 举报

103

主题

133

帖子

854

积分

版主

Rank: 7Rank: 7Rank: 7

积分
854
 楼主| 发表于 2017-2-19 19:38:57 | 显示全部楼层
lefroyqiu 发表于 2017-2-18 22:36
为何X染色体覆盖深度明显相对较低?(之前做过各个染色体GC含量分布的问题,人类X染色体GC%估计47.9%,感觉 ...

看连载,后面群主有讲
基因组,转绿组,肿瘤信息,生物统计,Python, Linux.
回复 支持 反对

使用道具 举报

0

主题

1

帖子

31

积分

新手上路

Rank: 1

积分
31
发表于 2019-8-8 15:15:53 | 显示全部楼层
Error rate:通过公式一计算得到。
请问是什么公式呢……
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-8-23 17:55 , Processed in 0.037565 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.