搜索
查看: 2094|回复: 0

转录组测序:更多序列?更多重复?

[复制链接]

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2017-6-1 16:44:28 | 显示全部楼层 |阅读模式
普通转录组测序(mRNA-seq)经常遇到一个问题:更大的测序深度,还是更多的生物学重复?我们以一个研究案例来说明:用10nM E2处理24h和未处理的MCF-7细胞,处理组和未处理组各有7个生物学重复(共14个库),用Illumina HiSeq 2000测序,每个库都随机提取2.5M, 5M, 10M, 15M, 20M, 25M和30M的reads,用Tophat映射到hg18。用edgeR计算处理组和未处理组之间的差异表达基因。

  1. 测序深度与生物学重复对差异表达基因的数量的影响
从图1(左)可以看出:1)测序深度与生物学重复的增加都会增加差异表达基因的数量;2)随着测序深度的增加,差异表达基因的数量的增加越来越缓慢,尤其是10M以后。也就是说测序深度的增加会遇到天花板(即饱和),当测序reads达到饱和的时候,再多的reads已没多大的价值,反而会增加成本浪费资源;3)无论在哪个测序深度上,生物学重复的增加都会明显增加差异表达基因的数量;4)继续增加重复的话,即使效果会打折扣,但依旧很明显。比如,在10M测序深度上,当生物学重复从2加到3,差异表达基因的数量会提高34.7%,当物学重复从6加到7,差异表达基因的数量会提高26.3%。
图1(右)是生物学重复为3的时候,当测序深度<10M,准确性不高(真阳性率低,假阳性率高);当测序深度>10M,准确率较高而且都很接近,再增加测序深度意义不大。可以认为10M就是此案例的饱和值。

图1 DE:differentiallyexpressed,Reps:number of biological replication

2.     测序深度与生物学重复对基因表达值的估计的影响
图2依据基因的表达水平,将基因分为高(a)、中(b)和低(c)三类。图2(a):对于高丰度的基因,表达量的估计已经很准确,但仍会随着生物学重复的增加而更准确,而与测序深度无关;图2(b):对于中丰度的基因,表达量的估计已经较准确,但仍会随着生物学重复的增加而更准确,而在较多生物学重复的时候基本与测序深度无关,也就是说测序深度的影响会被生物学重复所替代;图2(c):对于低丰度的基因,表达量的估计会有波动,准确性会随着生物学重复和测序深度的增加而提高,生物学重复的影响要大于测序深度,尤其是有较多生物学重复的时候。(生物学重复多了,有利于排除异常值、极端值、空值,在组内的表达值估计就会较准确,而且一个基因在组内不同样本中的值就会比较接近,CV就会小,有利于鉴定组间差异表达基因。)
增加生物学重复会提高所有基因表达量的估计准确性,而增加测序深度只会对低丰度基因有明显效果。

图2 CV:coefficientof variation,CPM:counts per million reads

3. 测序深度与生物学重复对测序成本的影响
本案例的最优成本为:测序深度10M,2-6生物学重复。

  表1 不同生物学重复不同测序深度的测序成本比较。

*代表最优成本。计算基准:Illumina测序成本:$1200/lane (包含试剂、人员、设备等),150M reads/lane,每个样本的固定成本是建库费用:$250。

增加生物学重复带来的优势比提高测序深度更多更大。更多的生物学重复和较少的测序深度才是既高效又节省的策略。一般认为,人和鼠的mRNA-seq单个样本4-6G clean reads即够,3-5个生物学重复较合适;lncRNA-seq 需要8-10G。

原文 Liu Y, Zhou J, White K P. RNA-seq differential expressionstudies: more sequence or more replication?[J]. Bioinformatics, 2014,30(3):301-4.



上一篇:吸烟让人基因改变
下一篇:揭开SCN2A的神秘面纱 ———浅谈抗癫痫药物治疗效果的异...
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-7-18 09:32 , Processed in 0.030161 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.