搜索
查看: 1804|回复: 0

基因数据过多了吗?

[复制链接]

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2017-8-25 19:55:37 | 显示全部楼层 |阅读模式
陈卫华
瑞士生物信息学研究所

对科学家来讲,数据是永远不够的。但在科学界,也的确有人在讨论数据过多的问题,也有人抱怨产生的数据太多了。这是为什么呢?

原来,由于测序技术的发展和测序价格的直线下降,科学家们发现产生的基因组数据很快就会超越著名在线视频平台Youtube所处理的数据量了。PLoS Biology(《公共图书馆:生物学》)杂志的一篇文章指出:到2025年,将会有1亿到20亿的人类基因组被测序完成。这些数据需要2~20艾字节(Exabytes:1艾字节等于1百万T字节),也就是说,需要1百万个到1千万个2TB容量的硬盘(目前市面上常见最大容量)才能装下(所需要硬盘空间不仅包含基因组序列本身,还包含序列质量等必要信息)。

而相比之下,YouTube到2025年时每年所需要的存储量也不过是1~2艾字节;而到时Twitter每年只需要1~17“拍字节”(英petabytes,是TB的1000倍,艾字节的千分之一)。此外,不仅仅是生命科学领域,到2025年,世界上最大的天文计划,Square Kilometre Array(SKA平方公里阵列望远镜,是中国参与建设的下一代巨型射电望远镜阵,其灵敏度将比目前世界上最大的射电望远镜高50倍)到时每年产生的数据也在1艾字节左右。其实,存储只是所有问题中很小的一部分,如何传输、分布、分析这些数据才是挑战。



尽管有些科学家对具体的数字和预测的方法有异议,但他们仍一致认为,基因组学必须回答的一个问题:究竟要产生多少数据才够!其实,对基因组数据过多的抱怨,除了产出过多之外,主要源自两个方面。

第一,存储和计算相关硬件的发展速度远远落后于测序技术的发展。在计算机领域有一个著名的“摩尔定律”:每一美元所能买到的电脑性能,将每隔18-24个月翻一倍以上,这一定律揭示了信息技术进步的速度。

数据表明,半导体相关产业,包括芯片价格、内存容量、甚至数码相机的相素数量都是大致符合摩尔定律。尽管有报道认为,2010年国际半导体技术发展路线图的更新增长已经放缓,2013年年底之后的晶体管数量密度预计只会每三年翻一番。

摩尔定律通常在测序领域里也是适用的。比如,每一美元所能买到的测序量在2001到2007年间的发展是符合摩尔定律的。但是,2008年以后,形势急转直下;随着新一代甚至第三代测序技术的出现,测序价格下降速度远远超过摩尔定律的预测(如下图所示)。这就意味着,计算机技术的发展,无论是处理能力和存储能力都已经不能够满足基因组大数据的需求。


每百万碱基DNA测序成本趋势图(白色斜线是摩尔定律预测的成本走势,点线图是实际的走势。)
图片来源:美国国家人类基因组研究中心。

第二,科学家们还没有对如何处理原始数据达成一致。那么多的原始数据,是不是都必须保留呢?还是说在初步分析之后,就可以删掉以节省空间,只保留处理后的数据就行了?在天文和高能物理学领域,科学家们就是这样做的。

但是,基因组学专家们还没有就原始数据处理方法达成一致。这其中的部分原因,是用不同的生物信息学工具处理基因组数据时,得到的结果往往是不一致的。比如,两个同样都是为了检测突变的程序在同一段基因组序列上扫描时,可能会得到不同的结果。随着新的测序技术不断出现,它们需要不同的格式去存储和不同的算法去解读。

因此,数据处理的一致性问题在将来也许会变得更难解决。

版权声明
文章版权归基因空间(ID:gene_world)所有,转载请联系本公众号(后台回复转载即可)获取授权。



上一篇:转录本与lncRNA数据库比对,如何从比对结果中筛选已知lncRNA
下一篇:samtools安装报错
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-20 19:23 , Processed in 0.031182 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.