搜索
查看: 1352|回复: 1

[Other] 基于云的柱状数据库hold住Tb级基因组变异数据

[复制链接]

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2017-12-16 11:37:23 | 显示全部楼层 |阅读模式
12月1日,Bioinformatics最新online了一篇最新研究:Cloud-based interactiveanalytics for terabytes of genomic variants data,就Tb级基因组变异数据的云端分析提出了优化的解决方案。

在这项研究中,研究者们建立了一种使用基于云的柱状数据库来进行交互分析的方法,这个数据库建立在Dremel上,用于执行信息压缩、综合质量控制以及大量基因组数据的生物信息检索。


研究的分析框架在谷歌云平台和BigQuery上实现,代码可以在这里找到:https://github.com/StanfordBioinformatics/mvp_aaa_codelabs



研究者们应用这个框架分析了475个深度测序的人类基因组数据中的基因组突变频率、基因型和等位基因频率分布、基因组变异密度和药物基因组信息等,用更大的模拟数据集以评估其性能,并在一个web浏览器中以秒为单位完成了tb级数据的交互式查询。




这项研究给出了大数量级的基因组数据的计算范例,可以将常规基因组分析的运算速度大大加快,将通过Linux shell提交的需要长时间运行的批处理工作转换成可以在几秒钟内完成的web浏览器请求响应,能大大提高基因组数据分析的效率问题。



值得注意的是,建立在这种框架上的分析只需在浏览器窗口中执行的简短的标准SQL代码,而不需进一步的软件开发,而且大多数查询在几十秒内即可完成。基于云计算的一个重要优势是,并行化的map – reduce的实现,这使我们不必担心计算集群的性能优化问题,而只关注数据分析本身。此外,在公共云上还可以使用各种工具来实现可视化、文档化和更复杂的计算,比如hosted Apache Spark和Apache Beam。



这项解决方案中,使用GA4GHapi来支持数据集和系统之间的互操作性。此外,研究者们还提供了一些工具来将方法与现有的工具连接起来,例如VCF数据格式的转换等。



此外,在本研究中只测试了基于Dremel的云服务实现解决方案,但研究者们仍可根据具体情况选用更多其他实现方法。事实上,这些面向大数据的分布式数据库的性能和可扩展性使它们尤为适用于大数量级的测序数据。




上一篇:Python爬虫:入门+进阶
下一篇:TCGA大作战——初步分析RNA-seq数据03
回复

使用道具 举报

11

主题

52

帖子

280

积分

中级会员

Rank: 3Rank: 3

积分
280
发表于 2018-7-18 16:27:29 | 显示全部楼层
能简单举几个实际应用的例子么?
常规的数据库可以应对根据坐标检索数据,不知道这个工具可以做到什么程度

另外,考虑到经济因素性价比怎么样
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-10-23 09:00 , Processed in 0.029188 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.