搜索
查看: 2510|回复: 0

GCTA-风云际会 可能是目前全球最具挑战性的竞赛之一 报道2

[复制链接]

13

主题

30

帖子

263

积分

中级会员

Rank: 3Rank: 3

积分
263
发表于 2016-12-13 18:43:09 | 显示全部楼层 |阅读模式

2.比赛结果与简要分析
2016年11月3日,在第十一届国际基因组学(ICG-11)大会上,华大基因、阿里云、英特尔等行业巨头齐聚国家基因库(深圳),举行了“漫步云端--BGI Online合作伙伴大会”。作为云端生态的重要组成部分,发布会上重点介绍了BGI Online开发者社区(GCTA社区),并举行了“2016 GCTA风云挑战赛”颁奖典礼。
     “2016 GCTA风云挑战赛”是由基因组云计算技术开发者大会(GCTA)主办的公开竞赛活动,旨在汇聚BT和IT的行业精英,共同解决基因组学数据在大规模存储,计算和知识积累等方面所面临的挑战。本届竞赛提出“fastq数据无损高效压缩”和“全基因组快速分析”两个题目,均来自于一线生物信息分析工作,大赛于2016年4月公布发起,历时半年,有300余名参赛者参与,包含在校学生,高性能计算领域专业人员,生物信息服务相关公司研究人员等,大赛已经于10月15日截止作品提交,经过紧张的测评工作,圆满结束,收获颇丰。

      华大基因股份有限公司执行总裁尹烨,阿里巴巴集团副总裁孙炯,英特尔医疗和生命科学集团亚太总经理李亚东,聚道科技GeneDock 创始人&CEO李厦戎,WeGene联合创始人兼CTO陈钢 出席大会并为获奖者颁奖。

获奖名单

获奖名单



第一道题目:

由于该题目未收到达到题目压缩要求的作品,所以一等奖空缺。


人和未来生物技术有限公司和郝昀超(个人参赛者)摘得二等奖。人和未来生物技术有限公司开发的应用压缩测试结果为13.8%。


第二道题目:


目前行业内最成熟,最被大家认可的方法是“bwa+picard+GATK”,通过这样的分析流程,可以得到基本的SNP/Indel/CNV/SV变异信息检测信息,再对检测结果进行多种数据库注释,单样品SNP保守性预测、致病性分析等,以及进一步针对肿瘤,复杂疾病,群体进化等的深入分析。在优化代码效率的同时,特别是并行能力,多种硬件加速方法也被众多开发者验证使用。


       此次竞赛,我们共收到10份有效作品(代码可执行,信息文档完整)。

       具体方法中,主要分为三类,一类开发者选择使用云计算技术,或者是高性能集群,第二类是硬件加速,例如GPU加速,第三类是其他软件优化实现。

以下是有效作品的测试结果,测试工作在AWS云上进行,机器配置根据具体作品的需求设定。测试数据为一对NA12878全基因组测序数据(FASTQ格式),约55x。


高效压缩成绩

高效压缩成绩







人和未来生物科技有限公司摘得一等奖。使用AWS云服务的300台机器在19分钟内完成了数据分析,费用约为$18。


厦门极元科技有限公司和湖图塔科技有限公司摘得二等奖。厦门极元科技有限公司采用的是硬件加速,使用高性能GPU机器,利用CPU和GPU的并行处理能力,在90分钟内完成了测试数据的分析。湖图塔科技有限公司通过改进系统软件,通过并行化的方法提升计算性能,最终使用约3个半小时完成了测试数据的分析。

突变成绩

突变成绩


亮点总结:


人和未来生物科技公司  是最大的黑马 两道题目均取得了骄人的成绩


HUTUTA公司 则利用的 在计算系统中,系统软件(又称基础软件)是非常重要的一环,它包含操作系统、数据库、程序语言、编译器等,在系统中起到承接硬件和应用、管理资源、调度计算的任务。如果在系统软件层进行创新,使其能够协调多台计算服务器资源进行平行扩展(scale out),针对生物信息分析任务自动将已有算法进行并行化计算,将能取得非常显著的效果,无须采管高溢价硬件,即可获得类似高性能并行计算的能力,无需改动已有算法和软件,即可提高数十倍计算速度。而且,这样加速现有软件进行计算可以最大限度保障计算结果的一致性和可重复性,可以更好地应对研究和医疗领域的专业要求。


   通过基于Data Thinker的并行计算,GLAD把多台机器资源同时利用起来,多机调度并发运行基因分析算法,提高总体计算速度,大幅降低计算分析时间。在实际系统中,GLAD往往可将基因数据处理速度提高数倍甚至数十倍。

GLAD和Data Thinker系统是一个复杂的的分布式系统,但其使用方法相对简单,其操作入口为glad命令,提供多个子命令和函数供各种分析使用。通过glad命令可支持和使用如bwa, BLAST和GATK等已有软件和算法,并且无需改变当前软件的实现方法和编译过程,即可将这些算法在多台服务器上并发协同运行,加速生物信息分析。因为GLAD属于系统软件层,可以自然支持现有软件工具和分析流水线的行为,因而用户在GLAD系统中可以选择安装自己需要的算法软件版本和所使用的基因数据库。

GLAD架构

GLAD架构

性能测试


基于GLAD提供的功能,我们设计实现了一个人类全基因分析流水线,并在一个集群上测试了此流水测试性能。GLAD有良好的可扩展性,在更大集群上可以将任务时间进一步降低。但考虑到经济性,在此测试中,我们选择了一个6节点商用服务器集群组成的平台来进行性能测试。最终,处理约为55x的测试数据(NA12878),耗时145分钟。SNP的一致率(位置,碱基和Genotype同时一致)为 99.88%,假阴和假阳率为0.09%和 0.47%; Indel的类型,genotype和断点同时一致的比率为 95.33%,假阴和假阳率为3.15%和0.82%。

另一个亮点是   GPU并行加速


我之前在分子动力学模拟的 GROMACS  软件上接触到了  基于英伟达 CUDA 技术的 GPU  加速    确实有很大的提升  超级GPU计算卡  带来的是爆炸的性能   但是价格也比较贵   一块英伟达特斯拉K80要几万块


这次  终于也见识到了  GPU  并行加速在   基因大数据计算上的应用  


极元使用了几块  还不算很贵的 GPU计算卡   980  1080  ,GPU的旗舰目前主要是  特斯拉系列  K80 以及 TITAN X等   。   


加速性能也可以说是爆炸的   使用  bwa  一个多小时  就把  400G 55X  的瓶中基因组   参考标准 fastq  file  比对完成   


如果换成  旗舰级别的超级GPU计算卡呢?    还真是令人期待!








最后:但是我始终存在疑问   就是    突变检测的比赛中     几个参赛组的硬件   水平相差还是比较大的    人和未来调用了上百个节点   而speedseq  使用了高性能的单节点     是不是    在统一硬件 水平差不多的   基础上是不是更加有说服力?   




最后是参考公众号  

参考公众号

参考公众号



欢迎感兴趣的小伙伴 一起悦读文章  继续学习和交流


参考公众号:

GCTA 社区










获奖名单

获奖名单
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-11-21 10:04 , Processed in 0.032228 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.