搜索
查看: 1703|回复: 0

GCTA-风云际会 可能是目前全球最具挑战性的竞赛之一 赛事...

[复制链接]

13

主题

30

帖子

263

积分

中级会员

Rank: 3Rank: 3

积分
263
发表于 2016-12-13 14:12:24 | 显示全部楼层 |阅读模式


作为华大粉 本人一直高度关注华大相关以及基因产业的前沿资讯 也于2016年11月参加了 首届全国大学生首届基因应用创意大赛 并夺冠 但在这项赛事面前   简直是小儿科  


这项比赛 挑战性很大 汇聚了目前国内外基因大数据行业的精英,目前比赛结果已经出来一段时间 本人将整理资料,为菜鸟团的小伙伴们 做一个系统性的报道


1.比赛简介
风云挑战赛”是由基因组云计算技术开发者大会(GCTA)主办的公开竞赛活动,旨在汇聚BT和IT的行业精英,共同解决基因组学数据在大规模存储,计算和知识积累等方面所面临的挑战。




竞赛时间:2016年4月14日-2016年9月31日,我们将于2016年11月的ICG-11会议上公布竞赛结果。
参赛对象:面向社会开放
参赛规则:报名参赛,报名后可获得题目所需的数据等,竞赛相关信息会陆续公布在该网站上,请大家关注。


比赛的原始报名链接 [url]http://www.gene-dev.cn/navigation/show_navigation?nid=17060[/url]

1 数据存储问题:FASTQ数据的高倍数压缩
【背景】随着测序技术的进步,全世界测序产出的DNA数据正在激增中,如何有效降低DNA数据的存储空间已经成为了一个急需解决的难题。目前一般的压缩格式(gz,bz2等)只能将DNA的测序数据(FASTQ格式,或称fq格式)压缩至原来的30%左右。但fq数据有着自己固定的格式形式,DNA测序数据也只有4种碱基,由A,C,G,T这四个字母表示,是能够针对其数据上的特点实现更高倍数的压缩的。
【题目】给定一个FASTQ格式的DNA测序数据文件,非压缩状态下该文件的大小约为150GB,现要求将其至少无损压缩至原来的1/15。本题所需数据下载地址。注意:链接提供的是gz格式的数据,请先解压得到fastq文件。
【要求】

  •     原创或改进现有方法;
  •     无损压缩,信息不能 有任何丢失;
  •     通用性,要求对任意的FASTQ数据有效;

  •     时效性,压缩和解压时间必须在可接受的范围内,不能超过传统压缩方法(gzip)的3倍。
【评核标准】

  •     压缩比(占综合成绩的60%)
  •     压缩和压缩时间(占综合成绩的40%)
【加分项】

  •     其他有助于读写该压缩合适的附加功能给予适当加分
  • 2 计算问题:高效的人类全基因数据分析
    【背景】人的基因组为3G,用于全基因组测序数据分析时,需要测序深度为50x或者更高,使用常见的生物信息分析工具和方法(bwa+picard+GATK),时间基本需要10个-20个小时,这对于日益增长的人类基因组数据来说是远远不能满足数据解读的速度需求的。当前基因组数据分析的最大瓶颈是,数据的解读速度远不及数据的产出速度,全基因组数据分析是人类基因组数据解读中最基本的一个步骤。
    【题目】30分钟完成50x-60x人类全基因组数据标准分析(从fq数据到变异数据的产出),本题提供的数据约覆盖人类基因组55x。本题所需数据下载地址
    【要求】
    • 原创或改进现有方法;
    • 方法不限,但所用资源和成本应具有实际的可行性和可推广性;
    • 方法和方案必须完整可复用;
    • 必须是Pair-End测序的数据,如本题所提供;
    • 整个分析流程不局限于目前全基因组数据分析的传统过程[1], 但最后必须要以标准的VCF/gVCF格式输出变异数据;
    • 本题所用的人类参考序列版本统一为:GRCh37(或称hg19),为了确保参赛者们所使用参考序列的一致性,组委会统一提供下载链接;
    • 流程监控,可以借助外部工具,或者流程内置相应的监控工具等方式,最基本的要求是,必须能够准确监控流程中每个步骤的运行状态(成功/失败),并返回相应的处理值,以便后续处理。
  • [1] 传统的全基因组分析过程一般包括:原始fq数据质控和低质量数据的过滤,比对,碱基质量值重校正,变异区域重比对,SNP与Indel的变异检测,变异数据重校正等这些处理过程。
    【评核标准】
    • 时间长短,时间为用户完成分析的时间,非电脑计算所需的时间,比如竞赛者同时使用多台电脑进行并行分析,时间上并不累加这些并行运算的时间(30);
    • 资源和成本可接受性(20);
    • 方法的易用性和复用性(20);
    • 变异数据检测的准确性,与本例提供的变异集合进行比较(30): 1)SNP的一致率(位置,碱基和Genotype同时一致)至少要到达99.5%; 2)Indel的类型,genotype和断点同时一致的比率至少98.5%; 3)SNP和Indel的假阴和假阳率都必须小于或等于1%。
    • 流程监控的有效性,该项只要达到了最基本的要求便合格,没有该项功能,总分将直接扣10分;
  • 对于该题的变异准确性评估,若参赛者能以充分的理由说明自己所检测出来的那些不一致或者假阳的SNP和Indel确实要比组委会所提供的更准确则可以不依上述的准确性评估标准!
    【本题所用数据说明】 本题所提供的原始测序数据(FASTQ格式)为Pair-End测序数据,物种为正常人(健康),本次竞赛分析所需的基本数据只有3个,具体如下:
    1. sample_read_1.fastq.gz NA12878的read1,长度101bp,碱基质量值为ASCII-33体系
    2. sample_read_2.fastq.gz NA12878的read2,长度101bp,碱基质量值为ASCII-33体系
    3. human_g1k_v37.fasta.gz 人类基因组参考序列



看到这里,可能有一点生信基础的小伙伴就能了解  这两道题目的要求是非常高的 ,经过精英们的激烈的PK
在ICG-11上,结果终于出来,让我们看一下他们的风采吧

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-11-21 10:01 , Processed in 0.034972 second(s), 23 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.