搜索
查看: 2489|回复: 1

最强大基因测序数据压缩工具:GTZ,迅速且压缩率高

[复制链接]

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2017-3-27 14:23:47 | 显示全部楼层 |阅读模式
2016年11月举行的第11届国际基因组学大会(ICG)——基因组云计算技术开发者大会(GCTA)上,人和未来(生物科技公司)在“数据压缩”和“计算加速”两个项目上,获得此次GCTA大会的冠军。刷新世界纪录,且保持了最低的计算成本。

在数据压缩项目上,FASTQ文件无损压缩率的最好成绩是2015年LFQZ的14%,但速度过慢不适合大数据压缩。人和未来成功地实现了比gzip高4倍的压缩率,压缩时间仅仅是gzip的1/6。

在计算加速项目上,之前已知最好的分布式计算成绩是1小时50分钟。而人和未来取得的成绩是18分钟,并且成本极低,机时费仅为$16的超低价格。


人和未来CTO宋卓代表团队在大会上领取冠军奖品

下面分享软件给大家测试和使用:
(欢迎提供宝贵建议和意见)

GTZ高性能压缩系统0.2技术预览版 发布啦!
推荐给所有做基因测序数据相关工作的同仁
相信大家都会喜欢的!
下载地址: https://github.com/Genetalks/gtz


技术特色:
0、2016 GCTA 竞赛压缩方向第一名
1、高倍率压缩:面向实际业界需求,支持数百GB甚至更大的Fastq数据的高倍率压缩。最低至5.5%,通常在10%~17%。
2、速度快:在AWS R4.8xlarge机器实测,200GB数据直压进入S3云存储,仅需13分钟54秒(不压缩情况下传输进S3需要25分18秒)。远程数据入云时,压缩产生数据的速度能够打满1000Gbps传输带宽,相对于大多数压缩系统,瓶颈在于压缩计算,GTZ系统的瓶颈转移到上云的网络带宽。
3、本地数据All in One:打包进入一个文件,并且支持对压缩包内文件的随机抽取,无需全部解包。
4、支持“直压上云”功能:直接压缩进阿里OSS和AWS S3, 压缩过程不占用任何本地磁盘空间。
5、linux命令行:可方便加入pipeline,和gz一样的使用。
6、免费使用:使用中有体验不好的,大家多提意见。
联系:github留言,或email:gen.li@genetalks.com
回复

使用道具 举报

10

主题

52

帖子

559

积分

版主

Rank: 7Rank: 7Rank: 7

积分
559
QQ
发表于 2017-7-18 10:41:34 | 显示全部楼层
有意思,有没有人试用,怎么样?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-10-22 22:56 , Processed in 0.032242 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.