搜索
查看: 5968|回复: 4

华大基因的BGI-SEQ500 公开GIAB标准品数据 开放下载!

[复制链接]

13

主题

31

帖子

263

积分

中级会员

Rank: 3Rank: 3

积分
263
发表于 2017-3-10 16:06:54 | 显示全部楼层 |阅读模式
大家都知道华大基因2013年收购了CG并于2015年推出了第一款量产的国产二代测序仪BGISEQ500。
这是一件具有里程碑意义的事件
但是其产出的数据却一直比较神秘
大家也知道,CG平台的一大劣势就是读长
就在最近,华大终于放了公开测试数据
是NIST/GIAB 瓶中基因组标准品 NA12878 的全外显子 转录组 和全基因组的测序数据
看了一下竟然做到了PE100! 这已经很厉害了  很接近LIIUMINA 的读长水平
根据华大给的报告,数据质量也是比较高的
这里把下载链接和脚本放到这里
我刚下载了这个数据
欢迎大家拿到这个数据进行测试分析,进行后续的交流

#华大的BGI-SEQ500 数据
转录组:
http://www.ebi.ac.uk/ena/data/view/PRJEB19428

人全外显子重测序:
http://www.ebi.ac.uk/ena/data/view/PRJEB19426
Study: PRJEB19426
The performance of BGISEQ-500 for whole exome sequencing
View:    Project XML    Study XMLDownload:    Project XML    Study XML
Name
BGISEQ-500 WES
Submitting Centre
Beijing Genomics Institute, Shenzhen
Secondary accession(s)
ERP021457
Description
The source DNA is a reference sample - NA12878, a WES library of this sample was constructed and sequenced by BGISEQ-500 (2 x 100 bp). Since the Genome in a Bottle (GIAB) has released a high-confidence calls set of this sample, precision and sensitivity of WES application can then be estimated.

人全基因组重测序:
http://www.ebi.ac.uk/ena/data/view/PRJEB19427
Study: PRJEB19427
The performance of BGISEQ-500 for whole genome sequencing.
View:    Project XML    Study XMLDownload:    Project XML    Study XML
Name
BGISEQ-500 WGS
Submitting Centre
Beijing Genomics Institute, Shenzhen
Secondary accession(s)
ERP021460
Description
The source DNA is a reference standard sample - NA12878. A WGS library of this sample was constructed and sequenced by BGISEQ-500 (2 x 100 bp). Since the Genome in a Bottle (GIAB) has released a high-confidence calls set of this sample, precision and sensitivity of WGS application can then be estimated


这里提供WGS的下载脚本
[Bash shell] 纯文本查看 复制代码
#BGI-SEQ500 NA12878 WGS download
for i in $(seq 54 61) 
do
#axel -n 20 ftp://ftp.sra.ebi.ac.uk/vol1/err/ERR183/004/ERR18313${i}
wget -c ftp://ftp.sra.ebi.ac.uk/vol1/err/ERR183/004/ERR18313${i}
done






上一篇:如何利用seqtk模拟降低测序深度
下一篇:【直播】我的基因组60:CNV初步探索
回复

使用道具 举报

5

主题

37

帖子

485

积分

中级会员

Rank: 3Rank: 3

积分
485
发表于 2017-4-14 09:58:44 | 显示全部楼层
本帖最后由 W.Peng 于 2017-4-14 10:21 编辑

我下载了一个SRA数据ERR1831354,用sratoolkit fastq-dump 转了fastq,是PE100,跟illumina的fastq格式不同,从数据里面看不到这条read是read1还是read2的标识,我发现BGISEQ-500同一个 Tile 的read1和read2他们@seq-id 这一行是一样的……
[Bash shell] 纯文本查看 复制代码
$ head ERR1831354_1.fastq ERR1831354_2.fastq
==> ERR1831354_1.fastq <==
@ERR1831354.1 CL100012105L1C001R006_27 length=100
GAAAACGACATCTGTTGGACTGAAGATTATGTATGAAGATTCTAAAAGAGCTAGAGGGCAAAAAAGACCCAGCAGGTAGAGTTTTAAGGCATGGAGTGAC
+ERR1831354.1 CL100012105L1C001R006_27 length=100
FFFFFFFEFFFF:FFFFFF<FFFFFDFFF<FFGFFEFFEFFFFFFFFFFFFFFFFFFFFFFFFFFFDFFFFFFFFFFFFFFFFEFFDGEEEFGD=FFFCA
@ERR1831354.2 CL100012105L1C001R006_30 length=100
AATAACTAGGAGAGGGAGCCTGAGGAGCTGCATCAGCAGGATCTAAGGCCGCAGCTGTCTGGTTAGGAAGAGCTCCTTCACGGGACCCAGCTAGAAAGTG
+ERR1831354.2 CL100012105L1C001R006_30 length=100
FFFFFFFFFFCFEFF6BFFFFF?=FAFFFFFFFFFFFFFFFEFFFFFF9FFFFFFFFFFFFFFFFFF<FFFF:FFFFFFEFFFE?EFFFFDFFFFEFFEF
@ERR1831354.3 CL100012105L1C001R006_34 length=100
TCTGACTGGAAAATACTTGTATTCGGCAGTTGACGGCCAGCCCCCTCGAAGAGGAATGGACTCCGCCCAGAGGGAAGCCTTGGACGACATTGTCATGCAG

==> ERR1831354_2.fastq <==
@ERR1831354.1 CL100012105L1C001R006_27 length=100
GTTTTAAAATTGTCTTTTTGCAGCTGGATGCCTGAGAAAGTTCCTGCTTTTCATTCAGTGAAACAGCTGGTGCCCCTCTTCTAGAAGCAGTCAGAGGCTG
+ERR1831354.1 CL100012105L1C001R006_27 length=100
FEFFFFFEFFFFEF:FEFFFEBFEFFFEFFEFFFDFEEFFFFFFFF5FDFFCFEEF7FDF>ACEEF3EFFFFDFDFAEE9BC@D*'DC7FBEAF1EFDEE
@ERR1831354.2 CL100012105L1C001R006_30 length=100
TTAGATCTTTTAAACTTGAACCCTAGTGGGTACAGTAATCAATTTCACTGTGGGGGAACGGGAGCTGCTGTTCGAGCGCACAGGGTCCCTTCCATCAGCA
+ERR1831354.2 CL100012105L1C001R006_30 length=100
ADDC26CDB>;E;?C@DD)D>CA<9;;E/,;DBEB3<8B@3A2CC6F:C=3B06;+.=CDC'9;-6=75>43?'7A0-<6?7847A85?7D3B5)@'7.&
@ERR1831354.3 CL100012105L1C001R006_34 length=100
CTTTTTGTACAGAAGCAGCAGGTCCAGGATGTACTCAGCCCCATACATGGGGTTCACCCGGCGGTAGCCGTACTGGATCTCTTTGAAGTCAATGATGCGC
回复 支持 反对

使用道具 举报

13

主题

31

帖子

263

积分

中级会员

Rank: 3Rank: 3

积分
263
 楼主| 发表于 2017-4-22 17:10:47 | 显示全部楼层
是的。我尝试使用 tr 替换了  
[Bash shell] 纯文本查看 复制代码
cat BGI-500W-1_1.fastq | tr " length=100" "/1 length=100" > BGI-500W-1_1f.fastq
回复 支持 反对

使用道具 举报

13

主题

31

帖子

263

积分

中级会员

Rank: 3Rank: 3

积分
263
 楼主| 发表于 2017-4-22 17:27:41 | 显示全部楼层
本帖最后由 ZARL1114 于 2017-4-22 17:56 编辑

[Bash shell] 纯文本查看 复制代码
#process_BGI-fastq.sh
#para
dir=$1
tardir=$2
cd $dir
#tr to trans
for i in *.fastq
  do
    cat $i | tr " length" "/1 length" > ${tardir}/${i%%.*}f.fastq

  done

替换了以后顺利跑出来了 使用的是 bwa mem

READS 的名称应该是对应好的
回复 支持 反对

使用道具 举报

13

主题

31

帖子

263

积分

中级会员

Rank: 3Rank: 3

积分
263
 楼主| 发表于 2017-4-22 18:14:24 | 显示全部楼层
W.Peng 发表于 2017-4-14 09:58
我下载了一个SRA数据ERR1831354,用sratoolkit fastq-dump 转了fastq,是PE100,跟illumina的fastq格式不同 ...

这是一个小样本 的比对情况 仅供参考
[Bash shell] 纯文本查看 复制代码
     number of reads = 10,019,427
     number of mapped reads = 9,966,476 (99.47%)
     number of mapped paired reads (both in pair) = 9,960,765
     number of mapped paired reads (singletons) = 5,711
     
     number of duplicated reads (estimated) = 298,126
     duplication rate = 1.08%

>>>>>>> Insert size

     mean insert size = 29,529.3549
     std insert size = 1,644,050.7527
     median insert size = 301

>>>>>>> Mapping quality

     mean mapping quality = 49.2747


>>>>>>> ACTG content
     GC percentage = 41.66%


>>>>>>> Mismatches and indels

    general error rate = 0.0062
    number of mismatches = 5,870,893
 
>>>>>>> Coverage

     mean coverageData = 0.3188X
     std coverageData = 3.3115X
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-8-19 14:46 , Processed in 0.046020 second(s), 29 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.