搜索
查看: 2051|回复: 0

【直播】我的基因组52:X和Y染色体的同源区域探索

[复制链接]

103

主题

133

帖子

860

积分

版主

Rank: 7Rank: 7Rank: 7

积分
860
发表于 2017-2-25 14:46:28 | 显示全部楼层 |阅读模式
【直播】我的基因组52:X和Y染色体的同源区域探索

很久以前,我其实就遇到过通过NGS测序数据来判定性别的难题(搜索我博客即可查看详情),本次探究自己的基因组得到的统计结果与常识不符,所以我可以肯定是我们的常识太浅显了。

【直播】我的基因组48:我可能测了一个假的全基因组

【直播】我的基因组49:Y染色体的SNV不能用常规流程来找?

【直播】我的基因组50:从测序深度和位点间距来看SNV分布情况

通过自己的测序数据的详细分析,我才知道PAR(pseudoautosomal region)。这样的X,Y染色体大量同源,说到底是测序片段压根无法准确定位,所以说所谓的X,Y染色体是单倍体的常识,在这里完全错误的。这些区域目前有29个基因,那么对这29个基因来说,其实就跟定位在常染色体上一样,有两个拷贝的!

这些区域在hg38的参考基因组坐标如下;

The locations of the PARs within [url=]GRCh38[/url] are:
PAR1: chrY:10,000-2,781,479 and chrX:10,000-2,781,479 [url=][7][/url]
PAR2: chrY:56,887,902-57,217,415 and chrX:155,701,382-156,030,895 [url=][7][/url]
PAR3: chrY:3,571,959-5,881,959 and chrX:89,145,000-92,745,001 [url=][3][/url]

那么我们就可以通过自己的数据处理能力来探索一下X和Y染色体的同源区有多少,是哪里的问题!



首先下载X,Y染色体的fasta序列,在UCSC上面下载即可。
然后把X染色体构建bwa的索引。
接着模拟一个Y染色体的测序数据,模拟的程序很简单,模拟Y染色体的测序片段(PE100,insert400)。
最后把模拟测序数据比对到X染色体的参考,统计一下比对结果即可!

我自己看sam文件也发现真的同源性好高呀,总共就模拟了380万reads,就有120万是百分百比对上了。

所以对女性个体来说,测序判断比对到Y染色体是再正常不过的了。如果要判断性别,必须要找那些X,Y差异性区段!对男性来说,更是如此!





本次测试涉及到的文件如下:
shell脚本如下:
  • [AppleScript] 纯文本查看 复制代码
    cd tmp/chrX_Y/hg19/
    wget [url]http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrX.fa.gz;[/url]
    wget [url]http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrY.fa.gz;[/url]
    gunzip chrX.fa.gz
    gunzip chrY.fa.gz
    ~/biosoft/bwa/bwa-0.7.15/bwa index chrX.fa
    ~/biosoft/bwa/bwa-0.7.15/bwa mem -t 5 -M chrX.fa read*.fa >read.sam
    samtools view -bS read.sam >read.bam
    samtools flagstat read.bam
    samtools sort -@ 5 -o read.sorted.bam read.bam
    samtools view -h -F4 -q 5 read.sorted.bam |samtools view -bS|samtools rmdup - read.filter.rmdup.bam
    samtools index read.filter.rmdup.bam
    samtools mpileup -ugf ~/tmp/chrX_Y/hg19/chrX.fa read.filter.rmdup.bam |bcftools call -vmO z -o read.bcftools.vcf.gz


对Y染色体随机抽取模拟测序片段的程序如下(这个程序我不想给文字版的,希望大家可以自己手动敲一遍,在我们的生信技能树论坛上面提交自己的感悟:[url=]http://www.biotrainee.com/thread-696-1-1.html[/url]):


这个测序待改进的地方太多了,比如可以过滤掉N含量过多的片段(我只是把全部是N的地方去除了),可以设置插入片段为参数,而且打断的片段不应该是稳定的600bp,而且可以改成PE150的测序,或者更长,模拟一下看看是不是3代测序的超长片段,就能解决这个问题。


建bwa索引的log日志如下:

仔细打开比对结果sam文件可以继续探索,有不少比对结果含义XA:Z,说明即使是这100个碱基在X染色体也有多个定位!

【直播】我的基因组(十三):了解sam格式比对结果

甚至对这个sam文件可以做variation的calling,然后放到IGV里面去看看!


最后找到的variation也可以统计一下:
96180个 0/1
181020 个1/1

当然,这里我模拟的是4X 的数据,所以找到的variation不会太准确,但是我模拟的精确数据,其实不应该有杂合的variation,但结果还是有一些~


毕竟这种比对也太诡异了,看来我对BWA软件的理解还不够透彻!







请参与本次直播基因的同学继续我的思路探索下去,模拟PE150,甚至miseq的PE250的测序片段看看比对情况如何,或者模拟三代测序仪的。

还可以下载hg38参考基因组的X,Y序列,只有你实践的越多你才能学到更多!
只有你实践的越多你才能学到更多!
只有你实践的越多你才能学到更多!
只有你实践的越多你才能学到更多!

参考:[url=]https://en.wikipedia.org/wiki/Pseudoautosomal_region[/url]

文:Jimmy

图文编辑:吃瓜群众



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:【直播】我的基因组51:画全基因范围内的染色体reads覆盖度...
下一篇:【直播】我的基因组53:几个找变异的软件的效果比较
基因组,转绿组,肿瘤信息,生物统计,Python, Linux.
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-21 09:30 , Processed in 0.032864 second(s), 29 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.