搜索
查看: 1930|回复: 0

【直播】我的基因组49:Y染色体的SNV不能用常规流程来找?

[复制链接]

103

主题

133

帖子

860

积分

版主

Rank: 7Rank: 7Rank: 7

积分
860
发表于 2017-2-9 22:22:22 | 显示全部楼层 |阅读模式
【直播】我的基因组49:Y染色体的SNV不能用常规流程来找?

在上一次直播中,我们说到了一个不符合我们的认知的问题。就是我的全基因组测序数据里找到的SNV的纯合杂合比例失衡,这着实让我非常纠结。在朋友圈大量求助中,肿瘤所的朋友非常热心的帮我检查了她手头的几百个外显子测序样品,给了我下面这个表格,我简单的截取一部分。从这张表格中可以看到,女性样本X染色体的纯合杂合比例符合我们的认知。


8a47db3ca1a8eb771d0d6d367dd12f13.png

不过,我更好奇女性样本的Y染色体SNV(虽然理论上女性是不可能有Y染色体的)。而且我真正想看的是男性样本的性染色体,在朋友电脑里面只有sort好的bam文件,没有vcf直接统计。所以我就借了朋友的电脑亲自上阵来统计这些指标,把所有她已有的外显子测序文件批量统计一下:


08ed2e4b4bf2b9dff629172ed26b1db9.png

为了节省时间,我就用了bcftools来做SNP-calling,批量统计的代码如下:
  • ls /media/cancer_path/*bam |while read id
  • do
  • file=$(basename $id )
  • sample=${file%%.*}
  • echo $sample
  • samtools mpileup  -r  X -ugf /media/software/bwa/human_g1k_v37.fasta  $id | bcftools call -vmO z -o $sample.chrX.vcf.gz
  • samtools mpileup  -r  Y -ugf /media/software/bwa/human_g1k_v37.fasta  $id | bcftools call -vmO z -o $sample.chrY.vcf.gz
  • echo "chrX"
  • zcat $sample.chrX.vcf.gz  |perl -alne 'next if /^#/;/DP=(\d+);/;print if $1>20'|grep -v "^#" |cut -f 10|cut -d":" -f 1|sort |uniq -c
  • echo "chrY"
  • zcat $sample.chrY.vcf.gz  |perl -alne 'next if /^#/;/DP=(\d+);/;print if $1>20'|grep -v "^#" |cut -f 10|cut -d":" -f 1|sort |uniq -c
  • done

得到的统计表格我稍微进行了整理了(左边是男性,右边是女性):


40b8e4709b717d114445c4f8577a91d5.png


假设朋友给我提供的性别与样本对应表格是准确无误的!

那么她提供的样本中:女性的X染色体的杂合数量远高于X的纯合。这合情合理,而且女性没有Y染色体,但是X,Y有同源区域,所以女性样本仍然会有Y染色体的SNV,也符合情理,毕竟比例很小嘛。

而她提供的男性样本数据里面出现我现在全基因组数据结果相同的困惑,明明男性只有一条X和一条Y染色体,那么上面的SNV应该是纯合的,但是这里面都是杂合的多于纯合的。跟我面临的情况一模一样!


对此,我提出了几个假设:
1.就是人类的X,Y染色体同源区域太多了,即使是PE150的建库测序策略也无法保证reads正确的匹配到参考基因组应有的位置。
2.参考基因组在这两条染色体本来就是模糊不清。
3.我们常规的SNV calling流程在,X,Y染色体上面,准确率很有限!

既然我已经在大样本里面验证了这个现象,那么可以暂时排除是公司把我的样本弄错了那个假设啦!


接下来,我就需要详细解释我自己提出的3个假设咯!

       同时在这里向朋友圈给我提出各种建议的朋友表示衷心的感谢!

下面是大家的建议列表的部分摘抄:


不是说男性的就一定都是纯合的,只是男女比例不一样。这在之前的gwas中也可以观察到。甚至有可以导致性别完全误判的个例基因组型。
xy是绝大部分是同源的,这个现象正常。再有看下突变比例分布,0/1什么的说明不了太多问题。选uniq的方法是什么?最差的结果是,你的数据是混lane测的,污染了。

可能1: 女性样品污染;

可能2: 搜索gametologys evolution;

可能3: chr x link gene tends to be duplicate more .


男性中X,Y上出现0/1的情况主要是同源区域导致,这个可以从这些0/1突变所在区域发现,这些突变强烈富集,主要集中在几个同源区域。但是X,Y上1/1的突变就分布均匀很多了


        对了,有朋友反映用我的samtools和bcftools代码报错,我看了一下,只是因为他们的samtools和bcftools没有升级到最新版,所以给大家提醒一下:

文:Jimmy

图文编辑:吃瓜群众






上一篇:【直播】我的基因组48:我可能测了一个假的全基因组
下一篇:【直播】我的基因组50:从测序深度和位点间距来看SNV分布...
基因组,转绿组,肿瘤信息,生物统计,Python, Linux.
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-11-15 16:57 , Processed in 0.030807 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.