搜索
查看: 2484|回复: 0

【直播】我的基因组(十六):提取左右端测序数据比对到...

[复制链接]

103

主题

133

帖子

860

积分

版主

Rank: 7Rank: 7Rank: 7

积分
860
发表于 2017-2-2 11:35:18 | 显示全部楼层 |阅读模式
【直播】我的基因组(十六): 提取左右端测序数据比对到不同染色体的PE reads

这类情况仅仅针对于双端测序数据,因为根据实验原理来看,对一个DNA片段,会把它的左右两端分别测序,但是测序仪器的测序长度有限,对本次实验来说,打断的DNA片段长度在350个碱基左右(这个长度只是一个分布,并不是真实值),理论来说测序是左右各150,加起来也就300,也就是说DNA片段中间还有50个碱基是测不到的(当然,实际上是有可能测通的)。而对这个配对的reads来说,来自于同一个DNA片段,所以理论上它们应该比对到同一条染色体的。也还是基于对sam格式的文件的理解,前面我们提到了sam文件的第3,7列指明了该reads比对到哪条染色体,以及该reads的配对reads比对到了哪条染色体(如果比对到同一条染色体,那么第7列是=符号)。所以我们只需要写脚本来提取即可!

而左右端测序数据比对到不同染色体的情况,比较有意义,可能是融合基因,也可能是基因之间本来就相似性很大。

在sam文件里面左右端测序数据比对到不同染色体情况如下所示:


10afe17c603a363fbe9b0254cb04f1c8.jpg

提取的脚本很简单是:

[mw_shl_code=perl,true]samtools view P_jmzeng.final.bam|perl -alne '{print if $F[6] ne "="}'  >unpaired.sam [/mw_shl_code]

可以看到这样的情况还是挺多的,14G的sam文件,当然,里面有非常多的是没有比对上的,下面的统计可以看出。


91a5b6b95ba76f0b2ecfcef2be55f7c9.jpg

可以用命令
[mw_shl_code=perl,true]cut -f 3,7 unpaired.sam |sort |uniq -c[/mw_shl_code]
简单统计一下
先提取出来,我们后面再讲如何应用这个数据。
三种具有代表性的肿瘤融合基因BCR-ABL、SLC45A3-ELK4 和. PAX3-FOXO1
融合基因(英语:Fusion gene)是指两个基因的全部或一部分的序列相互融合为一个新的基因的过程。 其有可能是染色体易位、中间缺失或染色体倒置所致的结果。  


文:Jimmy、吃瓜群众

图文编辑:吃瓜群众








上一篇:MCF-PCR多重基因定量检测技术
下一篇:拷贝数变异的检测的分辨率的问题
基因组,转绿组,肿瘤信息,生物统计,Python, Linux.
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2020-3-31 10:39 , Processed in 0.025989 second(s), 30 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.