搜索
查看: 1843|回复: 0

【直播】我的基因组 42: 不同lane的variation的比较

[复制链接]

103

主题

133

帖子

860

积分

版主

Rank: 7Rank: 7Rank: 7

积分
860
发表于 2017-2-7 19:33:40 | 显示全部楼层 |阅读模式
【直播】我的基因组 42: 不同lane的variation的比较

这里还是直接用现成的工具:snpEFF软件套装里面的SnpSift工具,具体安装教程见前面第5讲。

【直播】我的基因组(五):测试数据及参考基因组的准备  

([url=]http://snpeff.sourceforge.net/SnpSift.html#concordance)[/url]



可以看到5个lane得到的variation的总数差异主要取决于数据量的多少。


java -jar  ~/biosoft/SnpEff/snpEff/SnpSift.jar  concordance -v L*.vcf 1>concordance.txt 2>SnpSift_Concordance.log

用的时候,才意识到这个工具只能比较两个样本得到的variation文件的区别。但是因为这个软件运行的速度非常快,我们可以写一个脚本做批量的两两比较。

查看summary文件可知,它们两两之间在同一个坐标的variation的差异非常少,一万出头的区别,而查看具体为什么有差异的文件如下:



可以看到它们的差异都是在INDEL上面,而这个INDEL本来就不准确,尤其是把我的全基因组测序数据拆分成了不同的lane之后,测序深度对每个lane来说,都严重不足,当然,里面也有一些是SNV的差异,这个就很值得细究了,为什么同一个位点在这个lane里面测到的变异是T,而在另一个lane里面测到的G呢?(因为比例很少,所以我们仍然认为这些lane都是来自于同一个样本的!)


所以一般标准流程里面想判断样本是否来源于同一个个体,只会挑选一些金标准位点,通常是hapmap计划里面的一些位点,也不需要比较全部的几百万位点,选一千个位点就足够了。


文:Jimmy、阿尔的太阳

图文编辑:吃瓜群众



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:标准TCGA大文章需要哪些数据?[赠重磅资料]
下一篇:【直播】我的基因组 43:简单粗糙的WGS数据分析流程
基因组,转绿组,肿瘤信息,生物统计,Python, Linux.
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-22 00:13 , Processed in 0.032057 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.