搜索
查看: 2095|回复: 2

[variation-calling] 关于用全基因组SNP进行PCA分析

[复制链接]

1

主题

4

帖子

30

积分

新手上路

Rank: 1

积分
30
发表于 2018-4-27 09:54:25 | 显示全部楼层 |阅读模式
请问,我用千人的2504个样本vcf 数据,和我自己GATK call 的snp 数据,如何将两个VCF 合并?
写脚本的话,要考虑到时间的问题,曾就写过一个1000000**1000000 次的脚本....

我尝试用过BCFTOOLS merge 和GATK 的CatVariants合并位点,基本上都是把共同的位点合并GT,各自有的SNP位点,对方的GT为./. ,
然后再用脚本挑出共同用的SNP位点(即不出现某一组样本都是./. 缺失位点分型)

进行的是plink-GCTA64 联合分析,但是这个并没有各特征值贡献度(可能描述不太正确,就是跟别人的PCA图横纵坐标没有百分比),

求推荐一种方法,可以有各特征值贡献度的方法~

另求解,我做的全基因组SNP 的PCA 分析是否正确?

ps:做的是群体遗传
回复

使用道具 举报

0

主题

13

帖子

236

积分

中级会员

Rank: 3Rank: 3

积分
236
发表于 2018-4-27 10:36:59 | 显示全部楼层
可以一战。
回复

使用道具 举报

13

主题

26

帖子

344

积分

中级会员

Rank: 3Rank: 3

积分
344
发表于 2018-5-1 19:24:38 | 显示全部楼层
最好用原始的bam文件一起call SNP,这样批次效应估计很明显。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-11-12 10:16 , Processed in 0.028806 second(s), 22 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.