搜索
查看: 2000|回复: 1

【直播】我的基因组56:探索遗传起源

[复制链接]

103

主题

133

帖子

860

积分

版主

Rank: 7Rank: 7Rank: 7

积分
860
发表于 2017-2-25 16:39:24 | 显示全部楼层 |阅读模式
【直播】我的基因组56:探索遗传起源

首先,节日快乐!在这个众人狂欢的节日里,我冷静了冷静,听说知识量储备差太多的人做不了朋友,于是默默的搬起了板凳专心学习。



昨天我们看了看千人基因组计划的公共数据的PCA分群。

【直播】我的基因组55:简单的PCA分析千人基因组的人群分布

今天,我用我自己的基因型数据跟千人基因组数据进行比较,差不多算是祖源分析吧。在前面的直播中,我们粗暴的利用了R里的因子把千人基因组计划里面的基因型字符串(0/0,0/1,1/0,1/1)直接赋值为1,2,3,4了,但是有更优的解决方案,可以将基因类型数据转换成连续值。将有参考字母的两份拷贝的样本设为0,一份参考拷贝和一份替代拷贝的设为0.5,有两份替代拷贝的设为1.0。另外,我们会丢弃千人基因组的人群面板中存在'None'的任何变量,因为它们并不含信息,如下图所示:


然后我再把自己的基因型数据根据上次随机挑选的千人基因组计划的1号染色体的1000个位点把对应的基因型挑选出来!【直播】我的基因组55:简单的PCA分析千人基因组的人群分布

这个脚本 跟从fasta序列里面挑子集有点类似:[url=]http://www.biotrainee.com/thread-696-1-1.html[/url]

这里的数据处理跟前面的差不多,我就不放代码了!


最后得到的图如下:


可以很明显的看到,用前两个主成分来分类的话,我是被划分到东亚人中(符合认知,我是标准的黄皮肤人)。

但是千人基因组计划里的东亚人也还是可以继续细分的,所以我就根据前两个主成分算了一下所有人与我的距离,挑了最近的5个人,看了一下。确实好乱!



越南人,日本人,汉人和傣族人,我也是醉了。

那么我把东亚人单独拿出来,跟我的基因型一起再画一个图吧!

好吧,这时候我算是明白了,原来是我挑位点的方式大错特错了,我选择的是allel frequency 接近于0.5的那些位点,就是在人群中基因型一半一半的,这样就造成,进化时间上接近的人种难以区分。


但是不管怎么说吧, PCA在人群分类的作用力大家应该有目共睹了,接下来的的重点是挑选合适的位点来做分析。

除了祖先,基因数据可以用于预测疾病风险,药物副作用,甚至构建脸部模型,不过那个需要有足够多的表型数据,而不仅仅只是一个人种的记录信息啦。([url=]https://www.newscientist.com/article/mg22129613-600-genetic-mugshot-recreates-faces-from-nothing-but-dna/)[/url]



参考文档:
[url=]使用Python,分析23AndMe数据,获取遗传起源[/url]
[url=]http://stats.stackexchange.com/questions/72839/how-to-use-r-prcomp-results-for-prediction[/url]
[url=]http://www.cnblogs.com/panpansky/p/4604008.html[/url]
[url=]http://blog.csdn.net/qq_25040013/article/details/52578235[/url]

文:Jimmy

图文编辑:吃瓜群众



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:【直播】我的基因组55:简单的PCA分析千人基因组的人群分布
下一篇:【直播】我的基因组57:最简陋的祖源分析
基因组,转绿组,肿瘤信息,生物统计,Python, Linux.
回复

使用道具 举报

1

主题

2

帖子

150

积分

注册会员

Rank: 2

积分
150
发表于 2017-6-6 13:30:56 | 显示全部楼层
这里有个疑惑。这样赋值之后,是字符的matrix。在后面的步骤中,字符矩阵是如何转换成数值矩阵的?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-21 09:28 , Processed in 0.031539 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.