搜索
查看: 5428|回复: 5

【直播】我的基因组(二):科研和临床分析调研

[复制链接]

103

主题

133

帖子

860

积分

版主

Rank: 7Rank: 7Rank: 7

积分
860
发表于 2017-1-24 21:51:41 | 显示全部楼层 |阅读模式
本帖最后由 zckoo007 于 2017-2-2 09:54 编辑

【直播】我的基因组(二):科研和临床分析调研




  全基因组重测序,最大的分析点就是在于找到跟参考基因组不一样的地方(科研分析流程),然后通过各种公共数据库来注释这些不一样的地方(snv,indel,cnv,sv)(临床分析流程)。然而对于这些不一样的地方,就需要严格结合质量值、测序深度、重复性等因素进行进一步的过滤及筛选,过滤掉假阳性,从而进行下一步的分析。

那么我们一起来看看科研及临床一般都是进行怎样的分析吧!


科研分析流程

  其实,科研流程很简单。很多综述性的文章中都有提到,就是(QC、alignment、variation calling、annotation、statistics/visualization),区别就在于每一个步骤所选择的软件,软件相应的参数,执行何种criteria,流程图如下:
08c05f03c46e4797dea2c1187645719b.png

本次直播中,我本人的测序合同我已经签订好了,从理论上来讲是人的全基因组测序,覆盖度30X,也就是90G的raw data,测序策略是PE150,采用illumina的HiSeq X,用DNA小片段文库(350bp)进行建库(如果以上名词有不懂的,请尽快自主搜索,学习理解)。拿到数据后我会从数据分析的角度来详细讲解测序数据质量控制的方方面面,包括测序质量,接头,污染序列,其中会提到一些经典软件的用法,在我博客(搜索:生信菜鸟团)里面有大部分软件使用操作手册。然后在比对阶段,我会尝试不同的参考基因组进行比对,包括hg19和hg38,尝试比较选择不同参考基因组所得到的结果有何种区别,也会尝试一下BGI出品的炎黄基因组及韩国人史上最完整的基因组(详见2015年10月5日发表《Nature》的De novo assembly and phasing of a Korean human genome)。对于比对的结果,我也会做基本的QC,主要参考文章:Three-stage quality control strategies for DNA re-sequencing data。

最后重头戏就是找variation了,跟参考基因组不一样的地方,包括snv、indel、cnv、sv,分别有自己适用的软件。我会比较多个软件的结果,尽量找到可信的variation,同时也会做基本的QC,严格的结合质量值、测序深度、重复性等因素进一步过滤筛选,过滤掉假阳性。但是跟参考基因组不一样的地方不一定就是有意义的,我还会根据一系列的数据库来注释找到variation。其中会利用到数据库数据主要有:

dbsnp147 (ncbi提供的最权威)
cgi69ExAC.vcf.gz(broadinstitute提供的外显子联盟)
Cosmic_v73.ann.vcf.gz (癌症突变信息集)
finalTCGA.vcf.gz (TCGA计划癌症相关)
1000g-ph3v5.gff.gz(千人基因组计划)
ESP6500(Variants from the Exome Sequencing Project (ESP))
还有各个国家级的基因组计划的数据(SCLP,SSM,SSI,GONL,UK10K)
三种主流注释软件我都会使用,包括VEP,ANNOVAR,snpEFF。


临床分析流程

临床分析本质上就是关联到一系列的疾病,所以会用到各种疾病相关的数据库,包括OMIN,clinVAR,HGMD,GWAS,给出各个疾病的风险值,最后给出一些生活营养建议来预防疾病的发生。其中,大部分疾病评估是依据GWAS数据库对变异位点进行注释从而评估个体化疾病风险的,用药建议是根据PharmaGKB网站,遗传病风险则是HGMD数据库进行注释。如果公司报告做得越详细,那就是对这几个数据库理解越深刻。在临床分析过程中,通常你会看到下面的疾病风险和生活建议:

第一部分 常见重大疾病风险评估   

2型糖尿病[Type 2 Diabetes]   

静脉血栓栓塞症 [Venous Thromboembolism]

肥胖症 [Obesity]

结直肠癌 [Colorectal Cancer]   

肺癌 [Lung Cancer]   

系统性硬化症 [Scleroderma]   

乳腺癌 [Breast Cancer]        

系统性红斑狼疮 [Systemic Lupus Erythematosis]  

心房颤动 [Atrial Fibrillation]   

前列腺癌 [Prostate Cancer]      

慢性肾病 [Chronic Kidney Disease]   

帕金森病 [Parkinson’s Disease]   

银屑病 [Psoriasis]        

类风湿性关节炎 [Rheumatoid Arthritis]   

胆结石 [Gallstones]

冠心病 [Coronary Heart Disease]        


第二部分 先天性遗传疾病        

6-磷酸葡萄糖脱氢酶缺乏症 [G6PD Deficiency]     

血色沉着病 [Hemochromatosis]     

常染色体隐性遗传性多囊肾疾病 [ARPKD]   

肥厚型心肌病 [Hypertrophic Cardiomyopathy]     

遗传性耳聋 [Deafness]  

先天性遗传疾病汇总        

地中海贫血 [Beta Thalassemia]

遗传性果糖不耐症 [Hereditary Fructose Intolerance]   

肢带型肌营养不良症 [Limb-girdle Muscular Dystrophy]        

胼胝体发育不良[ACCPN]     

苯丙酮尿症 [Phenylketonuria]     

镰状细胞性贫血和疟疾的抵抗力 [Sickle Cell Anemia&Malaria Resistance]     

第三部分 个体化用药指导     

药物反应汇总     

氯吡格雷     

β-受体阻滞药     

咖啡因代谢     

华法林     

二甲双胍     

第四部分 您的遗传性状    

您的遗传性状汇总     

耳垢类型     

男性型秃发

味觉感知能力        

肌肉表现型     

生物性老化  

酒精性脸红反应     


进行评估疾病的风险及用药指导等一些公共数据库,大家都是一样的,略微差别是在于各公司的私有数据。还有一些其它特征,比如天赋神马的,则是有GWAS找GWAS,没有就自己找文献,进行挖据关联等。但本次个人全基因组测序的直播毕竟不是公司行动,个人力量和精力都是有限的,所以不可能像商业化的公司那样做出动辄几百页的测序报告,而且对正常人意义也真心不大。但是对病人,这个全基因组测序就非常有用了,可以帮助确诊引起某个疾病的病因,尤其是癌症病人。或者指导有家族性后发遗传病的有针对性的避免同样的结局,比如那个接受双侧乳腺切除的好莱坞红星安吉丽娜·朱莉。


朱莉的曾外祖母、外祖母以及母亲都死于癌症,朱莉通过基因检测发现她从母亲那遗传了突变的癌症易感基因BRCA,意味着她拥有87%和50%的几率罹患乳癌和卵巢癌。朱莉做为已经是几个孩子母亲不想重蹈覆辙,因此接受了预防性的手术来降低癌症风险。

关键词:

1. snv
单核苷酸位点变异(single nucleotide variants, SNV)。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。
2. indel
InDel (insertion-deletion) 插入缺失标记,指的是两种亲本中在全基因组中的差异,相对另一个亲本而言,其中一个亲本的基因组中有一定数量的核苷酸插入或缺失(Jander et al., 2002)。根据基因组中插入缺失位点,设计一些扩增这些插入缺失位点的PCR 引物,这就是InDel标记。
3. cnv
Copy number variations,基因拷贝数变异。
4. sv
Structure Variation(染色体)结构变异。包括插入、缺失、倒位、易位及重复等,长度在1kb~3Mb。
5. 覆盖度30X
测序深度可以理解为对一段序列上的区域重复检测的次数,比如一个序列被上某个片段被检测了30次就是30x,深度越大,越准确,覆盖度就是对你的目的基因所覆盖的程度,比如你的序列是有30bp但是由于测序的时候某些区域没有测到,只测到了27bp大小片段,那就是27/30等于90%
6. PE150
一条序列不管多长,只测两头150bp









上一篇:#文件准备【直播】我的基因组(十二):先粗略看看几个基...
下一篇:肿瘤研究里面关心的是nonsynonomous的mutation
基因组,转绿组,肿瘤信息,生物统计,Python, Linux.
回复

使用道具 举报

0

主题

7

帖子

512

积分

高级会员

Rank: 4

积分
512
发表于 2017-2-20 22:25:19 | 显示全部楼层
非常感谢博主,学到很多东西,谢谢
回复 支持 反对

使用道具 举报

1

主题

7

帖子

164

积分

注册会员

Rank: 2

积分
164
发表于 2017-4-8 17:05:32 | 显示全部楼层
jimmy博主,文中的覆盖度30X是笔误吧,应该是测序深度30X?
回复 支持 反对

使用道具 举报

0

主题

2

帖子

59

积分

注册会员

Rank: 2

积分
59
发表于 2017-4-19 07:54:50 | 显示全部楼层
源氏 发表于 2017-4-8 17:05
jimmy博主,文中的覆盖度30X是笔误吧,应该是测序深度30X?

覆盖度(Coverage)也叫深度Depth
回复 支持 反对

使用道具 举报

64

主题

138

帖子

681

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
681
发表于 2017-6-8 15:55:00 | 显示全部楼层
写的真的好明白的(撒花撒花
回复 支持 反对

使用道具 举报

1

主题

6

帖子

66

积分

注册会员

Rank: 2

积分
66
发表于 2017-8-3 15:59:41 | 显示全部楼层
谢谢 真棒
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2020-6-1 14:16 , Processed in 0.028582 second(s), 29 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.