搜索
查看: 9454|回复: 5

[other] 七个RNAseq高级分析技术

[复制链接]

7

主题

26

帖子

801

积分

版主

Rank: 7Rank: 7Rank: 7

积分
801
发表于 2017-3-12 15:14:03 | 显示全部楼层 |阅读模式
1、基因共表达网络分析(Weighted Gene Co-Expression Network Analysis, WGCNA)
       基因共表达网络分析是基于基因间表达数据的相似性而构建的网络图,图中的节点代表基因,具有相似表达谱的基因被连接起来形成网络。根据基因表达信号值的动态变化,计算基因间的共表达关系,得到基因间的表达调控关系,寻找在不同发育阶段或不同组织在不同条件下的全部基因表达调控网络模型以及关键基因,从而系统地研究生物体复杂的生命现象。
       学习资料:http://www.bio-info-trainee.com/2297.html 生信技能树论坛
       视频链接:http://pan.baidu.com/s/1jIgBTzw  密码:yh42  

2、基因集富集分析(Gene Set Enrichment Analysis, GSEA)
     基因集富集分析是按先验知识,基于基因注释信息进行分类,构建目标基因集,按照在两类样本中的差异表达程度进行排序,然后检验该基因集是否在排序表的顶端或者底端富集。但这种分析方法没有考虑基因的相互作用等信息,可重复行也较差。
GSEA包括三个重要步骤:
步骤1:计算富集积分(Enrichment Score,ES)
我们计算出一个富集积分值(ES),其为S的基因超表达在整个L序列的头部和尾部的多少。
积分值的计算是从L序列的头部开始往尾部走,每当遇到一个基因是在S上就加分,没有则减分。加分的分值大小根据基因表型相关系数大小。富集分值是从没有遇到的时候开始计算直到最大值误差值;而且它还与K-S test统计加权值有关。
步骤2:估计ES的显著程度
我们估计统计学上有意义部分的ES值(名义上的P值),是通过一个经验基础表型方法——置换检验,保存基因表达数据的结构的复杂相关系数。明确地,我们置换不同表型标签下的数据,并且再一次计算ES值,使之形成一个新的ES分布(假分布)。从经验上说,交换之后,ES的P值相对于新的ES值(统计分布)来说若是显著的变化,则有理由说明此基因集是有一定的生物学意义的。
步骤3:多重假设检验的调整
当评估了所有基因探针数据之后,我们会用多重假设检验来评价它们的显著性。我们首先把每一个探针的ES值做根据探针多少的一个标准化,生成一个标准化富集积分值(NES)。之后我们计算出假阳性发现率(FDR),并以此划出假阳性部分对应每一个NES值。FDR是评估一个NES表达值中所发现的假阳性可能性大小;它是由NES的观测值和零分布时比较得出的。(参考:http://blog.sina.com.cn/s/blog_4c1f21000100utyx.html

3、时序分析
       时间序列分析是指对相同样本在一个时间段的不同时间点的基因表达水平进行测量,以观测该样本在各个时间点的基因表达变化情况,并藉此开展相关分析。通过时序分析,可以探讨该样品在这个时间段内的多个时间点的基因表达模式,继而对某个表达模式的基因进行GO和KEGG的功能类富集,从而挖掘其生物学功能;同时可以预测基因间调控网络在时序上的变化趋势,挖掘不同时间基因调控网络中与时间或其他特定因素相关的模块。
      详情可参考:https://www.zhihu.com/question/31280355

4、基因融合分析
       基因融合(Gene fusion)是指将两个或多个基因的编码区首尾相连,置于同一套调控序列(包括启动子、增强子和终止子等)的控制之下,构成嵌合基因。基因融合可能是染色体易位、中间缺失或染色体倒置所致。目前已经很多在线工具基于高通量测序数据来对检测融合基因,例如:soapfuse,FusionSeq , deFuse, TopHat-Fusion, Fusion- Hunter, SnowShoes-FTD, chimerascan ,FusionMap和STAMP。
       可分为5种情况:

以TopHat-Fusion为例,请参考:http://blog.sina.com.cn/s/blog_83f77c940102vc5y.html
                                                   http://www.egr.msu.edu/changroup/Protocols/NGS%20analysis%20example%20of%20a%20pipeline.html


5、RNA编辑(RNA editing)分析
       RNA编辑分析是在mRNA水平上改变遗传信息的过程。具体说来,指基因转录产生的mRNA分子中,由于核苷酸的缺失,插入或置换,基因转录物的序列不与基因编码序列互补,使翻译生成的蛋白质的氨基酸组成,不同于基因序列中的编码信息现象。      

6、蛋白互作网络分析(Protein interaction network analysis, PINA)
     对应于基因组的所有蛋白质是一个整体,具有整体性和动态性,而不是孤立的状态。 蛋白质互作分析是理解细胞组织和分子功能的基础,能更好理解蛋白质的功能及其对基因的调控作用,在医学上也有很大的应用。
     中国贺福初院士团队开发的在线分析工具SLIPPER(SeLf-Interacting Protein PrEdictoR):http://lidong.ncpsb.org/slipper/       
    九种蛋白质互作汇编:https://www.douban.com/note/313301520/
    参考文献:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4466863/

7、代谢途径可视化分析
     iPath分析是利用基因组信息来对压力状态下的新陈代谢通路进行可视化分析的有效方法。进行对代谢途径进行可视化分析,可以查看整个生物系统的代谢通路信息,从而可以探讨目标基因参与的生物代谢途径并开展相关后续分析。
案例:牡蛎具有调整自身渗透平衡的特殊机制来适应海岸带的盐分波动。Meng et al. (2013)采用代谢途径可视化的分析方法基于转录组数据对其在不同盐压力下的新陈代谢通路进行研究,结果揭示了“Intracellular free amino acids (FAAs)”这个氨基酸在牡蛎对广盐性环境的适应中起到重要作用,而FAAs代谢通路是最重要的盐压力效应器。

立个小目标,近期任务完成后开始逐个学习~


本文主要参考:http://mp.weixin.qq.com/s/Y76fKCoWy9D9DkaKB59MNQ





上一篇:两个高效工具 axel[下载] pigz[压缩/解压缩]
下一篇:TCGA 预后作图
回复

使用道具 举报

29

主题

131

帖子

1208

积分

金牌会员

Rank: 6Rank: 6

积分
1208
发表于 2017-3-12 16:56:46 | 显示全部楼层
本帖最后由 anlan 于 2017-3-13 09:01 编辑

时间序列分析跟趋势聚类有差别吗?差别大吗?

回复 支持 反对

使用道具 举报

7

主题

26

帖子

801

积分

版主

Rank: 7Rank: 7Rank: 7

积分
801
 楼主| 发表于 2017-3-13 19:09:02 | 显示全部楼层
anlan 发表于 2017-3-12 16:56
时间序列分析跟趋势聚类有差别吗?差别大吗?

抱歉,我不太清楚
回复 支持 反对

使用道具 举报

1

主题

6

帖子

72

积分

注册会员

Rank: 2

积分
72
发表于 2017-3-13 19:56:56 | 显示全部楼层
你是一次都学完这么多了吗?还是先收集然后慢慢做??我准备看WGCNA
回复 支持 反对

使用道具 举报

7

主题

26

帖子

801

积分

版主

Rank: 7Rank: 7Rank: 7

积分
801
 楼主| 发表于 2017-3-13 20:50:45 | 显示全部楼层
linyj 发表于 2017-3-13 19:56
你是一次都学完这么多了吗?还是先收集然后慢慢做??我准备看WGCNA

立个flag,一个个学
回复 支持 反对

使用道具 举报

1

主题

10

帖子

112

积分

注册会员

Rank: 2

积分
112
发表于 2017-5-24 20:40:54 | 显示全部楼层
现在开始转录组课题了,学上述的技巧,使自己文章高大上,立旗
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-12-11 23:14 , Processed in 0.025953 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.