搜索
查看: 4750|回复: 3

[other] 无参转录组Demo演示项目

[复制链接]

361

主题

482

帖子

1617

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1617
发表于 2017-5-17 17:55:20 | 显示全部楼层 |阅读模式

无参转录组Demo演示项目


流程定制
基因挖掘
表达量挖掘
差异基因挖掘
常用数据与软件
原始数据导入
物种名称  
SpeciesName
测序数据导入  
组装方式  
转录组组装  
注释物种  
基因功能注释  
FDR(False Discovery Rate)  
差异筛选倍数阈值   差异分组选择
差异表达分析  
提交
流程运行  
无参转录组测序分析

用户:XXX | 单位:北京百迈客生物科技有限公司 项目编码: BMKXXXXXX-000
时间:样品到位 2014-09-13 |样品检测合格 2014-09-14 | 项目启动 2014-09-15 | 项目完成 2014-10-29
摘要

分析结果概述:
(1) 完成6个样品,共24.15Gb的转录组测序数据分析,各样品Q30碱基百分比为93.74%及以上。
(2) De novo组装后共获得212037条Unigene。其中长度在1kb以上的Unigene有26997条。
(3) 对Unigene进行功能注释,包括与NR、Swiss-Prot、KEGG、COG、KOG、GO和Pfam数据库的比对,共获得36301条Unigene的注释结果。
(4) 完成基于Unigene库的基因结构分析,其中SSR分析共获得14827个SSR标记。同时还进行了CDS预测分析。
(5) 完成基因在各样品中的表达量分析。
(6) 基于基因在不同样品中的表达量,完成差异表达基因分析。
(7) 完成对差异表达基因进行模式聚类、功能注释以及富集性分析。

测序数据统计与评估

概述

基 于边合成边测序(Sequencing By Synthesis,SBS)技术,使用Illumina HiSeq2500高通量测序平台对cDNA文库进行测序,能够产出大量的高质量Reads,测序平台产出的这些Reads或碱基称为原始数据(Raw Data),其大部分碱基质量打分能达到或超过Q30。
Raw Data以FASTQ格式存储,每个测序样品的Raw Data包括两个FASTQ文件,分别包含所有cDNA片段两端测定的Reads。

图1 FASTQ格式文件示意图


目录

图1 FASTQ格式文件示意图 (rawdata_FASTQ_format.png)

注:FASTQ 文件中通常每4行对应一个序列单元:第一行以@开头,后面接着序列标识(ID)以及其它可选的描述信息;第二行为碱基序列,即Reads;第三行以“+” 开头,后面接着可选的描述信息;第四行为Reads每个碱基对应的质量值编码,长度必须和Reads的序列长度相同。

测序碱基质量值

碱 基质量值(Quality Score或Q-score)是碱基识别(Base Calling)出错的概率的整数映射。通常使用的Phred质量评估公式为:Q-score=-10*log10P,公式中,P为碱基识别出错的概率。 下表给出了碱基质量值与碱基识别出错的概率的对应关系:

表1 碱基质量值与碱基识别出错的概率的对应关系表


目录

表1 碱基质量值与碱基识别出错的概率的对应关系表 (base_erro_ratio.txt)

图2 碱基质量值分布图


目录

图2 碱基质量值分布图 (T1.quality.png)

注:横坐标为测序碱基在Reads上的位置,纵坐标为碱基质量值。颜色深浅表示碱基比重,颜色越深,说明该位置测定的碱基中为对应质量值的碱基所占的比重越大,反之亦然。图2中,上方的蓝色条越多且颜色越深说明样品整体的测序质量越好。

测序质量控制

在进行后续分析之前,首先需要确保这些reads有足够高的质量,以保证后续分析的准确。另外,一般Raw Data中会有极少部分的Reads带有测序引物、接头等人工序列,但它们并不是基因转录的产物,需要将其从Reads中截除。因此一系列的测序质量控制如下:
(1) 去除测序接头以及引物序列;
(2) 过滤低质量值数据,确保数据质量。
经过上述一系列的质量控制之后得到的高质量reads,称之为Clean Data。Clean Data同样以FASTQ格式提供给客户。

测序数据产出统计

转录组测序数据组装

概述

获得高质量的测序数据之后,需要对其进行序列组装。Trinity[1]是 一款专门为高通量转录组测序设计的组装软件。转录本测序深度除了受测序数据量等影响,还与该转录本的表达丰度有关。测序深度会直接影响组装的好坏。为了使 各样品中表达丰度较低的转录本组装得更完整,对于同物种的测序样品推荐合并组装可以间接增加测序深度,从而使转录结果更完整,同时也有利于后续的数据分 析;而对于不同物种的样品,由于基因组间存在差异,推荐采用分开组装或分开分析。

组装原理

Trinity 软件首先将测序Reads打断为较短的片段(K-mer),然后将这些小片段延伸成较长的片段(Contig),并利用这些片段之间的重叠,得到片段集合 (Component),最后利用De Bruijn图的方法和测序Read信息,在各个片段集合中分别识别转录本序列。
Trinity软件具体组装过程:
(1) 将测序Reads按照指定K-mer打断来构建K-mer库,去除可能包含错误的K-mer;
(2) 选择频率最高的K-mer作为种子向两端进行贪婪延伸(以K-1个碱基的Overlap为标准,低复杂度或只出现一次的K-mer不能作为种子),不断循环此过程直至耗光K-mer库;
(3) 对(2)中得到的Contig进行聚簇,得到Component(Contig之间包含K-1个碱基的Overlap,并且有一定数目K-mer分别有一半比对在两条Contig上,这样的Contig会聚为一个Component);
(4) 对每个Component中的Contig构建De Bruijn图;
(5) 对(4)中得到的De Bruijn图进行简化(合并节点,修剪边沿);
(6) 以真实的Read来解开De Bruijn图,获得转录本序列。
组装的原理图如图3:

转录组文库质量评估

概述

合格的转录组测序文库是转录组数据分析结果可靠的必要条件,为确保测序文库的质量,从以下3个不同角度对转录组测序文库进行质量评估:
(1) 通过检验插入片段在Unigene上的分布,评估mRNA片段化的随机性、mRNA的降解情况;
(2) 通过绘制插入片段的长度分布图,评估插入片段长度的离散程度;
(3) 通过绘制饱和度图,评估文库容量和比对到Unigene库的Reads(Mapped Reads)是否充足。

mRNA片段化随机性检验

mRNA片段化后的插入片段大小选择,可以理解为从mRNA序列中独立随机地抽取子序列,如果样本量(mRNA数目)越大、打断方式和时间控制得越合适,那么目的RNA每个部分被抽取到的可能性就越接近,即mRNA片段化随机性越高,mRNA上覆盖的reads越均匀。
通过比对到Unigene的reads(mapped reads)在各mRNA转录本上的位置分布,模拟mRNA片段化结果,检验mRNA片段化的随机程度。各样品mapped reads在mRNA转录本上的位置分布图如图5:

图5 Mapped Reads在mRNA上的位置分布图


目录

图5 Mapped Reads在mRNA上的位置分布图 (Total.randcheck.png)

注: 横坐标为mRNA位置,纵坐标为对应位置区间内Reads在Mapped Reads中所占百分比。由于参考的mRNA长度不同,作图时将每个mRNA按照长度划分成100个区间,进而统计每一区间内的Mapped Reads数目及所占的比例,图中反映的是所有mRNA各个区间内的Mapped Reads比例的汇总。

插入片段长度检验

插入片段长度的离散程度能直接反映出文库制备过程中切胶或磁珠纯化的效果。样品T1的插入片段长度模拟分布图如图6:

图6 插入片段长度模拟分布图


目录

图6 插入片段长度模拟分布图 (T1.insertSize.r.png)

注:横坐标为双端Reads在Unigene库中比对起止点之间的距离,范围为0到800bp;纵坐标为比对起止点之间不同距离的双端Reads或插入片段数量。

转录组测序数据饱和度检验

充 足的有效数据量是信息分析准确的必要条件。相比传统的基因表达检测方法,转录组测序拥有较高的灵敏度,不仅能检测到高表达的基因,还能检测到低表达的基 因。转录组测序检测到的基因数目与测序数据量成正相关性,即测序数据量越大,检测到的基因数目越多。但一个物种的基因数目是有限的,而且基因转录具有时间 特异性和空间特异性,所以随着测序量的增加,检测到的基因数目会趋于饱和。
为了评估数据是否充足,需要查看随着测序数据量的增加,新检测到的基因是否越来越少或没有,即检测到的基因数目是否趋于饱和。
使用各样品的Mapped Reads对检测到的基因数目的饱和情况进行模拟,绘制曲线图如图7:

图7 转录组测序数据饱和度模拟图


目录

图7 转录组测序数据饱和度模拟图 (Total.gene_tag.png)

注:通过将Reads等量地分成100份,逐渐增加数据查看检测到的基因数量来绘制饱和度曲线。横坐标为reads数目(以10^6为单位),纵坐标为检测到的基因数量(以10^3为单位)。表达量FPKM不小于0.1的基因为表达的基因。

Unigenes注释

概述

使用BLAST[2]软件(version 2.2.26)将Unigene序列与nr[3]、Swiss-Prot[4]、GO[5]、COG[6]、KEGG[7]数据库比对,获得Unigene的注释信息。
NR 数据库是NCBI中的非冗余蛋白质数据库,包含了Swiss-Prot、PIR(Protein Information Resource)、PRF(Protein Research Foundation)、PDB(Protein Data Bank)蛋白质数据库及从GenBank和RefSeq的CDS数据翻译过来的蛋白质数据信息。
Swiss-Prot数据库是由EBI(欧洲生物信息学研究所)负责维护的数据库,包含了有相关参考文献且经过校对的蛋白质注释信息数据库,可信度很高。
COG (Clusters of Orthologous Groups) 数据库是对基因产物进行同源分类的数据库,是一个较早的识别直系同源基因的数据库,通过对完整的原核生物的蛋白质序列大量比较而来的,现在已经扩展到包含630个完整的基因组。
GO (Gene Ontology) 数据库是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表来全面描述生物体中基因和基因产物的功能属性。该数据库总共有三大类,分别是 分子功能 (molecular function),细胞组分 (cellular component) 和生物学过程 (biological process),各自描述了基因产物可能行使的分子功能,以及所处的细胞环境和参与的生物学过程。GO数据库中最基本的概念是Term,每个条目都有一 个Term名,比如"cell"、"fibroblast growth factor receptor binding"或者"signal transduction",同时有一个唯一的编号,形如GO:nnnnnnn。
KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是系统分析基因产物在细胞中的代谢途径以及这些基因产物功能的数据库。它整合了基因组、化学分子和生化系统等方面的数据,包括代谢 通路(PATHWAY)、药物(DRUG)、疾病(DISEASE)、基因序列 (GENES) 及基因组 (GENOME) 等。利用该数据库有助于把基因及表达信息作为一个整体的网络进行研究。

Unigenes注释统计

本项目最终获得36,301个有注释信息的Unigene。基因注释的统计结果见表4:

表4 Unigenes注释统计表


目录

表4 Unigenes注释统计表 (Function_Annotation.stat.xls)

注:Anno_Database: 表示各功能数据库;Annotated_Number:注释到数据库的Unigenes数;300<=length<1000 :注释到数据库的长度大于300bp的Unigenes数;length>=1000 :注释到数据库的长度大于1000bp的Unigenes数。

基因结构分析

CDS预测

TransDecoder 软件基于开放阅读框(Open Reading Frame,ORF)长度、对数似然函数值(Log-likelihood Score)、氨基酸序列与Pfam数据库蛋白质结构域序列的比对等信息,能够从转录本序列中识别可靠的潜在编码区序列(Coding Sequence,CDS),是Trinity和Cuffinks等软件官方推荐的CDS预测软件。

简单重复序列分析

MISA(MIcroSAtellite identification tool)是一款鉴定简单重复序列(Simple Sequence Repeat,SSR)的软件,其参考网址见附表。它可以通过对Unigene序列的分析,鉴定出7种类型的SSR:单碱基(Mono- nucleotide)重复SSR、双碱基(Di-nucleotide)重复SSR、三碱基(Tri-nucleotide)重复SSR、四碱基 (Tetra-nucleotide)重复SSR、五碱基(Penta-nucleotide)重复SSR和六碱基(Hexa-nucleotide)重 复SSR。
利用MISA软件对筛选得到的1kb以上的Unigene做SSR分析,统计结果见表5:

表5 SSR分析结果统计表


目录

表5 SSR分析结果统计表 (SpeciesName.Unigene.1000.fa.statistics)

注:Total number of sequences examined:评估的序列数目;Total size of examined sequences (bp):评估的序列总碱基数目;Total number of identified SSRs:识别的SSR总数;Number of SSR containing sequences:包含SSR的序列数目;Number of sequences containing more than 1 SSR :包含1个以上SSR的序列数目;Number of SSRs present in compound formation:以复合物形式存在的SSR数目;1:单碱基重复SSR;2:双碱基重复SSR;3:三碱基重复SSR;4:四碱基重复SSR;5:五 碱基重复SSR;6:六碱基重复SSR。

SNP分析

SOAPsnp[8](version 1.00)是分析样本间SNP的常用软件软件。该软件利用基于贝叶斯理论而建立的一套方法,综合考虑了碱基质量、比对情况、测序错误率等因素,得到一致性序列质量值作为SNP可靠性的标准。
将每个样品转录组测序得到的reads与组装得到的Unigene比对,可以观察到部分基因序列中存在多态性位点。进而可以分析这些SNP位点是否影响了基因的表达水平或者蛋白产物的种类。
利用SOAPsnp软件进行样品间的SNP分析,两两样品间SNP数量统计见表6。

表6 SNP数量统计表


T5、T6纯合 (T5.T6.homo.snp.xls)

GeneID: 基因名;pos:SNP在Unigene上的位置;reGenotype:Unigene的基因型;T5.Genotype:样品T5的基因 型;T5.Depth:样品T5在此位点的总深度;T6.Genotype:样品T6的基因型;T6.Depth:样品T6在此位点的总深 度;Score:此位点打分


基因表达量分析

Unigenes表达量估计

采用Bowtie[9]将各样品测序得到的reads与Unigene库进行比对,根据比对结果,结合RSEM[10]进行表达量水平估计。利用FPKM值表示对应Unigene的表达丰度。
FPKM[11](Fragments Per Kilobase of transcript per Million mapped reads)是每百万reads中来自某一基因每千碱基长度的reads数目,是转录组测序数据分析中常用的基因表达水平估算方法。FPKM能消除基因长 度和测序量差异对计算基因表达的影响,计算得到的基因表达量可直接用于比较不同样品间的基因表达差异。FPKM计算公式如下:

公 式中,cDNA Fragments表示比对到某一转录本上的片段数目,即双端Reads数目;Mapped Reads(Millions)表示Mapped Reads总数,以10^6为单位;Transcript Length(kb):转录本长度,以10^3个碱基为单位。
对每个基因的信息进行统计,结果文件见原始数据及更多操作模块。

样品基因表达量总体分布

利用转录组数据检测基因表达具有较高的灵敏度。通常情况下,能够测序到的蛋白质编码基因表达水平FPKM值横跨10-2到104六个数量级[12]。

图8 各样品FPKM分布密度图


目录

图8 各样品FPKM分布密度图 (all.fpkm_density.png)

注:图中不同颜色的曲线代表不同的样品,曲线上点的横坐标表示对应样品FPKM的对数值,点的纵坐标表示概率密度。

图9 各样品FPKM箱线图


目录

图9 各样品FPKM箱线图 (all.fpkm_box.png)

注:图中横坐标代表不同的样品;纵坐标表示样品表达量FPKM的对数值。该图从表达量的总体离散角度来衡量各样品表达水平。



目录

在表格工具集中查看

1/6

T1样品基因表达量结果文件 (T1.geneExpression.xls)

注:Gene_ID:Unigene 编号;Effective_Length:Unigene有效长度,即该基因不同转录本的平均长度;Length:Unigene的长度;TPM:TPM 方法标准化后的基因表达丰度值;FPKM:FPKM方法标准化后的基因表达丰度值;Transcript_ID(s):转录本的编 号;Expected_Count:标准化后的片段数。



差异表达分析

概述

基 因表达具有时间和空间特异性,外界刺激和内部环境都会影响基因的表达。在不同条件(如对照与处理、野生型和突变型、不同时间点、不同组织等)下,表达水平 存在显著差异的基因,称之为差异表达基因(Differentially Expressed Gene,DEG)。同样地,表达水平存在显著差异的转录本,称之为差异表达转录本(Differentially Expressed Transcript,DET)。生物信息学中,寻找差异表达转录本或差异表达基因的过程叫做差异表达分析(Differential Expression Analysis)。
最近的研究表明,基因的表达在不同的个体间存在生物学可变性[13] [14](Biological Variability),而转录组测序技术(甚至qPCR、生物芯片等技术)不能消除这种可变性。可变性是基因表达的基本特征之一,不同的基因之间表达 的可变程度存在差异。为了寻找真正感兴趣的差异表达基因,需要考虑和处理因生物学可变性造成的表达差异[15]。目前最常用和最有效的方法是在实验设计中设立生物学重复(Biological Replicates),即在同一条件下(最好能取材于相同的个体)制备多个生物学样品。重复条件限制越严格,重复样品数目越多,寻找到的差异表达基因越可靠。
差 异表达分析寻找到的基因集合叫做差异表达基因集。下文和分析结果中,使用"A_vs_B"的方式命名差异表达基因集,如T1_vs_T2或 T1_T2_vs_T3_T4等。通常情况下,对于两个样品之间的差异表达基因集,A表示对照样品、野生型样品或前一个时间点样品;而B表示对应的处理样 品、突变型样品或后一个时间点样品。相应地,对于两个条件(即两组样品)之间的差异表达基因集,A表达含有多个重复样品(Duplicates)的对照 组、野生型组或前一个时间点样品组;B表示对应的处理组、突变型组、后一个时间点样品组。根据两(组)样品之间表达水平的相对高低,差异表达基因可以划分 为上调基因(Up-regulated Gene)和下调基因(Down-regulated Gene)。上调基因在样品(组)B中的表达水平高于样品(组)A中的表达水平;反之为下调基因。因此,上调和下调是相对的,由所给A和B的顺序决定,更 换A和B的顺序之后会完全反过来,但这不会对分析结果产生实质性的影响。

重复相关性评估

对于设立生物学重复的项目,评估生物学重复的相关性对于分析转录组测序数据非常重要。首先,生物学重复的相关性可以检验生物学实验操作的可重复性;其次,生物学重复的相关性可以评估差异表达基因的可靠性。最后,生物学重复的相关性可以辅助异常样品的筛查。
将皮尔逊相关系数r(Pearson's Correlation Coefficient)作为生物学重复相关性的评估指标[16]。r^2越接近1,说明两个重复样品相关性越强。
为 了使分析更加准确可信,原则上,同一条件的生物学重复样品数目不得少于3个。这是为了能够筛查异常样品,并且在剔除一个异常样品后,保证每个条件至少还有 2个生物学重复样品,进而直接进行后续差异表达分析,减小整个实验失败的风险,提高效率。同时,百迈客也保证对同一条件的所有生物学重复样品进行同人同批 样品提取、建库,同Run同Lane测序。对异常样品进行详细分析,并根据分析结果与沟通共识决定重新进行实验,还是剔除异常样品进行后续分析。
该项目同一条件任意一对生物学重复样品的r^2统计如表8:

表8 生物学重复相关性统计表


目录

表8 生物学重复相关性统计表 (free_com.stat)

注:Sample 1表示样品1的编号;Sample 2表示样品2的编号;R^2表示皮尔逊相关系数的平方。

图10 样品相关性热图


目录

图10 样品相关性热图 (sample_cluster.png)

注:该图反映的是两两样品间基因表达量相关性强弱,图中左边与底部标识为样品名,右边与上部为样品聚类关系图。图中第个方框的颜色代表对应的两个样品的皮尔逊相关系数的平方值的大小,即从红色到绿色渐变的过程中,R2是越来越大的,即相关程度越来越高。

差异表达筛选

检测差异表达基因时,需要根据实际情况选取合适的差异表达分析软件。对于有生物学重复的实验,采用DESeq[17]进行样品组间的差异表达分析,获得两个条件之间的差异表达基因集;对于没有生物学重复的实验,则使用EBSeq[18]进行差异表达分析,获得两个样品之间的差异表达基因集。
在 差异表达分析过程中采用了公认有效的Benjamini-Hochberg方法对原有假设检验得到的显著性p值(p-value)进行校正,并最终采用校 正后的p值,即FDR(False Discovery Rate)作为差异表达基因筛选的关键指标,以降低对大量基因的表达值进行独立的统计假设检验带来的假阳性。
在筛选过程中,默认将FDR<0.01且差异倍数(Fold Change)≥2作为筛选标准。其中,Fold Change表示两样品(组)间表达量的比值。
差异表达基因部分结果见原始数据文件及更多操作。

表9 差异表达基因数目统计表


目录

表9 差异表达基因数目统计表 (DEG.stat)

注:DEG Set:差异表达基因集名称;All DEG:差异表达基因数目;up-regulated:上调基因的数目;down-regulated:下调基因的数目。

图10 样品T1和样品T4间差异表达基因火山图


目录

图10 样品T1和样品T4间差异表达基因火山图 (T1_vs_T4.FC_FDR.png)

注: 差异表达火山图中的每一个点表示一个基因,横坐标表示某一个基因在两样品中表达量差异倍数的对数值,其绝对值越大,说明表达量在两样品间的表达量倍数差异 越大;纵坐标表示错误发现率的负对数值,其值越大,表明差异表达越显著,筛选得到的差异表达基因越可靠。图中绿色的点代表有显著性表达差异的基因,红色的 点代表无显著性表达差异的基因。

图11 样品T1和样品T4间差异表达基因MA图


目录

图11 样品T1和样品T4间差异表达基因MA图 (T1_vs_T4.FC_count.png)

差 异表达基因MA图中每一个点代表一个基因。横坐标为A值:log2(FPKM),即两样品中表达量均值的对数值;纵坐标为M值:log2(FC),即两样 品间基因表达量差异倍数的对数值,用于衡量表达量差异的大小。图中绿色的点代表显著差异表达的基因,红色的点代表表达差异不显著的基因。

差异表达基因集维恩图

当差异表达基因集在2个到5个之间时,可以对各基因集进行统计,绘制维恩图,直观展现出各个基因集共有的差异表达基因,及特有的差异表达基因。

图12 差异表达基因集维恩图


目录

图12 差异表达基因集维恩图 (All_DEG_veen.png)

每个圆形区域代表一个差异表达基因集,重叠区域中的数字即为不同集合共有元素个数。

差异表达基因聚类分析

对筛选出的差异表达基因做层次聚类分析,将具有相同或相似表达行为的基因进行聚类,用于展示不同实验条件下基因集的差异表达模式。差异表达基因聚类结果如图13:

图13 样品T1和样品T4间差异表达基因聚类图


目录

图13 样品T1和样品T4间差异表达基因聚类图 (T1_vs_T4.DEG.cluster.png)

注:图中不同的列代表不同的样品,不同的行代表不同的基因。颜色代表了基因在样品中的表达量FPKM以2为底的对数值。



目录

在表格工具集中查看

1/23

差异表达基因结果文件 (T1_vs_T4.DEG_final.xls)

注:GeneID:基因编号;FDR:错误发现率;log2FC:表达量差异倍数的对数值;regulated:上调基因(up)还是下调基因(down);其它列为对应样品中基因的表达量FPKM值。

差异表达基因功能注释和富集分析

差异表达基因注释统计

对差异表达基因进行功能注释,各差异表达基因集注释到的基因数量统计见表10:

表10 注释的差异表达基因数量统计表


目录

表10 注释的差异表达基因数量统计表 (DEG.anno.stat)

注:DEG Set:差异表达基因集名称;Annotated:注释到的差异表达基因数目;第三列到最后一列表示各功能数据库注释到的差异表达基因数目。

差异表达基因GO功能富集

GO数据库是一个结构化的标准生物学注释系统,建立了基因及其产物知识的标准词汇体系,其信息适用于各物种。该数据库结构分为多个层级,层级越低,Term所代表的功能越具体。
样品T1和样品T4间差异表达基因以及所有检测的基因在GO二级Term的注释结果见图14:

图14 样品T1和样品T4间差异表达基因及所有基因的GO二级Term注释图


目录

图14 样品T1和样品T4间差异表达基因及所有基因的GO二级Term注释图 (T1_vs_T4.GO.png)

注: 横坐标为GO三大分类下的二级Term。纵坐标表示注释到该Term的基因数目及占所有基因数目的百分比,其中红色柱体表示所有基因的注释情况,蓝色柱体 表示差异表达基因的主视情况。从图14可以看出,GO各功能在差异表达基因和所有基因两个背景下的地位,其中红色柱体与蓝色柱体具有明显差异的Term可 能与差异有关。

图15 样品T1和样品T4间topGO有向无环图


目录

图15 样品T1和样品T4间topGO有向无环图 (T1_vs_T4.topGO_MF.png)

注:对每个GO节点进行富集,最显著的10个节点在图中用方框表示,图中还包含其各层对应关系。每个方框(或椭圆)内给出了该GO节点的内容描述和富集显著性值。不同颜色代表不同的富集显著性,颜色越深,显著性越高。

差异表达基因COG分类

COG(Cluster of Orthologous Groups of proteins)数据库是基于细菌、藻类、真核生物的系统进化关系构建得到的,利用COG数据库可以对基因产物进行直系同源分类。
样品T1和样品T4间差异表达基因COG分类统计结果见图16:

图16 样品T1和样品T4间差异表达基因COG注释分类统计图


目录

图16 样品T1和样品T4间差异表达基因COG注释分类统计图 (T1_vs_T4.Cog.classfy.png)

注:横坐标为COG各分类内容,纵坐标为基因数目。在不同的功能类中,基因所占多少反映对应时期和环境下代谢或者生理偏向等内容,可以结合研究对象在各个功能类的分布做出科学的解释。

差异表达基因KEGG注释

在生物体内,不同的基因产物相互协调来行使生物学功能,进行差异表达基因的Pathway注释分析有助于进一步解读基因的功能。KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是关于Pathway的主要公共数据库。

图17 样品T1和样品T4间差异表达基因KEGG分类图


目录

图17 样品T1和样品T4间差异表达基因KEGG分类图 (T1_vs_T4.KEGG.png)

注:横坐标为COG各分类内容,纵坐标为基因数目。在不同的功能类中,基因所占多少反映对应时期和环境下代谢或者生理偏向等内容,可以结合研究对象在各个功能类的分布做出科学的解释。

差异表达基因KEGG通路富集分析

分 析差异表达基因在某一通路上是否过出现(over-presentation)即为差异表达基因的Pathway富集分析。利用富集因子 (Enrichment Factor)分析Pathway的富集程度,并利用Fisher精确检验方法计算富集显著性。其中富集因子的计算公式如下:


差异表达基因的KEGG通路富集分析结果见图23:

图23 样品T1和样品T4间差异表达基因KEGG通路富集散点图


目录

图23 样品T1和样品T4间差异表达基因KEGG通路富集散点图 (T1_vs_T4.KEGG.Phase.png)

注: 图中每一个图形表示一个KEGG通路,通路名称见右侧图例。横坐标为富集因子(Enrichment Factor),表示注释到某通路的差异表达基因数目在所有注释到该通路的基因总数目中所占的比例。富集因子越小,表示差异表达基因在该通路中的富集水平 越显著。纵坐标为Q值的对数值,其中Q值为多重假设检验较正之后的P值。因此,纵坐标越大,表示差异表达基因在该通路中的富集显著性越可靠。



目录

在表格工具集中查看

1/26

Unigenes注释结果文件 (Integrated_Function.annotation.xls)

GeneID:Unigene 名;COG_class:COG数据库中的蛋白功能分类编码;COG_class_annotation:COG数据库中具体的蛋白分类注 释;GO_annotation:GO数据库具体功能注释;KEGG_annotation:KEGG数据库具体功能注 释;Swissprot_annotation:Swiss-Prot具体功能注释;nr_annotation:nr具体注释结果



实验流程

转录组测序实验流程包括样品检测、文库构建及其质量控制和上机测序。实验流程见下图:

RNA样品检测

分别采用Nanodrop、Qubit 2.0、Aglient 2100方法检测RNA样品的纯度、浓度和完整性等,以保证使用合格的样品进行转录组测序。

RNA文库构建

样品检测合格后,则启动文库构建,主要流程如下:
(1) 用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则通过试剂盒去除rRNA富集mRNA)。
(2) 加入fragmentation buffer将mRNA进行随机打断。
(3) 以mRNA为模板,用六碱基随机引物(random hexamers)合成第一条cDNA链,然后加入缓冲液、dNTPs、RNase H和DNA polymerase I合成第二条cDNA链,利用AMPure XP beads纯化cDNA。
(4) 纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPure XP beads进行片段大小选择,
(5) 最后通过PCR富集得到cDNA文库。

文库质控

文库构建完成后,分别使用Qubit2.0和Agilent 2100对文库的浓度和插入片段大小(Insert Size)进行检测,使用Q-PCR方法对文库的有效浓度进行准确定量,以保证文库质量。

上机测序

库检合格后,用HiSeq2500进行高通量测序,测序读长为PE100。

生物信息学分析

对Raw Data进行测序质量控制,去除其中的低质量reads和rRNA reads获得高质量的Clean Data数据。
将Clean Data进行序列组装,获得该物种的Unigene库。基于此,可以进行随机性检验、饱和度检验等测序文库质量评估。文库质量评估合格后,进行表达量分 析、基因结构分析,并根据基因在不同样品或不同样品组中的表达量进行差异表达分析、差异表达基因功能注释和功能富集等分析。
无参考基因组的转录组生物信息分析流程见图25:

References

[1] Grabherr MG, Haas BJ, Yassour M,, et al. Full length transcriptome assembly from RNA Seq data without a reference genome. Nature Biotechnology. 2011.(29): 644 -652.
[2] Altschul SF, Madden TL, Schäffer AA, et al. Gapped BLAST and PSI BLAST: A New Generation of Protein Database Search Programs. Nucleic Acids Research. 1997. 25(17): 3389 -3402.
[3] Deng YY, Li JQ, Wu SF, et al. Integrated nr Database in Protein Annotation System and Its Localization. Computer Engineering. 2006. 32(5):71 -74.
[4] Apweiler R, Bairoch A, Wu CH, et al. UniProt: the Universal Protein knowledgebase. Nucleic Acids Research. 2004. 32(Database issue)115-9.
[5] Ashburner M, Ball C A, Blake J A, et al. Gene ontology: tool for the unification of biology. Nature genetics. 2000. 25(1): 25-29.
[6] Tatusov R L, Galperin M Y, Natale D A. The COG database: a tool for genome scale analysis of protein functions and evolution. Nucleic Acids Research. 2000. 28(1):33-36.
[7] Kanehisa M, Goto S, Kawashima S, et al. The KEGG resource for deciphering the genome. Nucleic Acids Research. 2004. 32(Database issue)277 -D280.
[8] Li R, Li Y, Fang X, et al. SNP detection for massively parallel whole genome resequencing. Genome Research. 2009. (19):1124-1132.
[9] Langmead B, Trapnell C, Pop M, et al. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 2009. 10(3): R25.
[10] Li B, Colin ND. RSEM: accurate transcript quantification from RNA Seq data with or without a reference genome. BMC Bioinformatics. 2011. (12):323.
[11] Trapnell C, Williams B A, Pertea G, Mortazavi A, et al. Transcript assembly and quantification by RNA Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nature Biotechnology 2010, 28(5):511 515.
[12] Djebali, Sarah and Mortazavi, et al. Landscape of transcription in human cells. Nature 2012, 489 (7414). pp. 101-108. ISSN 0028-0836.
[13] Elowitz MB, Levine AJ, Siggia ED, Swain PS. Stochastic gene expression in a single cell. Science 2002; 297:1183–1186.
[14] Kasper D. Hansen, Zhijin Wu, et al. Sequencing technology does not eliminate biological variability. Nat Biotech 2011, pp. 572-573, doi:10.1038/nbt.1910
[15] Robasky, K., Lewis, N. E. Church, G. M. The role of replicates for error mitigation in next-generation sequencing. Nature Reviews Genetics. 1–7 2013. doi:10.1038/nrg3655
[16] Schulze S K, Kanwar R, G?lzenleuchter M, et al. SERE: Single-parameter quality control and sample comparison for RNA-Seq. BMC genomics Italic, 2012, 13(1): 524.
[17] Anders S, Huber W. Differential expression analysis for sequence count data. Genome Biology. 2010. 11:R106.
[18] Leng N, Dawson JA, Thomson JA, et al. EBSeq: An empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 2013. 29:1035-43.
测序数据统计与评估
转录组测序数据组装
转录组文库质量评估
Unigenes注释
基因结构分析
基因表达量分析
差异表达分析
差异表达基因功能注释和富集分析
实验流程
生物信息学分析
References



上一篇:表达芯片的QC指导
下一篇:请问一下这两幅图是怎样画出来的?
回复

使用道具 举报

0

主题

1

帖子

51

积分

注册会员

Rank: 2

积分
51
发表于 2018-3-7 15:47:51 | 显示全部楼层
你好 ,帖子中的图基本都显示不出, 请问能分享一下有图版本么?非常感谢!
回复 支持 2 反对 0

使用道具 举报

7

主题

37

帖子

408

积分

中级会员

Rank: 3Rank: 3

积分
408
发表于 2018-1-4 18:19:17 | 显示全部楼层
你好 ,帖子中的图基本都显示不出,  有简书或者博客的版本的吗?能显示出图片的
回复 支持 反对

使用道具 举报

0

主题

2

帖子

65

积分

注册会员

Rank: 2

积分
65
发表于 2018-4-15 18:48:48 | 显示全部楼层
你好,文章中图片显示不出,能添加进去吗?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2018-7-22 11:12 , Processed in 0.082113 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.