搜索
查看: 4572|回复: 4

[CHIP-seq] chip-seq重要文献集

[复制链接]

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2017-10-27 15:03:40 | 显示全部楼层 |阅读模式
带有对照的ChIP-seq数据的标准化
背景:ChIP-seq已经成为鉴定全基因组蛋白质-DNA相互作用,包括转录因子结合和组蛋白修饰的一种重要工具。在ChIP-seq实验中,ChIP样品通常伴随着它们相匹配的对照样品。ChIP样品和对照样品间的适当标准化是ChIP-seq数据分析的一个必要方面。结果:我们开发了一种新方法来评估ChIP样品和对照样品间的标准化因子。我们的方法,叫做NCIS(Normalization of ChIP-seq,ChIP-seq标准化),能够适应低和高测序深度的数据集。我们在一套不同的模拟设置中比较了现有方法和NCIS的统计属性,其中NCIS享有最好的评估准确性。此外,我们阐明了标准化因子在FDR控制中的影响,并显示在名义水平上NCIS在控制FDR的方法中更加有效。结论:我们的结果表明ChIP样品和对照样品间的适当标准化在效能和错误率控制方面是ChIP-seq分析中一个重要的步骤。我们提出的方法显示了卓越的统计属性,并在全系列ChIP-seq应用中是有用的,特别是在深度测序数据中。http://pages.cs.wisc.edu/~kliang/NCIS/

10.1186/1471-2105-13-199

ChIP-seq数据综合分析实用指南
正如由DNA元件百科全书(Encyclopedia of DNA Elements,ENCODE)计划所证明的,比对转录因子、核小体、组蛋白修饰、染色质重塑酶、分子伴侣和聚合酶的染色体位置是现代生物学的关键任务之一。有鉴于此,染色质免疫沉淀高通量测序(ChIP-seq)是标准的方法。使用ChIP-seq在体内比对这些蛋白质-DNA相互作用不仅在样品制备和测序中,而且为计算分析提出了许多挑战。这里,我们提出了ChIP-seq数据计算分析的逐步指南。我们解决了ChIP-seq数据分析中的所有主要步骤:测序深度选择、质量检查、比对、数据标准化、可重复性评估、峰识别、差异结合分析、控制错误发现率(false discovery rate,FDR)、峰注释、可视化和模体分析。在指南的每一步中,我们讨论了一些最频繁使用的软件工具。我们也强调了与ChIP-seq数据分析中每一步相关的挑战和问题。我们在图1中呈现了一个简明的ChIP-seq数据分析流程,补充并扩展了ENCODE和modENCODE计划的推荐规范。在随后章节详细描述了流程中的每一步。

10.1371/journal.pcbi.1003326


问题和答案:ChIP-seq技术和基因调控的研究
什么是ChIP-seq?ChIP-seq是[url=]染色质免疫沉淀[/url]-测序的简称。从根本上讲,ChIP-seq是与研究的一种DNA-结合蛋白质共沉淀的基因组DNA片段的测序。以这种方式研究的DNA-结合蛋白质最常见的是[url=]转录因子[/url](例如,p53或NFκB),染色质修饰酶(例如,p300,组蛋白去乙酰化酶),与基因组DNA相互作用的修饰蛋白质(例如,组蛋白3的赖氨酸4的甲基化),以及基础转录机器的组件(例如,RNA聚合酶II)。理论上,这种技术能够以一种非偏的方式识别物理上与一个特异DNA结合蛋白质相关的所有DNA片段。我们说"非偏",是因为在免疫沉淀中被拉下的任何DNA都将会被测序,因此该技术不依赖于精确的DNA结合位点的先验知识。

10.1186/1741-7007-8-56
ChIP-seq数据的计算分析
染色质免疫沉淀随后大规模并行测序(ChIP-seq)是绘制基因组中蛋白质-DNA相互作用的一种新技术。由ChIP-seq产生的全基因组[url=]转录因子结合位点[/url]和染色质修饰数据提供了研究基因调控的无价信息。本章回顾了ChIP-seq数据的基本特征,并介绍了一种计算方法来从ChIP-seq实验中识别蛋白质-DNA相互作用。

HiChIP:一个高通量ChIP-Seq数据整合分析流程
背景:染色质免疫沉淀(ChIP)接着下一代测序(ChIP-Seq)已经被广泛地用于鉴定转录因子(TF)结合和组蛋白修饰的基因组位点。ChIP-Seq数据分析涉及到多个步骤,从片段(read)比对到峰识别到数据整合和解释。处理来自使用相同方法的不同抗体或实验设计的大量ChIP-Seq数据仍然是有挑战性且耗时的。为了解决这种挑战,有对具有灵活设置以加速这种强大技术在表观遗传学研究中利用的一种综合分析流程的需求。结果:我们开发了一个高度整合的流程,称为HiChIP以进行ChIP-Seq数据的系统分析。HiChIP结合了基于内部评估和已发表的比较而挑选的几种开源软件包。它也包括了一套内部开发的工具。这个流程使得能够进行双端和单端,带或不带重复的ChIP-Seq片段的分析以进行点状和弥散结合位点的描述和注释。HiChIP的主要功能包括:(a)片段质量检查;(b)片段比对和过滤;(c)峰识别和峰一致性分析;和(d)结果可视化。此外,该流程包含了在挑选的基因组特征上产生结合谱的模块,从转录因子结合位点进行从头模体发现的模块和峰相关基因的功能注释模块。结论:HiChIP是一个综合的分析流程,它能够被配置以分析来自不同抗体和实验设计的ChIP-Seq数据。使用公共ChIP-Seq数据,我们证明HiChIP是一种快速且可靠的大量ChIP-Seq数据处理流程。 http://bioinformaticstools.mayo.edu/

http://dx.doi.org/10.1186/1471-2105-15-280

使用MACS鉴定ChIP-seq富集
基于模型的ChIP-seq分析(MACS)是从ChIP-seq数据中确定转录/染色质因子结合或组蛋白修饰全基因组位置的一种计算算法。MACS由4步构成:移除冗余片段,调整片段位置,计算峰富集和评估经验错误发现率(false discovery rate,FDR)。在这个实验方案中,我们提供了如何安装MACS和如何使用它来分析具有不同特征的3种常见类型ChIP-seq数据(序列特异性转录因子FoxA1,具有尖峰富集的组蛋白修饰标记H3K4me3和具有宽广富集的H3K36me3标记)的一个详细演示。我们也说明了如何解释和可视化MACS分析结果。该算法需要约3 GB内存和1.5 h计算时间以分析一个包含30M片段的一个ChIP-seq数据集,随着序列覆盖而增加的一项评估。MACS是开源的,可以从http://liulab.dfci.harvard.edu/MACS/ 获得。

http://dx.doi.org/10.1038/nprot.2012.101





使用MACS从ChIP-Seq数据中识别峰

基于模型的ChIP-Seq分析(Model-based Analysis of ChIP-Seq,MACS)是由X. Shirley Liu及其同事们设计的一个命令行工具以分析真核生物中(特别是哺乳动物)由ChIP-Seq实验产生的数据。若给定带有对照样品或没有对照样品的ChIP-Seq数据,MACS能够被用来识别转录因子结合位点和组蛋白修饰富集的区域。这一单元描述了两个基本实验方案,它们提供了如何使用MACS来识别或者转录因子结合位点或者具有宽阔峰的一个组蛋白修饰的富集区域的详细信息。此外,也讨论了MACS算法的基本思想及其适当的用法。http://liulab.dfci.harvard.edu/MACS/

使用MACS分析胚胎干细胞中由测序产生的蛋白质-DNA相互作用短片段
基于模型的ChIP-Seq分析(MACS)是鉴定来自ChIP-Seq数据的全基因组蛋白质-DNA相互作用的一种计算算法。MACS结合了多种模块,通过移除冗余片段,评估片段长度,构建信号谱,计算峰富集,并精炼和报告峰识别而处理比对的转录因子或组蛋白修饰ChIP-Seq片段。在这个实验方案中,我们提供了如何应用MACS分析胚胎干细胞中蛋白质-DNA相互作用相关ChIP-Seq数据集的一个详细示范。也提供了如何解释和可视化结果的说明。MACS是一个开源软件,可以从http://github.com/taoliu/MACS获得。






基于模型的ChIP-Seq分析(MACS)


我们提出了基于模型的ChIP-Seq数据分析软件,MACS,它分析由短片段测序仪,例如Solexa的Genome Analyzer(基因组分析器)产生的数据。MACS经验的建模ChIP-Seq片段的移位大小,使用它来提高预测结合位点的空间分辨率。MACS也使用一个动态的泊松分布来高效地捕获基因组的局部偏差,允许更好的鲁棒性预测。MACS顺利的和现有ChIP-Seq峰寻找算法相比,并且是免费的。http://liulab.dfci.harvard.edu/MACS/xsliu@jimmy.harvard.edu

10.1186/gb-2008-9-9-r137

从染色质免疫沉淀实验(ChIP-Seq)以前未比对的reads中发现重要生物信息
确立基因调控网络(gene regulatory networks,GRNs)结构依赖于提供全基因组转录因子结合位点(transcription factor binding sites,TFBSs)的染色质免疫沉淀结合大规模并行测序(ChIP-Seq)方法。ChIP-Seq提供了数百万短reads,在比对后,描述了一个特定TF的全基因组结合位点。然而,在所有研究的生物中,平均40%的reads不能比对到相应的基因组,一些数据集有高达80%的reads未能比对。这里,我们描述了动物和植物ChIP-Seq实验中以前未比对的reads的出处。我们显示不论ChIP-Seq染色质来源,相当大比例对应细菌和后生动物起源的序列。意料之外发现30%-40%未比对reads实际上是可比对的。为了验证这些观测,我们研究了一个参与人类造血细胞家系特化的TF TAL1相关的以前未比对的reads的特征。我们显示尽管未比对的ChIP-Seq read数据集包含外源DNA序列,但是能够从以前未比对的ChIP-Seq reads中鉴定额外的TFBSs。我们的结果表明来自ChIP-Seq实验的以前未比对的reads的重新评估将显著促进TF靶识别和GRNs新属性的确定。

ChIP-Seq数据分析
染色质免疫沉淀结合超高通量并行DNA测序(ChIP-seq)是全基因组蛋白质-DNA相互作用研究的一种有效技术。应用实例包括RNA聚合酶转录、转录调控和[url=]组蛋白修饰[/url]的研究。该技术提供了蛋白质-DNA结合基因组的准确且高分辨率图谱,它们对发育和疾病中的许多过程的理解是重要的。自ChIP-seq实验在2007年被引进以来,许多统计和计算方法已经被开发以支持来自这些实验的大规模数据集的分析。但是,由于复杂、多阶段的分析流程,一个实验研究者执行他或她自己的ChIP-seq数据分析仍然是困难的。在这一章中,我们回顾了ChIP-seq实验的基本设计,并提供了对如何制备、预处理和分析ChIP-seq数据集的一个深入指南。该指南是基于我们的软件包CisGenome的一个修订版,它被设计以包含ChIP-seq数据分析中的大部分标准任务。相关的统计和计算问题将通过真实数据例子进行强调、讨论和举例说明。http://www.biostat.jhsph.edu/~hji/cisgenome/ 。

10.1016/B978-0-12-385075-1.00003-2


R中的ChIP-seq分析(CSAR):一个蛋白质结合基因组区域统计检测R程序包
背景:蛋白质结合基因组区域的体内检测能够通过结合染色质免疫沉淀和下一代测序技术(ChIP-seq)实现。由这种方法产生的大量测序数据需要以一种统计上合适且计算上高效的方式进行分析。作为ChIP-seq中PCR步骤的一个假象,高拷贝数DNA片段的产生是这种方法的一个主要偏差来源。结果:这里,我们提出了一个ChIP-seq实验统计分析R程序包。考虑到进行测序的平均DNA片段大小,该软件计算了单核苷酸片段富集值。在标准化后,使用一个基于比例测定或泊松分布的检验来比较样品和对照。控制错误发现率(false discovery rate,FDR)的检验统计阈值通过随机排列获得。计算效率是通过用C++实现最耗时的函数并整合这些函数到R程序包中实现的。提出了一项模拟的和实验的ChIP-seq数据分析来证明我们的方法对PCR假象的鲁棒性和它对错误率的充分控制。结论:通过对ChIP-seq实验的分析,软件CSAR(ChIP-seq Analysis in R,R中的ChIP-seq分析)使得快速且准确的蛋白质结合基因组区域的检测成为可能。与现有的方法相比,我们发现我们的程序包显示了对PCR假象的更高鲁棒性和对错误率的更好控制。http://bioconductor.org/packages/release/bioc/html/CSAR.htmljose.muino@wur.nl

10.1186/1746-4811-7-11

ChIP-seq:一个成熟科技的优点和挑战
染色质免疫沉淀接着测序(ChIP-seq)是DNA结合蛋白质,组蛋白修饰或核小体的基因组范围图谱的一项技术。由于在下一代测序技术上的惊人进步,ChIP-seq提供了比它的基于阵列的先辈ChIP-chip更高的分辨率、更少的噪音和更广的覆盖率。随着测序费用的递减,ChIP-seq已经成为研究基因调控和表观机制的不可或缺的工具。在这篇综述中,我描述了利用这个技术重点关注实验设计和数据分析相关的问题的优势和挑战。ChIP-seq实验产生大量的数据,有效的计算分析对揭示生物学机制将是必不可少的。


处理和分析ChIP-seq数据:从短片段到调控相互作用
染色质免疫沉淀和测序(ChIP-seq)是一个快速成熟的技术,它利用高通量短片段测序的能力以空前的精度和幅度解码染色质状态。尽管实验方案的一些方面需要仔细的调整,但是当前的瓶颈严格地取决于下游的数据分析。我们给出了基因组比对和数据标准化的较好确立的一些方面的一个概述,我们描述了在峰识别和它们的统计分析中的最新进展,并提出了流行的后续分析,例如基因组特征分类和motif搜索的一个简要概述。jacques.rougemont@epfl.ch



分析ChIP-seq数据:预处理、标准化、差异识别和结合模式描述
染色质免疫沉淀接着测序(ChIP-seq)是研究全基因组蛋白质-DNA结合相互作用的一种高通量的基于抗体的方法。与旧的ChIP-chip实验相比,ChIP-seq技术允许科学家使用更少的起始材料并且在更短的时间内获得更准确的数据,提供了全基因组的覆盖。这里,我们描述了分析ChIP-seq数据的一个逐步的指南,包括数据预处理,使得不同样品和实验间能够比较的非线性标准化,使用混合模型和局部[url=]错误发现率[/url](False Discovery Rates,FDRs)来识别差异结合位点的基于统计的方法,和结合模式描述。此外,我们提供了使用指南中提供的步骤进行的一个ChIP-seq数据样本分析。




jMOSAiCS:多个ChIP-seq数据集的联合分析
ChIP-seq技术使得体内蛋白质-DNA相互作用和染色质状态的全基因组图谱绘制成为可能。当前的ChIP-seq分析方法主要面向单样品研究,在旨在鉴定跨多个数据集的组合富集模式比较环境下具有有限的适用性。我们描述了一个新的概率方法jMOSAiCS以联合分析多个ChIP-seq数据集。我们用一系列数据驱动的计算实验和一个红系分化期间GATA1占据片段上的组蛋白修饰案例研究证明了它的有效性。jMOSAiCS是开源软件,能够从Bioconductor下载:http://www.bioconductor.org/packages/devel/bioc/html/jmosaics.html

10.1186/gb-2013-14-4-r38


SIOMICS:一种ChIP-seq数据中模体系统鉴定新方法
转录因子结合模体的鉴定对于基因转录调控研究是重要的。染色质免疫沉淀(ChIP)接着大规模并行测序(ChIP-seq)实验提供了空前的机会以发现结合模体。开发了计算方法以从ChIP-seq数据中鉴定模体,然而同时也遇到了几个问题。例如,现有方法通常不能处理从ChIP-seq峰区域中获得的大量序列。一些方法严重依赖于良好注释的模体,尽管已知的模体数是有限的。为了简化这个问题,从头模体发现方法通常忽略ChIP-seq峰区域中低代表的模体。为了解决这些问题,我们开发了一个叫做SIOMICS的新方法以从ChIp-seq数据中从头发现模体。在13个ChIP-seq数据集上测试,SIOMICS鉴定了许多已知模体和新的辅因子模体。在13个模拟的随机数据集上测试,SIOMICS没有在任何数据集中发现模体。与两个最新开发的模体发现方法相比,SIOMICS在速度,实验数据集中预测的已知辅因子模体数和随机数据集中预测的假模体数方面显示了优势。SIOMICS软件可以在http://eecs.ucf.edu/~xiaoman/SIOMICS/SIOMICS.html 免费获得。


RSAT peak-motifs:完整大小ChIP-seq数据集中的模体分析
ChIP-seq正越来越多地用于在基因组规模上描述转录因子结合和染色质标记。各种工具现在可以从峰数据集中提取结合模体。然而,大部分方法仅作为命令行程序可用,或者通过一个网站可用,但是有大小限制。我们提出了一种计算流程peak-motifs,它发现峰序列中的模体,将它们与数据库中的模体进行比较,导出推断的结合位点以在UCSC基因组浏览器中可视化,并产生一个适合于初级用户和专家用户的广泛报告。它依赖于时间和内存高效的算法,能够在几分钟内处理几千个峰。对于时间效率,peak-motif胜过所有比较的软件几个数量级。我们通过分析12个胚胎干细胞特异的转录因子的从4000到128,000个峰的数据集证明了它的准确性。在所有情况下,该程序找到了期望的模体,并返回可能被辅因子结合的额外模体。我们进一步应用peak-motif在p300转录共激活剂峰收集中发现组织特异性模体。据我们所知,peak-motifs是唯一一个执行一项完整模体分析,并提供一个用户友好的网络界面,没有任何序列大小或峰数目限制的工具。http://rsat.bigre.ulb.ac.be/

10.1093/nar/gkr1104



DNA序列模体:ChIP-Seq数据万事通
现今,染色质免疫沉淀接着下一代测序(通常称为ChIP-Seq)已经成为研究体内DNA-蛋白质相互作用景观的一个行业标准。ChIP-Seq捕获高度特异的蛋白质-DNA相互作用,例如结合到合适结合位点的转录因子(transcription factors,TFs)和由不同组蛋白标记形成的稀疏模式。在这篇综述中,我们集中于适合于TF ChIP-Seq数据的DNA序列分析方法。我们讨论了各种任务,从基本的DNA模体寻找和模体发现,进一步应用到探索实验数据的各种特征。我们显示了ChIP-Seq数据的序列分析如何在多个水平上获得新的生物学知识,从单个转录因子结合位点到作为调控模块起作用的基因组片段。最后,我们提供了这个领域中现有软件的一个概述。



一个具有可定制流程的整合ChIP-seq分析平台
背景:染色质免疫沉淀接着下一代测序(ChIP-seq)使得蛋白质-DNA相互作用和表观遗传标记的非偏的、全基因组绘制成为可能。ChIP-seq数据分析中的第一步牵涉到峰(即具有高密度比对序列片段的基因组位置)的识别。下一步由通过与已知基因、通路、调控元件的关联解释峰的生物学意义,和与其他实验的整合组成。尽管几种程序已经被发表用于ChIP-seq数据的分析,但是它们通常集中在峰探测步骤,往往并不非常适合于探测到的峰的彻底的、整合分析。结果:为了解决峰解释的挑战,我们开发了ChIPseeqer,一个整合的、全面的、快速且用户友好的ChIP-seq数据集深入分析计算框架。我们的方法的新颖性在于结合了几种计算工具以容易地创建能够适合于用户需求和目标的定制流程的能力。本文中,我们描述了ChIPseeqer框架的主要组件,也通过分析一个发表的ChIP-seq数据集证明了所提供的分析的有效性和多样性。结论:ChIPseeqer通过提供一个能够与另外的工具联合使用的灵活且强大的计算工具集而促进了ChIP-seq数据分析。该框架作为一个用户友好的GUI应用程序免费可用,但是所有程序也能够从命令行执行,因此为高级用户提供了灵活性和自动化能力。http://physiology.med.cornell.edu/faculty/elemento/lab/chipseq.shtml[url=mailtole2001@med.cornell.edu]ole2001@med.cornell.edu[/url]



用ChIP-seq和RNA-seq绘制转录调控网络
细菌基因组编码许多转录因子,DNA结合蛋白,它们调控转录起始。鉴定转录因子的调控靶是系统生物学中的一个主要挑战。这里,我描述了使用两种基因组规模方法ChIP-seq和RNA-seq,它们被用来绘制转录因子调节子。ChIP-seq描绘转录因子和DNA间的关联,RNA-seq确定与转录因子干扰相关的RNA水平的改变。我讨论了这些和相关方法的优缺点,并且描述了如何结合ChIP-seq和RNA-seq绘制单个转录因子调节子和整个调控网络。



PRI-CAT:一个植物ChIP-seq实验分析、存储和可视化网络工具
尽管几种ChIP-seq数据分析工具最近被发表,但是特别是在植物研究社区中,有对计算资源的一个不断增加的需求,利用这些资源,这些数据能够在一个用户友好的环境中被处理、分析、存储、可视化和整合。为了适应这种需求,我们开发了PRI-CAT(植物研究国际ChIP-seq分析工具),一个用于ChIP-seq实验管理和分析的基于网络的流程工具。PRI-CAT当前集中于拟南芥,但是将在不久的将来扩展到其他植物物种。用户能够直接提交他们的测序数据到PRI-CAT进行自动分析。实现了一个与基因组浏览器兼容的QuickLoad服务器以进行DNA结合谱的存储和可视化。提交的数据集和结果能够通过PRI-CAT公开获得,一种将使得ChIP-seq实验的基于社区的整合分析和可视化成为可能的特征。数据的进一步分析能够在GALAXY(一个进行工具和数据整合的外部框架)的帮助下执行。PRI-CAT可以在http://www.ab.wur.nl/pricat 免费使用。不需要登录。jose.muino@wur.nl



diffReps:从带有生物学重复的ChIP-seq数据中检测差异染色质修饰位点
ChIP-seq正越来越多地用于全基因组组蛋白修饰标记谱。比较两种不同条件的ChIP-seq数据(例如疾病vs对照),并鉴定在ChIP富集中显示差异的区域是特别重要的。我们开发了一个强大且易用的程序,叫做diffReps,以从有或无生物学重复的ChIP-seq数据中检测差异位点。另外,我们在diffReps包中开发了两个有用的ChIP-seq分析工具:一个用于差异位点的注释,另一个用于寻找染色质修饰“热点”。diffReps是用PERL编程语言开发的,作为一个命令行脚本运行在所有平台上。我们在两个不同数据集上测试了diffReps。一个是来自ENCODE计划的两个人类细胞系间H3K4me3的比较。另一个是可卡因和生理盐水处理条件间一个小鼠脑离散区中H3K9me3的比较。结果表明diffReps是一个从ChIP-seq数据中检测差异位点的高度敏感的程序。https://github.com/shenlab-sinai/diffreps


从ChIP-Seq数据中提取转录因子靶点

ChIP-Seq技术,结合了染色质免疫沉淀(ChIP)和大规模并行测序,正在快速地替代ChIP-on-chip用于转录因子结合事件的全基因组识别。从由ChIP-Seq产生的大量测序片段中识别结合区域是一个有挑战性的工作。这里,我们提出了GLITR(GLobal Identifier of Target Regions,靶向区域的全局识别器),它通过基于对照(输入染色质)数据的随机采样计算一个倍数变化而识别靶向数据中的富集区域。GLITR使用一种分类方法来识别具有一个峰高度和倍数变化,不能在一个输入样品中装配区域的ChIP数据中的区域。我们比较了GLITR和一些最新的方法,显示GLITR在识别紧密匹配一个给定转录因子的一致性序列的边界区域上具有改进的敏感性,并且能够检测其他程序错过的真实的转录因子靶点。 我们也使用GLITR来解决测序深度问题,并显示测序生物学重复比相同样品的重测序识别多得多的结合区域。http://web.me.com/kaestnerlab1/GLITR/   。kaestner@mail.med.upenn.edu


CHANCE:用于ChIP-seq数据质量控制和验证的综合软件
ChIP-seq是一种获得全基因组蛋白质-DNA相互作用和表观遗传修饰的强大方法。CHANCE(ChIP-seq ANalytics and Confidence Estimation,ChIP-seq分析学和置信评估)是一个用于ChIP-seq质量控制和实验方案优化的独立包。我们的用户友好的图形化软件快速地评估免疫沉淀的强度和质量,鉴定偏差,比较用户的数据和ENCODE的大批发表数据集,执行多样品标准化,对定量PCR验证的对照区进行检查,并产生富含信息的图形化报告。CHANCE可以在https://github.com/songlab/chance 获得。


ChIP-chip对ChIP-seq:实验设计和数据分析经验教训
背景:染色质免疫沉淀(ChIP)接着微阵列杂交(ChIP-chip)或高通量测序(ChIP-seq)允许蛋白质-DNA相互作用,例如转录因子结合和组蛋白修饰的全基因组发现。以前的报道仅比较了一小部分谱,几乎没有比较由两种技术产生的组蛋白修饰谱,或者评估input DNA文库在ChIP-seq分析中的影响。这里,我们执行了包含跨黑腹果蝇4个发育阶段的辅激活剂CBP,RNA聚合酶II(RNA PolII)和6种组蛋白修饰的31对ChIP-chip/ChIP-seq谱modENCODE数据集的一项系统分析。结果: 两种技术都在各自平台内产生高可重复性谱,ChIP-seq通常产生具有一个较好信噪比的谱,并允许更多峰和更窄峰的检测。由两种技术鉴定的峰集合可以是显著不同的,但是它们差异变化的程度依赖于因子和分析算法。重要地,我们发现多个input DNA文库的测序谱间有一个显著的变化,这种变化最有可能由实验条件和测序深度中的差异引起。我们进一步显示使用一种合适的input DNA谱能够影响围绕着基因组特征的平均信号谱和峰识别结果,强调了具有高质量input DNA数据进行标准化在ChIP-seq分析中的重要性。结论:我们的发现强调了每种平台中出现的偏差,显示了能够由技术和分析方法引起的可变性,并强调了获得高质量和深度测序的input DNA文库对ChIP-seq分析的重要性。



QChIPat:一种鉴定不同实验条件下两个生物学样品ChIP-seq不同结合模式的定量方法
背景:已经开发了许多计算程序来鉴定单个生物学样品的ChIP-seq富集区。考虑到许多生物学问题要求比较两种不同条件间的差异,开发解决两个生物学样品ChIP-seq比较的新程序是重要的。尽管有几种旨在解决这个问题的程序,但是这些程序存在一些缺陷,例如不能区分鉴定的差异富集区是否是显著富集的,缺乏有区别的结合模式,并忽略了样品间的标准化。结果:本研究中,我们开发了一种新的定量方法以比较两个生物学样品ChIP-seq,叫做QChIPat。我们的方法利用了一种新的全局标准化方法:非参数经验贝叶斯(nonparametric empirical Bayes,NEB)修正标准化,它利用了从单样品峰识别程序中鉴定的预定义富集区,使用统计方法定义差异富集区,然后为那些差异富集区定义结合(组蛋白)模式信息。在一个基准测试数据 -- ChIPDiffs使用的组蛋白修饰数据上测试了我们的程序。然后将它应用到两个研究案例:一个是鉴定AKT1转染的MCF10A细胞中的H3K27me3和H3K9me2 ChIP-seq数据的差异组蛋白修饰位点另一个是鉴定MCF7和PANC1细胞中的TCF7L2 ChIP-seq数据的差异结合位点。结论:我们的程序的几种优点包括:1)它考虑了对照(或input)实验;2)它结合了一种新的全局标准化策略:非参数经验贝叶斯修正标准化;3)它提供了不同富集区间的结合模式信息。QChIPat是用R、Perl和C++实现的,并在Linux上进行了测试。R包可以在http://motif.bmi.ohio-state.edu/QChIPat 获得。








Nebula -- 一个高级ChIP-seq数据分析网络服务器




动机:ChIP-seq由免疫沉淀和提取的DNA片段的深度测序组成。它是转录因子和其他DNA相关蛋白质结合位点的准确描述的首选技术。我们提出了一个网络服务器,Nebula,它允许缺乏经验的用户执行ChIP-seq数据的一个完整生物信息学分析。结果:Nebula是为生物信息学家和生物学家而设计的。它基于Galaxy开源框架。Galaxy已经包括了大量比对序列和峰识别的功能。我们增加了以下内容到Galaxy中:(1)用FindPeaks进行峰识别和一个免疫沉淀质控模块,(2)使用ChIPMunk进行从头motif发现,(3)峰相对于基因转录起始位点的密度和累积分布计算,(4)用基因组特征对峰进行注释,和(5)用峰信息对基因进行注释。Nebula在处理的每一步骤中产生图形和富集统计。在第3步到第5步期间,Nebula选择性地重复对一个对照数据集的分析,并比较这些结果和来自主要数据集的结果。在这些步骤中,Nebula也能够结合基因表达(或基因调变)数据。总之,Nebula是一个创新的网络服务,它提供了一个提供正好可以发表结果的高级ChIP-seq分析流程。可用性:Nebula可以在http://nebula.curie.fr/ 使用。



CMGRN:一个使用ChIP-seq和基因表达数据构建多层基因调控网络的网络服务器
ChIP-seq技术提供了转录因子或表观遗传因子在基因组序列上结合的一种准确描述。通过整合基于ChIP的信息和其他高通量信息,我们致力于仔细分析多层调节因子、基因和生物学功能间的交叉相互作用。这里,我们设计了一个整合的网络服务器CMGRN(构建多层基因调控网络)以阐明不同调控水平上的层次相互作用网络。新开发的方法使用了贝叶斯网络建模以通过使用ChIP-seq数据推断转录因子或表观遗传修饰间的因果相互关系。此外,它使用贝叶斯层次模型和Gibbs采样以将这些调节因子的结合信号和基因表达谱合并在一起构建基因调控网络。例子应用表明CMGRN提供了一种有效的基于网络的框架,它能够整合异质性高通量数据并揭示层次“调控组”和相关基因表达程序。可用性:http://bioinfo.icts.hkbu.edu.hk/cmgrnhttp://www.byanbioinfo.org/cmgrn 。联系:yanbinai6017@gmail.comjunwen@hku.hk 。补充信息:补充数据可以在Bioinformatics网站在线获得。

http://dx.doi.org/10.1093/bioinformatics/btt761


染色质免疫沉淀-测序(ChIP-seq)以绘制乳腺癌中雌激素受体-染色质相互作用图谱
染色质免疫沉淀-测序(ChIP-Seq)是结合已确立的ChIP和下一代测序(next-generation sequecing,NGS)以确定感兴趣的蛋白质在全基因组水平上的DNA结合位点的一种强大工具,重要地,它允许从头发现结合事件。这里,我们使用已确立的MCF7乳腺癌细胞系中雌激素受体-α图谱例子描述了ChIP-seq。


HMCan:一种使用ChIP-seq数据检测癌症样品中染色质修饰的方法
动机:癌细胞通常以表观遗传改变为特征,包括异常组蛋白修饰。特别地,局部或区域表观遗传沉默是癌症中沉默肿瘤抑制基因表达的一种常见机制。尽管创建了几种工具使得来自正常样品ChIP-seq数据中的组蛋白标记检测成为可能,但是还不清楚这些工具是否能高效地应用到从癌症样品中产生的ChIP-seq数据上。确实,癌症基因组通常以频繁的拷贝数改变为特征:大型染色体材料区域的获得和缺失。拷贝数改变可能在组蛋白标记信号富集评估中创建大量统计偏差,并导致缺失区域中信号的低检测和获得区域中信号的过检测。结果:我们提出了HMCan(histone modification in cancer),一种专门分析从癌症基因组中产生的组蛋白修饰ChIP-seq数据的工具。HMCan修正GC含量和拷贝数偏倚,然后应用隐马尔科夫模型从修正的数据中检测信号。在模拟数据上,HMCan胜过为分析从没有拷贝数改变的基因组中产生的组蛋白修饰数据而开发的几种常用工具。HMCan也在一种膀胱癌细胞系中H3K27me3抑制组蛋白标记的一个ChIP-seq数据集上显示了优越的结果。HMCan预测与实验数据(qPCR验证的区域)很好地匹配,并包括了,例如以前在DLEC1基因启动子区检测到的,而被我们测试的其他工具漏掉的H3K27me3标记。可用性:源码和可执行文件可以在http://www.cbrc.kaust.edu.sa/hmcan/ 下载,以C++实现。联系:haitham.ashoor@kaust.edu.sa 。补充信息:补充数据可以在Bioinformatics网站在线获得。

10.1093/bioinformatics/btt524

ChIP-Seq数据中结合motif的深度和广度挖掘
ChIP-Seq数据是motif发现的一个新挑战。这种数据代表性地组成了带有碱基特异覆盖值的数千个DNA片段。我们提出了我们的DNA motif发现软件ChIPMunk的一个新版本,为ChIP-Seq数据而改编。ChIPMunk是一个迭代算法,它结合了贪婪优化和自举法,并使用覆盖谱作为motif的位置属性。ChIPMunk不需要对长DNA片段进行截断,对于处理高达数万的数据序列都是可行的。与传统的MEME或ChIP-Seq导向的(HMS)motif发现工具相比显示,ChIPMunk以相同或更好的质量识别了正确的motif,但是显著地更快完成。可用性及实现:ChIPMunk在ru_genetika Java包中是免费可用的:http://line.imb.ac.ru/ChIPMunk 。基于网络的版本也是可用的。联系:ivan.kulakovskiy@gmail.com 。补充信息:补充数据可在《生物信息学》在线获得。



以高分辨率从ChIP-seq数据中进行转录因子结合位点鉴定
动机:染色质免疫沉淀结合下一代测序(ChIP-seq)被广泛地用于研究体内转录因子(transcription factors,TFs)结合位点和它们的调控靶。最近ChIP-seq的改进,例如增加的分辨率,承诺了对转录调控的更深了解,然而需要新的计算工具以充分利用它们的优势。结果:为此,我们开发了peakzilla,正如我们使用半合成数据集,用不同实验片段大小执行果蝇胚胎中TF Twist的ChIP-seq,并分析ChIP-exo数据集所演示的,它能够以高分辨率鉴定密集的TF结合位点(即解决甚至是密集的独特结合位点)。我们显示由peakzilla获得的增加的分辨率是高度相关的,由于密集的Twist结合位点在转录增强子处强烈富集,暗示了一个区分功能性TF结合和大量非功能性或中性TF结合的标签。Peakzilla容易使用,由于peakzilla评估了来自数据的所有必需参数,所以它容易使用,并是免费可获得的。可用性和实现:peakzilla程序可以从https://github.com/steinmann/peakzillahttp://www.starklab.org/data/peakzilla/ 获得。联系:stark@starklab.org 。补充信息:补充数据可以在Bioinformatics网站在线获得。




MixChIP:一种细胞类型特异性蛋白质-DNA结合分析概率方法
背景:转录因子(transcription factor,TFs)是结合到DNA并调控基因表达的蛋白质。为了理解基因调控的细节,描述不同类型细胞,疾病和个体间的TF结合位点是关键的。然而,有时,TF结合仅能从包含多个细胞或组织类型的生物样品中测量。样品异质性能够对TF结合位点预测产生相当大的影响。尽管人工分离技术能够用来从异质性样品中分离感兴趣的一类细胞,但是这种技术是有挑战性的,并且能够改变细胞内的相互作用,包括蛋白质-DNA结合。计算去卷积方法已经成为研究异质性样品的一种可选策略,并且已经提出了许多种方法分析基因表达。然而,不存在从异质性样品中去卷积细胞类型特异性TF结合的计算方法。结果:我们提出了一种概率方法,MixChIP以从异质性染色质免疫沉淀测序(ChIP-seq)数据中鉴定细胞类型特异性TF结合位点。我们的方法同时评估在不同类型细胞中的结合强度,以及每个样品中不同类型细胞的比例,仅当有关细胞类型构成的部分先验信息可用时。我们通过分析来自两个细胞系的ChIP-seq数据,证明了MixChIp的效用,我们人工混合以产生(模拟的)异质性样品,并分析来自乳腺癌患者的ChIP-seq数据,测量原发性乳腺癌组织中雌激素受体(oestrogen receptor,ER)的结合。我们显示MixChIP在检测来自多个异质性ChIP-seq样品中比不考虑样品异质性的标准方法更加准确。结论:我们的方法显示MixChIP能够评估来自异质性ChIP-seq样品的细胞类型比例,并鉴定细胞类型特异性TF结合位点。因此,MixChIP在分析异质性ChIP-seq样品中是一种非常有价值的工具,例如那些来源于癌症研究的样品。R实现可以在http://research.ics.aalto.fi/csb/software/mixchip/ 获得。










ChIPnorm:一种标准化和识别组蛋白修饰ChIP-seq库中差异区域的统计方法





高通量测序技术,例如ChIP-seq的到来已经使得组蛋白修饰的研究成为可能。一个特别感兴趣的问题是来自相同生物的不同细胞类型表现出差异组蛋白富集模式的基因组区域的识别。因为ChIP-seq数据中显著的噪音水平,这个问题是相当困难的,甚至是在简单的双重比较中。本文中,我们提出了一个叫做ChIPnorm的两阶段统计方法,以标准化ChIP-seq数据,并找到给定不同细胞类型的两个组蛋白修饰库基因组中的差异区域。我们显示,ChIPnorm方法移除了数据中的大部分噪音和偏差,并胜过其他标准化方法。我们关联了组蛋白标记和基因表达数据,并证实组蛋白修饰H3K27me3和H3K4me3分别充当基因的一个抑制剂和激活剂。与文献中以前的报道相比,我们发现ES细胞中一个更高部分的H3K27me3和H3K4me3共价标记转向了仅K27状态。我们发现大多数蛋白质编码基因的启动子区具有差异组蛋白修饰位点。这项工作的软件可以从http://lcbb.epfl.ch/software.html 下载。bernard.moret@epfl.ch

10.1371/journal.pone.0039573








Cscan:通过使用一批全基因组ChIP-seq数据集找到一套基因的共同调节因子





真核生物基因的转录调控是一个非常复杂的过程,涉及到转录因子(Transcription Factors,TFs)和DNA的相互作用,以及其他表观遗传因素,像组蛋白修饰、DNA甲基化等,如今它们能够用像ChIP-Seq这样的技术进行研究和描述。Cscan是一个网络资源,它包括了一大批在TFs、组蛋白修饰、RNA聚合酶及其他上执行的全基因组ChIP-Seq实验。来自ChIP-Seq实验的富集的峰区域与一套输入基因的基因组坐标交叉,以识别哪些实验代表了输入基因的基因座中一个统计学上显著数目的峰。输入能够是一群共表达基因,或任何其他共享一个共同调控谱的一套基因。因此,用户能够挑出哪些TFs可能是这些基因的共同调节因子,及它们各自的相关性。而且,通过检查启动子激活、转录、组蛋白修饰、聚合酶结合等的结果,用户能够研究TFs(转录激活或抑制),以及基因的调控和表达的细胞或组织特异性。网络界面是免费可用的,并且没有登陆要求。可用性:http://www.beaconlab.it/cscangiulio.pavesi@unimi.it


ENCODE和modENCODE协会的ChIP-seq指南及实践
染色质免疫沉淀(ChIP)接着高通量DNA测序(ChIP-seq)已经成为绘制活细胞中转录因子结合位点和组蛋白修饰的基因组位置的一种有价值且广泛使用的方法。尽管它的普遍使用,但是在这些实验如何进行,结果质量如何被打分及评估,数据和元数据如何归档以公开使用中有相当大的差异。这些实践影响着任何全球ChIP实验的质量和效用。通过我们在执行ChIP-seq实验中的经验,ENCODE和modENCODE协会开发了一套定期更新的ChIP-seq实验工作标准和指南。当前的指南解决了抗体验证、实验重复、测序深度、数据和元数据报告及数据质量评估。我们讨论了以这些方式评估的ChIP质量如何影响ChIP-seq数据的不同用途。分析中使用的所有数据集被存储在ENCODE(http://encodeproject.org/ENCODE/ )和modENCODE(http://www.modencode.org/ )入口用于公开查看和下载。mpsnyder@stanford.edu


ChIP-seq的标准化、偏差修正和峰识别
下一代测序正在快速地转变我们描述细胞转录、遗传和表观遗传状态的能力。特别地,测序来自蛋白质-DNA复合物免疫沉淀的DNA(ChIP-seq)和甲基化的DNA(MeDIP-Seq)能够揭示蛋白质结合位点和表观遗传修饰的位置。这些方法包含许多偏差,它们可能会显著影响结果数据的解释。仍然缺乏检测和移除这些偏差的严格的计算方法。多样品标准化也仍然是一个重要的开放问题。这篇理论论文使用严格的统计模型和信号处理技术,通过比较62个不同的公开可获得的数据集,系统地描述了ChIP-seq数据的偏差和属性。提出了将ChIP-seq信号从背景噪音中分离的统计方法以及修正序列依赖和超声偏差的富集检测统计。我们的方法在标准化前将片段有效地分离为信号和背景组分,改善了信噪比。而且,当前使用的大部分峰识别器使用一种通用空模型,在需要检测精细,但真实的ChIp富集的敏感性水平上,因低特异性遭人诟病。提出的确定一个细胞类型特异的空模型方法,它考虑了细胞类型特异性偏差,显示在一个给定显著性阈值情况下,能够获得比当前方法更低的错误发现率。








超越ChIP-seq:检测和描述蛋白质-DNA相互作用的新的和改进的方法





染色质免疫沉淀实验接着测序(ChIP-seq)检测蛋白质-DNA结合事件和组蛋白的化学修饰。标准ChIP-seq实验方案中的挑战已经激发了这种方法中的最新功能增强,例如减少需要的细胞数和增加分辨率。互补的实验方法 -- 例如DNaseI超敏感位点图谱和由特定蛋白质介导的染色质相互作用的分析 -- 提供了有关DNA结合蛋白质和它们的功能的额外信息。这些数据现在正在被用来鉴定跨基因组和个体的DNA结合蛋白质功能中的可变性。在这篇综述中,我描述了检测和功能上描述DNA结合蛋白质方法中的最新进展。









DREME:转录因子ChIP-seq数据中的motif发现





动机:转录因子(Transcription factor,TF)ChIP-seq数据集具有特别的特征,它们提供了用于motif发现的独特的挑战和机遇。大部分现有的motif发现算法没有很好地扩展到如此大的数据集,或者不能报道与染色质免疫沉淀的(ChIP-ed)TF的辅助因子相关的许多motifs。结果:我们提出了DREME,一个motif发现算法,特别设计找到真核生物TF中短的、核心DNA结合motifs,并优化在数分钟内分析非常大的ChIP-seq数据集。使用DREME,我们在小鼠胚胎干细胞(mouse embryonic stem cell,mESC)、小鼠红细胞和人类细胞系ChIP-seq数据集中发现了ChIP-ed TF和许多辅助因子。例如,在mESC TF Esrrb的 ChIP-seq数据中,我们发现8种辅助因子TFs的结合motifs在多潜能维护中是重要的。一些其他常用的算法在这一相同数据集中至多发现两种辅助因子motifs。DREME也能够执行差异motif发现,并且我们使用这种特征来提供Sox2和Oct4不在mES细胞中结合为一个必需异二聚体的证据。DREME比许多常用的算法快多了,随数据集大小线性扩展,找到多个、非冗余的motifs,并报道找到的每个motif的统计显著性的一个可靠的测量。DREME作为基于motif的序列分析工具MEME Suite(http://meme.nbcr.net )的一部分可用。联系:t.bailey@uq.edu.au  。








MEME-ChIP:大量DNA数据集的motif分析





动机:高通量测序中的进展导致了大量、高质量数据集的快速增长,包括那些由转录因子(transcription factor,TF)ChIP-seq实验产生的数据。虽然有许多现有工具用于在这些数据集中发现TF结合位点motifs,但是大多数基于网络的工具不能直接处理如此大量的数据集。结果:MEME-ChIP网络服务被设计用于分析围绕着识别的ChIP-seq“峰”的ChIP-seq“峰-区域”短基因组区域。给定一套基因组区域,它执行:1)从头motif发现,2)motif富集分析,3)motif可视化,4)结合亲和性分析和5)motif识别。它对输入的数据运行两个互补的motif发现算法 -- MEME和DREME,并使用它们发现的motif到随后的可视化、结合亲和性和识别步骤中。MEME-ChIP也使用AME算法执行motif富集分析,它能够检测具有已知DNA结合motif的非常低水平的TF结合位点的富集。重要的是,不像MEME网络服务,没有上传序列大小和数目的限制,允许非常大的ChIP-seq数据集被分析。由MEME-ChIP执行的分析为用户提供了免疫沉淀的TF结合和调控活性的多样的查看,以及其他DNA结合TF的可能参与。可用性:MEME-ChIP作为MEME Suite的一部分,可在http://meme-suite.org/ 获得。联系:t.bailey@uq.edu.au



使用MEME-ChIP进行基于模体的大量核苷酸数据集分析
MEME-ChIP是分析大量DNA或RNA数据集中模体的一个基于网络的工具。它能够分析由ChIP-seq鉴定的峰区域,由CLIP-seq和相关实验鉴定的交联位点,以及用其他标准挑选的成套基因组区域。MEME-ChIP执行从头模体发现,模体富集分析,模体定位分析和模体聚类,提供了在输入序列中富集的DNA或RNA模体的一个综合图画。MEME-ChIP执行两类互补的从头模体发现:基于权重矩阵的高准确性发现;和基于单词的高敏感性发现。使用来自人类、小鼠、线虫、果蝇和其他模式生物的DNA或RNA模体的模体富集分析提供了更高的敏感性。MEME-ChIP的交互式HTML输出分组并排列显著模体以方便解释。这个实验方案耗时少于3 h,它提供了与其他在线方法不同的且互补的模体发现方法。

http://dx.doi.org/10.1038/nprot.2014.083









用ChIP-seq检测转录因子的差异结合





越来越多的ChIP-seq实验正在研究多重实验条件下的转录因子结合,例如各种处理条件,几个不同的时间点,和不同的处理剂量水平。因此,识别跨多重条件的差异结合位点是生物学和医学研究中实际上非常重要的。为此,我们开发了一个强大且灵活的程序,叫做DBChIP,来检测差异跨多重条件的带有或不带有匹配的对照样品的差异结合的峰利结合位点。通过为推断的差异结合位点分配不确定性度量,DBChIP促进了下游分析。DBChIP是用R编程语言实现,并能够处理各种不同的测序文件格式。可用性:DBChIP的R包可以在http://pages.cs.wisc.edu/~kliang/DBChIP/  获得。联系:kliang@stat.wisc.edu。补充信息:补充数据可以在Bioinformatics在线获得。



整合RNA-seq和ChIP-seq数据以描述黑腹果蝇中的长链非编码RNAs
背景:测序技术中的最新进展已经开辟了一个RNA研究新时代。已经通过转录组测序发现了新的RNAs类型,例如长链非编码RNAs(long non-coding RNAs,lncRNAs),并且发现一些lncRNAs在生物过程中起着关键作用。然而,仅可获得有限的黑腹果蝇(一种重要的模式生物)lncRNAs信息。因此,黑腹果蝇lncRNAs的描述和新lncRNAs的鉴定是一个重要的研究领域。此外,对使用ChIP-seq数据(H3K4me3、H3K36me3和Pol II)检测报道的lncRNAs的活跃转录标签有越来越多的兴趣。结果:我们开发了一个计算流程以鉴定来自分别使用polyA富集和ribo-zero方法的两个组织特异性RNA-seq数据集的新lncRNAs。在我们的结果中,我们鉴定了462个新lncRNA转录本,与4137个以前发表的lncRNA转录本合并为一个精选的数据集。然后,我们利用61个RNA-seq和32个ChIP-seq数据集在转录方向,外显子区,分类,在脑中表达,拥有polyA尾,和常规染色体标签出现方面,改进了精选lncRNAs的注释。此外,我们使用30个时序RNA-seq数据集和32个ChIP-seq数据集研究RNA-seq报道的lncRNAs是否具有活跃转录标签。结果显示一半多报道的lncRNAs不具有与活跃转录相关的染色质标签。为了阐明这个问题,我们执行了RT-qPCR实验,发现~95.24%挑选的lncRNAs是真正转录的,而不管它们是否与活性染色质标签相关。结论:本研究中,我们发现了大量新lncRNAs,表明在黑腹果蝇中许多lncRNAs仍然需要被鉴定。对于已知的lncRNAs,我们通过整合来自多种来源(lncRNAs,RNA-seq和ChIP-seq)的大量测序数据集(总共93套数据)改进了它们的描述。RT-qPCR实验证明RNA-seq是一个发现lncRNAs的可靠平台。这套带有改善注释的精选lncRNAs能够充当研究lncRNAs在黑腹果蝇中功能的一种重要资源。

http://dx.doi.org/10.1186/s12864-016-2457-0




Computation for ChIP-seq and RNA-seq studies
Nature methods
Pepke S, Wold B, Mortazavi A
Genome-wide measurements of protein-DNA interactions and transcriptomes are increasingly done by deep DNA sequencing methods (ChIP-seq and RNA-seq). The power and richness of these counting-based measurements comes at the cost of routinely handling tens to hundreds of millions of reads. Whereas early adopters necessarily developed their own custom computer code to analyze the first ChIP-seq and RNA-seq datasets, a new generation of more sophisticated algorithms and software tools are emerging to assist in the analysis phase of these projects. Here we describe the multilayered analyses of ChIP-seq and RNA-seq datasets, discuss the software packages currently available to perform tasks at each layer and describe some upcoming challenges and features for future analysis tools. We also discuss how software choices and uses are affected by specific aspects of the underlying biology and data structure, including genome size, positional clustering of transcription factor binding sites, transcript discovery and expression quantification.
http://dx.doi.org/10.1038/nmeth.1371



用于ChIP-seq和DNase-seq数据重用的CistromeFinder
ChIP-seq和DNase-seq已经极大地加速了对转录调控和表观遗传调控的理解,然而数据重用对于实验生物学家社区来说是有挑战性的。我们创建了一个数据门户CistromeFinder,它能够帮助查询、评估和可视化人和小鼠中公开可获得的ChIP-seq和DNase-seq数据。该数据库当前包含了超过4,391个数据集,313个因子和102个细胞系或细胞群的6,378个样品。每个数据集经历了一个一致的分析和质控流程,因此用户能够在研究他们感兴趣的基因附近的结合位点前,评估每个数据集的总体质量。CistromeFinder与UCSC基因组浏览器整合以进行可视化,与Primer3Plus整合以进行ChIP-qPCR引物设计,并与CistromeMap整合以提交新的可用数据集。它也允许用户留下评论以促进数据评估和更新。可用性:http://cistrome.org/finder 。联系:xsliu@jimmy.harvard.eduhenry_long@dfci.harvard.edu

10.1093/bioinformatics/btt135
htSeqTools:R中的高通量测序质控、处理和可视化
我们提供了一个具有高通量测序数据质量评估、处理和可视化工具的Bioconductor包,重点在ChIP-seq和RNA-seq研究上。它包括了异常值和误差,无效免疫沉淀和过度放大假象检测,片段丰富基因组区的从头鉴定和基因组区列表位置和覆盖的可视化。可用性:http://www.bioconductor.org/packages/2.12/bioc/html/htSeqTools.html

10.1093/bioinformatics/btr700
SAMSCOPE:一个基于OpenGL的实时交互式无标度SAM查看器
现有的SAM可视化工具像“samtools tview”局限于基因组的一个小区域,像Tablet这样的工具局限于相当少的片段并且在大型数据集上可能完全失败。我们需要可视化复杂ChIP-Seq和RNA-Seq特征,例如跨人类3 Gbp基因组的极性以及覆盖。我们在一个由OpenGL加速的轻量级可视化系统SAMSCOPE中解决了这些问题。SAMSCOPE的大量预处理和快速OpenGL界面提供了在跨多个实验的各个层次细节上实时和直观的复杂数据浏览。可用性和实现:SAMSCOPE软件使用C++在Linux平台上实现,源码、可执行包和文档可以在http://samscope.dna.bio.keio.ac.jp 免费获得。

10.1093/bioinformatics/bts122


GeneTrack -- 一个基因组数据处理和可视化框架
动机:高通量(High-throughput) ChIP-chip和ChIP-seq方法产生了十分大量的数据集,分析遇到了明显的信息学挑战,特别是对于有适当计算支持的研究组。为了解决这个挑战,我们开发了一个软件平台以存储、分析及可视化高分辨率的全基因组结合数据。GeneTrack自动化一个典型数据处理流程的一些步骤,包括平滑化和峰探测,并促进结果通过网络传播。我们的软件可以通过Google Project Hosting(谷歌项目托管)环境免费获得: http://genetrack.googlecode.comiual@psu.edu

10.1093/bioinformatics/btn119  
CHROMATRA:一个可视化全基因组染色质特征的Galaxy工具
CHROMATRA(CHROmatin Mapping Across TRAnscripts,跨转录本的染色质图谱)是可作为Galaxy平台插件的一个可视化工具。它允许通过可视化跨基因或其他基因组特征的富集分数,对源自ChIP-chip或ChIP-seq实验的数据进行详细但简明地展示,然而考虑了它们的长度和额外特征,例如基因表达。它整合到典型分析流程中,并使得快速图形化评估和全基因组数据的一览式比较成为可能。可用性:https://github.com/cmmt/chromatra

10.1093/bioinformatics/bts007
一个分析ChIP-chip和ChIP-Seq的整合软件系统
我们提出了一个软件系统来分析基因组范围的ChIP数据,叫做CisGenome。它被设计成可以满足ChIP数据分析的所有基本需求,包括可视化,数据归一化,峰值检测,错误发现率(false discovery rate,FDR)计算,基因-峰关联,序列和motif分析等。除了可以执行先前发表的ChIP-chip分析方法,该软件包含了特别为,由ChIP和大规模并行测序获得的ChIP-seq数据设计的统计方法。模块化的设计,使得CisGenome可以支持通过一个GUI和对高级数据挖掘的定制的批量计算和交互式分析。一个内嵌的浏览器允许array图像、信号、基因结构、保守性和DNA序列和motif信息的可视化。我们通过一个对转录因子NRSF/REST的ChIP-chip和ChIP-seq数据的比较分析,有或无负对照样本的ChIP-seq分析的研究和一个在Nanog-和Sox2结合区域的新的motif分析,展示了这些工具的使用。http://www.biostat.jhsph.edu/~hji/cisgenome/whwong@stanford.edu

10.1038/nbt.1505


STAR:一个测序数据管理和可视化整合解决方案
动机:复杂数据特征容易地可视化是执行下一代测序(next-generation sequencing,NGS)数据研究的一个必需步骤。我们开发了STAR,一个整合的网络应用程序,它使得NGS数据的在线管理、可视化和基于track的分析成为可能。结果:STAR是一个多层网络服务系统。在客户端,STAR利用JavaScript、HTML5 Canvas和异步通信来实现一个平滑卷动桌面风格图形用户界面,带有从提供简单的track配置控制到数据集中复杂的特征检测的一套浏览器内分析工具。在服务器端,STAR通过一个账号管理系统支持私有会话状态保留,并提供了数据管理模块,使得来自拥有迄今为止超过数以千计tracks公共域的第三方测序数据的收集、可视化和分析成为可能。总之,STAR代表了一个下一代数据探索解决方案以满足NGS数据的需求,使得数据的直观可视化和动态分析成为可能。可用性和实现:STAR浏览器系统可以在网络http://wanglab.ucsd.edu/star/browse r和https://github.com/angell1117/STAR-genome-browser 免费使用。联系:wei-wang@ucsd.edu


CEAS:顺式调控元件注释系统
我们提出了设计用来从ChIP-chip和ChIP-Seq数据中,描绘全基因组蛋白质-DNA相互作用模式的一个工具。我们的网络程序CEAS(cis-regulatory element annotation system,顺式-调控元件注释系统)的这个单机的扩展提供了在重要的基因组区域,例如个别染色体,[url=]启动子[/url],基因主体或外显子中对ChIP富集的总结统计,并通过研究中的结合因子调控推断最可能的基因。CEAS也使得生物学家能够在特定基因组区域可视化平均ChIP富集信号,特别地允许对那些可能太微弱以至于不能单独从ChIP峰中检测的连续且宽阔的ChIP富集的观测。可用性:CEAS的Python包可在http://liulab.dfci.harvard.edu/CEAS 公开获得。联系:shin@jimmy.harvard.eduxsliu@jimmy.harvard.edu

10.1093/bioinformatics/btp479

MochiView:用于基因组浏览和DNA motif分析的多功能软件
背景:随着高通量技术快速地产生基因组范围的数据,可视化地整合这些数据变得越来越重要,以便特定的假设能够被构想和测试。结果:我们提出了MochiView,一个平台独立的Java软件,它整合了基因组序列,特征及数据的浏览和以一个吸引人且用户友好的程序进行DNA motif可视化及分析。结论:由于非常多功能,该软件对于组织、浏览和分析大的基因组数据集特别有用,例如那些来自深度RNA测序,染色质免疫沉淀实验(ChIP-Seq和ChIP-Chip)及转录谱的数据。MochiView提供了一套扩展的工具来识别并浏览这些数据集与DNA或RNA中出现的短序列motifs间的连接。[url=mailtoliver.homann@ucsf.edu]oliver.homann@ucsf.edu[/url]



QuasR:用R进行短片段定量和注释
QuasR是一个用R进行高通量测序数据整合分析的包,覆盖了从片段预处理,比对和质控到定量的所有步骤。QuasR支持不同的实验类型(包括RNA-seq、ChIP-seq和Bis-seq)和分析变体(例如双端、链特异、剪接和等位基因特异的),并整合到Bioconductor中,因此它的输出能够直接处理以进行统计分析和可视化。可用性和实现:QuasR是用R和C/C++实现的。源码和大多数平台(Linux、OS X和MS Windows)的可执行文件可以从Bioconductor(www.bioconductor.org/packages/release/bioc/html/QuasR.html )获得。该包包括了一个带有典型工作流程逐步例子的“vignette”。联系:michael.stadler@fmi.ch 。补充信息:补充数据可以在Bioinformatics网站在线获得。

一个ChIP-seq比较分析计算流程
染色质免疫沉淀(ChIP)接着深度测序(ChIP-Seq)现在能够容易地跨不同条件、时间点,甚至物种执行。然而,分析这些数据是不容易的,标准的方法至今仍不可用。这里我们提出了一个实验方案以系统地比较跨条件的ChIP-sequencing(ChIP-seq)数据。我们首先描述了数据预处理、片段比对、片段密度可视化和峰识别的技术指南。然后,我们描述了方法并提供了带有特定例子的代码以比较跨物种和跨条件的不同数据集,包括一种比较全局相似性的无阈值方法,一种评估结合事件二元保守性的策略,和结合定量改变的测量。我们讨论了结合中的差异如何能够与基因功能、基因表达和序列变化相联系。一旦建立,这个实验方案能够花费2天完成,并普遍适用于许多数据集。


PAVIS:一个峰注释和可视化工具
我们介绍了一个基于网络的工具Peak Annotation and Visualization(峰注释和可视化,PAVIS)以注释和可视化ChIP-seq峰数据。PAVIS是为非生物信息学家而设计的,并提供了一个简洁的用户界面以促进ChIP-seq峰或其他基因组富集数据的生物学解释。通过与注释的关联,PAVIS为每个峰提供了相关的基因组环境,例如峰相对于基因组特征,包括转录起始位点(transcription start site)、内含子、外显子或5'/3'非翻译区的位置。PAVIS报告了峰在这些不同功能类别中的相对富集P值,并提供了峰在每个类别中相对比例的一个概括图。不像许多其他资源,PAVIS提供了一个以峰为导向的注释和可视化系统,允许对来自一个或多个ChIP-seq实验的成千上万基因座进行动态可视化。PAVIS使得基因组环境和基本基因组元件潜在功能的快速且容易的研究和交叉比较成为可能,因此支持下游假设产生。可用性和实现:PAVIS可以在http://manticore.niehs.nih.gov/pavis 公开访问。联系:li3@niehs.nih.gov 。补充信息:补充数据可以在Bioinformatics网站在线获得。

ChIPseeker:一个ChIP峰注释、比较和可视化R/Bioconductor包
ChIPseeker是一个注释ChIP-seq数据分析的R包。它支持注释ChIP峰,并提供了可视化染色体上ChIP峰覆盖和TSS区峰结合谱的功能。也支持ChIP峰谱的比较和注释。此外,它支持评估ChIP-seq数据集间的显著重叠。当前,ChIPseeker包含来自GEO数据库的15,000个bed文件信息。这些数据集能够被下载并与用户自己的数据进行比较以探索显著重叠的数据集,用来推断共调控或转录因子复合体以进行进一步研究。可用性和实现:ChIPseeker遵循Artistic-2.0许可证发布。源码和文档可以通过Bioconductor(http://www.bioconductor.org/packages/release/bioc/html/ChIPseeker.html )免费获得。

ChIPpeakAnno:注释ChIP-seq和ChIP-chip数据的一个Bioconductor包
背景:[url=]染色质免疫共沉淀[/url](Chromatin immunoprecipitation,ChIP)接着是高通量测序(ChIP-seq)或ChIP接着是全基因组嵌合阵列分析(ChIP-chip)已经成为DNA结合蛋白质靶点全基因组识别的标准技术。许多算法已经被并行的开发,允许从ChIP-seq或ChIP-chip数据集中进行结合位点的识别,并随后作为定制的注释通道在加州大学圣克鲁斯分校(UCSC)基因组浏览器中可视化。但是,汇总这些通道可能是一个艰巨的任务,特别是如果有大量的结合位点或结合位点是跨基因组广泛地分布。结果:我们开发了ChIPpeakAnno,作为统计编程环境R的一个Bioconductor包,以促进从ChIP-seq,ChIP-chip,[url=]基因表达加帽分析[/url](cap analysis of gene expression,CAGE)或引起大量富集基因组区域的任何试验中识别的富集峰的批量注释。用ChIPpeakAnno注释的结合位点能够容易地作为表格,饼图或以柱形图形式绘制而查看,即每组峰到最近基因的距离的分布。此外,我们还实现了确定重复间,或在一个复合体中转录因子间结合位点显著重叠的函数,及绘制[url=]文氏图[/url](Venn diagrams)来可视化重复间重叠程度的函数。此外,还包括了检索推断的结合位点两侧序列以用于PCR扩增,克隆,或motif发现,及识别与临近基因相关的[url=]基因本体论[/url](Gene Ontology,GO)术语的函数。结论:ChIPpeakAnno使得在统计编程环境R中,从ChIP-seq,ChIP-chip,CAGE或任何能够产生大量富集基因组区域中识别的结合位点的批量注释成为可能。允许用户传递他们自身的注释数据,例如一个不同的染色质免疫共沉淀(ChIP)制备和一个来自文献的数据集,或现有的注释包,例如GenomicFeatures和BSgenome,提供了灵活性。与biomaRt包的紧密集成使得能够从BioMart数据库检索最新的注释。http://www.bioconductor.org/packages/release/bioc/html/ChIPpeakAnno.htmljulie.zhu@umassmed.edu

10.1186/1471-2105-11-237

基于外显子组的RNA表观基因组测序数据分析
动机:片段化的RNA免疫沉淀结合RNA测序使得在一个接近单碱基分辨率的RNA表观基因组的非偏研究成为可能;然而,这种新类型数据的独特特征需要新的计算技术。结果:通过研究RNA表观基因组测序数据和两种良好研究的数据类型(ChIP-Seq和RNA-Seq)间的联系:我们揭示了这种新数据类型的显著特征。相应地讨论了计算策略,并提出了一种新的数据处理流程,它结合了几种现有工具和一种新开发的基于外显子的方法“exomePeak”以检测、表征和可视化转录组上转录后RNA修饰位点。可用性:MATLAB包exomePeak和更多细节可以在http://compgenomics.utsa.edu/exomePeak/ 获得。联系:yufei.huang@utsa.edujmeng@mit.edu

https://www.broadinstitute.org/~jmeng/picower/PERMANENT/EXOMEPEAK_V1.2/ManuscriptWithSuppl.pdf   
















上一篇:怎样分析peak的差异
下一篇:甲基化文献集
回复

使用道具 举报

29

主题

131

帖子

1208

积分

金牌会员

Rank: 6Rank: 6

积分
1208
发表于 2017-10-27 23:11:48 | 显示全部楼层
哇塞,新手的福音,赞啊
回复 支持 反对

使用道具 举报

3

主题

20

帖子

156

积分

注册会员

Rank: 2

积分
156
发表于 2017-10-30 15:27:55 | 显示全部楼层
太。牛。。。了 。。。。
回复

使用道具 举报

0

主题

5

帖子

267

积分

中级会员

Rank: 3Rank: 3

积分
267
发表于 2017-11-10 16:06:05 | 显示全部楼层
强大的能源!
回复 支持 反对

使用道具 举报

1

主题

4

帖子

290

积分

中级会员

Rank: 3Rank: 3

积分
290
QQ
发表于 2019-6-11 17:02:58 | 显示全部楼层
marksfs fsf safd sdf
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-17 07:11 , Processed in 0.049695 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.