搜索
查看: 5385|回复: 0

[hi-c] 3D基因组之Hi-C数据分析(大全)

[复制链接]

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2017-5-25 09:05:52 | 显示全部楼层 |阅读模式
转载请注明:生物日志|鸣一道 [http://www.zilhua.com]
HiC 简介

关于Hi-C,主要写3篇博文
(一)HiC的起源与发展
(二)HiC的重要应用
(三)HiC的展望

1953年,沃森和克里克发现DNA双螺旋结构,这标志着生物界进入基因组的研究时代。此后不久,胰岛素的氨基酸序列得以破解,DNA测序逐渐成为生物学家的重要目标。1975年Frederick Sanger等人发明了Sanger测序法,这一突破的性的工作为基因组学的发展甚至是整个生物学发展起到了推动作用。而后人类基因组计划的开启,人类基因草图的完成等一系列的重大科研项目的进行推进了生命科学的发展。
单分子实时测序,离子半导体测序以及454测序等二代测序的发展,使得测序通量下降成本降低,促进了基因组学的发展。
上图主要阐述了线性基因组学主要研究工作,随着研究深入以及科技发展,科学家已经不满足于在二维寻找基因的信息,尤其是发现染色质有较多有趣的现象时,二维基因组并不能很好解释染色质的这些现象,因而人们开始寻找空间结构也能影响基因表达的信息。
细胞核模型

Model of functional nuclear architecture

近年来,随着线性基因组的发展,研究者利用荧光原位杂交、染色质构象捕获(chromosome conformation capture,3C)等技术,更加深刻了解到细胞核中染色质的三维构象以及内容。之后研究者们将3C技术与基因芯片技术融合产生了4C、5C技术。09年Job Dekker等人将3C技术与二代测序技术结合起来发明Hi-C技术研究染色质DNA与DNA的交互,阮等人发明ChIA-PET技术研究蛋白与DNA交互信息。基因组学的研究也从一维转变为三维。

1D_3D

从一维的基因组信息, 到二维的交互网络, 再到三维的染色质结构. (a) 一维基因组和表观遗传学数据, 以及 ChIA-PET 示例数据, 虚线表示两个 DNA 片段之间有连接; (b) RNAPII 参与的染色质交互网络、相应的双对数曲线图(典型的无尺度网络标志), n 表示染色质交互的数目, f 表示有 n 个交互的节点数目. 在放大的图中, 节点的颜色表示节点来自于不同的染色体; (c) 通过 ChIA-PET 数据重建的一个粗略的染色体在细胞核内的分布结构. 不同的颜色表示不同的染色体. 本图来自于 Sandhu 等人。
一、Hi-C实验

HiC实验

第一步:甲醛交联,固定细胞核内染色质构象

第二步:酶切,并用生物素标记

第三步:成环

第四步:打断

第五步:钓取带有生物素标记的酶切片段

二、数据分析

1. 数据过滤,筛选(二代测序通用 ^__^ )

2. 比对;比对的方式主要分两种,一种判断每条reads是否含有酶切位点,有则去掉酶切位点之后的数据在进行bowtie2单端比对;另一种采用单端比对的策略,以25bp为起始长度,每次增加5bp直到该reads比对到基因组具有唯一性。

3. 寻找酶切片段;比对寻找到reads pairs在基因组物理位置之后,通过插入片段大小的限制搜索reads pairs两端每条read所对应的最近的酶切片段。酶切片段的位置代表了DNA交互产生的大致位置。

4. 筛选fragment pairs;

HiC分析

我们只需要Valid Pairs。

5.Binning;将Valid Pairs的交互信息mapping到 基因组的位置,最终转换成为每两个bin的交互强度。

6. 交互矩阵标准化;标准化方法主要分为两类,一类是基于矩阵,进行数学上的标准化,例如迭代等,另一类是基于生物学意义(例如mappingability)上的标准化。

HIC信息分析流程

三、分析代码
四、Hi-C分析工具包
Hi-C数据分析(protocol)

1. 数据过滤(质量筛选,NGS必做^_^)

2.分析HiC数据,得到自己设定分辨率(例如100kb)的热图(由于这部分需要下载基因组,网速较慢,下期介绍)

3.Hi-C数据可视化以及Find Topologically Associating Domains

(1)需要数据:Hi-C交互矩阵:N * N 的矩阵

由第二步得到的Hi-C数据是这样的格式(中间以tab分割)

[AppleScript] 纯文本查看 复制代码
#tab chrT_001 chrT_002 chrT_003 chrT_004
chrT_001 629     164     88      105
chrT_002 164      612     175     110
chrT_003 88        175     437     105
chrT_004 105      110     105     278


(2)软件包:tadbit

https://github.com/zilhua/tadbit

官方网站:http://3dgenomes.github.io/TADbit/

(3)计算代码:

自己去作者博客看吧,http://www.zilhua.com/2171.html



上一篇:3D基因组大合辑:9篇Reviews+28篇Research articles+2篇Protocols
下一篇:拓扑相关结构域(topologically associated domains,TADs)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-7-18 09:30 , Processed in 0.039662 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.