搜索
查看: 3073|回复: 1

Somatic CNV变异研究

[复制链接]

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2017-12-11 10:30:27 | 显示全部楼层 |阅读模式
Somatic CNV变异研究背景

重所周知,肿瘤来源于正常的体细胞,由于其基因组水平累积发生一系列的突变或畸变造成。肿瘤样本拷贝数变异 (CNV,copy number variation),即 somatic CNV 是最主要的体细胞突变之一。正常细胞的基因组是二倍体,而在肿瘤细胞中基因组某些区域拷贝数会发生扩增 (amplification) 或缺失 (deletion) 从而改变基因组原有的状态,且大小约在50bp-1Mb之间[7]。

在某些肿瘤中基因组发生缺失会导致抑癌基因的失活,如 RB1、P16、PTEN 等;而扩增会导致原癌基因的激活,如MYC、ERBB2 和 EGFR等。这些基因在多种信号通路中发挥重要作用,可以促进或抑制细胞的生长、增殖、转移和复发[8]。因此寻找肿瘤特异性的 somatic CNV 不仅可以更好的理解肿瘤发生的分子机制,也可以更快的发现新的肿瘤原癌基因以及抑癌基因,可为开发有效的肿瘤治疗药物提供靶点。

Somatic CNV变异研究方法

理想的 CNV 检测方法应该是能又快又准的定量基因组范围内拷贝数变化,同时能全面定位 CNV 发生的断点及其位置。传统检测 CNV 的方法有 Fluorescence In Situ Hybridization (FISH), NanoString’s digital detection technology, array comparative genomic hybridization (array CGH) 以及Single Nucleotide Polymorphism (SNP) array,这些方法受到自身的局限性,如杂交背景噪音,有限的基因组覆盖度,较低的检测分辨率等,因此很难用于检测新型和低频的CNV[9]。

随着测序技术的发展,二代测序已成为基因分型和分析 CNV 最流行的手段,不仅可以完美弥补了传统方法的局限性,又可以提高通量、降低成本及缩短周期。综合考虑到二代测序的优势,研究者们开发了一系列基于不同算法适用于不同测序策略的 somatic CNV 分析软件

一般来说有三种主要的检测CNV的方法:1) read count;
2) paired-end;
3) assembly

随着测序成本的降低以及测序深度的增加,read count 成为最主要的方法。Read count 方法原理是利用一个非重复滑动的窗口去统计覆盖到与该窗口重叠的基因组区域内 reads 数量,从而推断发生 CNV 的位置。

Read count 分析方法包括两个步骤:预处理 (preprocessing) 和分段处理 (segmentation)。

预处理步骤可以对样本比对后的 BAM / SAM / Pileup 等文件进行均一化处理,也可以使用 de-noising 的算法去除 WES 数据中存在的偏好性和背景噪音;分段处理步骤会利用一些统计模型对具有相似 read count 的区域合并去预估CNV的大小,常见的统计模型有circular binary segmentation (CBS), hidden Markovmodel (HMM)  等。


变异检出影响因素及解决办法

虽然测序技术逐步在提高,检测 CNV 的软件也一直在更新,但是肿瘤样本中 somatic CNV 的检测依然存在一些挑战。基本挑战包括:测序数据质量和测序策略选择。首先,基于read count方法检测CNV,最主要的是寻找基因组某一区段内的reads数量与CNV的关系。然而这种关系会受到样本GC偏好性、数据比对偏好性、实验操作背景噪音以及测序偏好性的影响。其次,在选择WES或TRS测序时,探针的捕获偏好性以及reads在不同外显子区的分布偏好性会影响到CNV检测时的数据统计,会成为CNV检测算法的背景噪音。

最重要的挑战是肿瘤样本本身的复杂性,包括肿瘤纯度、倍性以及克隆结构异质性。 CNV 在肿瘤样本基因组上具有广泛性以及多样性,因此 germline CNV 与 somatic CNV 不同之处在于,somatic CNV 可以发生在基因组任何区域且突变频率低。其次,肿瘤样本中污染正常细胞时,会降低 read count 和 read depth 值,使 BAFs 值脱离理论值,影响分段步骤中 CNV 数量估计;基因组非整倍性情况的存在会严重影响肿瘤样本中 BAF 的状态,以及 read count 和 read depth 的基线。最后,肿瘤样本中克隆结构存在异质性,导致一些低频亚克隆结构检出困难,虽然提高测序深度可以帮助检测低频亚克隆,但是想要精准检测 somatic CNV 还是需要综合考虑样本的复杂程度[11]。

那么以上困难是否可以克服呢?当然。分析 somatic CNV 时,对于测序质量以及测序策略造成的困扰,可以使用正常样本作对照,可以有效的降低偏好性和背景噪音的影响。对于肿瘤样本复杂性问题的解决,我们建议选择最优的软件及其配套算法去降低样本本身问题对分析结果的影响。

Control-FREEC 软件自推出以来人气就很旺,许多高分文章也有引用。该软件可以输入多种类型的预处理文件,并且能够准确区分 somatic 和 germline CNV 变化,尤其适用于肿瘤样本的分析。其他软件,比如“后起之秀” FACETS 软件相较 ABSOLUTE 软件 CNV 变异检出 sensitivity 提高,还可以整合 logR 和 logOR 值预测肿瘤非整倍性,检测中性杂合性缺失;目前也已被用于甲状腺癌[12]、乳腺癌[13]癌等肿瘤样本分析中。


参考文献:

[1] Boeva V, et al. Control-free calling of copy number alterations in deep-sequencing data using GC-content normalization[J]. Bioinformatics, 2011, 27(2):268-269.  

[2] Shen R, Seshan VE. FACETS: allele-specific copy number and clonal heterogeneity analysis tool for high-throughput DNA sequencing[J]. Nucleic acids research, 2016, 44(16): e131-e131.

[3] Carter SL, Cibulskis K, Helman E, et al. Absolute quantification of somatic DNA alterations in human cancer[J]. Nature biotechnology, 2012, 30(5): 413-421.

[4] Ha G, Roth A, Khattra J, et al. TITAN: inference of copy number architectures in clonal cell populations from tumor whole-genome sequence data[J]. Genome Res, 2014, 24, 1881–1893.

[5] Mayrhofer M, Dilorenzo S and Isaksson A. Patchwork: allele-specic copy number analysis of whole-genome sequenced tumor tissue[J]. Genome biology, 2013, 14(3):R24.

[6] Boeva V, Popova T, Bleakley K, et al. Control-FREEC: a tool for assessing copy number and allelic content using next-generation sequencing data[J]. Bioinformatics, 2011, 28(3): 423-425.

[7] Girirajan S, Campbell CD, Eichler EE. Human copy number variation and complex genetic disease[J]. Annual review of genetics, 2011, 45:203-226.

[8] Hanahan D, Weinberg RA. The hallmarks of cancer[J]. Cell, 2000, 100: 57–70.

[9] Shendure J, Ji H. Next-generation DNA sequencing. Nat Biotechnol, 2008, 26:1135-1145.

[10] Liu B, Morrison CD, Johnson CS, et al. Computational methods for detecting copy number variations in cancer genome using next generation sequencing: principles and challenges[J]. Oncotarget, 2013, 4(11): 1868.

[11] Zhao M, Wang Q, Wang Q, et al. Computational tools for copy number variation (CNV) detection using next-generation sequencing data: features and perspectives[J]. BMC bioinformatics, 2013, 14(11): S1.

[12] Ibrahimpasic T, Xu B, Landa I, et al. Genomic alterations in fatal forms of non-anaplastic thyroid cancer: Identification of MED12 and RBM10 as novel thyroid cancer genes associated with tumor virulence[J]. Clinical Cancer Research, 2017, 23(19): 5970-5980.

[13] Geyer FC, Berman SH, Marchiò C, et al. Genetic analysis of microglandular adenosis and acinic cell carcinomas of the breast provides evidence for the existence of a low-grade triple-negative breast neoplasia family[J]. Modern Pathology, 2017, 30(1): 69-84.






上一篇:针对血液病的检测产品FoundationOne Heme的最新数据
下一篇:生物技术/药企的BD在做什么(10)-完结篇
回复

使用道具 举报

1

主题

4

帖子

52

积分

注册会员

Rank: 2

积分
52
发表于 6 天前 | 显示全部楼层
挺好的帖子
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2019-5-27 00:09 , Processed in 0.080124 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.