搜索
查看: 1240|回复: 0

VSWarehouse基因检测报告系统

[复制链接]

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2017-12-11 10:28:16 | 显示全部楼层 |阅读模式
天我们就以VSWarehouse为例,看看它们是怎么做到数据报告的管理的。它是本地化的管理系统,通过内网IP进行数据管理。

VSWarehouse对数据的管理,分为三个方向:分别是项目,报告和评估目录。

VSWarehouse保存了从变异/CNV数据到分析以及解读的过程。有利于对数据解读的整个证据链的信息追溯。



此外,可以在界面看到它包含了版本的信息,比如样本或者注释做了更新,那么以前的版本和更新的版本,都可以在这个数据仓库中被找到。

如果某个病人过了很久,需要把当年的检测报告和评价抽取出来,把以前的和当前的数据库进行核对和重新评估,那么普通的管理工具是非常容易实现的。但是如果这样的老病例非常非常多,时间也间隔得比较长而且也不统一,需要批量的自动化核对,实现起来就比较困难。

VSWarehouse的优势在这个时候就会显示出来,得以免由于信息的更新,丢失了以前的结果而产生的争议。

在Projects中17K samples代表了我某个项目执行的时候,使用了17K的样本数量,得到了1155个高质量的用于后续处理的变异。这个变异数这么少,估计是采用了某种定制的panel. 这个项目有1个版本,也就是做好了以后这个项目没有改动。其他项目有多个版本,说明信息改动过。

到了Reports中,在VSWarehouse中提交了以下这些报告。拿第一个报告来说,GH Cancer Panel 这个报告有6个样本,Primary Findings有10个变异,Incidental Findings有14个。评估目录(Assessment Catalogs)中的ClinicalSignificance则收录了16个被标记的变异被临床分析人员做了有害性的分类。评估的Version的信息,也可以查到。

VSWarehouse项目(Projects)是根据实验室样本的不同的组别或者队列,把每个序列变异/CNV进行统计和注释,以构建组织内部的变异/CNV知识库。比如说不同的样本同一个变异/CNV,因为样本分类(比如不同的疾病,亚群等)分到了不同的Project,那么它们的突变信息也会从各自的Project中加以统计。所以可以利用VSWarehouse的思路,来制作我们中国人群自己的ExAC 和 gnomAD。


数据积累到一定程度,构建自己的数据库(比如下图打勾的两个私有库),用到下一次的分析中。



可以作为注释筛选过滤的条件,像其他的数据库一样,加载到自己的常规分析流程中。




对于VSWarehouse的报告(Reports)来说,报告存储了临床解释过程的最终结果,每个样本的背景数据,临床结果以及用户选择的variant和CNV将被包含在完全可定制的报告中。



可以具体点击每个变异/CNV,查看变异/CNV的背景信息和分析结果。



还可以调用某个原始分析报告。



目录(Catalogs)提供了一个灵活的知识库来捕获variant和CNV的解释,以及标记有用的variant和CNV的列表,例如误报,被确认的benign variants等。

此外,VSWarehouse评估目录可以使用VSWarehouse提供的标准过滤和搜索功能进行查看和操作。

比如可以在VSWarehouse中任意的搜索某个感兴趣的变异/CNV,该感兴趣的变异/CNV无论是自己发现的,还是别人提醒的,只要输入VSWarehouse,如果保留了记录,就可以得到它的以往的项目,在哪些样本里面曾经出现过,别人都是怎么评价它的:

比如,某实验室收到了其它合作实验室的信息,提醒某个变异需要重新审视:


就可以把这个变异输入到VSWarehouse检索条中:


这个变异/CNV的所有有关项目都会被抓取出来,比如该变异就在Cardio Panel Warehouse, Research Exomes中找到了:


同一个变异/CNV,在哪些样本中存在, reads的QC情况,以及其他背景信息都可以调出来,也就是说,哪怕我的变异/CNV只有一个病例,只要我想找到它,都可以检索出来。



可以个性化的检索某个基因(DES)满足AF阈值的变异/CNV有哪些:



人们还知道经过时间的变化,数据库的更新,哪些信息解释需要修改。比如以Clinvar举例,当这个数据库发生了更新,Warehouse就会提醒用户,什么疾病,在哪些项目中,哪些变异/CNV位点发生了注释的改变。其他的数据库也是同样的道理。



某个variant/CNV,是不是以前在哪些样本里面也碰到过,如果有,还可以进一步可视化进行展示:



借助软件内部内嵌的可视化系统,当调查感兴趣的变体的基因组背景时是特别有用的。除了可以看感兴趣的某个变异/CNV所在位点的信息,还可以看到它周围不可忽略的变异/CNV信息。



比如上图,这个Project中的一个de novo候选变异(Variants-YRI_Exoe_Filtered3),也出现在warehouse中(100Exomes-102 samples),你会发现在这个位点还会有不同的alternate allele(C/A,C/T),和距离此变异周围的其他变异(前面的C/T和后面的G/C)。



得到了一些经验,可以在组织内部把信息进行分享和更新,使得组织的其他成员也获得你的知识。


个人对VSWarehouse的进一步建议:



做一个数据库,目的不光是为了当下的检索,它也有隐藏的一个需求,就是怎么发现我以前没有发现的规律。



我们想知道公共数据库中什么变异涉及到什么表型是相对容易的,从某个特定已经被标记好的项目中调出什么变异涉及到什么表型也是相对容易的。

但是在自己的数据库中,想从自己的所有项目中了解,到底是哪些项目有可能带有该表型相关的变异,而且以前并没有发现,是更需要被重视的而且很容易漏掉的。因为数据,样本,数据库,变异的解释是不断更新的。

在以前,由于数据积累的少,或者是由于临床医生专注于某疾病领域,对其他领域的表型有可能漏掉。虽然说临床信息的采集是非常重要的,但是采集的信息也是根据当时的信息采集的,也许在以后看来,会有一定的局限性。

我个人很希望可以通过检索,知道感兴趣的phonotype(s)或者疾病输入进去,有所有的项目中去搜索,哪些项目中的哪些样本的变异,涉及到了感兴趣的phonotype(s)或者疾病,这些变异或者CNV以前有没有被别人发现过,有没有被自己的组织发现和报道过,它们在自己的队列中的频率,致病性,测序深度,覆盖度等信息的搜索,是很有必要的。



我们如果只是在报告中声明,实验检测有哪些局限性是不够的。既然有局限性,就要想办法去在以后的工作中,来不断的完善整个分析流程和系统。那么通过这么一个数据管理仓库,也许会对查漏,或者对数据的重新审视,有独到的好处。




上一篇:HLA—肿瘤免疫治疗又一潜在biomarker
下一篇:针对血液病的检测产品FoundationOne Heme的最新数据
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2019-5-27 00:19 , Processed in 0.027039 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.