搜索
查看: 7553|回复: 0

肿瘤突变位点临床解读:Clvic 数据库简单探究

[复制链接]

13

主题

30

帖子

263

积分

中级会员

Rank: 3Rank: 3

积分
263
发表于 2017-5-10 22:00:28 | 显示全部楼层 |阅读模式
随着测序成本的下降,普通的肿瘤患者将受益于高通量基因测序
别管是取组织测序,还是无创液态活检去检测血液中的ctDNA
关注核心问题都是
1.上游解读:身上的肿瘤发生了那些somatic mutations [snvs/indels/CNVs/SVs/基因融合/甲基化]?
2.下游解读:这些mutations 意味着什么?预后怎么样?吃哪些靶向药效果好?哪些药效果不好?如何进行更加有效的治疗?
        其中第一点相对来说相对容易,拿到原始下机的fastq数据后可以自己分析,也可以直接付费使用优秀的云平台,比如GENEDOCK。来完成相对标准化的上游分析,但前提是检测技术[实验+生信分析]需要预先通过测评,确认是准确的。

       需要指出的是,现在的肿瘤基因检测公司,
       也不全都是靠谱的!

      
        参见2017年4月11日,
          国家卫计委临床检验中心下发的
       《全国肿瘤体细胞突变高通量测序检测第一次室间质量评价结果报告》

        对于NGS来说,从fastq到bam再到vcf再到简单注释,我们就可以知道,是哪个基因哪个位点发生了什么突变,有没有导致氨基酸的改变等等。

        
        但是下游的数据解读依然是肿瘤精准治疗的瓶颈之一,现在强烈推荐这个肿瘤突变位点靶向用药数据库- CIViC数据库
        之前有在周在威老师的基因检测与解读数据库里面有简单介绍,感兴趣的小伙伴可以移步基因检测与解读公众号,免费开源的肿瘤突变位点临床解读数据库:CIViC

      
       今天我们就动手对这个数据库做一个简单的探究
       官方网址为 https://civic.genome.wustl.edu

      

         illumina日前也为civic捐赠了大量的体细胞突变的数据

        介绍该数据库的相关论文2017年1月27日发表于顶级遗传学杂志Nature Genetics(pmid:28138153)

        
        这个项目是一个开放的社区
        数据库目前仍在不断更新,截至2017年5月9日,共收录,307个基因,359种药物,1073个突变和189种疾病。

        

        数据库中的三个重要的概念需要指出,
        一个是证据等级,
        只有level高的相对来说更加可信,跟有可能进行有效的指导。

        
        另一个是STAR 的数量,
        一般来说,越多STAR的更加有可能应用于临床指导。


        还有一个是证据的类型,
        是临床前研究,还是预测,还是诊断,预后或者倾向性。
        其他更多的解释大家可以到数据库的
        Glossary of Terms的链接进行学习。

      
        在Statistics部分,展示了数据库记录的简单统计

        既然是open-source,就看看能不能拿到数据,
        通过寻找也确实发现了DataReleases

      
        可以看到不同日期的更新版本  一共有四张表
        Gene Summaries   
        VariantSummaries
        Variant Group Summaries
        Evidence Summaries

        最新版本的下载链接分别是
        
https://civic.genome.wustl.edu/downloads/01-May-2017/01-May-2017-GeneSummaries.tsv
https://civic.genome.wustl.edu/downloads/01-May-2017/01-May-2017-VariantSummaries.tsv
https://civic.genome.wustl.edu/downloads/01-May-2017/01-May-2017-VariantGroupSummaries.tsv
https://civic.genome.wustl.edu/downloads/01-May-2017/01-May-2017-ClinicalEvidenceSummaries.tsv


        下载下来发现数据量很小 只有2MB 左右 我主要研究
        ClinicalEvidenceSummaries.tsv 这张表
        下面是一些感兴趣的基本的探究

        首先,总纪录的条数是1814条

        
1. 热点基因和热点癌种

118 ALK
108 KRAS
105 EGFR
  99 BRAF
  86 ERBB2
  65 PIK3CA
  51 TP53

        纪录数目在50以上的是这七个基因,也就是涉及这七个基因的突变有相对更多潜在的解决方案

250 Non-small Cell Lung Carcinoma
174 Acute Myeloid Leukemia
153 Colorectal Cancer
152 Breast Cancer
  70 Melanoma
1015 other

        癌种的分布,非小细胞肺癌和急性髓细胞样白血病,结肠直肠癌,乳腺癌,黑色素瘤位于前五。

2. 有多少突变有药可用,热点药品

        统计后发现有594条纪录在drug 这一点上是空的也就是意味着,
        知道这个突变和癌症相关,但是无药可用。

594 No-Drug
85 Crizotinib
42 Cetuximab
36 Vemurafenib
32 Afatinib
27 Trastuzumab
998 other_drug

        热点药品是克唑替尼,西妥昔单抗,格列卫(甲磺酸伊马替尼),阿法替尼,和曲妥珠单抗
3.高度的可信的纪录筛选

        最后我选取得了
        LEVEL 在B 以及以上的
        而且是有药物的纪录一共是462 条纪录
       可以发现用于诊断和high level的纪录还是占少数部分,
       人类对肿瘤的了解,数据的积累还是很有限。
        包括我们经常提到的中国NSCLC患者
        相对更多的EGFR L858R T790M 突变
        这里列出大部分LEVEL A的纪录


Clvic 还提供了简单的API


欢迎大家有时间继续探究
公众号刚建立
希望大家多多支持多多关注
小编将继续努力
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2020-3-31 10:22 , Processed in 0.024567 second(s), 29 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.