搜索
查看: 634|回复: 0

统计学习笔记之一——huimei

[复制链接]

26

主题

27

帖子

236

积分

中级会员

Rank: 3Rank: 3

积分
236
发表于 2018-12-18 14:37:42 | 显示全部楼层 |阅读模式
临床预测模型人群分组
  • 内验证
    • 将建模人群随机抽取一定比例(30%)
    • 同一研究机构,由同一研究人员,采用相同方式,在后期纳入的病人

  • 外验证
    • 不同研究机构,不同研究人员采用几乎相同的定义和数据采集方法纳入的病人
    • 各种不同机构采用更广泛的入排标准纳入的病人


临床预测模型的构建——logistic回归分析
  • 结局变量为分类变量
    • 二分类变量
    • 多项无序分类变量
    • 多项有序分类变量

  • 自变量变量个数和类型不限的多变量间关系分析
  • 常用于疾病的发病和诊断预测中,通过多个指标对疾病发病和诊断概率进行预测
  • 属于概率分析
  • 研究对象样本量至少是需要分析的自变量个数的10倍
  • 各观测间相互独立
  • 主要应用领域
    • 影响因素、危险因素分析
      • 研究某疾病的危险因素
        • 多个可疑影响因素中筛出具有显著影响的因素
        • 考察某单一因素是否为影响某一事件发生与否的研究

      • 预测疾病是否发生以及发生的概率
        • 若已经建立了logistic回归模型,可以根据模型,预测在不同自变量情况下,发生某病或某种情况的概率有多大

      • 疾病的诊断和分类
        • 根据logistic模型,判断患者属于某病或者某种情况概率有多大,即多大概率患病



  • 临床工作者常常将失访数据在分析时抛弃(logistic回归分析时),失访数据提供的信息虽然不完全有价值,但不应当随意删掉

临床预测模型的构建——COX回归分析
  • 半参数方法,允许资料有“失访(或截尾)"数据存在的,可以同时分析很多因素对生存时间影响的多变量生存分析方法
  • 分析时,记录结局变量(d)以及生存时间变量(t)
  • 生存资料中非常重要的概念为风险率h(t): 指的是患者在t时刻仍存活,在时间t后的瞬间死亡率,用h(t)表示,在生存分析中用Kaplan-Meier法计算死亡概率就是h(t)的估计值
  • 又称为“比例风险模型”,在cox回归方程中,每一病人的死亡风险成比例
  • COX模型中HR不随时间变化,在cox回归分析时,首先对数据是否满足比例风险进行假设检验(用统计学软件可计算)
  • 主要应用领域
    • 预后因素分析
      • 在预后研究中,从多个潜在影响因素中筛选出对结局有显著影响的变量,考察某单一因素是否为影响某一事件发生与否对研究

    • 预测结局是否发生、发生的概率
      • 如果已经建立了COX回归模型,根据模型,预测在不同自变量情况下,患者死亡或复发的概率多大


    • 判别、分类
      • 根据COX回归,判断某人发生某种不利结局的概率多大,根据概率进行分类       



Lasso回归简介
  • 预测模型的本质是找到一组beta值,使得所有病人的Y-predict总体和Y-actual相差不大。lasso回归本质是加入一个惩罚项,要求beta总和不超过一个值t, 在这个条件下,寻找一组beta值,使得Y-predict和Y-actual尽可能接近。Beta越大,该变量预测能力越强。
  • Lasso是一种压缩估计,通过构造一个惩罚函数得到一个较为精炼的模型,使得压缩一些系数,同时设定一些系数为零,因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。
  • 应用场景
    • 若研究者在筛选变量时得不到自己想要的结果,或者说自变量存在多重线性时
    • 用于高维度(变量个数远大于样本量)强相关、小样本的生存资料分析非常有效,比如基因数据


ROC曲线简介
  • 为受试者工作特征曲线,用来描述诊断试验内在真实程度,帮助研究者简单、直观地分析诊断试验的临床准确性,选择更加合适的截点。在机器学习中,ROC曲线用来评价机器模型的效果。
  • ROC曲线以真阳性率(灵敏度)为纵坐标,该指标越高越好。
  • 假阳性率(1-特异度)为横坐标绘制。该指标越小越好。
  • 每一个点对应诊断试验的一个截点,将这些可能的点连接起来可以作出经验ROC曲线。
  • 找到一个界值令敏感度、特异度同时取得最好效果,应该往图左上角找。
  • 模型效果,曲线下面积(AUC)的大小了。AUC越大越好,曲线的效果好于实线效果。
  • 界值确定,大家采用约登指数,选最左上角的一点,即约登指数取得最大值时候的界值。
    约登指数=敏感度+特异度-1







上一篇:R语言实战 第三章(上)
下一篇:求助帖:请问哪些R包可以进行显著性差异检验?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2019-6-16 23:57 , Processed in 0.029567 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.