Lasso + Cox 生存分析模式
分享预后模型用的最多的一种构建方式 :Lasso + Cox
一、为什么需要用 Lasso + Cox 生存分析模式
一般我们在筛选影响患者预后的变量时,通常先进行单因素 Cox 分析筛选出关联的变量,然后构建多因素模型进一步确认变量与生存的关联是否独立。
但这种做法没有考虑到变量之间多重共线性的影响,有时候我们甚至会发现单因素和多因素 Cox 回归得到的风险比是矛盾的,这是变量之间多重共线性导致模型 失真的结果。并且,当变量个数大于样本量时(例如筛选影响预后的基因或突变位点,候选的变量数可能远超样本个数),此时传统的 Cox 回归的逐步回归、前 进法、后退法等变量筛选方法都不再适用。
因此,当变量之间存在多重共线性或者变量个数大于样本量时,需要用 Lasso(Least absolute shrinkage and selection operator)回归首先进行变量的筛选,然后构建 Cox 回归模型分析预后影响,这就是 Lasso + Cox 生存分析模式。
二、什么是 Lasso + Cox 生存分析模式
Lasso 可以在模型参数估计的同时实现变量的选择,能够较好的解决回归分析中的多重共线性问题,并且能够很好的解释结果。Lasso 回归算法使用 L1 范数进行收缩惩罚,对一些对于因变量贡献不大的变量系数进行罚分矫正,将一些不太重要的变量的系数压缩为 0,保留重要变量的系数大于 0,以减少 Cox 回归中协变量的个数。
三、R 代码实现实例
假设现在要从 50 个 CD8 T cell 的 marker 基因中筛选具有预后效能的基因,这些基因在样本中是高度共表达的,即变量间存在共线性,样本量 N = 400,现在进行 Lasso Cox 回归。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论