Lasso + Cox 生存分析模式

发布于 2023-10-27 22:34:10 字数 3943 浏览 22 评论 0

分享预后模型用的最多的一种构建方式 ：Lasso + Cox

一、为什么需要用 Lasso + Cox 生存分析模式

一般我们在筛选影响患者预后的变量时，通常先进行单因素 Cox 分析筛选出关联的变量，然后构建多因素模型进一步确认变量与生存的关联是否独立。

但这种做法没有考虑到变量之间多重共线性的影响，有时候我们甚至会发现单因素和多因素 Cox 回归得到的风险比是矛盾的，这是变量之间多重共线性导致模型失真的结果。并且，当变量个数大于样本量时（例如筛选影响预后的基因或突变位点，候选的变量数可能远超样本个数），此时传统的 Cox 回归的逐步回归、前进法、后退法等变量筛选方法都不再适用。

因此，当变量之间存在多重共线性或者变量个数大于样本量时，需要用 Lasso(Least absolute shrinkage and selection operator)回归首先进行变量的筛选，然后构建 Cox 回归模型分析预后影响，这就是 Lasso + Cox 生存分析模式。

二、什么是 Lasso + Cox 生存分析模式

Lasso 可以在模型参数估计的同时实现变量的选择，能够较好的解决回归分析中的多重共线性问题，并且能够很好的解释结果。Lasso 回归算法使用 L1 范数进行收缩惩罚，对一些对于因变量贡献不大的变量系数进行罚分矫正，将一些不太重要的变量的系数压缩为 0，保留重要变量的系数大于 0，以减少 Cox 回归中协变量的个数。

三、R 代码实现实例