具有许多嵌套分类协变量的回归

发布于 2024-08-29 10:02:20 字数 374 浏览 2 评论 0原文

我有几十万次测量，其中依赖变量是一个概率，想使用逻辑回归。然而，我拥有的协变量都是分类的，更糟糕的是，都是嵌套的。我的意思是，如果某个测量具有“城市 - 凤凰城”那么显然肯定有“州 - 亚利桑那州”并且 “国家 - 美国”我有四个这样的因素 - 最细粒度的有大约 20k 关卡，但如果需要的话我想我可以不用那个关卡。我还有一些非嵌套的分类协变量（只有四个左右，每个可能有三个不同的级别）。我最感兴趣的是什么是预测 - 鉴于在某个城市的新观察，我想知道相关的概率/因变量。我不感兴趣与相关的推理机制一样 - 标准偏差，等等——至少到目前为止。我希望我能承担得起马虎的后果。但是，我很想获得这些信息，除非需要计算成本更高的方法。有人对如何攻击这个有什么建议吗？我调查过混合效果，但不确定这是否是我想要的。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

一腔孤↑勇 2024-09-05 10:02:20

我认为这更多的是模型设计问题，而不是具体的 R 问题；因此，我想首先解决问题的上下文，然后解决适当的 R 包。

如果您的因变量是概率，例如 $y\in[0,1]$，则逻辑回归不是合适的数据 - 特别是考虑到您有兴趣预测样本外的概率。逻辑将对自变量对因变量从 0 翻转到 1 的概率的贡献进行建模，并且由于您的变量是连续的且被截断，因此您需要不同的规范。

我认为你对混合效应的后一种直觉是好的。由于您的观察结果是嵌套的，即 US <-> AZ<-> Phoenix，一个多级模型，或者在本例中为分层线性模型，可能是您的数据的最佳规范。对于这种类型的建模来说，最好的 R 包是 multilevel 和 nlme，并且对这两个包都有很好的介绍 R 和 nlme 中的多级模型可在此处获取。您可能对多级建模的数据操作的讨论特别感兴趣，该讨论从第 26 页开始。