伪相关 编辑

什么是伪相关

在统计学中,伪相关性,或称伪相关性,是指两个变量之间看似因果关系,但实际上并非因果关系的联系。虚假的关系通常表现为一个变量影响另一个变量。这是假的相关性 通常是由第三个在检查时不明显的因素引起的,有时称为混杂因素。

关键要点

  • 伪相关,或称为伪相关,是指两个因素看似随意相关,但实际上并不相关。
  • 因果关系的出现通常是由于图表上类似的运动,而这些运动被证明是巧合或是由第三个“混淆”因素引起的。
  • 伪相关通常由小样本或任意端点引起。

伪相关的工作原理

当两个随机变量在一个图上紧密地相互跟踪时,很容易怀疑两个因素之间的相关性,或者两个因素之间的关系,其中一个变化会影响另一个因素。撇开“因果关系”这一话题不谈,这一观察可以让图表的读者相信变量A的运动与变量B的运动有关,反之亦然。但有时,经过更仔细的统计检验,排列的运动是巧合,或者是由影响前两个的第三个因素引起的。这是一个虚假的相关性。用小样本或任意端点进行的研究易受虚假性的影响。

伪相关示例

发现有趣的相关性并不太具有挑战性。不过,很多都是假的。对于华尔街的男性来说,两个流行的虚假关联涉及女性和体育。起源于20世纪20年代的是裙长理论 认为裙长与股市走势相关。如果裙长较长,则意味着股市下跌;如果裙长较短,则意味着股市上涨。大约在1月下旬,有人谈论所谓的“超级碗”指标,这表明亚足联队获胜可能意味着明年股市将下跌,而NFC队获胜则预示着未来一年股市将下跌在市场中崛起。自1966年以来,该指标的准确率为80%。这是一个有趣的话题,但可能不是一个严肃的理财顾问会推荐的客户投资策略。

下面是一些常见伪相关的更多示例:

  • 冰激凌销量上升,溺水者增多。看起来冰激凌销量的增加会导致更多的人溺水,但实际上,不断上升的高温可能会导致更多的人游泳,以及购买更多的冰激凌。
  • 2006-2011年美国谋杀率的下降速度与微软IE浏览器的使用速度相同。
  • 说“请”和“谢谢”的高管们通常会享受更好的股票表现。
  • 穿着奥克兰突击队装备的人更容易犯罪。

如何识别伪相关

统计学家 而其他分析数据的科学家必须时刻警惕虚假的关系。他们使用的方法很多,包括:

  • 确保适当的代表性样品。
  • 获得足够的样本量。
  • 警惕任意端点。
  • 控制尽可能多的外部变量。
  • 使用零假设并检查强p值。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据

词条统计

浏览:86 次

字数:3066

最后编辑:7年前

编辑次数:0 次

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文