伪相关 编辑
什么是伪相关
在统计学中,伪相关性,或称伪相关性,是指两个变量之间看似因果关系,但实际上并非因果关系的联系。虚假的关系通常表现为一个变量影响另一个变量。这是假的相关性 通常是由第三个在检查时不明显的因素引起的,有时称为混杂因素。
关键要点
- 伪相关,或称为伪相关,是指两个因素看似随意相关,但实际上并不相关。
- 因果关系的出现通常是由于图表上类似的运动,而这些运动被证明是巧合或是由第三个“混淆”因素引起的。
- 伪相关通常由小样本或任意端点引起。
伪相关的工作原理
当两个随机变量在一个图上紧密地相互跟踪时,很容易怀疑两个因素之间的相关性,或者两个因素之间的关系,其中一个变化会影响另一个因素。撇开“因果关系”这一话题不谈,这一观察可以让图表的读者相信变量A的运动与变量B的运动有关,反之亦然。但有时,经过更仔细的统计检验,排列的运动是巧合,或者是由影响前两个的第三个因素引起的。这是一个虚假的相关性。用小样本或任意端点进行的研究易受虚假性的影响。
伪相关示例
发现有趣的相关性并不太具有挑战性。不过,很多都是假的。对于华尔街的男性来说,两个流行的虚假关联涉及女性和体育。起源于20世纪20年代的是裙长理论 认为裙长与股市走势相关。如果裙长较长,则意味着股市下跌;如果裙长较短,则意味着股市上涨。大约在1月下旬,有人谈论所谓的“超级碗”指标,这表明亚足联队获胜可能意味着明年股市将下跌,而NFC队获胜则预示着未来一年股市将下跌在市场中崛起。自1966年以来,该指标的准确率为80%。这是一个有趣的话题,但可能不是一个严肃的理财顾问会推荐的客户投资策略。
下面是一些常见伪相关的更多示例:
- 冰激凌销量上升,溺水者增多。看起来冰激凌销量的增加会导致更多的人溺水,但实际上,不断上升的高温可能会导致更多的人游泳,以及购买更多的冰激凌。
- 2006-2011年美国谋杀率的下降速度与微软IE浏览器的使用速度相同。
- 说“请”和“谢谢”的高管们通常会享受更好的股票表现。
- 穿着奥克兰突击队装备的人更容易犯罪。
如何识别伪相关
统计学家 而其他分析数据的科学家必须时刻警惕虚假的关系。他们使用的方法很多,包括:
- 确保适当的代表性样品。
- 获得足够的样本量。
- 警惕任意端点。
- 控制尽可能多的外部变量。
- 使用零假设并检查强p值。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论