当前位置：文江博客话题详情

辛普森悖论在AB测试中意味着什么？

发布于 2024-08-19 11:21:54 字数 305 浏览 11 评论 0原文

我正在进行 A/B 测试，结果中面临辛普森悖论（天与月与测试总持续时间）。

这是否意味着我的 a/b 测试不正确/不具有代表性？（某些外部因素影响了测试？）
如果这是问题的迹象，应遵循哪些指示？

感谢您的大力帮助。

进一步阅读：http://en.wikipedia.org/wiki/Simpson%27s_paradox

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

折戟 2024-08-26 11:21:54

如果没有看到确切的数据和信息，很难说。您正在测试的维度，但一般来说您希望根据未组合的数据做出决策。微软的这篇文章给出了软件测试中辛普森悖论的一个非常清晰的例子。

您能否提供合并和未合并数据的清晰示例以及测试的简要摘要？

回复收藏 0 原文

凡尘雨 2024-08-26 11:21:54

如果 A 在单独的 A/B 测试中明显更好，而 B 在总体上得分更好，那么主要的含义是您无法以这种方式聚合这些数据集。 A更好。

如果每天的测试都得到相同的结果，即使每天的样本量不同，您也不会得到这个清晰的结果。所以我认为这还意味着某些事情已经发生了变化。不过，它可以是任何东西。也许您每天测试的内容都发生了变化（可能以某种非常微妙的方式，例如服务器速度）。或者，也许你正在测试的人发生了变化（也许是人口统计方面的变化，也许只是他们的情绪方面的变化）。这并不意味着您的测试不好或无效。这只是意味着您正在测量正在移动的东西，这使得事情变得棘手。

我可能会误判或误解情况，但我认为也必然是这样的，你没有测试 A 和 B 相同的次数。也就是说，如果周一你测试了 A 50 次，B 50 次，周二你测试了 A 600 次，B 600 次，依此类推，每天 A 的得分都超过了 B，那么我不知道你怎么能得到B 击败 A 的聚合结果。如果您的测试设置确实如此，那么您似乎确实可以修复某些问题，以使您的数据更易于推理。