- 本书所获赞誉
- 序言
- 关于判断与决策的有趣研究
- 快思考,慢思考
- 主要内容
- 第一部分 系统 1,系统 2
- 第 1 章 一张愤怒的脸和一道乘法题
- 第 2 章 电影的主角与配角
- 第 3 章 惰性思维与延迟满足的矛盾
- 第 4 章 联想的神奇力量
- 第 5 章 你的直觉有可能只是错觉
- 第 6 章 意料之外与情理之中
- 第 7 章 字母 B 与数字 13
- 第 8 章 我们究竟是如何作出判断的?
- 第 9 章 目标问题与启发性问题形影不离
- 第二部分 启发法与偏见
- 第 10 章 大数法则与小数定律
- 第 11 章 锚定效应在生活中随处可见
- 第 12 章 科学地利用可得性启发法
- 第 13 章 焦虑情绪与风险政策的设计
- 第 14 章 猜一下,汤姆的专业是什么?
- 第 15 章 琳达问题的社会效应
- 第 16 章 因果关系比统计学信息更具说服力
- 第 17 章 所有表现都会回归平均值
- 第 18 章 如何让直觉性预测更恰当有效?
- 第三部分 过度自信与决策失误
- 第 19 章 知道 的错觉
- 第 20 章 未来是不可预测的
- 第 21 章 直觉判断与公式运算,孰优孰劣?
- 第 22 章 什么时候可以相信专家的直觉?
- 第 23 章 努力养成采纳外部意见的决策习惯
- 第 24 章 乐观主义是一柄双刃剑
- 第四部分 选择与风险
- 第 25 章 事关风险与财富的抉择
- 第 26 章 更人性化的前景理论
- 第 27 章 禀赋效应与市场交易
- 第 28 章 公平性 - 经济交易的参照点
- 第 29 章 对结果可能性的权衡
- 第 30 章 被过分关注的罕见事件
- 第 31 章 能带来长远收益的风险政策
- 第 32 章 心理账户是如何影响我们的选择的?
- 第 33 章 评估结果的逆转
- 第 34 章 善用框架效应,让生活更美好
- 第五部分 两个自我
- 第 35 章 体验效用与决策效用的不一致
- 第 36 章 人生如戏
- 第 37 章 你有多幸福?
- 第 38 章 思考生活
- 附录 A 不确定性下的判断:启发法和偏见
- 附录 B 选择、价值以及框架
- 致谢
第 10 章 大数法则与小数定律
一项研究对美国 3141 个县的肾癌发病率进行了调查,调查显示该病的分布模式很值得注意。发病率最低的县差不多都位于中西部、南部和西部人口稀少的乡村,这些区域按照惯例由共和党管辖。对此,你有何看法?
刚刚过去的几秒钟里,你的大脑处于非常活跃的状态,这主要是因为系统 2 在运行。你谨慎地在记忆中搜寻着并作出假设。在这个过程中你也付出了一定的努力,你的瞳孔会扩张,心跳会适度加快。系统 1 也没有闲着,因为系统 2 的运行需要从联想记忆中获取事实和建议。你很可能会否认共和党的政策提供了肾癌防控方法这个想法,却会关注肾癌发病率低的县大多是乡村这个事实。这个例子是我从机智的统计学家霍华德·维纳(Howard Wainer)和哈里斯·泽维林(Harris Zwerling)那儿得到的,他们对这一案例的评论是:“人们很容易作出推断,认为肾癌发病率低主要是由于乡村的生活方式很健康—没有空气污染和水污染,食品没有添加剂,保证新鲜。”这一点完全说得通。
现在,考虑一下肾癌发病率最高的县的情况吧。假设这些易发病的县差不多都位于中西部、南部和西部人口稀少的乡村,这些区域按照惯例由共和党管辖。霍华德·维纳和哈里斯·泽维林半开玩笑地评论道:“人们可以很容易作出推断,导致肾癌高发病率的直接原因是乡村生活的贫困—医疗条件差、高脂肪饮食、酗酒、嗜烟等。”当然这种说法肯定有问题,因为乡村生活方式不可能既是肾癌发病率高的原因又是其发病率低的原因。
问题的关键并不在于这些县处在乡村地区或是由共和党掌管,而在于乡村地区人口少。我们通过这个例子学到的不是流行病学知识,而是我们的大脑和统计数据之间的复杂关系。系统 1 非常擅长一种思维模式—自动且毫不费力地识别事物之间的因果联系,即使有时这种关系根本就不存在,它也会这样认定。当听到肾癌高发地区的情况时,你立刻会想当然地认为这些县与其他县不同是有原因的,一定有个理由可以解释这种不同。然而,正如我们所见,当系统 1 面对“纯统计学”的数据时是束手无策的,因为这些数据虽然可以改变结果出现的概率,却不能直接导致结果的发生。
根据定义,一个随机事件是不需要解释的,但一连串的随机事件就有规律可循。想象有一个装有大理石弹球的瓮,其中有一半的弹球是红色的,另一半弹球是白色的。然后,再想象有一个非常有耐心的人(或一个机器人)随意从瓮中取出 4 个大理石球,记录其中的红球数,再把球放回去,重复这样的做法数次。总结记录结果时,你会发现“2 红 2 白”的结果出现的次数(几乎刚好)是“4 个全红”或“4 个全白”这种结果的 6 倍。这一倍数关系是个数学事实。你可以对这种从瓮中反复抽样的结果作出自信的预测,就像你能预测到用锤子砸鸡蛋的结果一样。尽管你无法预见蛋壳破碎的具体细节,但大概结果还是很确定的。两件事的不同之处在于:你想到锤子砸鸡蛋时感受到的那种明确的因果联系,在瓮中取样的设想中是找不到的。
相关的统计学事实与癌症那个例子也有联系。两个耐心的计数者轮流从瓮中取大理石球,杰克每次拿出 4 个球,吉尔拿出 7 个。他们都记录了每次拿到相同颜色弹球的次数—要么全白,要么全红。如果他们取球的做法持续的时间足够长,杰克拿到同颜色大理石的次数会是吉尔的 8 倍(两人的预期概率分别为 12.5%和 1.56%)。这个结果与锤子无关,也与因果联系无关,这仅仅是一个数学上的事实:一次拿 4 个弹球与一次拿 7 个相比,出现极端结果的概率更大。
现在,将美国人口想象成一个巨大的瓮中的弹球。有些球上标有 KC(即 KidneyCancer 的简称)字样,表示肾癌。你抽取弹球样本,并依次按照所在县摆放,你会发现乡村地区的样本要比其他地区的少。如同杰克和吉尔所做的那个游戏一样,极端的结果(非常高或非常低的癌症发病率)容易出现在人口稀少的县,这个故事告诉我们的就是这些。
我们从一个令人费解的事实说起:肾癌的发病率在各县有所不同,且是有规律的,我用统计学理论对此作了解释:相比于大样本,极端的结果(高发病率和低发病率)更容易出现在小样本中。这样的解释不存在因果联系。某县的人口稀少既不会引发癌症,也不能避免癌症,只会使癌症的发病率比人口稠密地方的发病率更高(或更低)。这就是真相,没什么可解释的。在某个人口稀少的县,癌症发病率并非真的比正常情况更低或更高,只是这个县正好在某个特殊的年份赶上了抽样调查罢了。如果我们在第二年重复这样的分析,也能预测到在小样本中出现极端结果的一般模式,但在前一年癌症发病率高的县,这一年发病率并不一定高。如果是这样的话,则人口稠密或稀少的因素就无法对发病率作出解释了:这些表面因素就是科学家眼中所谓的假象,即观察结果完全依赖于调查方法的某一方面,在这个案例中,则依赖于样本大小。
我刚才说的例子也许会令你惊讶,但这并不是真相初次大白于天下。你早就知道应该更相信大样本,并且即使是对统计学一无所知的人也听说过大数法则。但是“知道”并非是非抉择问题,你可能会发现下列陈述放在自己身上很合适:
·当你阅读这个关于流行病学的例子时,并没有立刻注意到“人口稀少”这一特点与此次调查有何关联。
·对于采用 4 个样本还是 7 个样本所产生的不同结果,你至少会感到有一点惊讶。
·即使是现在,想要确定下面两个陈述句所说的完全是一回事,你也要费些脑力:
(1)大样本比小样本更精确。
(2)小样本比大样本产生极端结果的概率大。
第一个表述清晰地陈述了一个事实,但直到感受到第二个表述传达给你的意思,
你才意识到自己并没有真正理解第一个表述的意思。
上述内容概括起来就是:没错,你知道大样本的结果更精确,但你现在可能才意识到你并不清楚为什么它们更精确。不仅你一人如此,阿莫斯与我在一起进行的第一个研究表明,即使是经验丰富的研究人员对样本效应也缺乏直觉,要么就是理解不到位。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论