反向归纳定义 编辑

什么是反向归纳法?

反向归纳法博弈论 是一个从问题或情况结束时向后推理的迭代过程,以解决有限的扩展形式和连续博弈,并推断出一系列最优动作。

反向归纳法解释

自从约翰·冯·诺依曼和奥斯卡·摩根斯坦在他们出版的书中把博弈论作为一门学术学科建立以来,逆向归纳法就被用来解决博弈,博弈论与经济行为 1944年。

在博弈的每一个阶段,逆向归纳决定了博弈中最后一步的博弈者的最优策略。然后,根据给定的最后一个玩家的动作,确定下一个到最后一个移动玩家的最优动作。这个过程继续向后,直到确定了每个时间点的最佳操作。实际上,一个是决定纳什均衡 原始游戏的每个子游戏。

然而,从反向归纳中推断出的结果往往无法预测人类的实际游戏。实验研究表明,“理性”行为(如博弈论所预测的)在现实生活中很少出现。非理性的参与者最终可能获得比反向归纳法预测的更高的回报,如蜈蚣游戏 .

在蜈蚣游戏中,两个玩家轮流有机会从不断增加的一罐钱中分得更大的份额,或者把这罐钱传给另一个玩家。奖金的安排是这样的,如果一个罐子被传给了对手,而对手在下一轮拿走了罐子,那么一个人得到的奖金会比他在这一轮拿走罐子时少一些。当一个玩家拿走藏宝时,游戏就结束了,这个玩家得到了较大的一部分,而另一个玩家得到了较小的一部分。

反向归纳示例

作为一个例子,假设玩家A先走,必须决定他是应该“拿走”还是“通过”这个藏品,目前这个藏品价值2美元。如果他拿走了,那么A和B各得到1美元,但是如果A通过了,现在必须由球员B决定是拿走还是通过。如果B拿走了,她得到3美元(也就是说,以前藏的2美元+1美元),A得到0美元。但是如果B通过了,A现在可以决定是通过还是通过,依此类推。如果两个玩家都选择通过,他们每个人在游戏结束时都会得到100美元的回报。

游戏的重点是,如果A和B都合作,并继续通过,直到游戏结束,他们得到的最高支付100美元每个。但是,如果他们不信任另一个玩家,并期望他们在第一个机会“采取”,纳什均衡预测玩家将采取最低可能的索赔(在这种情况下为1美元)。

这个博弈的纳什均衡,在考虑了对手的选择后,没有一个玩家有动机偏离他选择的策略,表明第一个玩家会在博弈的第一轮就拿下大麻。然而,在现实中,这样做的玩家相对较少。结果,他们得到了比均衡分析预测的收益更高的收益。

用反向归纳法求解序列对策

下面是两个玩家之间简单的顺序游戏。其中包含player1和player2的标签分别是player1或player2的信息集。树底部括号中的数字是各点的收益。游戏也是连续的,因此玩家1做出第一个决定(左或右),玩家2在玩家1之后做出决定(上或下)。

Julie Bang图片©Abcexchange 2020

像所有的博弈论一样,反向归纳法使用了理性和最大化的假设,这意味着玩家2将在任何给定的情况下使他的收益最大化。在任一信息集中,我们有两个选择,总共四个。通过消除玩家2不会选择的选项,我们可以缩小我们的树。这样,我们将用蓝色标记线,在给定的信息集中最大化玩家的收益。

Julie Bang图片©Abcexchange 2020

在这个减少之后,玩家1可以最大化它的收益,因为玩家2的选择是已知的。结果是玩家1选择“右”和玩家2选择“上”的反向归纳找到的均衡。下面是平衡路径粗体的游戏解决方案。

Julie Bang图片©Abcexchange 2020

例如,可以很容易地建立一个类似于上面的游戏,使用公司作为玩家。这个游戏可以包括产品发布情节。如果公司1想要发布一个产品,那么公司2会做些什么?公司2会发布类似的竞争产品吗?由预测 这种新产品在不同的销售场景下,我们可以设置一个游戏来预测事件可能会如何展开。下面是一个如何模拟这样一个游戏的例子。

Julie Bang图片©Abcexchange 2020

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据

词条统计

浏览:54 次

字数:5252

最后编辑:7 年前

编辑次数:0 次

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文