当前位置:首页 > 天道酬勤 > 正文内容

囚徒困境存在纳什均衡吗(纳什均衡与博弈论pdf)

张世龙2021年12月20日 03:21天道酬勤1380

博弈论是关于竞争者之间决策的数学研究。 由数学家模样的泥猴桃和经济学家小型大豆于20世纪40年代提出。 之所以被称为博弈论,是因为这个理论试图理解两个以上玩家(参与者)在特定情况下的战略。 在博弈论中,两个以上参与者之间的交互通常是在有特定规则的游戏中定义的。 与零和游戏有关。 这意味着一个玩家获得的收益对其他玩家来说是损失。 心理学、进化生物学、战争、政治、经济学、商业、计算机科学中的许多现象可以建模为游戏。 因此,博弈论具有广泛的应用。 博弈论有四个主要因素。

玩家(战略cxdgs战略)适用于特定游戏的规则结果)决定后的结果均衡)游戏中,双方玩家制定自己的战略,不能采取其他行动的积分博弈论有合作和非合作两个主要类别

非合作性

非合作游戏是各玩家之间的竞争游戏,其中有几个赢家和几个jxdmy。 非合作博弈论中最有名的例子是“囚徒困境”。

两个yjdlr,也就是lhdjz和psdqc被警察逮捕,关在两个不同的房间里审问,所以他们不能相互交流。 所有可能的结果。

如果lhdjz和psdqc互相指控,他们将分别在监狱服刑两年。 如果lhdjz控告psdqc,psdqc认罪,lhdjz将被释放,psdqc将服刑3年。 如果普华永道控告lhdjz,lhdjz认罪,psdqc将被释放,lhdjz将服刑三年。 如果lhdjz和psdqc都认罪,他们只服一年徒刑。 在囚犯困境中,lhdjz和psdqc各选择一个策略,即指控或自白,共有四种可能的情况,每种情况对应一个结果。 因此,可以说明各战略组合的结果矩阵。

也就是说,lhdjz和psdqc最好选择控告对方。 因为告发对方会比和他们一起认罪得到更大的“回报”。 所有完全合理自利的囚犯都会选择告发对方。 也就是说,他们俩唯一可能的结果是告发对方。 这个推论是基于困境。

psdqc要么认罪,要么告发。 如果psdqc认罪,lhdjz与其服刑一年,不如获得自由,应该检举。 如果psdqc起诉的话,lhdjz也必须起诉。 因为将刑期定为2年比将刑期定为3年要好。 所以无论如何,lhdjz都应该检举。 同样,psdqc也应该检举。 无论对方选择如何,指控的结果总是比坦率的结果好,所以这是一个优势战略。 博弈中唯一的纳什均衡(Nash equilibrium ) (集团政策,没有参与者可以通过改变战略来提高自身利益),是相互诉说的。 困境,互相表白比互相指责有更好的结果,但这不是合理的结果。 因为从自身利益的角度来看,选择告白是不合理的。 这不是合作的游戏。 因为所有参与者都会从背后捅刀子中受益。 囚犯的困境适用于许多现实世界的问题。 kkddy和别人竞争的时候,不管别人怎么做,都最好选择对你最有利的行动。

合作性

合作博弈论中,所有玩家都同意为了同一个目标进行合作。 因为他们合作工作,所以常见的是把这个团体称为联盟。 合作游戏中的问题是,一个玩家对联盟的贡献有多大,一个玩家从联盟中得到多少利益。 简言之,我们试图确定什么是公平。 在非合作博弈存在纳什均衡的情况下,合作博弈具有精明的西装值(Shapley value ),这将根据玩家对联盟的贡献值在玩家之间划分收益和成本。 通过满足以下公理发挥作用。

边际贡献。 各参加者的贡献可以通过从联盟中删除来确定。 假设联盟的目标是生产尽可能多的饮料。 lhdjz被去除后,联盟生产的饮料比lhdjz所在的日子减少了100件。 因此,lhdjz的极限贡献为100。

可交换的参与者具有同等的价值。 如果两个玩家向联盟提供同样的东西,他们的贡献量应该相同。 所以,他们应该得到同等的奖励。 如果两个人在餐厅点了同样的菜,他们的账单应该是一样的。

虚拟玩家的价值为零。 如果联盟的一个玩家完全没有贡献,他们就不应该得到报酬。 如果和朋友一起去餐馆,但什么也没点,就不应该付账单,也不应该享受食物。

在有多个部分的游戏中,成本和支付应该在这些部分之间分解。 如果周一生产矿泉水,周五生产葡萄酒,周五的收益应该比周一多。 因此,联盟必须定期审查和调整。

如果满足上述所有情况,联赛游戏中玩家I的简单值可以通过以下公式计算。

其中

:

N是玩家(参与者)的总数,总和扩展到N的所有子集S,不包括参与人iS是N的一个子集v(S)是联盟S的价值

因此,它可以被解释为:

图片来自维基百科

为了简化,想象一下你可以在一小时内单独工作生产10杯饮料,而你的朋友可以在一小时内生产20杯饮料。然后,你们两个人决定一起工作。分开任务,你负责包装,而你的朋友负责其他方面。结果发现,你们两个人都能在一小时内生产40种饮料。假设,每杯饮料价值1元。那么你们如何分配收入呢?

事实上,你可以在一小时内生产10杯饮料,然后从总数中减去它们,40-10=30。这就是如果你除去你的朋友会生产多少。因此,你朋友对你的边际贡献是30。事实上,你的朋友可以在一小时内做20杯饮料,并从总数中减去,40-20=20。这就是如果你的朋友把你剔除的情况。因此,你对你朋友的边际贡献是20。如果你能在一小时内做10杯饮料,你的边际贡献是20,根据精明的西装值,你应该把这2个数字平均起来。因此,你的奖励应该是(20+10)/2=15。而你的朋友在一小时内可以做20杯饮料,他的边际贡献是30。他的奖励应该是(20+30)/2=25。因此,从40元中你应该得到15元,你的朋友得到25元。

结论

在个人竞争中,你应该聪明一点,做出对你最有利的决定,而在一群人一起工作以达到同一目标时,你应该公平一点。

想了解更多精彩内容,快来关注老胡说科学

扫描二维码推送至手机访问。

版权声明:本文由花开半夏のブログ发布,如需转载请注明出处。

本文链接:https://www.zhangshilong.cn/work/25349.html

分享给朋友:

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。