囚徒的两难博弈
2025-12-20 12:24:36什么是囚徒困境?
囚徒困境是博弈论中的一个经典场景,它描述了这样一种情况:个人的理性选择会导致集体的非理性结果。即使合作对双方都有利,但个体的自私动机最终会阻碍合作的发生。
经典故事版本
为了更好地理解,我们来看这个经典的设定:
场景:
两个共犯(A和B)被警察逮捕,并分别关在不同的房间里进行审讯。他们无法沟通。检察官掌握了他们一项轻罪的证据,但缺乏证据证明他们犯下的更严重的罪行。
检察官给每个囚徒的提议如下:
1. 如果你背叛对方(即作证指控对方),而你的同伙保持沉默,你将被立即释放,而你的同伙将被判10年监禁。(反之亦然)
2. 如果你们都互相背叛(都指控对方),那么你们都将被判5年监禁。
3. 如果你们都保持沉默(即相互合作,不指控对方),那么由于现有的轻罪证据,你们都将只被判1年监禁。
我们可以用一个“收益矩阵”来清晰地展示所有选择的结果。通常,我们用负数代表刑期(数字越小越糟),正数代表收益(如获得自由)。
| | 囚徒 B 沉默(合作) | 囚徒 B 认罪(背叛) |
| :--
| 囚徒 A 沉默(合作) | A: -1年, B: -1年 | A: -10年, B: 0年 |
| 囚徒 A 认罪(背叛) | A: 0年, B: -10年 | A: -5年, B: -5年 |
困境分析:为什么“背叛”是占优策略?
现在,让我们从每个囚徒的个人理性角度来分析:
从囚徒 A 的角度思考:
* 假设 B 选择沉默(合作):
* 如果我合作(也沉默),我们各判1年。
* 如果我背叛(认罪),我立刻自由(0年),他判10年。
* 对我个人来说,背叛(0年)比合作(-1年)更好。
* 假设 B 选择背叛(认罪):
* 如果我合作(沉默),我判10年,他自由(0年)。
* 如果我背叛(也认罪),我们各判5年。
* 对我个人来说,背叛(-5年)比合作(-10年)更好。
结论: 无论囚徒 B 做什么,囚徒 A 选择“背叛”总能得到一个更好的个人结果(要么自由,要么只判5年)。同样,囚徒 B 也会进行完全相同的推理。
对每个囚徒而言,“背叛”是一个占优策略——无论对方如何选择,自己选择背叛总是更有利。
困境的核心
最终,两个理性的囚徒都会选择背叛对方,导致每人被判5年。如果他们能够信任并合作,两人都只会被判1年。
* 个人理性导致的结果: (背叛,背叛) -> 各判5年。
* 集体理性希望的结果: (合作,合作) -> 各判1年。
这就是“困境”所在: 对个人最有利的选择,导致了集体(以及每个人)更糟糕的结局。
现实世界中的例子
囚徒困境不仅仅是一个理论模型,它在现实生活中无处不在:
1. 价格战:
* 两家公司都维持高价(合作),则利润共享。
* 如果一方降价(背叛),它可以抢走大部分市场份额。
* 由于担心对方先降价,双方最终都会选择降价,导致利润都很薄。
2. 军备竞赛:
* 两个国家都裁军(合作),则更安全且省钱。
* 如果一方扩军(背叛),它会获得军事优势。
* 由于互不信任,双方都持续扩军,陷入昂贵且危险的竞赛。
3. 公共资源(公地悲剧):
wepoker苹果下载* 所有牧民都限制放牧(合作),草场可以持续利用。
* 单个牧民增加牲畜(背叛),可以获得更多短期利益。
* 结果所有人都过度放牧,导致草场退化,所有人受损。
4. 团队项目中的“搭便车”:
* 所有成员都努力(合作),项目成功,大家得高分。
* 个别人偷懒(背叛),可以享受成果而不用付出努力。
* 如果很多人都这么想,项目失败,所有人都得低分。
如何破解囚徒困境?
在单次博弈中,困境很难打破。但在重复进行的博弈(重复囚徒困境)中,情况会发生变化。以下是一些可能的解决方案:
1. 建立信任与沟通: 如果A和B在被捕前能达成牢固的“攻守同盟”,并极度信任对方,他们可能会选择合作。
2. 引入 引入外部约束(改变规则): 例如,黑帮可能有严厉的惩罚措施对付“告密者”,这改变了收益矩阵,使得“背叛”的代价变得极高。
3. 重复 重复博弈与“以牙还牙”策略: 当博弈多次进行时,参与者可以通过未来的报复或奖励来影响对方当前的行为。“以牙还牙”策略(第一轮合作,之后每一轮都模仿对方上一轮的行动)被证明在长期关系中非常有效,它能奖励合作者并惩罚背叛者。
4. 制度建设: 在社会层面,通过法律、合同、监管机构等制度来强制执行合作,惩罚背叛行为。
囚徒困境深刻地揭示了个人理性与集体理性之间的冲突。它说明了为什么即使在有共同利益的情况下,合作也如此困难。理解这一模型,有助于我们分析从国际政治到日常生活的各种竞争与合作问题,并思考如何设计机制来促进合作,实现更好的集体结果。