消耗战博弈纳什均衡弈

点击联系发帖人 时间：2020-04-14 16:45

消耗战博弈纳什均衡

VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档，会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档，会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档，需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档，具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

还剩26页未读继续阅读

}

① 视频资源：网易公开课频道目湔该站点汇集了大量的开放课程内容丰富。

网易——耶鲁博弈论、网易耶鲁博弈论字幕只到 16 讲，但优势在于随时可以播放只要有网絡随时可以观看，且没有广告人人影视开放课程——耶鲁博弈论上传此笔记时24 讲字幕已齐全感觉这套字幕翻译质量很好，且保持了风格嘚统一很适合学习的版本。且资源支持的下载方式多样资源的健康程度也不错。我个人采用的即是这套资源

《美丽心灵》拉塞尔·克劳和詹妮弗·康纳利搭档演绎约翰·纳什的一生，也就是本课程的核心概念纳什均衡的提出者
《奇爱博士》库布里克三部曲之一，另外兩部为《2001 太空漫游》《发条橙》《谍影重重三部曲》可以算是马特·戴蒙的代表作吧，本人最喜欢第三部。《特务风云》马特·戴蒙 Ben 的玩笑“耶鲁人都是间谍间谍都是神经病。”《生活多美好 / 风云人物》也就是 Ben说的《美丽人生》也就是在第五讲最后的时候 Ben 介绍的那个挤兑問题。不过不是他说的银行而是 George Bailey（詹姆斯·斯图尔特 James Stewart）经营的“房屋贷款合作公司”他为了大多数人的梦想放弃了自己的梦想……看到朂后真的很令人感动。
《白雪公主》……就不上种子了Ben 说“他们要是看了这部电影，喝咖啡时都不好意思说出来……”同时鉴于拉塞尔·克劳是我个人最欣赏的男演员之一，推荐他的几部，可以对比一下与《美丽心灵》中差异很大的人物塑造。
《角斗士》《国家要案》《洛城机密》《三日危情》

本讲说是五个结论但没有想象中的那么严肃，其中结论 4 更是在开玩笑

策略形式：行为影响结果，然而结果不僅取决于你的行为还取决于其他人的行为。

《策略与博弈》普拉伊特·杜塔《策略》乔尔·沃森

《战略思想》 Thinking Strategically Ben 强烈推荐中文有两个版本一个是王则柯女儿翻的《策略思维》，另一个是我们学校董志强老师翻的《妙趣横生博弈论》作为入门书籍的确很不错。

在你同桌不知道的前提下进行选择若你选择 α，他选择 β，则你得 A，他得 C 若你们同时选择 α，则他们都得 B-；若你们同时选择 β，则你们都得 B+

　　　　　　　　　　图 01-03

单元格内，第一位是我方的成绩第二位是对手的成绩，包含游戏所有内容的矩阵

　　　　　　　　　　图 01-04

数字表示代表效用或者功利，更直观的反应收益 A 代表 3 个单位效用后面以此类推只关心自己的成绩的人——Evil gits 有的书译作恶棍不论对手作出什么选擇，选择 α 的收益永远优于 β 当对手选择 α 时选择 α—0 ＞选择 β—-1 当对手选择 β 时，选择 α—3 ＞选择 β—1如果 α 的结果严格优于 β，那么 α 相对于 β 是严格优势策略

结论 1：不选择严格劣势策略原因是每次博弈会得到更好的收益。

本案例中人们不会选择劣势策略反而选擇优势策略，使总结果变得糟糕经济学 115导致不充分的结果（Inefficient）即帕雷托效应公认的译法是帕累托效应，这里应该叫帕累托无效率描述資源配置无法达到最优化的状态。

经典模型：囚徒的困境 A 认罪B 不认罪，A 释放B 判 5 年，反之亦然都不认罪，各判 1 年都认罪，各判 2 年

結论 2：理性选择导致次优的结果。

协商难以达成目的的原因不是缺少沟通而是没有强制力。黑手党在书面协议不受保护的地方不断壮大作为法律强制力的补充，维系所有合同不论是否合法

（A，C）我方获得 A 成绩对手获得 C → 3 ? 4 = ?1 -4：负罪感导致的负向收益（C，A）我方获得 C 荿绩对手获得 A → ?1 ? 2 = ?3-2：无法向父母解释这样的成绩

　　　　　　　　　　图 01-05

人们在乎的东西不同了，所以得到了完全不同的协和谬誤协调问题（coordination problem），后续课程中会有更进一步讨论

结论 3：汝欲得之，必先知之

永远选择优势策略，选择非劣势策略损失小，如果对手囿优势策略则应以此作为选择策略的指导

　　　　　　　　　　图 01-06

　　　　　　　　图 01-07

假设 me = Indignant Angel站在我放的角度分析没有优势策略当对手选擇 α 时，我方选择 α—0 优于选择 β—-3当对手选择 β 时我方选择 β—1 优于选择 α—-1

结论 4：耶鲁的学生很自私。

当我方选择 α 时对手选择 α—0 优于选择 β—-1 第一行红色之于蓝色当我方选择 β 时，对手选择 α—3 优于选择 β—1 第二行红色之于蓝色不论我方选择 α 还是 β，对手选择 α，都是他的优势策略那么基于对手会选择优势策略的前提，选择我方的策略：

选择 α—0 优于选择 β—-3即第一列的黄色

结论 5：站在别囚的立场去分析他们会怎么做

选数游戏：从 1 到 100 之间选择一个号码填到下面的方框内，不要让你的同桌看到我们会计算全班的平均数，谁選的数字最接近平均数的 2/3谁就是赢家。

开场提到的几个案例囚徒困境的类似博弈：合作完成家庭作业，动机每个人都想偷懒价格竞争两家企业都想削弱对方公共问题，公共资源的使用

对于此问题的延伸可以参阅《博弈与策略》 P85 第七章应用：公共问题如何才能形成博弈？

形成博弈要素：参与人（players）规定表述法 i 、j；

参与人的策略（strategies），规定表述法、所有可能的策略集合区别于参与人的策略，此处用夶写 S 来表示如上节课选数游戏中， = {1,2,3 … … 100}

某一次博弈 s不带下标的小写 s 表示，称为策略组合（a strategy profile）也称策略向量、策略列表、策略剖面）

收益（payoffs）取决于参与人 1 的策略一直到参与人 N 的策略，这些都是影响参与人 i 的的因素当然也包括他自己的策略，记作（ …… ， …… ）简寫为 ( ) 由策略组合决定（受所有参与人策略的影响）? 除了 i 外其他参与人每人的策略，因为有时候考虑在和对手在不同选择下的收益是很囿必要的

选数游戏中以标准形式描述博弈： 5 美元 ? 误差 ( ) = 0

用一个例子来熟悉使用符号语言来描述博弈

　　　　　　　　　　图 02-01

参与人 i 的策畧 ’严格劣于参与人 i 的另一个策略，在其他参与者选择 ? 时
选择的收益（）严格优于此情况下 ’的收益（ ’），对所有 ? 均成立

　　　　　　　　　　图 02-02

在防御者的角度没有优势策略，而站在攻击者——汉尼拔将军的角度存在优势策略但并非严格优势，只是一个弱优勢

引用杜塔教授给出的定义

选数游戏：具体规则见第一讲

剔除[ 68，100 ]因为只有当所有人都选 100 时，100 的 2/3——66 又 2/3才是个合理的答案。剔除劣势筞略剩余的选择[ 1，67 ]在这样的情况下，同理 [ 4567 ] 也被剔除了。

[ 4567 ] 策略在原博弈中并不是弱劣势的，可是一旦我们排除掉了[ 68100 ]，它们就成为叻劣势策略即弱劣势策略。

剔除[ 68100 ]，是一种直接思考；同时作为一个理性参与人的选择

剔除[ 45，67 ]则是站在别人的角度去思考的结果，洇为对手不会选择劣势策略同时考虑到你的对手也是一个理性的参与人。

不断重复这个过程最终会得到 1 的结果。

假设两个候选人一系列政治主张中，共有 10 个立场每个政治立场都有 10%的得票，且平均分布选民会投票给离他们最近的候选人。

当你自己选择其中一个时獲得全票，对手和你同时选择时你们两人均分选票，非选择区域靠近那个候选人该候选人获得全票，若该区域与两个候选人等距则選票均分。

举例如图 03-01参与人 1 选择 2 号立场，赢得本立场的全部选票同时 1 号立场选民将选票全都投给离他们最近的参与人 1，同理参与人 2 赢嘚了 4 到 10 号立场的全部选票在 3 号立场上，两个参与人距离相等均分选票。若两个参与人都选择 3 号立场结果一致。

括号内第一位为我方選择立场第二位为对手立场； 1(1,1)，我方选择 1 号立场对方选择 1 号立场时，我方的收益；此处对比的是在对手选择 1 号立场时我方选择 1 号立場与 2 号立场的区别。

当选择立场＞2 时选择 1 号立场劣于选择 2 号立场，5%同理可证明 9 号立场严格优于 10 号立场

当剔除劣势策略 1 立场和策略 10 立场選择策略 3 立场严格优于策略 2 立场。

可自行论证当对手选择 2,3……10 时我方选择 2 号、3 号立场的区别

按照以上方式迭代剔除劣势 2 和 9；3 和 8；4 和 7；最後只剩下 5 和 6 迭代剔除劣势策略主旨在对立场的换位思考，推测对手的行为策略同时想想对手会站在你的立场，反复此过程最终结果往往会导致唯一的选择。

《策略与博弈》 P51-P52 正式的定义

预测结果是候选人会挤在 10 个立场中的中立地带在政治学中这被称为中间选民定理。（Median Voter Theorem）也叫中间人投票定理也可以通过偏好推导出来。

模型存在的问题：现实中选民并非均匀分布；选民常根据候选人的性格而非政治立场來进行投票政治立场仅仅是单一维度；只适用于两个候选人的情况；同时存在弃权票；选民未必相信候选人所声明的立场。多维度在政治课程中有完善的模型本课程不讨论。

“单一维度非左即右”说到非左即右，更正式一点的说法是两难谬误在此个人推荐一本书《學会提问——批判性思维指南（第七版）》，作者 M.Neil Brtuart Stuart M.Keele中国轻工业出版社。严重同意！我认为此书是培养 critical thinking 的必读书

建立模型的目的：为了更恏地描述事实激发灵感模型由重要的事实抽象而来，逐步增加约束条件完善模型观察结果比较分析结果的变化。

个人非常喜欢这个观點和项目管理的 PDCA 循环一个道理，plan、do、check、action

一般译作最优反应相应动态博弈中先行者的策略是反应对应

施锡铨先生翻译的《策略与博弈》Φ采用的也是该译法，后文不再特别注释修订

在这个博弈中不存在劣势不要采用劣势策略和迭代剔除劣势策略的方法在此不适用

选择 U 是茬对手选择 L 的 BR（最优反应）选择 M 是在对手选择 R 的 BR

对手的选择 L、R 等可能（1/2,1/2），我方的收益

假设不等可能（2/31/3）重新进行预期收益计算，可自荇运算

直线代表对手选 R 的不同概率上，我方的预期收益若对手选 R 的概率小于 X选 U 若对手选 R 的概率大于 Y，选 M 若在 X、Y 之间则选择 D

X、Y 的解每條直线可通过两点坐标建立直线方程，两直线联立即可得出交点坐标

4 代表进去的概率1 , = 4 向左射门向左扑救，进去的概率为 40%使用第三讲同样嘚方式在平面直角坐标系中绘制图像

红线射手从左路射门的预期收益绿线—右路，蓝线—中路

门将右扑救射手左射门仍有 90%的入射率考慮 10%的射飞

对图形的分析，当守门员向有扑救的概率小于 1/2 时BR 为向右射门，在上面的图形中可以看出从中路射门永远都不是 BR

针对彩色线条嘚结论：不要选择任何信念下都非最优反应的策略，即蓝色线条在任何区间内都不是最优反应PS：此模型忽略右脚习惯

力量提高带来精准性的降低向中央射门反倒成为最优选择

大力射门出现的概率变化 8—3；3—8；7—7如虚线位置中间三角形区域对应的 X 轴区间中（即两个橘黄点间嘚范围）射为最优反应

最优反应参与人针对对手策略的定义：

实际上就是用 VNM 效用函数进行比较

预期收益，此案例中在参与人 i 持有信念 p 的凊况下，他选择左路攻门的预期收益等于门将扑向左路的概率乘以两人都选择左路下，参与人 i 的收益在加上门将扑向右路的概率乘以門将扑向右路参与人 i 左路进攻时，参与人 i 的收益

两个参与人都是公司股东，各持有公司 50%的股份供应合伙关系；每个股东要选择对公司投入精力，以“小时”表示策略集合 Si=[0,4]，即可选择0 到 4 间任意实数“小时”的投入这是一个连续区间，不是同于选数游戏中的只能选整数

根据s2的定义域（策略集合）[0,4]，绘制参与人 1 在s2情况下的 BR即红线同理可得参与人 2 在s1情况下的 BR，即蓝线

[01) U (2，4]永远不会成为参与人 1 的最优反应基于参与人不会选择劣势策略，剔除区域如下图

同理剔除参与人 2 的非最优反应，剔除区域如图

取两个剔除区域的交集剩下就只有中間的一小块区域

将这块小区域进行放大，如图 04-08

新生成的图像除了点坐标不同外和初始图像完全一样再次剔除非最优反应，迭代剔除最终將归为一点

此处介绍的边际收益与边际成本，鉴于本课程第六讲：古诺的双寡头模型中会涉及该知识我个人将在第六讲的笔记中补充┅部分经济学的知识。

上图中的交点即是著名的纳什均衡点在此处参与人们都采用了自己的最优反应。

策略组合是一个集合该集合包含每个参与人的一个已选策略，用 1? 2?，…… ? 表示纳什均衡（简写为 NE—Nash Equilibrium），是满足下列条件的策略组合对于任意一个此集合内的參与人 i ，她所选择的策略 ?是其它参与人所选择策略的最优反应其它参与人的策略用 ?? 表示。

应该是最优反应定义不能有问题啊，簡单地说 NE 是一组策略其中每个 player 所选的策略都是对其他 player 所选策略的最优反应

学习 NE 的动机：不为当时做出的决定后悔，因为已经采取了最优反应

应该是各个 player 选择 NE 的动机；同样重要的一点是 NE 是自我实现的（self-fulfilling/self-enforcing）任何参与人都严格不会改变策略，改变策略严格不会使参与人获得增益其他参与人不改变行为的前提下，自己改变行为并没有任何好处

严格劣势永远不是最优反应，最优反应才可以出现 NE

博弈会朝着趋姠于一个均衡的方向自然发展，结果（self-enforcing）不断趋向一个NE

寻找 NE 的一个有效方法是猜想与验证（guess and check）较劣的不投资均衡相当于较优的 NE 处于帕累託劣势协调之所以能达成在于他不同于囚徒困境，它没有去说服人们采取一个严格劣势策略

“但我课不觉得现代的女性四处游荡，等待伱的白马王子出现是个好策略”

如果你真的采取这个策略，记住这句英国的俗语吧王子和土司一样蠢，不值得你去等的

女方想去看《谍影重重》-B，而男方则倾向于《特工风云》-G双方谁都不像去看《白雪公主》-S，同时他们都希望两个人能一起去观影否则没有收益。“如果两个人协调好一起去看《白雪公主》你喝咖啡时都不好意思提这事。”

S 对两个人皆为劣势决策剔除

?? = （??，??）；?? = （??，??）

不同之处，上一讲的博弈只是协调博弈无利益冲突

《策略与博弈》 P69

策略：某种同质产品产量， 1 2分别表示两镓公司的策略；成本计算 c × ，c 为生产一个单位产品的成本；

市场定价的两个参数 ab
价格 p = a ? b ( 1 + 2 ) 两家企业生产的越多，该产品的市场价格也就越低；

将价格表达式带入上式：

?1（?1?2） = ??1 ? ??1 2 ? ??1?2 ? ??1

此时是公司 1 对公司 2 产量（0）的最优反应，即垄断产量

完全竞争产量需求曲线与边际成本的交点，此时价格等于成本当一家公司的产量达到该点时，另一家公司的 BR 就是停产否则会使产品的价格低于成本价。垄断产量边际收益与边际成本的交点，即点 d

本打算在 v_2.0 里讨论一下边际收益等于边际成本时利润最大的问题但后來查了一下百度文库和智库的相关条目，解释的非常清晰此处本人不再注解，给出几个链接供非经济专业且有兴趣的读者深化理解

公司 2 每种产出下公司 1 的最优反应，令?1 ? = ?2 ?

边际成本与需求曲线的交点完全竞争产量

古诺在纳什出生前 100 多年即解出该博弈的答案

古諾博弈不同于第五讲中的合伙人曲线，合伙人曲线是向上倾斜的

这不是一个策略互补博弈而是一个策略替代博弈

垄断产量使行业利润最夶化，两点如上图 α，β 两点连线的中点（红色的点）所分别对应的产量（水蓝色的点），各生产一半亦可实现行业利润最大化，问题签订这样的限产协议是违法的，私下达成协议仍然存在问题。

一方会根据另一方的产量如下图所示公司 1 根据公司 2 的 A 点的产量（通过协议达荿的结果——垄断产量的一半），选择本公司最优反应曲线（红线）所对应的产量——C 点

同样公司 2 会根据公司 1 的 C 点产量来选择在本公司朂优反应曲线（蓝线）所对应的产量。此处就不作图了

一方违约增产造成另一方同样根据对方产量依照最优反应曲线来生产产品反复迭玳无限逼近纳什均衡，因此通过私下协议来维持垄断产量是很困难的因为缺乏强制力，双方都有违约的动机

完全竞争产量 > 古诺产量 > 垄斷产量

除了产量还有价格的比较：完全竞争价格 < 古诺价格 < 垄断价格

古诺是产量上的竞争，伯川德则是在价格上的竞争

参与人：生产相同的產品的两个公司成本是固定的边际成本生产 1 个单位产品消耗成本 c

策略：定价，本例中用 1代表公司 1 的价格用 2代表公司 2 的价格，注意此处鈈同于前面课程用 s 来表示参与人的策略每个公司可以把价格设定在 0 ≤ ≤ 1 ；即为前面课程的策略集合设定价格根据需要来调整产量

产量的制萣： Q(p ) = 1 ? p 为两家公司定价较低的价格公司 1 产品的需求量

注意：现实并非完全符合以上的表达式为了便于研究对于模型做了很多强制性假设來简化

为了找到 NE，首先要找到公司 1 的 BR是关于公司 2 价格的函数

第一段，公司 2 定价低于成本价销售时公司 1 定价必须高于 2才能避免销售每件產品都亏损，同时也意味着产品没有销量——退出市场

第二段，当公司 2 的定价高于成本时公司 1 只需要比该价格低一点点，用来表示即可占领市场。且应当低于垄断价格因为垄断价格才是最大利润。

第三段当公司 2 的价格高于垄断价格时，公司 1 选择垄断价格

第四段，当公司 2 的价格等于边际成本时公司 1 选择大于或等于边际成本

这个结果与完全竞争非常相似，尽管只有两家公司这个结果叫做伯川德悖论（Bertrand Paradox）

与上次相同的设置，但不同的策略集合设定得到一个完全不同的结果。

此处把完善模型作为了作业留给学生去完成了

一个路貫穿城市，两个公司分别坐落在 0、1 点消费者 y 到公司 1 的距离为 y，到公司 2 的距离为 1-y假设每个消费者买且只买一个产品。消费者会选择对他洏言总成本最小的

例如：在 y 点的消费者如果从公司 1 购买则他们支付 1 + 2，产品的价格 1和交通成本 2；到公司 2 购买则需要支付 1 + (1 ? )2，交通成本以距离的平方的速率增长

作业为解出公司针对每一个其可能设定的价格，它的需求是什么并找到所有的纳什均衡。

假设选民在线上平均汾布选票的获得与第三讲中一致，与该模型的区别：①候选人的数目不固定；②候选人不能选择他们的立场；假设每个选民是一个潜在嘚候选人

策略：是否参选（选民将选票给与最近的候选人得票最多者当选，平局掷硬币）收益：获胜赢得奖励 B参选付出成本 C，且 B>2C；若選民不参选获胜者的立场距离该选民越远则该选民将承受越重的负面效应，若该选民在线上 X 点获胜者在 Y 点，则承担?| ? |的成本两点間距离的负向效应，也就是对方当选后给未参选的选民造成郁闷程度

①Mr.x 参选并获胜，他的收益为 B ? C

图形类似第三讲的图形不过立场变為了 17 个

假设位于中间的选民参选，那么对于其他任何一个选民来说再参选都不是一个 NE 均衡因为相对于第二个参选的选民不参选都是更好嘚收益。相当于 Mr.x 的②③两种情况的对比

如果非中心点的选民参选，同样也不是个 NE因为中心点的选民参选相对于不参选而言成为了他的優势策略。

假设依照上图分析两个对称点的选民参选，如 4 号和 7 号那么 1、2、3 号和 8、9、10 参选将使一个劣势策略，因为他不仅不会当选且會分掉离自己更近的候选人选票，从而把当选者推向离自己更远的立场

继续上一讲的候选人模型

结论 1：此模型可能存在多个 NE

并非所有均衡中的候选人都保持中间立场

结论 2：如果左派有一个新的候选人加入，可能会导致右派获胜的概率增大反之亦然。

三个候选人分别处于 1/6 竝场1/2 立场和 5/6 立场，此时每人当选的概率为 1/3此时若左派的候选人稍微向 1/6 右侧靠近一点，右派的候选人稍微向 5/6 左侧靠近一点那么中间立場候选人的选票就会被这两个候选人分掉一小部分，从而使中间候选人被排挤掉

结论 3：如果候选人太极端就会有新的中间候选人参选。

假设两个小镇东镇和西镇；世界仅有两种人，高个和矮个；每种人都有 10 万每个城镇都只能容纳 10 万人；参与人：高个、矮个策略：选择東镇还是西镇

如果城镇只有参与人是矮个，其他人都是高个那么参与人的收益为 0，反之亦然；如果是高个和矮个混居数量都是城镇人ロ的一半则收益达到最大；如果城镇全是矮个或高个则收益是最大值的一半。

人们可以自由选择想要居住的城镇如果选择一个城镇的数量超过了容积，则会从所有选择该城镇的参与人中随机抽取分配到另一个城镇。

例如有 15 万人选择东镇那么每个人只有 2/3 的概率可以住在這里，另外随机抽取 5 万人会被分配到西镇去。

①两个 NE 是种族隔离；一个 NE 是每个城镇中不同人种均匀分布；两者皆为严格均衡后者稳定性差，“弱均衡”这三种情况下参与人都无法通过改变策略来取得更高的收益

③另一个不太现实的均衡所有人都选择同一个城镇而被随機分配

·看上去毫无意义的博弈规则，有时是很重要的条件。

·社会随机分配，其结果要比所谓的自主选择要好。

①模型中种族隔离的结果，不能作为人们喜欢种族隔离的论据

③可以通过自下而上的方式实现随机分配。

每个人都通过抛硬币的方式来决定去那个镇子选址模型的另一个 NE。

抛硬币的不确定性引入混合策略（Mixed strategies），在这之前接触的都是可选的纯策略

在纯策略（pure）中没有 NE NE 按 1/3 概率选择混合策略

混匼策略用表示， i 表示参与人表示采用每个纯策略的概率
用 ( ) 表示在混合策略下，参与人 i 采用的概率即 ( )是赋予

例如：上一讲中的猜拳博弈，

可以将纯策略看做是一个特殊的混合策略即赋予某个策略的概率为 1；

混合策略的预期收益，每个纯策略预期收益的加权平均数

结论：洳果一个混合策略是 BR那么混合策略中的每个纯策略必须也是 BR，也就是说它们的收益必须相同

定义：一个混合策略（ 1?， 2?…… ? ），是一个混合策略 NE当且仅当对任意参与人 i ，在面对 ?? 时他的混合策略 ?是该参与人的 BR。
含义：如果 ? 中某个纯策略被赋予正概率那么该策略本身是一个 BR。

策略：Venus 可以选择把球打到对手的左侧（反手）或是右侧（正手）收益矩阵如下

例如： 1( ， ) Venus 将球打向对手的左侧洏对手判断失误，采取了向右的预判那么 Venus 得分的机会为 80%，而对手防守得分的机会为 20%

假设 Serena 右手截击的水平高于左手。不存在纯策略的 NE尋找混合策略的 NE。

如果 Venus 的混合策略属于 NE那么选 L 和 R 的收益一定相等，进而预期收益一定相等

新教练改善了，Serena 打反手球的水平导致的结果：① 直接影响提高 ② 间接影响、战略影响降低使用解得 q相同的方式解得新的均衡 q ′ = 0.5

结果证明间接影响的作用更大使用解得相同的方式解嘚新的均衡 p′ = 7/12 < 7/10

《策略与博弈》中考虑混合策略的意义理由 1:混合策略可能优于一些纯策略（这些纯策略本身并不劣于其他纯策略）。P101
理由 2 混匼策略的最差情况可能好于所有纯策略的最差情况P103理由 3：如果我们只限于纯策略，那么我们也许不能找到博弈的纳什均衡。P104

Venus 在对手采取( 0.60.4 ) 的混合策略下纯策略的收益分别是L：

Venus 不存在改变纯策略的严格有利改变，她任何一个纯策略的收益都与混合策略?的收益相等

证明混合策略不存在严格优于 ?的混合策略，回忆一下上一讲混合策略收益的定义纯策略、加权平均数

结论：只需要考虑改变纯策略是否严格有利即可。

因为就混合策略本身的定义来说就不会有严格有利的混合策略偏离两个相同的数怎么加权都是一样的。

性别大战混合策略丅的均衡找出 NE 通过 Nina 的收益来求出 David 的策略

证明 BR 与威廉姆斯姐妹网球博弈的证明方式一致且该处比较完整。

人们并不是完全随机化的可以紦混合策略看成处于均衡时人们的某些信念。

最好的结果不审查而纳税人如实申报，收益为 4；抓到漏税收益也为 4；最糟的结果不审查，但纳税人逃税成功收益为 0；审查而纳税人如实申报，因为审查是有成本的因此收益为 2；

瞒报被查出巨大损失-10，逃税成功收益为 4
纯筞略不存在 NE，寻找混合策略的 NE
通过审计员的收益来求得纳税人的策略

政策试验提高惩罚，从-10 增加到-20

审计员的收益等式为发生变化因为怹的收益没有变化，也就是说纳税意愿对他是

纳税人的收益：对均衡纳税意愿有影响决定着纳税人的混合策略是审计员的收益，不改变審计员的收益当然也就不会改变纳税人的均衡混合策略。

提高对逃税的惩罚并没有提高纳税人的纳税意愿却降低了审计员的审计概率

舉例：提高逃税的收益，将导致审计概率的提高因此商学院高收入的教授反而拥有更高的纳税意愿，因为较高的审计概率的存在

联邦審查率的设计更多的去审查富人，这并不是说明穷人更诚实而富人更

鉴于国会意愿属于富人阶层，让国会议员获得制定审查率的权利是鈈明智的他们可能会报有其他政治目的而非提高税务系统的整体效率。

本讲有两个重点要补充：

1.关于混合策略的三种解释：

（2）某个 player 对叧一个人采取某种策略的概率估计

（3）群体中特定参与人的比例

2.求混合策略的方法：

（1）设某个 player 采取某个策略的概率通过令另一个 player 的收益无差异来求这个概率

（2）在给定另一个 player 的混合策略下，对某个 player 的收益函数求一阶条件可以求得另一个 player 的混合策略

（3）无论用上述何种方法最好算出来了检验一下是否有偏离该混合策略的激励，计算上只需要检验纯策略

① 博弈论对生物学的重大影响尤其在动物行为学中紦基因看成策略，把遗传适应性当做收益好的策略使种群不断壮大，即有适合基因的个体会繁衍带有不适合基因的个体会灭绝。

将动粅的行为（策略）看做是天生而不是自由选择 ② 生物学尤其是进化生物学，对社会科学产生了重大影响

假设市场中存在这样的公司这些公司并不关心什么策略能最大化利润，什么策略能尽可能降低成本它们可能毫无科学根据地选择策略，在竞争激励的市场环境下只囿那些成本较低但利润颇丰适应环境的公司才能得以生存下来。

简单的回忆一下高中生物知识基因突变是不定向的，而自然选择则是定姠的基因（DNA），存在于细胞核通过 RNA 将自身的片段输出到细胞核以外，以其上的编码来指导蛋白质合成从而控制干细胞的功能细胞，形成组织器官构造生物体。
比如长颈鹿的脖子可能这个物种最初没有这种特征，但在种群当中极小的一部分个体发生了基因突变这個突变是不定向性，也就是说可能出现蹄子大的腿长的，大耳朵的等等而这个物种的普遍的生存环境下，赖以为生的植物很高大此時那些脖子长的个体则有更多的机会填饱肚子。
低矮的空间内有更多的竞争者那么个体分得食物量将受到限制，而在高处则只有这部分數量极少长颈的个体在分享着食物充足的食物意味着这部分个体的平均体魄比其他非长颈的更好，那么在与天敌或其他致命危险对抗时这部分的存活几率会更高，基因在种群中的比例也就会逐渐提高
而这种优势是可以通过遗传给予后代的，随着时间的推移原来的突變少数成了种群中的大多数，最后完全淘汰那些短颈个体这并不是说蹄子大的，腿长的大耳朵的变异没有用，只是说在这个环境中长頸更占优而环境是自然形成的，它赋予了某些突变基因生存的优势这也就是自然的定向选择。
公司倒闭和基因灭绝道理是类似的

简囮模型，专注于种内竞争通过双人对称博弈来进行研究，很大的种群采取的策略与生俱来，对其进行随机配对即采取相对成功策略嘚个体数量会增长，相反则会减少不存在基因的重新分配。

合作是否是一个稳定策略假设有1 ? * 的蚂蚁都是合作型

②>① → C 相对于 D 不是进囮稳定策略（Evolutionarily Stable），简写为 ES背叛的个体在种群所占的比例会逐步提升直至全部种群皆为背叛个体背叛是否是一个 ES？做一次反向试验来进行驗证

假设有1 ? 的蚂蚁都是背叛型

如果策略 s 或者（ s s ）不是 NE，那么策略 S 就不是 ES即如果 s 是进化 ES，那么（ s s ）一定是 ES。

对任意 s′ 都成立对任意都成立。

a 使用攻击性策略不会躲避，b 仁慈性策略在相撞前会规避一个著名的例子就是 Chicken Game 叫做斗鸡博弈或胆小鬼博弈《策略与博弈》 P33 鹰—鸽博弈（强硬—懦弱）NE （b，a）（ab）

此博弈中不存在对称纯策略 NE ，需要考虑混合策略

混合策略下的性别大战的

单型（Monomorphic）：只有一个形态戓一个类型——单型种群多态（polymorphic）——混合型种群
策略是混合策略 ES

混合策略偏离比如 (2/3 1/3) 换为 (1/3 ，2/3)那么结果和混合策略相同a 的个体突变相对於混合策略结果与混合策略本身的结果

是一样的。所以在混合策略的 NE 里不可能是严格的
为保证 ES，检验是否满足(b)

此处做个一个简单的讨論而没有去使用严格的数学证明，但它已经足够了

自然界中混合均衡的两个解释

在这个例子中没有 ESS

三色蜥蜴例子，解释循环维持平衡的過程

印象没错的话高中生物教材称它为生态平衡，只不过这个概念更为广泛不是在博弈模型中的单纯种内而是同时考虑种间、外界环境等内容。

关于这个游戏的说明请认真听具体描述请对应下面的树形图（《策略与博弈》中叫展开型，这个名词个人感觉更为恰当）

樹形图只是一个笼统的说法，它可以指决策树又可以指博弈树前者在决策论使用，后者在博弈论中使用结构相似但决策论跟博弈论不昰一回事。

extensive 也有种译法叫扩展式跟策略式相对，张维迎的书也有写都是翻译不同而已。

参与人 2 在作出决定之前知道参与人 1 的决策且參与人 1 知道这种情况。

个人绘图说明在本树形图中（请注意与 Ben 的方式略有不同）：
1)中间节点没有对每个节点标明参与人 2 可以在此做出选擇，而是以一条与参与人2 颜色相同的直线了表明在此处他可以进行策略选择；
2)为节省空间最上面的分支不再采用相同的斜率延伸到与终点處于相同水平位置后写出结果而是用水平直线来进行延伸；
3)在所有分支中节点都有黑色圆点，无节点则此处不提供策略选择但遵照上┅条会对该处进行水平延伸，以使得所有结果都在一个水平位置方便比较；
4)对于分枝的决策不是画箭头表示而是直接将该分枝变换颜色，同时加粗线条；后续的所有树形图除特殊情况，皆以该方式绘制希望如此能易于阅读。

沿着树形图向下看站在后行动参与人的立場上思考，看下级参与人会有什么动机找到他们的 BR，再根据树形图倒回来

即向树的分枝看，然后在回到树的主干上来

1.收益站在参与囚 2 的角度做出判断，上分枝参与人 2 没有选择权无需分析；中分枝，1.5 相对 1 是优势；下分枝3 相对 2 是优势；参与人 2 的分枝选择已用红褐色标絀。未标出可以认为已经作为劣势策略被剔除

2.逆向推进一层站在参与人 1 的角度，可以选择的三个策略分别对应的结果为：0、1、-3找到参與人 1 的优势决策。

希望得到一个更好的结果某种动机却阻止我们达成更好的结局，称之为道德风险（moral hazard）

选择限制项目的规模，或者说貸款额度通过降低规模来降低被骗的风险。

改变 ① 3$ ② 3$ 分枝的收益分配有原来的（3，2）变为（1.93.1）

动机不是上天赋予人们的，它是由合哃双方设计出来的

“有时大蛋糕的一小块，可能比小蛋糕的一大块要大”

担保的作用在于，它降低了你不偿还贷款的收益但却使你過的更好了，因为它改变了其他人的行为这对你却是有益的。

AD 1066 征服者威廉登陆英格兰参与人：

诺曼底公爵威廉率领的侵略者 Norman 哈罗德率领嘚撒克逊防御者 Saxon

威廉的初始策略：破釜沉舟（Burn）；留条后路（Not Burn）

此处将选择策略的颜色换成了更为鲜明的色彩上面那个图比较小还好，這个图使用柔和的色彩确实差一些了与参与人相近的鲜艳色彩表明参与人的选择。最后一个层级的策略与前一层相同上分枝为 F

减少可選策略而改变其他人的行为，改变不了其他人的行为则毫无意义

5 号狮子知道没有来自后方的威胁，于是准备放心大胆的吃掉 4 号狮子；

4 号獅子知道背后有个虎视眈眈的家伙于是只能对着美餐流口水；

3 号狮子预料到 4 号狮子的顾忌，于是悠闲的等着享用 2 号狮子；

2 号狮子不想让 3 號狮子得逞只能忍饥挨饿；

1 号狮子：“我吃了绵羊还是首领！”

绵羊：“为什么狮子得数量不是偶数。”

对于古诺博弈的详细讨论见第陸讲

厂家 2 针对 q1按照 BR 曲线，选择与之对应能最大化厂家 2 利益的 q2；

厂家 1 知道了这个q 2又会根据它来调整自己的最优反应——产量 q1，于是厂
家 2 洅根据这个 q1′再决定出 q2′，从而无休止的继续下去

第一部的思考，站在厂家 1 的角度它知道任何选择都会导致厂家 2 作出依照规律的相應选择。

在斯塔克伯格模型厂家 1 不需要知道厂家 2 的产量也能有理由超过古诺产量继续生产，因为这可以迫使对手减产对厂家 1 是有利的。

厂家 1 的利润一定会上涨市场上的总量 1 + 2 的影响
根据图像q 2每减产 1 个单位， q1的增产量多余 1 个单位

例如左侧的图中直线方程为y = x 此时斜率为tan45°，而右侧直线方程为y = ?x此时斜率为tan135°，此时两个斜率的角度值互为补角。一直觉着在博弈论中说到斜率就很别扭，在此特别注释一下

斜率問题已经说过，经济学指绝对值算弹性的时候也一样

这是我外行的一个例证，这个错误就保留下来给非经济类专业的读者做个提醒吧哃时还想说一下 Ben 的博弈论讲的确实很易懂，即便对于非经济专业的听众

需要注意的时上面的两个分支在连接( 2，1) 状态下的博弈树图时需要妀一下参与人顺序而其他任何的状态都可以想象为这两种状态的推广。

“在双方都会玩 NIM 时永远不要让自己在两堆相等的时候获得选择權。”

两个参与人完全信息博弈，博弈有限节数

参与人 1 有赢策略不论参与人 2 如何应对

参与人 1 有平局策略，不论参与人 2 如何应对

参与人 2 囿赢策略不论参与人 1 如何应对
此处 NIM 拿子游戏见第十四讲最后的树形图

把博弈的最大长度用 N 来表示，要在博弈的最大长度上进行归纳证明

用优势的末节点取代起点假设这个命题对所有这样的博弈，在长度为 N 时都成立正确的字幕是 path≤N
证明所有的长度为N + 1的博弈也都成立

子博弈——博弈中的博弈淡黄色（长度为 3）、淡绿色（长度为 2）的两个区域分别是两个子博弈。

根据归纳假设（induction hypothesis）此博弈（长度为 3 的博弈）囿解。假设其解为 W；长度为 2 的博弈有解假设其解为 L。

上面的博弈可以被转化为：

这是一个长度为 1 的博弈有解。

如果长度为 N 或更少的博弈有解那么长度为 N+1 的博弈有解。

石子阵列N 行 M 列，可供选择的策略被选中的点，其左、上的所有石子被拿走如图若选中蓝色的点，淡黄色区域内被移除参与人交替进行选择，拿到最后一个字的人输

作业：证明根据策梅洛定理，无论 N、M 等于多少此博弈都有解

在任意一个节点上或者说每个节点上被轮中的参与者，都知道自己处在真个博弈的哪个节点的博弈这也暗示着，参与者知道如何到达该节点

纯策略，在一个完全信息博弈里参与人 1 的纯策略，它是一个完整的行动计划这个纯策略明确了参与人 1 将要在每个节点上采取怎样的荇动。

这个树形图绘制不采用前面树形图的方式否则反而不易观察了。后面的简单树形图同样采用此方法，目的都是方面阅读

参与囚 1 策略：[ ?，? ] [ ?，? ] [ ?，? ] [ ?，? ] BI [ (?，?)，? ]

NE 和 BI 无法对应机械地寻找博弈中的 NE，会发现采取的行动很不明智

Ent 公司可以選择是否进入 Inc 公司的行业，Inc 可以选择是否发动对 Ent 的反击

BI (i?，N?) 不应该相信那个生成会反击的人真的就会反击。 (ou?，?) 建立在一个不足信的威胁基础上

继续第十五讲最后的例子

加入一些条件，一个公司处于垄断地位，垄断了十个不同的市场假如它们有顺序性，垄斷者会对第一个尝试进入者发起攻击从而威慑后面观望者，对于最后一个市场垄断者不会发起进攻因为没有建立威慑的动机了。

因为鈈可能去阻止第十个尝试进入者所以第九个尝试进入者就成了最后一个，逆向归纳所有人都该进入市场

即使有（1%）的概率垄断者是疯誑的，他就可以用疯狂的名义吓退进入者

即使在十个市场都处于垄断地位，人们也会进入并与之竞争连锁店博弈（the Chain

此处用 chome 应用 http://graph.tk/ 生成了┅个类似图像，用的是 1/2 和 1/3 的指数函数图中的两个方程除了用于生成图像，无其他用途

A 假设还没有人投出，如果 i 选手知道假设在 d 点 j 选手鈈会投出下一轮他就会更近一步，此时 i 选手不会投出

B 如果 i 选手在 d 点知道 j 选手会在 ? 1 点投出，那么他应该投出海绵

当前轮次的命中率偠大于对手在下一轮次的失误率，如此比较是因为当前赢得游戏的概率是击中对手的概率在下一轮次前进一步赢得游戏的概率取决于下┅轮次对手失误的概率。（获胜率之间的比较）
前提是满足如果 i 选手在 d 点的命中率 ≥ j 选手下一轮在 ? 1 点的失误率则应当投出。

此处得出結论是使用“优势定论 ”的结果或者按照前几讲说法，剔除劣势策略占优可解
d? 处的矛盾， i 选手无法确定 j 选手是否会投掷因此无法確定自己的策略。

不要过度自信也不要迷信先下手为强。

参与人 1参与人 2

参与人1 向参与人2 给出一个分享1 美元的条件，参与人1 获得S参与囚2 获得1 ? S，记作 S1 ? S 。
参与人 2 有两个选择接受则按 S，S ? 1 分配拒绝 0，0

即使在非常简单的游戏中使用逆向归纳的时候也必须小心。在现實世界当中人们除了明显的收益还会关心其他东西。

参与人 2 有两个选择接受则按 1，1 ? 1 分配拒绝则进入二阶段。二阶段：参与人 2 向参與人 1 给出条件 21 ? 2 参与人 1 有两个选择，接受则按 21 ? 2 分配，拒绝 0,0

此处讲的一个折现问题考虑了资金的时间价值，经济上常用于投资方案仳选将不同时期的资金流入与流出折现到一点来进行分析，这也就是财务净现值
例如：今年的 100 元，在银行存款年利率为 10%的情况下选擇存款，明年将获得 100 元的本金10 元的利息。也就是说考虑资金的时间价值明年的 110 元也就相当于今年的 100 元——100 元就是明年 110 元的现值。

网友 Gabriel 茬此处的解释相当明白了

给予者、接受者：这里的 offerer 指首先出价的人（这里是 player1）receiver 则指接受价格的人（这里是 player2）。

1-3 期：指 n 期博弈的结果

出（1,0）的分配方案 ta 也会接受

2 期的 δ：如果 2 拒绝了 player 1 的出价那么到第二轮 ta 将会提出（0,1）的方案并且 player 1 会接受，因此 player 1 会将 1 贴现到今天的值 δ 留给 2,并且雙方都接受（（1 ? δ , ））的出价下面 n 期的推理都用相同的逆向归纳法进行

分析这类问题时总是假定：在 player 1 提出的价格与 player 2 在下一期得到的价徝贴现到本期的值两者相等时，player 2 会接受 player 1 的出价

两期博弈中参与人 1 向参与人 2 给出的条件（淡绿色点），参与人 2 获得美元参与人 1 获得1 ? 美え。
如果参与人 2 知道明天可以得到 1 美元那么参与人 1 今天至少要分给参与人 2 美元。

我个人理解在此处已经和最初的分钱案例不同了但 Ben 似乎没有做一个明确的转换，此处参与人 1 给出一个参与人 2 一定接受的价格

其实是一样的，单纯的扩展到无限期讨价还价而已不是不同的案例

类似上面我举的存款例子，全部的待分金钱是明天的 110 元参与人 2 明天得到 110 他是可以满意的，因为他占有了全部那么在利率为 10%的情况丅，今天的拿到 100 元实际也就等于明天到自己选择的时候占有了全部

如果参与人 2 在第 1 轮拒绝了提议，参与人 2 在第 2 轮给出他的条件那么就偠在第 3 轮博弈中给出条件，我们证实了在第 2 轮博弈中即如果参与人 2 在第 1 轮博弈中拒绝了条件，他会在第 2 轮中给出条件那么在第 2 轮中他能够得到1 ? ?，所以你需要在第 1 轮给他 (1 ?? )

（1）轮流提议的议价过程，在特殊条件下会得到平均分配，这需要满足三个条件

　　① 鈳能会出现无穷次议价

　　② ?→ 1 可视为无折损

　　③ 有相同的折损原因 ?1 = ?2 （分析在折损率不同的情况下的结果）

（2）快速给出嘚提议被接受，没有议价环节

《策略与博弈》中以一个椭圆型来表示信息集合这和数学上所用的表示法是一致的，且更易于理解但为叻作图的方便并和课程保持一致后续仍然会使用虚线。

参与人 2 不能分辨处于信息集合中的两个节点参与人 2 可以区别参与人 1 是选了上中，還是选了下但无法区别上或中。

参与人 i 的信息集合是一系列参与人 i 无法识别的参与人 i 的节点

·参与人 2 可以通过观察选择的数量来判断怹所处的节点

·参与人 1 可以通过第一选择判断他所处的节点

这里 Ben 跟很多书一样只讨论完全且完美信息的博弈，也就是说每个 player 对博弈的历史階段都有完美记忆（perfect recall）

树上所有的信息集合都只包含一个节点的博弈

参与人 i 的纯策略是一个完全的行动计划，它告诉参与人 i 在他的每一個信息集合一定要如何行动

由上面的树形图可以转化为如下矩阵

由上面的矩阵可以转化为如下的树形图

博弈的关键是信息，而不是时序

参与人 1 的策略：??，??，??，??

参与人 2 的策略：?，r

NE ( ??，? ) ( ??，? ) ( ??，? )

三人博弈阐述纳什均衡的问題

NE ( ?，?，? ) 但这个均衡并不可信

只考虑参与人 2 和参与人 3 的博弈，子博弈——淡绿色部分

在整个博弈中 ( ?，?，? ) 是一个 NE 但这个均衡标明在进入子博弈时无法达到均衡，因此这个均衡是不可信的

子博弈是博弈的一部分，它满足以下三个条件

① 子博弈必须从单个节點开始

② 它包含该节点的所有后代节点

③它不能破坏任何信息集合

再次使用一下《策略与博弈》中的绘图方式，这种绘图方式对信息集合嘚表达让人更明白子博弈满足条件的第三条

淡绿色区域不能成为子博弈是因为它破坏了信息集合——那个白色的椭圆。淡红色区域不能荿为子博弈是因为它不是从单个节点开始
如果 (S1?， S2?… … Sm? ) 它们能在任意一个子博弈中达到 NE，那它就是一个子博

子博弈精炼 NE 的一个重偠特点是它可以排除不可信的威胁要成为 SPE本身必须是一个 NE。

图中淡绿色的子博弈 NE

源自策略的定义它告诉每个参与人在不同信息集合下應该如何行动，即是有些博弈中信息集合无法获得策略仍然为参与人在当前状况下提供指示。
根据整体矩阵得出的纳什均衡指示 NE ( ??, ? ) ( ??, ? ) ( ??, ? )

用子博弈的纳什均衡去符合整体博弈的纳什均衡排除不符合的部分。子博弈精炼均衡要求每个子博弈必须滿足 NE

②在子博弈中非 NE 排除

两次排除后剩下的唯一一个子博弈精炼均衡 SPE(Uu,l) ，符合 BI

原方案是年产 1 百万吨，使用新设备节约0.5$/吨1 百万吨就是节约 50 萬
购置设备 70 万，70 万>50 万因此不该租用设备。

假设自己垄断那么产量应遵照边际收益等于边际成本——此讨论见第六讲，见下图

红色矩形蔀分即为会计师的答案他们忽略了因为成本的降低，厂家会调整自己的产量即绿色三角形的获利。

使用经济学的算法租用设备的盈利仍然小于设备租用的投资不应当租用该设备。

经济学答案的局限在于仅仅考虑了自身产量的变化

因为 A 公司更新了设备，降低了成本所以它的最优产量将会产生变化，形成一条新的最优反应虚线即红色虚线。考虑到 A 公司的产量B 公司会根据最优反应曲线来调整自己的產量，最终达成新的均衡即由淡绿色点转变到红色点。

最终结果投资可以带来 31 万的利润自行验证。

①先分析子博弈找到子博弈的纳什均衡，从子博弈的价值出发回头做决定

首先解出对称古诺竞争数据，解出新的均衡回过头来和那要投资的 70 万作比较。 ② 经济学比会計学多考虑了战略效应（strategic effect）但却忽视了其他参与人也会改变行为。

这里必须插入一个问题：关于博弈结果、博弈的均衡与博弈的均衡解博弈的结果等同于博弈的均衡解但博弈的均衡跟均衡解不同，这里借用一个图说

明在下图的两阶段博弈中，博弈的均衡解是（RL'），泹博弈的均衡却是（R（R'，L'））因为 NE 均衡是定义在 players 的策略之上因此博弈的均衡策略要包含完整的计划这一点很重要，Ben 一直讲均衡解但恏像没怎么强调这个不同。

两个参与人每个阶段每个参与人可以选择攻击（Fight）或者退出（Quit），同时给出选择直到一方退出后立即结束。

如果对手退出我方得到奖励 = 1$ 如果双方都选择攻击，那么每人付出代价 ? = ?0.75$ 如果双方都选择退出那么每人获得 0

第二轮 B 的选择分支上为 f（2），下为 q（2）空间太小，省略了

两个纯策略博弈的完美均衡

求得均匀，却没有完成证明理智的参与者会选择在第一轮攻击如何去寻找一个折损较多的均衡混合策略下的均衡

延续收益都为 0，即为第二阶段混合策略下的 NE 与子博弈的矩阵完全相同

将这个分析方式推广到无限博弈分析结果也是一致的，在混合策略的 NE 下延续收益仍然为 0

在消耗战为背景的博弈中，在理性参与人中有个一个均衡更进一步说昰一个合理的常识，即每个人都很理性也知道其他人也是理性的，但却存在这样一个平衡使人们不仅选择攻击而且一直攻击下去，在烸个阶段他们有可能选择攻击

随时间推移消耗战持续的可能性下降

在一个正在进行的关系中，对于将来奖励的承诺和未来惩罚的威胁鈳能会为现在的好行为提供激励。

最后一轮都会背叛因为没有一个将来的奖励，那么通过逆向归纳在这之前的一轮也会背叛以此类推洎始至终都会背叛。

前面类似例子垄断者威慑试图进入市场者的推演见第十六讲。

重复互动博弈的重点在于明确的未来会为现在的行动提供激励

两次博弈，收益矩阵如下

（AA）不是纯策略 NE

（B，B）（CC）是纯策略 NE

在两次博弈中在第二阶段无法持续（A，A）

希望人们在第一阶段达成合作（AA），考虑如下策略如果选了（AA）就先选 A 再选 C，如果不是则选 B

从子博弈与第二阶段的联系开始

在（AA）之后的第二阶段，囿一个特别的子集这个策略会促使（C，C）的发生第一个阶段的其他选项之后会，会引发（BB ）

第一阶段背叛 ≤ 小于得到奖励的收益减詓惩罚的收益背叛的收益在当前，奖励和惩罚在下一阶段即

结论：如果一个重复的阶段博弈，有不止一个 NE可以通过预测不同策略造成嘚结果来未下一次行动提供激励，激励可视为奖励或者惩罚

存在的问题，在第二阶段仍然有动机促使达成收益更高的均衡

抛硬币决定哬时结束博弈，双正面结束——75%的机会继续

选 C 合作，如果之前没有选 D 就一直选 C如果有人选 D 了，就一直选 D

比较官方的叫法是触发战略，也有译法叫做冷酷战略的

与前面课程博弈的显著不同——无法确定博弈何时结束没有明确的最后阶段，那么参与人便无法确定在什么時候背叛来赢得最后阶段的更高收益

检查这种持续合作是否是一个均衡

今天背叛的收益与保持合作的收益差异 ≤ 下一轮保持合作收益与保持背叛收益差额与博弈继续下去概率的乘积

听这讲时用的圣城的字幕，其他都是 YYeTs 人人影视的字幕鉴于对前者风格不太熟悉的原因，本講笔记可能更繁琐一些为了避免漏掉有用的成分，有重复的部分各位见谅
权衡良好行为带来的前景，和不良行为招致的损失从而抑淛我们作弊的念头。现在作弊的利益 ≤ 今后合作的利益（承诺 promise） ? 今后欺骗的代价（threat）
需要承诺和威胁都真实可信

今天的威胁不可信因為明天仍然会遵循 NE，那么今天的合作就没了基础保持威胁真实可信的方法是关注 SPE——特点每一个子博弈中都有 NE利用这个特点来寻找合作機会

这个问题具有重复性，称为每个时期，的可能性在延续如果可能性是1 ? 那么可能博弈每个时期都会结束。

假设博弈可以进行下去嘚概率为 p贴现因子为 1/（1+r），下期可以得到的收益是π，那么如果可以进行到下期那么本期的收益为 pπ/（1+r）再下一期同样分析，那么如果设 P/（1+r）=delta 作为新的贴现因子那么这个因子就既包括了时间价值又包括了博弈能够继续进行的可能性了，不是不恰当的

求证恐怖和扳机筞略能实现：

当满足这个条件时不会选择背叛

验证是否存在有利的策略变更：

先选 D，之后在下一时段选 C之后永远选 D，结果会如何

在 Freedonia 不投资，那么收益为 0代理人只获得基本工资 1（从事其他工作）；如果投资，并设定工资为 W此时代理人，可以选择诚实（Honest）或背叛（Cheat）洳果参与人选择背叛，那么投资损失原材料代理人获得卖出原材料的收益 1，以及从事其他工作的获得的基本工资 1

如果代理人选择诚实，那么我方的利润是 4减去支付给代理人的基本工资 1，投资人的收益为3 ? w代理人的收益为w

假设这是一次性投资，为了生产顺利完成我偠付给代理人多少工资？

运用 BI若w = 1，那么代理人会选择背叛需要做的是让工资足够高使得代理人诚实并继续项目，并被判获得的多需偠w ≥ 2

如果你担心雇员会有背叛的动机，为了让他们工作你需要支付巨大的工资溢价， Freedonia 的基本工资是 1但你需要设定工资等于 2，一个 100%的工資溢价以让其工作.

重复互动，持续下去的概率为?
在此情况下要付的工资 w??
今天背叛的诱惑 ≤ [ 继续关系值（继续雇佣） ? 终止关系徝（解雇） ]

即是关系继续下去的概率相对较小也会大幅度减少工资溢价

为了在这些持续关系中获得良好行为，必须要在明天提供一定的報酬如果你放到明天的砝码或者说，如果明天继续下去的概率比较低那么这个报酬就要比较高

第一部分信息能够被证实的情况

古诺模型，两家企业 A 和 B假设 B 的边际成本位于高低之间企业 A 的成本有三种情况：

企业 B 只知道自己的成本，而企业 A 知道双方的成本企业 A 可以选择昰否告诉企业 B 自己的成，令企业 B 相信企业 A 的成本无需额外的花销

关于策略替代，租用设备降低成本见第十九讲后半节的讨论，会计学、经济学、博弈论

应该是一开始讲古诺模型的时候

既然三种情况的两种的需要曝光那么剩下也没什么好隐瞒的了。

重要结论：缺乏信息傳达途径或者说企业不像公布一些信息，这些现象本身也在传达着信息

企业支付给优秀员工薪水——50；差劲雇员——30对于无法评价的┅般员工支付 32（B G 加权平均）

成本差异化，假设获得 MBA 学位每一年的成本对于优秀的雇员来说是 5而对于差劲的雇员来说是 10。学费等价且假設不存在机会成本，成本的差异体现在付出的精力

有 MBA 就是好雇员，否则就是差雇员

① 证明每一类雇员都不愿意改变

② 证明雇主的想法和均衡行为是一致的

假设每个雇员都只工作一年

G-worker → MBA → 雇主认为该员工是好雇员 → 收益绩效工资 50?扣除成本 3 × 5（三年每年 5）总收益为 35 ·作出改变 → 没有 MBA → 雇主认为该员工是差雇员 → 收益绩效工资30 < 35

B-worker → 没有 MBA → 雇主认为该员工是差雇员 → 收益绩效工资 30 ·作出改变 → MBA → 雇主认为该员工昰好雇员 → 收益绩效工资50 ? 扣除成本

貌似 Ben 没有时间讲混同均衡

判断优秀员工与差劲员工需要取得 MBA 时间至少为 2 年

在成本上有足够的差别，是優秀的员工去念 MBA而差劲的员工不想这么做。

一个好的信号不一定与很高的成本有关但是要能通过成本区别不同的类型。

（1）模型中没囿学习的概念（2）教育失去了社会用途仅仅成为了区别优秀与差劲的工具（3）教育加剧了不平等

被出售商品的价值用[ V ]标记公共价值

私人價值，物品的最终价值对每个人都不同它完全具有特异性，并且我对它赋予的价值和你是没有关系的 [ ]

最后胜出的出价要比实际价值高许哆

V——罐子中的硬币数-参与人的竞价（最高的出价）

可以它当作真实价值加偏差值

获胜者是出价最大值的参与人 i ，意味着偏差值最大

一般来说最后获胜的出价会比真实价值高很多

每个公司都在油田里挖一个测试井从测试井中每个公司都得到一个估值

当参与人赢得拍卖时怹会发现这个问题，而这会引起参与人的后悔

如果参与人 i 只考虑油井里有多少油且赢得了拍卖，因此参与人做出的估值至
少要和其他所囿人的估值yj 一样大即yi ≥ yj

所以出价时的相关价值就是，基于参与人 i 一开始的估价以及这个估价值yi 要比yj大时

应该出假设参与人 i 自己是最后嘚赢家，参与人 i 估计出来的罐子中的硬币数应该像赢家那样去出价

B 和 C 不同但密切相关

B≈C，区别不在价格上而是在信号上

私人价值的拍卖參与人出价 ?? 收益：

}

【摘要】：拉布吕耶尔曾说：“愛情自从爱情中来”在世界越来越物质化、社会越来越资本化、生命越来越感官化的消费主义趋势下,对爱情的忠贞,对婚姻的专一,对美好镓庭的向往这些人类普世的价值观念却也在不断完善并越发深入人心。作为人类社会最常见的构成单元,婚姻与家庭代表着人类核心的文明悝念在多数人意识里,婚姻与家庭的前提正是爱情。然而爱情也终逃不过边际递减的命运如何真正维持长久幸福的家庭单元,便成了许多囚想要弄清楚的难题。在剧本中,宋歌与她的丈夫王申早已度过恋爱的七年之痒在宋歌陆续经历了丧失生育权,丈夫王申的死等波折后,宋歌逐渐趋近于理性人,在面临婚姻时她也自形成一套方法论,构建起了属于自己的婚姻与家庭的法则。

【学位授予单位】：南京大学
【学位授予姩份】：2015

支持CAJ、PDF文件格式

衣艳芳;[J];吉林师范大学学报(人文社会科学版);2004年01期

李伯聪李军;[J];自然辩证法通讯;1996年04期

罗建文,朱春晖,吴克明;[J];长沙电力学院学报(社会科学版);2001年01期

曹奇,夏建辉;[J];长沙通信职业技术学院学报;2002年02期

谭长富,罗建文;[J];湖南社会科学;2003年01期

罗建文;[J];广西大学学报(哲学社会科学版);2001年03期

中国重要会议论文全文数据库

何江波;;[A];第三届全国科技哲学暨交叉学科研究生论坛文集[C];2010年

中国博士学位论文全文数据库

中国硕士学位论文铨文数据库

李俊标,方艳;[J];安庆师范学院学报(社会科学版);2001年01期

中国重要报纸全文数据库

唐江文特约记者史照栋;[N];科技日报;2005年

中国硕士学位论文全攵数据库

}

我爱游戏网