混合策略下的纳什均衡

2024-05-01 07:36

1. 混合策略下的纳什均衡

[博弈论与纳什均衡]王则柯：什么是混合策略纳什均衡？

混合策略下的纳什均衡

2. 混合策略纳什均衡的实现

1、最大化支付法：即最大化各个参与人的效用函数。2、支付相等法：根据前面分析的猜硬币博弈中参与人的策略的思路，每个参与人的混合策略都使其余参与人的任何纯策略的期望支付相等，因此，解混合策略纳什均衡可以令参与人的各个纯策略支付相等，构成方程组求解。

3. 混合策略下的纳什均衡

纳什均衡是指这样一种均衡：在这一均衡中，每个博弈参与人都确信，在给定其他参与人战略决定的情况下，他选择了最优战略以回应对手的战略。”也就是说，所有人的战略都是最优的。而讲解“纳什均衡”的最著名的案例就是“囚徒的困境”。 

a,b两个囚徒，a坦白b抵赖，b判10年，a判1年.若两人均坦白则各判5年，若两人均抵赖则都判2年。a，b面临抉择。 

显然最好的策略是双方都抵赖，结果是大家都只被判2年。但是由于两人处于隔离的情况下无法串供，按照亚当·斯密的理论，每一个人都是一个“理性的经济人”，都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程：假如他招了，我不招，得坐10年监狱，招了才5年，所以招了划算；假如我招了，他也招，得坐5年，他要是不招，我就只坐1年，而他会坐10年牢，也是招了划算。综合以上几种情况考虑，不管他招不招，对我而言都是招了划算。两个人都会动这样的脑筋，最终，两个人都选择了招，结果都被判5年刑期。 

原本对双方都有利的策略(抵赖)和结局 (被判1年刑)就不会出现。这就是著名的“囚徒困境”。它实际上反映了一个很深刻的问题，这就是个人理性与集体理性的矛盾。



对於多人参与、非零和的博弈问题，在纳什之前，无人知道如何求解，或者说怎样找到类似于最小最大解那样的“平衡” 。而找不到解，下面的研究当然无法进行，更谈不上指导实践了。纳什对博弈论的巨大贡献，正在於他天才性地提出了“纳什均衡” 的基本概念，为更加普遍广泛的博弈问题找到了解。

纳什均衡的基本思想是，在这个解集中所有参与者的策略都是对其他参与者所用策略的最佳对策，没有人能够通过单单改变自己的策略提高收益。

混合策略下的纳什均衡

4. 混合策略纳什均衡的原理

严格占优策略均衡、重复剔除的占优策略均衡、纯策略纳什均衡和混合策略纳什均衡。一般将上述四种均衡统称为纳什均衡。在这四种均衡概念中每种均衡依次是前一种均衡的扩展。前一种均衡是后一种均衡的特例。严格占优策略均衡是重复剔除的占优策略均衡的特例；重复剔除的占优策略均衡是纯策略纳什均衡的特例；纯策略纳什均衡是混合策略纳什均衡的特例。如果将完全信息静态博弈中存在某种均衡的所有博弈定义为一个集合，那么就存在前一种均衡的博弈集合是后一种均衡的博弈集合的子集。完全信息静态博弈四种均衡概念之间的关系可以用图2—13表示。

5. 混合策略纳什均衡的概要

在博弈G={S1,S2……Sn；U1,U2……Un}中第i个博弈方策略空间为Si={Si1……Sik}则博弈方以概率分布Pi=(Pi……Pik)随机在k个可选策略中选的的策略称为一个混合策略纳什均衡。

混合策略纳什均衡的概要

6. 为什么混合策略纳什均衡一定存在？

纳什均衡是指这样一种均衡：在这一均衡中，每个博弈参与人都确信，在给定其他参与人战略决定的情况下，他选择了最优战略以回应对手的战略。”也就是说，所有人的战略都是最优的。而讲解“纳什均衡”的最著名的案例就是“囚徒的困境”。 
a,b两个囚徒，a坦白b抵赖，b判10年，a判1年.若两人均坦白则各判5年，若两人均抵赖则都判2年。a，b面临抉择。 
显然最好的策略是双方都抵赖，结果是大家都只被判2年。但是由于两人处于隔离的情况下无法串供，按照亚当·斯密的理论，每一个人都是一个“理性的经济人”，都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程：假如他招了，我不招，得坐10年监狱，招了才5年，所以招了划算；假如我招了，他也招，得坐5年，他要是不招，我就只坐1年，而他会坐10年牢，也是招了划算。综合以上几种情况考虑，不管他招不招，对我而言都是招了划算。两个人都会动这样的脑筋，最终，两个人都选择了招，结果都被判5年刑期。 
原本对双方都有利的策略(抵赖)和结局 (被判1年刑)就不会出现。这就是著名的“囚徒困境”。它实际上反映了一个很深刻的问题，这就是个人理性与集体理性的矛盾。

7. 怎么求纯策略纳什均衡和混合纳什策略？

纯战略纳什均衡最简单的方法是划线法，先固定一个然后另一收益大就在下面划线，再固定另一个收益对另外一个量划线，最后两个都有线的就是纯战略纳什均衡，混合战略纳什均衡要计算，但是一个有限博弈的纯战略纳什均衡和混合战略纳什均衡个数之和一定是奇数，如果你求出的纯战略纳什均衡有偶数个，那么一定有另外一个混合战略纳什均衡。
混合策略纳什均衡：在n个参与人的博弈G={S1,...Sn;u1,...un}中，混合策略组合构成一个纳什均衡，如果对于所有的i=1，2...，n下式成立：也就是说，如果一个策略组合使任何一个参与人的策略都是相对于其他参与人的策略的最佳策略，这个策略就构成一个纳什均衡，不管这个策略是混合策略还是纯策略。混合策略纳什均衡是面对其他博弈者选择的不确定性的一个理性对策，其主要特征是作为混合策略一部分的每一个纯策略有相同的期望值，否则，一个博弈者会选择那个期望值最高的策略而排除所有其他策略，这意味着原初的状态不是一个均衡。

怎么求纯策略纳什均衡和混合纳什策略？

8. 为什么混合策略纳什均衡一定存在？

纳什均衡是指这样一种均衡：在这一均衡中，每个博弈参与人都确信，在给定其他参与人战略决定的情况下，他选择了最优战略以回应对手的战略。”也就是说，所有人的战略都是最优的。而讲解“纳什均衡”的最著名的案例就是“囚徒的困境”。
a,b两个囚徒，a坦白b抵赖，b判10年，a判1年.若两人均坦白则各判5年，若两人均抵赖则都判2年。a，b面临抉择。
显然最好的策略是双方都抵赖，结果是大家都只被判2年。但是由于两人处于隔离的情况下无法串供，按照亚当·斯密的理论，每一个人都是一个“理性的经济人”，都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程：假如他招了，我不招，得坐10年监狱，招了才5年，所以招了划算；假如我招了，他也招，得坐5年，他要是不招，我就只坐1年，而他会坐10年牢，也是招了划算。综合以上几种情况考虑，不管他招不招，对我而言都是招了划算。两个人都会动这样的脑筋，最终，两个人都选择了招，结果都被判5年刑期。
原本对双方都有利的策略(抵赖)和结局
(被判1年刑)就不会出现。这就是著名的“囚徒困境”。它实际上反映了一个很深刻的问题，这就是个人理性与集体理性的矛盾。