搜档网
当前位置:搜档网 › 完全信息动态博弈

完全信息动态博弈

完全信息动态博弈
完全信息动态博弈

第七章完全信息动态博弈

博弈中的得益,是各参与人追求的根本目标,关于得益的信息是博弈中最重要的信息之一。在一些博弈中参与人对自己的得益情况完全清楚,对其他参与人的得益也都很清楚,如前面介绍过的囚徒困境,猜硬币等;还有一些博弈中,参与人对其他参与人的得益情况并不了解,例如投标、拍卖活动中,各参与人对其他参与人的标的的估价很难了解,即使最后的成交价是明确的,但各参与人仍然无法知道其他参与人中标、拍得标的的真正得益是多少。一般地,参与人完全了解所有参与人的得益情况的博弈称为“完全信息博弈”,不完全了解其他参与人的得益情况的博弈称为“不完全信息博弈”。

博弈中的过程,是博弈结构的重要部分,根据博弈过程的不同,可以将博弈分为:“静态博弈”、“动态博弈”和“重复博弈”。如果参与人选择战略时是同时或可以看作同时的博弈称为“静态博弈”;若各参与人战略的选择和行动不仅有先后顺序,后选择、后行动的参与人在自己选择行动之前,可以看到前面的过程,这种博弈称为“动态博弈”(也称为“多阶段博弈”)。动态博弈中在轮到行为时对博弈的进程完全了解的参与人,称为具有“完美信息”的参与人,如果动态博弈的所有参与人都有完美信息,称为“完美信息的动态博弈”。相应的轮到行为时对博弈的进程不完全了解的参与人,称为具有“不完美信息”,这样的动态博弈称为“不完美信息的动态博弈”。

7.1 完全且完美信息动态博弈

动态博弈中一个参与人的一次行为称为一个“阶段”。由于每个参与人在动态博弈中可能不止一次行为,因此,每个参与人在一个动态博弈中就可能有数个甚至许多个博弈阶段。动态博弈一般用扩展形表示,括弧中前一个数字代表乙的得益,后一个数字代表甲的得益。

动态博弈的一个中心问题是“可信性”问题。所谓可信性是指动态博弈中先行为的参与人是否该相信后行为的参与人会采取对自己有利的或不利的行为。因为后行为方将来会采取对先行为方有利的行为相当于一种“许诺”,而将来会采取对先行为方不利的行为相当于一种“威胁”,因此我们可将可信性分为“许诺的可信性”和“威胁的可信性”。

7.1.1开金矿博弈

我们以“开金矿博弈”为例来讨论可信性问题。

甲要开采一价值4万元的金矿,缺1万元的资金,向乙借1万元,许诺采到金子后与乙平分。乙是否借钱给甲呢?

图8-1

乙最需要关心的就是甲采到金子后是否会履行诺言跟自己平分,因为万一甲采到金子后不但不跟乙平分,而且还赖帐或卷款潜逃,则乙连自己的本钱都收不回来。关键的是要判断

的许诺是否可信!以自身利益最大化原则,甲必然选择不分!乙清楚甲的行为准则,最好的选择是不借!对乙来说,甲的许诺是不可信的!

要想使甲的许诺成为可信的,加上第三阶段,让乙在甲违约时采用法律手段---“打官司”,乙的利益受到法律保护,甲的许诺是可信的。乙在第一阶段选择借,甲在第二阶段选择分。

图8-2 可信的诺言和威胁图8-3 法律保障不足的开金矿博弈

在第三阶段乙打官司不能收回本钱,还要承受1万元的损失,这时乙打官司的威胁是不可信的。

本博弈的分析可以看出,在一个个体都有私心,都只注重自身的利益的社会里,完善公正的法律制度不淡能够保障社会的公平,还能提高社会经济活动的效率,是实现最有效率的社会分工的重要保障。可信性是动态博弈分析的一个中心问题。

7.1.2逆推归纳法

分析动态博弈的方法是从最后一个阶段参与人的行为开始分析,逐步倒退回前一个阶段相应参与人的行为选择,一直到第一阶段的方法,称为“逆推归纳法”。逆推归纳法实际上是重复剔除劣战略方法在扩展式博弈中的应用。我们从最后一个决策结开始往回倒推,每一步剔除在该决策结上参与人的劣选择,因此,在均衡路径,每一个参与人在每一个信息集上的选择都是占优选择。

逆推归纳法可以用于许多动态博弈的分析求解,除了有些不完美信息动态博弈以外,是解析动态博弈的基本方法。在分析动态博弈问题时,我们必须发展新的均衡概念。

7.2 子博弈完美纳什均衡

动态博弈中存在不可信的行为选择,纳什均衡具有不稳定性。为了排除不可信的威胁或承诺因素,博弈理论又一次得到了发展,泽尔腾(1965)提出了“子博弈完美纳什均衡”,用来分析动态博弈。子博弈完美纳什均衡要求均衡战略的行为在每一个信息集上都是最优的。为此,我们首先引进“子博弈”的概念。简单的说,子博弈是原博弈的一个局部构成的次级博弈,它本身可以作为一个独立的博弈进行分析。

7.2.1子博弈

定义8.1由一个动态博弈第一阶段以外的某个阶段开始的后续博弈阶段构成,它必须有初始信息集,具备进行博弈所需要的各种信息,能够自成一个博弈的原博弈的一部分,称为原动态博弈的一个“子博弈”。

以三阶段开金矿博弈为例,如果乙在第一阶段选择了“借”,动态博弈进行到第二阶段甲作选择。这时甲选择是否分成,然后轮到乙作选择是否打官司。这本身构成了一个两阶段的动态博弈,是原博弈的一个“子博弈”。当甲选择不分,博弈进行到乙选择打官司还是不打的第三阶段,是子博弈的子博弈,称后面的子博弈是原博弈“的二级子博弈”。如图中两层虚线框出。

图8-4 开金矿博弈的两级子博弈

例如,开金矿博弈,两个虚线框代表两个“子博弈”。应用逆推归纳法分析,在最后的子博弈中,乙在“打官司”和“不打”中选择“打官司”,因为1>0,成为图8-5;这时甲在分与不分中选择分,因为2>1,成为图8-6;第一阶段乙的选择是借。

图8-5 开金矿(守信)--逆推第一步图8-6开金矿(守信)--逆推第二步上面用逆推归纳法导出的动态博弈的结果是由各阶段轮到行为的参与人的一种行为依次构成的,在开金矿博弈中结果为(借,分),是由乙在第一阶段的借和甲在第二阶段的分构

成。当然该博弈本来应该有三个阶段,但当甲在第二阶段选择分时第三阶段就没有必要进行下去了,因此结果中只有两个阶段的行为。需要注意的是乙的第三阶段虽然没有进行,但是它是保证第二阶段甲选择分的关键,所以乙的战略中必须包含这个选择。

7.2.2子博弈完美纳什均衡

有了子博弈的概念,我们引进适合动态博弈的新的均衡概念,它必须满足(1)既是纳什均衡,从而具有战略稳定性,(2)又不能包含任何的不会信守的许诺或威胁。这样的动态博弈的战略组合称为“子博弈完美纳什均衡”。

定义8.2 如果动态博弈中各参与人的策略在动态博弈本身和所有子博弈中都构成一个纳什均衡,则称该策略组合为一个“子博弈完美纳什均衡”。

“子博弈完美纳什均衡”是分析动态博弈,或者说完全且完美信息动态博弈的关键概念。而逆推归纳法正是(至少在完美信息动态博弈范围之内)寻找动态博弈的子博弈完美纳什均衡的基本方法。子博弈完美纳什均衡能够排除均衡策略中不可信的威胁或许诺,就意味着每阶段各参与人的选择都是按最大利益原则决策的,因此在每个子博弈中都只能采用纳什均衡的策略或行为选择。

7.3 应用举例

7.3.1寡占的斯塔克博格(Stackelberg)模型

斯塔克博格模型是一种动态的寡头市场博弈模型。该模型假设寡头市场上的两个厂商中,一方较强一方较弱。较强的一方领先行动,而较弱的一方则跟在较强的一方之后行动。

由于该模型中两厂商的选择是有先后的,且后一厂商(跟随者看着前一厂商的选择的,因此这是一个动态博弈。但是,因为两参与人的决策内容是产量水平,而可能的产量水平有无限多个,因此这是一个双方都有无限多种可能的选择的无限策略博弈。斯塔克博格模型与古诺模型相比,唯一的不同是前者有一个选择的次序问题,其他如参与人、策略空间和得益函数等完全都是相同的。

价格函数:Q Q P P -==8)(;产品完全相同(没有固定成本,边际成本相等)221==c c ; 总产量(连续产量)21q q Q +=;总成本分别为:2122q q 和。

得益函数:

2

2212221222222

12111211111162)](8[)(62)](8[)(q q q q q q q q q c Q P q u q q q q q q q q q c Q P q u --=-+-=-=--=-+-=-=

根据逆推归纳法的思路,我们首先要分析第二阶段厂商2的决策,为此,我们先假设厂商1的选择为1q 是已经确定的。这实际上就是在1q 定的情况下求使2u 实现最大值的2q ,它必须满足:

2

3)6(210

2611221q q q q q -=-==-- 8.1

实际上它就是厂商2对厂商1的策略的一个反应函数。厂商1知道厂商2的这种决策思路,因此他在选择1q 的时就知道*

2q 是根据(1)式确定的,因此可将(1)式代入他自己的得益函数,然后再求其最大值。

)(2

13)23(66),(112112111121*211*211q u q q q q q q q q q q q q u =-=---=--= 8.2

上式对1q 的导数为0,可得5.15.13,3,03*2*1*1=-===-q q q 此时,,双方的得益

分别为4.5和2.25。

与两寡头同时选择的古诺模型的结果相比,斯塔克博格模型的结果有很大的不同。它的产量大于古诺模型,价格低于古诺模型,总利润(两厂商得益之和)小于古诺模型。但是,厂商1的得益却大于古诺模型中厂商1的得益,更大于厂商2的得益。这是因为该模型中两厂商所处地位不同,厂商1具有先行的主动,且他又把握住了理性的厂商2总归会根据自己的选择而合理抉择的心理,选择较大的产量得到了好处。

结论:本博弈也揭示了这样一个事实,即在信息不对称的博弈中,信息较多的参与人(如本博弈中的厂商2,他在决策之前可先知道厂商1的实际选择,因此他拥有较多的信息)不一定能得到较多的得益。这一点也正是多人博弈与单人博弈的不同之处。

7.3.2工会和厂商的博弈

里昂惕夫(Leontief)1946年提出了一个工会和厂商之间关于工资和雇佣的博弈模型。假设完全由工会决定工资,而厂商则根据工资的高低决定雇佣工人的数量。假设工会和厂商之间关于工资率和雇佣数的博弈过程是这样的:首先由工会决定工资率,然后厂商根据工会决定的工资率决定雇佣多少劳动,工会和厂商选择的内容分别是工资率和雇佣数。

工会的效用必然是工资W 和雇佣数人L 两者的函数,即),(L W u ;

假设收益是劳动雇佣数L 的函数)(L R ,厂商的利润也是工资率和劳动雇佣数的函数

WL L R L W -==)(),(ππ

得益:效用),(L W u 和利润),(L W π

我们用逆推归纳法来解这个博弈,第一步我们先求第二阶段(最后一阶段)厂商对工会的工资率u 的反应函数)(W L ,应该是下面最大值问题的解。

0)(],)([max ),(max 0

0=-'-=≥≥W L R L WL L R L W L L 的导数为零,对π

经济意义是厂商增加雇佣的边际收益(雇佣最后一个单位劳动所能增加的收益)要等于工资率(边际成本)。WL L R W L 与处)()(* 的距离最大,而这距离当然就是厂商的利润了。

图8-7 厂商的反应函数

图8-8 工会的无差异曲线

第二步回到第一阶段工会面临的选择。由于工会了解厂商的决策规则和方法,因此它完全清楚对应自己的每种工资率W ,厂商将会选择的雇佣数一定是)(*

W L 。

工会需要解决的决策问题就变成如下的最大值问题,即如何选择*W 使它满足: )](,[max *0

W L W W 该博弈的均衡解就是)](,[*

**W L W ,因为该路径中不包含任何不会信守的威胁或诺言,因此它是一个子博弈完美纳什均衡。根据工会的效用函数作出它在W 和L 之间的无差异曲线,如图8-8,则越是位置高的无差异曲线越代表工会的效用较高。

7.3.3讨价还价博弈

假设有两人就如何分割1万元进行谈判,并且已经定下了这样的规则:首先由参与人1提出一个分割比例,对此,参与人2可以接受也可以拒绝;如果参与人2拒绝参与人1的方案,则他自己应提出另一个方案,让参与人1选择接受与否。如此循环。在上述循环过程中,只要有任何一方接受对方的方案博弈就告结束,而如果方案被拒绝,则被拒绝的方案就与以

后的讨价还价过程不再有关系。

由于谈判费用和利息损失等,双方的得益都要打一次折扣,折扣率为)10(<<δδ,我们称它为消耗系数。如果限制讨价还价最多只能进行三个阶段,到第三阶段乙必须接受甲的方案,这就是一个三阶段的讨价还价博弈。

图8-9 三阶段讨价还价

本博弈有两个关键点:第一是第三阶段参与人1的方案是有强制力的,即进行到这一阶段,参与人1提出的分割S :)1,(S S -是双方必须接受的,并且对这一点两参与人都非常清楚。第二是多进行一个阶段总得益就会减少一个比例,因此对双方来说都是让谈判拖得太长是不利的,必须让对方得的数额,不如早点让他得到,免得自己的得益每况愈下。

下面是对三阶段谈判博弈时序的更为详细的描述:

在第一阶段开始时,参与人1建议他分走1万元的1S ,留给参与人2的份额为11S -;参与人2或者接受这一条件(这种情况下,博弈结束,参与人1的收益为1S ,参与人2的收益为11S -),或者拒绝这一条件(这种情况下,博弈将继续进行,进入第二阶段); 在第二阶段的开始,参与人2提议参与人1分得1万元的2S ,留给参与人2的份额为21S -(请注意在阶段t ,t S 总是表示分给参与人1的,而不论是谁先提出的条件);参与人1或者接受条件(这种情况下,博弈结束,参与人1的收益2S 和参与人2的收益21S -),或者拒绝这一条件(这种情况下,博弈继续进行,进入第三阶段);

在第三阶段的开始,参与人1得到1万元的S ,参与人2得到S -1,这里10<

逆推到博弈的第二阶段,参与人2怎样提出最优条件,才能使自己的得益最大?如果参与人2提出条件使参与人1的得益小于第三阶段的得益,那么参与人l 一定会拒绝参与人2在这一阶段的条件,博弈进行到第三阶段。参与人2提出的条件2S 既要满足参与人接受,又要使自己的得益比在第三阶段的得益大,才是最优的条件。2S 应满足参与人1的得益S S 22δδ=,即S S δ=2。这时参与人2的得益为S S 2)1(δδδδ-=-。因为10<<δ,

该得益比第三阶段的得益)1(2S -δ要大一些。

回到第一阶段参与人1的情况,他在一开始就知道第三阶段的得益是S 2δ,也知道第

二阶段参与人2的战略,他在第一阶段的最优条件就是:S S 211δδ-=-,即

S S 211δδ+-=,是这个博弈的子博弈完美纳什均衡。

这个博弈的问题和结果,在经济活动中有很多现实的例子,如利益的分配,债务纠纷,财产继承权的争执等。

7.3.4国际竞争和最优关税

现在我们对前面所讨论的博弈型加以丰富。在完全且完美信息动态博弈中,我们继续假定博弈的进行分为一系列的阶段,下一阶段开始前参与者可观察到前面所有阶段的行动。不同之处在于,这种模型中在某个阶段中存在着同时行动。我们主要讨论两阶段各有两个参与人同时选择的动态博弈,更多阶段和更多参与人不过是两阶段的简单推广。一般地,我们假设:

1. 博弈中有四个参与人l ,2,3,4。

2. 参与人l 和参与人2在第一阶段同时在各自的可选战略集合A1和A2中分别选择a1和a2。

3. 参与人3和参与人4在看到参与人1和参与人2的选择(a1,a2)以后,在第二阶段中,同时在各自的可选战略集合A3和A4中分别选择a3和a4 。

4. 所有参与人的得益都取决于a1,a2, a3和a4,参与人i 的得益为ui(a1,a2, a3 ,a4),是各参与人战略的函数。

许多经济学问题都符合以上的特点,经典的例子如,银行的挤兑,国际竞争和最优关税,工作竞争。很多经济问题可以在上述条件稍加变动后建立模型。解决这类问题的方法仍然是逆向归纳的思想。下面我们以国际竞争和最优关税博弈为例来讨论这种具有同时选择的动态博弈,这是博弈理论在国际经济学中的应用。

设我们讨论的是两个相似的国家,我们分别称它们为国家1和国家2,国家1和国家2在本博弈中作为参与人是确定对进口商品征收关税的税率。

假设两国各有一个企业(可看作是国内所有企业的集合体)生产既内销又出口的相互竞争的商品,我们称它们为企业1和企业2。两国的消费者在各自的国内市场上购买国货或进口货。

国家i 市场上的商品总量:i Q ,则市场出清价格:2,1,

)(=-=i Q a Q P i i i 。

企业i 生产i h 供内销和i e 供出口,因此j i i e h Q +=,2,1,=j i ,当21==j i 时,当12==j i 时。

再设两企业的边际生产成本同为常数c ,且都无固定成本,则企业i 的生产总成本为)(i i e h c +。当企业出口时,因为进口国征收的关税也是它的成本,设国家j 的关税率为j t ,企业i 的出口成本为i j i e t ce +,国内销售成本仍为i ch 。

假设首先由两国政府同时制订关税率21 t t 和;然后企业1和企业2根据21 t t 和,同时决定内销和出口产量2211e h e h 、和、。

企业的利润: i j i i i j i i j i i

j i i i j i i j i j i j i i i e t e h c e h e a h e h a e t e h c e P h P e e h h t t -+-+-++-=-+-+==)()]([)]([)(),,,,,(ππ

国家作为参与人的得益则是它们所关心的社会总福利,包括消费者剩余,本国企业的利润和国家的关税收入三部分:

j i i j i j i j i j i i i e t e h e e h h t t w w +++=

=π2)(2

1),,,,,(

从第二阶段开始,假设两国已选择关税率分别为21 t t 和,则如果),,,(*

2*2*1*1e h e h 是在设

定21 t t 和情况下两企业之间的一个纳什均衡,那么),(**i i e h 必须是下列最大值问题的解: ),,,,,(max **0,j i j i j i i e h e e h h t t i i π≥

由于利润可以分成企业在国内市场的利润和国外市场的利润两部分之和,且国内市场的

利润取决于*j i e h 和,国外市场的利润取决于*j i h e 和,因此上述最大值问题就可分解为下列

两个最大值问题:

{

}{}

])([max ])([max *

0 *0

i j j i i e j i i h e t c h e a e c e h a h i i --+--+-≥≥ 8.48.3 态博弈的纳什均衡。

这是两企业第二阶段静和其中,联立方程组,解得:成立,得到四个方程的和对和由于解得从假设解得从假设, 2,1j 1,2 )2(3

1 )(31 1,22,16.85.88.6 )(21 4.8, 8.5 )(2

1 8.3

,********==--=+-===---=--≤--=-≤i t c a e t c a h j i t c h a e t c a h c e a h c a e j i i i j j i j j j i j 如果没有关税,则本博弈就相当于是国内国外两个市场的古诺模型,两企业在两市场的均衡产量确实都为(a —c )/3,与古诺模型的均衡产量完全一样。由于有关税存在,一国的关税具有保护本国企业,提高本国企业国内市场占有率,打击外国企业的作用,也是世界各国普遍设置关税,想要提高本国关税的主要原因。

现在我们回到第一阶段两个国家之间的博弈,即两国家同时选择21 t t 和。因为国家1相国家2都清楚两国企业的决策方法,即知道当它们选定21 t t 和以后,两企业的均衡一定

是),,,(*2*2*1*1e h e h ,因此,两国的得益为),,,,,(*2*2*1*121e h e h t t w w i i =,为了方便起见,我们

简单地用2,1),(21==i t t w w i i ,来表示上述两国的得益。

3

)2(9)2( 9)(18])(2[),(*2*22*

j i j i i j i i t c a t t c a t c a t c a t t w --+--++-+--= 国家i 要选择*

i t ,满足上式达到最大,令导数为零时,解得: 2,1,9,9)(4 ,3

2,13 **21*=-=-=-===-=

i c a e c a h c a t t i c a t i i i 选择:

得最佳内销和出口产量都是成立,两国的最佳关税对这就是两企业在第二阶段的最佳内销和出口产量选择。这是一个子博弈纳什均衡解。

第二章 完全信息静态博弈的基本理论

第二章完全信息静态博弈的基本理论 0.完全信息(complete information)博弈与不完全信息(incomplete information)博弈 完全信息博弈是指每个参与人的支付函数都是该博弈的公共知识;只要有一个参与人的支付函数不是该博弈的公共知识,就意味着该博弈是不完全信息博弈。 特别提示:如果该博弈是完全信息博弈,这意味着参与人不仅知道自己是什么类型的人,也知道对手们是什么类型的人。 一.求解方法之一:剔除严格劣策略 1.占优策略与劣策略。 严格占优策略与严格劣策略:不管对手采取什么策略,如果参与人采取a策略所获得的支付严格大于b策略,则称a策略是相对于b策略的严格占优策略(strictly dominating strategy),b策略是相对于a策略的严格劣策略(strictly dominated strategy)。 弱占优策略与弱劣策略:不管对手采取什么策略,如果参与人采取a策略所获得的支付不低于b策略,且至少有一种情况下的支付会严格大于b策略,则称b策略是相对于a策略的弱劣策略(weakly dominated strategy );a策略则是相对于b策略的弱占优策略(weakly dominating strategy)。 占优策略就是我们平时所说的上策,劣策略就是我们平时所说的下策。 特别提示:本文对占优策略的理解与其他教材不同,本文可以将以上述方式定义出来的占优策略称为局部占优策略;如果不管对手采取什么策略,如果参与人采取a策略所获得的支付严格大于其他所有策略,则称a策略是全局严格占优策略。类似地,可以定义局部劣策略与全局劣策略。 理性的人在博弈时绝对不会选择严格劣策略。通过剔除严格劣策略所获得的博弈解就称之为占优策略均衡。 2.案例 案例1 乙 甲坦白 不坦白

完全信息动态博弈练习题

1、空中客车与波音两家公司在研发新型商业客机方面展开激烈竞争。波音公司在研发过程中已经处于领先地位,而空中客车正考虑是否参与这场竞争。假如空中客车不参与竞争,那么它的收益为0,而波音公司将会获得垄断地位,获得10亿美元的收益。假如空中客车决定参与竞争,则波音公司就不得不决定与空中客车进行和平竞争,还是打价格战。如果和平竞争,双方各自获得3亿美元的收益;如果打价格战,则客机价格下滑,双方都无法收回研发成本,各损失1亿美元。请画出博弈树,找出子博弈精炼纳什均衡。 2、考虑可乐行业,可口可乐与百事可乐是两家主要公司,市场规模为80亿美元。每家公司可以选择是否做广告,广告成本为10亿美元;如果一家企业做广告而另一家不做,则前者强的所有市场;如果两家企业都做广告,则各占一半市场,并付出广告成本;如果两家公司都不做广告,也各占一般市场,但不支付广告成本。 (a)画出博弈支付表,并找出当两家公司同时行动时的纳什均衡; (b)假定博弈序贯进行,画出可口可乐公司率先行动时该博弈的博弈树。 (c)在(a)、(b)均衡中,从可口可乐与百事可乐的共同观点来看,哪一个是最佳的,这两家公司要怎样才会有更好的结果? 3、假设巨人、太阳神、弗里达三大百货公司正考虑在波士顿两个新的大型购物中心中的一个开设分店。其中,城市购物中心靠近人口密集的富人区,规模不大,最多只能以两家大百货商场为龙头。而郊区购物中心地处较远的郊外,相对较穷,能以三家百货商场为龙头。三家百货公司都不想在两个地方同时开店,因为顾客有相当部分重复,两处都开店无疑是同自己竞争。每家百货公司都不愿意在一个地方独家经营,拥有多家商场的购物中心能够吸引更多的顾客,顾客总量的增加自然会使商场利润增加。此外,它们都偏向争夺富人群体的城市购物中心,所以它们必须在城市购物中心(如果这个尝试失败了,它们将会尝试在郊区建立商场)和郊区购物中心(不争取城市市场而直接进入郊区市场)之间作出选择。在该案例中,百货公司将5种可能结果按等级排列如下:5 (最好)和另一家公司在城市购物中心;4 和一家或两家公司在郊区购物中心;3 在城市购物中心独家经营;2 在郊区购物中心独家经营; 1 最坏,在尝试进入城市市场失败后在郊区独家经营,而此时其他非百货业公司已经签约获得郊区购物中心的最好地盘。三家百货公司因管理结构各不相同,所以做新购物中心扩展市场工作的快慢也不同。弗里达公司动作最快,其次是巨人公司,最后是太阳神公司,它在准

完全信息静态博弈及其纳什均衡解

1 第四章 完全信息动态博弈及其均衡解 1.完全且完美信息动态博弈 完全信息博弈指的是参与者的收益是共同知识。 完全且完美信息动态博弈指的是:博弈中的每一步中参与人都知道这一步之前博弈进行的整个过程。因此,我完全且完美信息动态博弈的特点:(1)行动是顺序发生的;(2)下一步行动选择之前所有以前的行动都可以被观察到;(3)每一可能的行动组合下的参与人的收益都是公共知识。 而不完美信息博弈指的是,在某一步参与人不知道以往博弈所进行的历史或者没有观察到以往的所有行动。 例4.1.我们来考虑这样一个动态博弈: 假定甲在开采一个价值4万元的金矿时需要1万元资金,乙有1万元资金。甲向乙借钱来开金矿。在这个博弈的第一阶段,甲向乙承诺: 如果乙借钱给他的话,那么他就会将采到的金子与乙对半分成,即(2,3)——乙得到2万元的金子,同时收回自己的1万元投资。对于甲的承诺,乙如果不借钱给甲的话,那么博弈到此为止,双方收益为(0,1)。如果乙借钱给甲的话,那么博弈进入第二个阶段。在第二阶段中,若甲遵守他的承诺,分给乙一半的金子,这样两人的收益为(2,3),其中1万元为投资成本。〖JP3〗然而,若甲违背自己的承诺,博弈就会进入到第三个阶段: 如果乙同甲打官司,那么由于打官司费时费力, 两个人的收益为(0,1);若乙不打官司,那么两个人的收益就为(5,0)。参见图1。 乙 借 不借 甲 分 不分 (0,1) 乙 乙 (2,3) 打官司 不打官司 (1,2) (5,0) 图1. 借钱博弈的博弈树 2.逆向归纳法与子博弈纳什均衡解 逆向归纳法(Backward induction )又称逆推法,是指这样一种动态博弈求解方法:从博弈的最后一步开始,计算最后一步的参与人的最优行动,逐步逆推到博弈开始时进行第一步的参与人的最优行动,从而确定每个参与人的最优行动。 在动态博弈中逆向归纳法能够进行的前提:参与人是理性的——任何一步参与人都选择 甲乙

完全信息动态博弈习题(一)

完全信息动态博弈习题(一) 1、在一个由三个寡头垄断者操纵的市场上,反需求函数由()Q a Q P -=给出,此处321q q q Q ++=,i q 表示企业i 生产的产量。每一企业生产的边际成本函数为常数c ,并且没有固定成本。企业按以下顺序进行产出决策:(1)企业1选择01≥q ;(2)企业2和3观测到1q ,并同时分别选择2q 和3q 。试求出此博弈的子博弈精炼解。 解:采用逆向归纳法。 (1)在第二阶段企业2和企业3决策: ()[]223212 222cq q q q q a Max Max q q ----≥≥=π π ()[]333213 333cq q q q q a Max Max q q ----≥≥=π π 求出反应函数为:??? ??????????? --=--=33 1312q c a q q c a q (2)第一阶段企业1的决策: ()[]113211cq q q q q a Max ----π 一阶条件: 023211 1=----=??c q q q a q π, 将 3 31 31 2q c a q q c a q --= --= 带入可求得: 2 1c a q -= ,6 32c a q q -= =

2、假设家长和孩子进行一个博弈:令收入为p I (家长的收入)和c I (孩子的收入)是外生给定的,第一,孩子决定收入c I 中的多少用于储蓄S 以备将来,并消费掉其余部分B I c -;第二,家长观测到孩子的选择S 并决定给予一个赠与额B 。孩子的收益(支付)为当期和未来的效用之和:()()B S U S I U c ++-21;家长的收益(支付)为()()()[]B S U S I U k B I V c p ++-+-21(其中k>0反映出家长关心孩子的福利)。假定效用函数1U 、2U 和V 递增并且严格凹,试证明:在逆向归纳解中,孩子的储蓄非常少,从而可诱使家长给予更高的赠与(即如果S 增加,并使B 相应减少,家长和孩子的福利都会提高)。 解:采用逆向归纳法,先最大化家长的收益(支付):给定的孩子的行动S ,来选择自己的行动B, Max ()()()[]B S U S I U k B I V c p ++-+-21 一阶条件: ()()B S kU B I V p +' =-'2 反应函数满足: 0//122*+dS B S d ,所以(S+B )会增加,从而()B S U +2也会增加;同时,因为()B S U +2增加的幅度比()S I U c -1减小的幅度大,所以孩子的收益(支付)效用增大了,同时家长的收益(支付)效用也增大了。

博弈论——完全信息动态博弈

2 完全信息的动态博弈 2.1完全和完美信息的动态博弈 动态博弈(dynamic game):参与人在不同的时间选择行动。 完全信息动态博弈指的是各博弈方先后行动,后行动者知道先行动者的具体行动是什么且各博弈方对博弈中各种策略组合下所有参与人相应的得益都完全了解的博弈 静态博弈习惯用战略式(Strategic form representation)表述,动态博弈习惯用扩展式(Extensive form representation)表述。战略式表述的三要素:参与人集合、每个参与人的战略集合、由战略组合决定的每个参与人的支付。扩展式表述的要素包括:参与人集合、参与人的行动顺序、参与人的行动空间、参与人的信息集、参与人的支付函数、外生事件(自然的选择)的概率分布。 n人有限战略博弈的扩展式表述用博弈树来表示 1 (1,2) (0,3)

①结:包括决策结和终点结。决策结是参与人采取行动的时点,终点结是博弈行动路径的终点。第一个行动选择对应的决策结为“初始结”,用空心圆表示,其它决策结用实心圆表示。X表示结的集合,x X表示某个特定的结。z表示终点结,Z表示终点结集合。 表示结之间的顺序关系,x x′表示x在x′之前。x之前所有结的集合称为x的前列集,x之后所有结的集合称为x的后续集。以下两种情况不允许: 前者违背了传递性和反对称性;后者违背了前列节必须是全排序的。在以上两个假设之下,每个终点结都完全决定了博弈树的某个路径。 ②枝:博弈树上,枝是从一个决策结到其直接后续结的连线,每一个枝代表参与人的一个行动选择。在每一个枝旁标注该具体行动的代号。一般地,每个决策结下有多个枝,给出每次行动时参与人的行动空间,即此时有哪些行动可供选择。 ③信息集(information sets):博弈树中某一决策者在某一行动阶段具有相同信息的所有决策结集合称为一个信息集。博弈树上的所有决策结分割成不同的信息集。每一个信息集是决策结集合的一个子集(信息集是由决策结构成的集合),该子集包括所有满足下列条件的决策结:(1)每一个决策结都是同一个参与人的决策结。(2)该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪一个决策结。引入信息集的目的是为了描述当一个参与人要作出决策时他可能不知道“之前”发生的所有事情。(之前加引号是因为,博弈树中的决策结的排序并不一定与行动的时间顺序相一致)

几个博弈案例

几个博弈案例 1.囚徒困境 警察抓住了两个罪犯,但是警察局却缺乏足够的证据指证他们所犯的罪行。如果罪犯中至少有一人供认犯罪,就能确认罪名成立。为了得到所需的口供,警察将这两名罪犯分别关押防止他们串供或结成攻守同盟,并分别跟他们讲清了他们的处境和面临的选择:如果他们两人都拒不认罪,则他们会被以较轻的妨碍公务罪各判一年徒刑;如果两人中有一人坦白认罪,则坦白者立即释放而另一人将重判10年徒刑;果两人都坦白认罪,则他们将被各判8年监禁。问:两个罪犯会如何选择(坦白还是抵赖)? 2.智猪博弈(占优战略均衡) 猪圈里有一头大猪,一头小猪。猪圈的边缘有个踏板,每踩一下,远离踏板的投食口就会落下少量食物。如果是小猪踩踏板,大猪会在小猪跑到食槽之前吃光所有食物;若是大猪踩踏板,则小猪还有机会吃到一点残羹冷炙,因为小猪食量小嘛。那么,两头猪会采取什么策略呢?答案是:小猪将安安心心地等在食槽边,而大猪则不知疲倦地奔忙于踏板和食槽之间。办公室里也会出现这样的场景:有人做“小猪”,舒舒服服地躲起来偷懒;有人做“大猪”,疲于奔命,吃力不讨好。但不管怎么样,“小猪”笃定一件事:大家是一个团队,就是有责罚,也是落在团队身上,所以总会有“大猪”悲壮地跳出来完成任务。想一想,你在办公室里扮演的角色,是“大猪”,还是“小猪”?(其实小猪的决策是明智的,想想同一个公司,小股东和大股东的行为。) 3.性别之争(多重纳什均衡) “有一对夫妻,丈夫喜欢看足球赛节目,妻子喜欢看肥皂剧节目,但是家里只有一台电视,于是就产生了争夺频道的矛盾。假设双方都同意看足球赛,则丈夫可得到2单位效用,妻子得到一单位效用;如果都同意看肥皂剧,则丈夫可得到1单位效用,妻子得到2单位效用;如果双方意见不一致,结果只好大家都不看,各自只能得到0单位效用。这个博弈的策略式表达如下:

不完全信息静态博弈案例 扶老人 林志涵

让道德与理性同行 ——不完全信息静态博弈案例分析 2012333501054 林志涵 12经济学1班 摘要:通过简单的博弈论分析方法对日常生活中具有现实意义的社会现象进行分析,从而在理性人假设的前提下,在各种因素的影响下,在个人取得利益最大化的同时,通过政策或法律的有效实施来使得道德能得到发扬提倡。 关键词:不完全信息静态博弈社会现象道德与理性 不完全信息静态博弈 在不完全信息静态博弈里,参与人并不完全清楚有关博弈的一些信息,所有参与人在共同决策环境中同时选择行动策略,每个参与人只选择一次。 纳什均衡,在给定的其他参与人选择的前提下,参与人根据自身收益选择的最优战略。 1.背景: “除非有人证物证,否则我不会再去扶跌倒的老人!”广东肇庆的阿华在扶起倒地的70多岁阿婆却遭诬陷后表示。事发7月15日早上,阿华开摩托车上行人道准备买早餐,看到路边有位老太太跌倒在求救,阿华立刻停下来,扶起老奶奶,殊不知却遭到阿婆的诬陷,随后和阿婆的女婿发生争执。阿婆被送到医院住院观察。为调查真相,交警暂扣了阿华的摩托车。事发后几天,阿华说没睡过一次好觉,还向单位请了几天假,天天在附近找证人,就是为了证实自己清白。 这一案件的真想不言而喻,老婆婆家人蛮不讲理地要求赔偿和阿华地好心搀扶倒地老婆婆形成了鲜明的对比,好心被当驴肝肺的事情就这么真真实实的发生在了我们的身边,社会风气遇到了极大的挑战,这引发了社会各界针对这一事件的激烈讨论。到底该不该扶?本文将在经济人假设的前提下,通过不完全信息静态博弈的思想进行分析阐述,并探讨我们如何通过一系列客观因素的影响,来使得利益与道德同行。 2.博弈的假设与建模: 假设: ①参与博弈的双方是理性人,都会选择个人利益最大化的行动。 ②假设阿婆在未有人搀扶时便决定是否坑钱,而路人并不知道阿婆是否会坑钱,即参与人在决策时不知道对方的策略同时也并不知道对方能够的收益函数。 ③假定当事人双方最终解决方法由交警决定,当事人将面临交警正确处理和错误处理两种。 参与人:阿婆、路人 行动选择:路人——帮忙扶起、不帮忙扶起 阿婆——被扶起后坑钱、不坑钱 3.支付收益: 1)在不考虑交警是否正确判断因素下,阿婆倒地没人扶会有-10的身体伤 害,在阿婆不坑钱的情况下仍然没有人扶会多产生负收益-10的心灵损 失(路人不知道阿婆是否坑钱);路人选择帮忙且阿婆不坑钱会产生10

浅谈完全信息动态博弈及启发

浅谈完全信息动态博弈及启发 博弈分为合作博弈和非合作博弈。合作博弈的目的在于对所得利益进行公平公正的分配,而非合作博弈则在于如何选择策略以追求自身利益的最大化。根据行为的时间序列,非合作博弈可以分为静态博弈和动态博弈;而根据一方对其他方的了解程度,非合作博弈又可以分为完全信息博弈和不完全信息博弈。事实上,每一种博弈类型在我们生活中都存在。然而对博弈哲学有一定了解后,我在我身边感受得最多的是完全信息动态博弈,因此也颇有感触。下面我将结合一些例子,试着用博弈的哲学对生活中的一些问题提出解决方案。当然,由于生活经验的不足等各方面原因,肯定有不完善的地方,还望指正。 在顺序博弈中,威胁与承诺对于后动者来说是两种非常重要的策略。威胁是对不肯与你合作的人进行惩罚的一种回应规则,在生活中也有很多这样的例子。我们到商店买东西讨价还价,当顾客还的价商家不接受的时候,顾客一般会表示其他地方价格更低,并作势要走终止交易,这实际上就是一种威胁,目的在于促成商品低价成交;在孩子们犯错的时候,许多家长采取的方法是威胁孩子下次再犯就会受皮肉之苦,希望以此告诫孩子不能再犯;情侣吵架时,双方争执不下,女方往往会以分手威胁男方屈服去哄她;中央政府在反腐工作中提出“老虎苍蝇一起打”的口号,事实上对有贪污腐败念头的官吏也算是一种威胁…… 这些威胁措施乍听起来气势如虹,似乎挺管用的,然而实施的多了,反而使得威胁的可信度下降,从而达不到预期的效果:价钱比较低的时候商家不再挽留你,因为他明白这是顾客的一种手段,并且对自己的价格有信心;孩子们每一次犯错知道父母都会因为心疼舍不得打自己,因此下次犯错之前也没有任何顾虑和思考便继续犯错;女方分手提得多了最后都没分,男生看穿了女生的诡计便再也不哄女生;尽管“老虎苍蝇一起打”,若是还没发现有苍蝇被抓,贪官们就会抱着自己还是一直苍蝇的心态越贪越大…… 所以这个时候,提高威胁的可信度便显得尤为重要!在上述例子中,我认为将自己的口头威胁初步具体化是最能提高威胁可信度的。作为顾客,为了提高自己说“其他商店更便宜”的可信度,可以具体化一个相对合理的低价,表示其他商店卖的是这个价格,自己只是在寻找是否会有更低的价格,如果没有,自己将会回到原来的商店交易,如果商家接受还价,威胁成功;如果商家不接受,这可能在一定程度上表明那件物品的成本可能真的相差不远了,那么在一定程度上顾客也算是威胁成功,买到了一个价值和价格较为相近的商品。作为父母,如果希望自己能用“打”这种方式真正威胁到孩子,那么父母必须狠下心来一次让孩子感受一下皮肉之苦,在美剧《绝望的主妇》中,一位妈妈就是一直威胁孩子然而从来不动手,所以孩子根本就不听她的话;但是偶然的一次机会,孩子在邻居家犯了错并且真的被打了以后,整个人都变得老实不再调皮,这也反映这种威胁必须具象化到身体的痛苦,才能给孩子起到威胁的作用。作为情侣中的女方,如果单纯提出分手已经不再具威胁效果,可以狠下心来对男方不理不睬一段时间,让男方切切实实感受到失去自己的痛苦,那么以后再提分手的时候,男方可能就会对自己更加珍惜,态度也不再会那么强硬。而对于中央的反腐政策,我认为中央在加大力度抓“老虎”的同时,也必须加大力度抓一些“苍蝇”并且加大宣传力度,只有这种杀鸡儆猴才能真正对那些动歪脑筋的官吏起到震慑的作用。生活中还有许许多多用到威胁的策略去博弈的例子,具体怎么灵活运用以及怎么提高可信度,需要就不同的事情具体分析,多运用多试验就自然而然能领会怎么做才对自己更有利。 尽管威胁和承诺的界限比较模糊,但是相比于威胁,承诺是奖励那些按照你的意愿行事的博弈者,是一种更为正能量的博弈。尽管如此,提高承诺的可信度依然尤为重要。如果你做出承诺,一定要让对方知道如果你不遵守承诺,对方一定可以惩罚你。这样,你背弃承诺也得不到好处,从而使博弈者更可能取得自己想要的结果。例如在租车交押金时,租车主一定会收比车价值更高的押金,这样租车者交押金所提出的承诺才是可实现的,从而最后促

不完全信息静态博弈

第八章 不完全信息静态博弈 这一章里我们讨论不完全信息静态博弈,也称为贝叶斯博弈(Bayes)。不完全信息博弈中,至少有一个参与者不能确定另一参与者的收益函数。非完全信息静态博的一个常见例子是密封报价拍卖(sealed —bid auction):每一报价方知道自己对所售商品的估价,但不知道任何其他报价方对商品的估价;各方的报价放在密封的信封里上交,从而参与者的行动可以被看作是同时的。静态贝叶斯博弈问题的主要来源也是现实经济活动,许多静态博弈关系都有不完全信息的特征,研究贝叶斯博弈不仅是完善博弈理论的需要,也是解决实际问题的需要。 8.1 静态贝叶斯博弈和贝叶斯纳什均衡 为了更好的说明不完全信息与完全信息之间的差异,我们用一个典型静态贝叶斯博弈作为例子,自然的引进静态贝叶斯博弈概念。 8.1.1不完全信息古诺模型 考虑如下两寡头进行同时决策的产量竞争模型。其中市场反需求函数由Q a Q P -=)(给出,这里21q q Q +=为市场中的总产量。企业1的成本函数为1111)(q c q C =,不过企业2的成本函数以θ的概率为222)(q c q C H =,以θ-1的概率为222)(q c q C L =,这里H L c c <。并且信息是不对称的:企业2知道自己的成本函数和企业1的成本函数,企业1知道自己的成本函数,但却只知道企业2边际成本为高的概率是θ,边际成本为低的概率是 θ-1(企业2可能是新进入这一行业的企业, 也可能刚刚发明一项新的生产技术)。上述一切都是共同知识:企业1知道企业2享有信息优势,企业2知道企业1知道自己的信息优势,如此等等。 现在我们来分析这个静态贝叶斯博弈。一般情况下,企业2的边际成本较高时选择较低的产量,边际成本较低时,选择较高的产量。企业1从自己的角度,会预测到企业2根据其成本情况将选择不同的产量。设企业1的最佳产量选择为*1q ,企业2 边际成本为H c 时的最佳产量选择为)(*2H c q ,企业2 边际成本为L c 时的最佳产量选择为)(* 2L c q ,如果企业2的成本较高,它会选择)(*2H c q 满足: 22*1])[(max 2q c q q a H q --- 类似地,如果企业2的成本较低,)(*2L c q 应满足: 22*1])[(max 2q c q q a L q --- 从而,企业l 为了使利润最大化,选择*1q 应满足: }])()[(1(])([(max {11*2111*212q c c q q a q c c q q a L H q ----+---θθ 三个最优化问题的一阶条件为: 2)( ,2)(*1*2*1* 2L L H H c q a c q c q a c q --=--=

完全信息静态博弈例子(作业)

例1:完全信息静态博弈在银行监管中的应用 一、完全信息静态博弈模型的建立 (一)博弈的参与人 商业银行(监管对象)作为理性经济人,其行为动机是部门、个人利益最大化。但由于在管理体制、经营方式、技术手段、人员素质、资产质量与外资银行之间存在差距,其经营难度和盈利能力都会受到不利的冲击。在遵循一定条件下的预期效用最大化的原则下,商业银行有足够的动力进行违规操作,例如私自变动利率或进行不符合政策的违规金融创新,借以获得竞争优势,实现最大化效用。 银监会作为监管者,通过行使行政管理、现场检查、非现场检查以及违规处罚等监管权力,对商业银行的市场准入和退出,日常业务营运等进行指导、监督、管理。而在目前市场经济没有完善的条件下,无论是现场检查还是非现场检查,都存在监管工作量大,连续性强的特点。因此,实行严格监管策略有着较高的成本:监管费用增加,监管机构“暗箱”操作增长,创造经济租金使商业银行寻租行为增多,商业银行内部创新能力削弱等等。监管成本的增加可能会超过市场交易成本。 (二)博弈的假设前提 (1)银监会的策略空间为严格监管和宽松监管;(2)银监会在进行严格监管工作时,有成本支出。当商业银行违规经营时,可采用罚款、取消高级人员资格等措施。但在商业银行合规经营时,银监会宽松监管会带来收益;(3)商业银行的策略空间是违规经营和合规经营;(4)商业银行合规经营时,无论监管者监管与否,商业银行都将得到自己的正常收益;(5)商业银行违规经营的期望收益是违规所得,其在违规经营中将获得超额利润,但在银监会严格监管的条件下也将付出成本。 注:R1、R2分别是银监会宽松监管,商业银行合规经营的正常收益。A为银监会采取监管措施所花费的成本;B为银监会在商业银行违规经营情况下,采取宽松监管所遭受的损失;C 为商业银行在违规经营条件下受到严格监管所造成的损失;M为银监会采取宽松监管,商业银行违规经营所获得的超额收益。其中A,B,C都与M成正相关。P为银监会严格监管的概率,1-p 是银监会宽松监管的概率;q是商业银行合规经营的概率,1-q是商业银行违规经营的概率。 二、博弈模型的分析 当商业银行合规经营时,银监会宽松监管的收益大于严格监管的收益,所以其最优选择是采取宽松监管;当商业银行违规经营时,银监会是采取严格监管还是宽松监管主要取决于A与B的比较。当A>B时,银监会采取宽松监管,商业银行的最优选择则是违规经营;当AB时,不管M与C的大小如何,银监会与商业银行之间存在纯策略纳什均衡(宽松监管,违规经营)。 其含义为:银监会采取严格监管措施付出的成本大于商业银行违规经营对其造成的损失

相关主题