下书网

风险-收益分析:理性投资的理论与实践(第2卷)全文阅读

外国小说文学理论侦探推理惊悚悬疑传记回忆杂文随笔诗歌戏曲小故事
下书网 > 哲学心理 > 风险-收益分析:理性投资的理论与实践(第2卷)

分割、信息与动态规划(DP)选择:一个例子

书籍名:《风险-收益分析:理性投资的理论与实践(第2卷)》    作者:哈里·马科维茨
推荐阅读:风险-收益分析:理性投资的理论与实践(第2卷)txt下载 风险-收益分析:理性投资的理论与实践(第2卷)笔趣阁 风险-收益分析:理性投资的理论与实践(第2卷)顶点 风险-收益分析:理性投资的理论与实践(第2卷)快眼 风险-收益分析:理性投资的理论与实践(第2卷)sodu
上一章目录下一章
    《风险-收益分析:理性投资的理论与实践(第2卷)》分割、信息与动态规划(DP)选择:一个例子,页面无弹窗的全文阅读!



想象一个友好的两人“双骰子”博弈,以此决定两个参与人中哪一个支付啤酒钱。博弈以投掷一次硬币来决定谁是“掷骰者”谁是“打赌者”开始。掷骰者投掷一对骰子。照例,如果这对骰子的和为7或11,那么掷骰者首次投掷即获胜;如果和为2、3或12,那么掷骰者就输了。如果首次投掷骰子的和为其他数,则其他值——4、5、6、8、9或10现在是掷骰者的点数。掷骰者继续投掷骰子,直到后续的投掷出现等于7或者掷骰者点数的和为止。在前一种情形中,打赌者获胜,掷骰者支付啤酒钱;如果在投出7之前先投出了掷骰者的点数,那么掷骰者获胜,由打赌者购买啤酒。

上述博弈是无时限的。例如,假设掷骰者的点数为8。由于在任何一次投掷中得到7的概率为6/36,得到8的概率为5/36,因此在任何一次既定的投掷中既不出现7也不出现8的概率为25/36。投掷100次骰子,既不出现7也不出现8的概率为。这相当于在售出了

(1000万)×(10亿)

张彩票的抽奖中拥有“1.5张”彩票。如果不假设博弈无限进行下去,而是假设在100次投掷后仍然没有人获胜两人就平摊账单,对每个参与人的期望结果也不会有什么影响。

我们将两个参与人分别称为参与人A和B。假设如果A获胜就分配分数S=+1,B获胜分配分数S=-1,并将100次接连的投掷后仍然没有参与人获胜这种比例微不足道的情形视为实际上不可能发生而忽略掉。不失一般性,我们可以假设所有的博弈都有102个时点,记为从-1到100。t=-1时的状态为“掷骰者有待确定”。t=0时的状态为“参与人A是掷骰者并且点数有待建立”,或者“参与人B是掷骰者并且点数有待建立”。当t>0时,状态可能为下列中的任何一个:

博弈结束,参与人A获胜;

博弈结束,参与人B获胜;

参与人A是掷骰者,点数为4;

参与人A为掷骰者,点数为5;

等等。对参与人B,情形是相同的。

表8-3计算了掷骰者的期望收益。第一列显示了首次投掷产生的骰子的和。第二列显示了首次投掷产生这个和在36个结果中的机会数,它等于这个和在表8-1中第五列出现的次数。第三列为在首次投掷的和等于第一列中数字条件下的期望收益。在首次投掷的和等于2、3、7、11或12的情形中,第三列的+1或-1直接根据双骰子游戏的规则得到。我们一会儿再回头说明第三列中的其他值。第四列是第一列中和的概率(等于第二列中的机会数除以36)与第三列中的条件期望值的乘积。式(8-12)确保这些乘积的和-0.014为掷骰者博弈的期望收益。

表8-3 双骰子博弈的概率



为弄清当首次投掷没有产生获胜者时表8-3第三列中的数据怎样计算得到,考虑点数为4时的收益。它等于

请读者证实,如果博弈在接下来的首次投掷后结束,这就是期望得分,也即给定4点或7点出现,(+1)乘以4点出现次数的比例加上(-1)乘以7点出现次数的比例。但如果接下来的首次投掷不能确定得分,获胜者由接下来的第二次投掷确定,或接下来的第三次、第四次投掷确定,那么它仍然是期望得分,除了100次接连投掷仍然不能确定胜负的比例微不足道而被忽略的情形外。再一次根据式(8-12)可知,-0.33是掷骰者的期望收益,而无论结果何时确定。

即使博弈持续了整个100次接连的投掷,它仍是第1卷定义的单期博弈,因为除参与博弈的初始决策外,它不涉及其他的决策。在拉斯维加斯,当点数已经建立时,掷骰者被允许增加赌注。但RDM掷骰者将不会接受这一选项(假定参与人希望在享受拉斯维加斯氛围的同时每小时输尽可能少的钱),因为即便是最有利的点数,期望损失也比整个博弈的期望损失要大。

现在,让我们引入其他一些增加赌注的机会。拉斯维加斯的赌场不会提供这些机会,因为它们可能有利于掷骰者,但在我们的友好博弈中允许它们存在,因为每个参与人都有相同的机会成为“打赌者”。具体而言,我们让掷骰者在给定信息下按自己的意愿将开胃菜加到赌注中,其成本与啤酒相当。

假设“掷骰者”不是掷两个骰子,而是被发给了两张牌,牌1来自一副“红牌”,牌2来自一副“蓝牌”。两张牌的概率与表8-1中骰子1和骰子2的概率相同。表8-1中标签为“条件期望收益(1)”的倒数第三列,如同表8-3中第三列,表示这对牌(或骰子)的和给定时的条件期望收益。下一列的标签为“条件期望收益(2)”,它表示给定牌1取不同值时博弈收益的条件期望值。例如,可以看出,如果牌1等于1,那么期望收益(如果赌注没有增加)为-0.27;如果牌1等于5,那么期望收益为0.21。表8-1的最后一列是当掷骰者仅被告知“第一张牌的值较小”,如等于1、2或3,或者仅被告知“第一张牌的值较大”,如等于4、5或6时的条件期望收益(如果赌注没有增加)。如前面所阐明的,这些条件期望收益是通过将式(8-12)运用于恰当的样本空间分割而计算得到的。

我们可以想象一个广义的双骰子博弈的不同版本,它们取决于掷骰者能够增加赌注时所拥有的信息。我们分析这样一个版本,其中掷骰者在被告知第一张牌的值是大还是小之后才拥有增加赌注的唯一机会。在这一情形中,RDM掷骰者具有关于系统当前状态的有限信息。但尽管如此,他能够计算出依赖于这一信息和所采取行动的条件期望结果。

至于是否应该增加赌注,这取决于掷骰者和打赌者的效用函数。到目前为止,博弈已经有两种结果,我们可以将这两种结果描述为“赢得D美元”或“输掉D美元”。因为效用函数的原点和刻度单位是任意的,如在第1章所阐释的,我们可以给每个参与人都赋予效用,赢得D美元就赋予效用+1,输掉D美元则赋予效用-1。

在我们的讨论中,暗含了另一种可能性:不参与博弈。我们隐含地假设这样做的效用是负值,因为参与人确实参与了博弈(由于博弈是对称的,如果参与博弈,每个参与人都必定有50-50的机会获胜或输掉博弈)。当我们加入掷骰者将赌注加倍这种可能性时,需要考虑5种可能的情形:赢得D美元、赢得2D美元、输掉D美元、输掉2D美元、不参与博弈。我们将它们的效用分别表示为

UI(D),UI(-D),UI(2D),UI(-2D),UI(0),I=A或B

再一次,我们忽略博弈完整进行下去而没有任何人获胜这种微乎其微的可能性。注意这里UI(D)并非第I个参与人享受免费啤酒的效用,而是参与博弈以及享受啤酒的效用。类似地,UI(-2D)是参与博弈以及为双方的啤酒和开胃菜支付总共2D美元的效用。

如果我们遵循vNM的传统,排除同时行动,那么我们就有一个嵌入4个时点t=0,1,2,3的三行动博弈(将这与本章前面的井字棋时间轴进行比较)。在行动1中,参与人A决定是否参与博弈。作为其结果,t=1时的状态为:

(1)参与人A参与博弈,轮到参与人B做决策;

(2)博弈不存在。

在后一种情形中,“博弈不存在”也是t=2和t=3时的状态。如果参与人A决定参与博弈,那么行动2就是参与人B决定自己是否也参与博弈。如果他拒绝参与博弈,那么t=2和t=3时的状态均为“博弈不存在”。然而,如果参与人B决定参与博弈,那么在到t=2之前,会发生一些事件,并且要决定第三步行动。尽管这些时点在例如博弈的计算机模拟中是离散的,但它们并非参与人必须选择行动的时点,因而不是博弈描述中的时点。特别地,在当前讨论的博弈中,投掷一枚硬币来确定“掷骰者”,然后抽取第一张纸牌,告知“掷骰者”它的值是大还是小。基于这一信息,作为博弈的行动3,掷骰者决定是否增加赌注。如果增加赌注或不增加赌注同样好,掷骰者就通过某个明确的规则,如“不增加赌注”来做出决定,这样他对行动3的选择就是t=2时状态的一个特定函数。

一旦掷骰者在t=2时做出决策,那么在到t=3和博弈结束之前,更多的事件可能发生:第一张牌亮牌了,第二张牌也抓取了。如果首对牌没有确定获胜者,就抓取多对牌,直到获胜者得以确定(我们假设抓取不超过100对牌)。在那个时候,t=3并且博弈结束。博弈的结果要么是“博弈不存在”,要么是某个参与人赢得价值D美元或2D美元的消费品。

如之前指出的,为求解这个博弈,每一个参与人都必须知道其他参与人的效用函数。如果博弈只有两个结果,那么这一点自动成立。如果博弈是确定性的完全信息博弈,并且每个参与人都知道其他参与人怎样给各种结果排序(和破解结点),那么也不需要这一条件。否则,就需要知道对手的效用函数,以便每个参与人都了解其他参与人在各种可能的情形下将会采取什么行动。

由于这个博弈的t=3,动态规划运算从依次考虑t=2时可能出现的每一个状态st开始。对某个s2,博弈的状态是博弈不存在,因而无须做出任何决策。如果t=2时博弈仍在进行,那么给定状态s2下所拥有的信息,掷骰者计算他能够采取的两个行动的条件期望效用。他将选择期望效用较高的行动,从而在给定他所拥有的信息条件下最大化博弈的条件期望效用,并通过对手预先知道的某个规则破解结点。这一行动确定了t=2时能够出现的每个状态下两个参与人整个博弈的期望效用。它们是两个参与人在t=1时的“导出”效用函数,就好像博弈是一个单期博弈,是这个博弈的支付一样。这个导出的单期博弈的结果之一,是确定t=1时每一个可能状态下参与人I的整个博弈的期望效用。这进而可以用于确定t=1时参与人B的最优首次行动,以及类似地确定t=0时参与人A的最优行动。这与井字棋游戏中从t=9倒推到t=8,然后从t=8倒推到t=7,然后倒推到t=6,5,4,3,2,1,0是类似的。两个博弈的区别是,由于井字棋游戏不包含随机变量,因而在假定每个参与人随后都会做出理性选择的前提下,t=8(或t=7,6等)时做出选择的参与人知道自己的行动将带来多少效用。在“双骰子”博弈的例子中,参与人只知道他将获得的效用的期望值。式(8-12)确保逆推过程中的每一步都是成立的。



上一章目录下一章
推荐书籍:银行审慎监管 充分就业与价格稳定 宏观经济思想七学派 经济增长黄金律 为什么我也不是保守派:古典自由主义的典型看法 经济增长理论 衰老的真相:你不可不知的37个迷思 微行动:成长就是从做好每件小事开始 未来生活简史:科技如何塑造未来 销售的常识:回归销售的本质,重构你的销售思维