本帖最后由 grandiose 于 2018-3-29 17:33 编辑
从小到大呢,我都是一个比较喜欢玩游戏的人,不管是电子游戏还是桌游,都玩过很多。我属于那种特别喜欢研究游戏策略,热爱通过合理的战术和规划取得胜利的人,每当在游戏中面临多个策略选择时,我都会三思而后行,尽量做出最佳的选择。有的时候也会和别人讨论甚至争执怎样的决策才是最好的,每当这种时候我都会思考,究竟怎么样才能做出更好的决定?
事实上,每个双人或多人参与的对抗游戏,比如象棋、英雄联盟、德州扑克,都可以视作是一场博弈。我们想知道如何做出更好的决定,那我们首先就要知道什么是好的决定,什么是坏的决定,评判决策的标准是什么?这其实就已经牵涉到了决策学的内容,本文并无意深究,只是想提供一个科学地评判决策质量的一个视角。
首先,总的来说,博弈可以分为两种,完全信息博弈和非完全信息博弈。前者就是双方玩家没有任何隐藏信息的游戏,所有信息都公开在明处,双方玩家随时都可以获取到全部的信息,比如说象棋、围棋就是典型代表,要注意判断的条件是是否有隐藏信息,而不是游戏是否有随机性,比如投骰子比大小是完全信息博弈,石头剪刀布是非完全信息博弈。这类博弈难度可以很高,但思考方式是很简洁明了的。如果没有随机因素,就是不断地在脑海中演算未来会出现的情况,也即下棋俗语“算棋”;如果有随机因素,那就仔细评估各个选择背后的概率以及期望,做出最有利于自己的决定。然而,这部分博弈只占非常非常少的一部分,我们玩的绝大多数游戏,甚至生活中工作中会碰到的博弈,都是非完全信息博弈,这也就是本文的重点,如何评判非完全信息博弈中的决策质量。
首先,我们需要引入一个概念,英文叫equity,中文我觉得叫权益比较合适。简单来说,权益就是你的胜率加上平局概率的一半,比如在一个双人博弈中,你有25%的胜率和50%的平局率,那你和对方的权益就都是50%,相当于这是一个势均力敌的结果。也就是说,权益是用来评估一个玩家在博弈中的优势程度的,权益越高代表越有优势,反之亦然。
说完了权益,我们就可以引入非完全信息博弈中的核心概念了,即Game Theory Optimal,游戏理论最优解(下文简写为GTO)。其定义为如果玩家A采取了某一策略,使得博弈中的任何其他玩家都无法单方面地削弱A的权益,并且A也无法再单方面地提高自己的权益,此时A采取的即是GTO策略。简单地来说,单方面地把自己的权益最大化,就是GTO。先举个最简单的例子,剪刀石头布中,GTO是什么?换句话说,不管对方出什么,我用什么策略,一定能获得50%的权益?想思考的读者可以自己想一会再下拉,不想的话可以直接拉到后面。
答案是,我以1/3的概率出剪刀,1/3的概率出石头,1/3的概率出布,即是GTO策略。此时无论对方以何种策略出拳,我的权益都是50%,因为在每一轮中,我赢,输,平的概率都是1/3,所以权益即为1/3+1/3*1/2=50%。于是我们便可以引入GTO中的重要概念,即mixed strategy,混合策略。混合策略就是说在非完全信息博弈中,在一部分完全相同的情况下(注意并不要求所有情况下),要能够随机性采取多种行动,另外就是同一种行动,要能对应多种不同的底牌,后面这点在石头剪刀布中体现不出来,但也是混合策略的重要概念。这里我们各以1/3的概率出拳,即是一种混合策略。
聪明的读者可能发现了,在石头剪刀布中,如果我们以GTO策略出拳,纵然对方赢不了我们,我们也不可能赢了对方。无论对方采取怎么差的策略,甚至是100%出剪刀这样的策略,双方的权益都还是50%。这是因为石头剪刀布这个博弈设计地太简单,99.9%的非完全信息博弈里,只要我们采取了GTO策略,对方不以GTO策略回应的话,他的权益就会下降,通常意味着我们的权益上升(多人博弈中,有时会让第三方的权益上升,我们的权益依然不变)。再举个例子,有名的囚徒困境,两个合伙犯罪的嫌疑人被抓到警局,每个人都可以选择背叛或信守。如果一方背叛而另一方信守,那么信守的坐牢15年,背叛的坐牢1年;如果两方均背叛,则双方都坐牢10年;如果双方都信守,则各自坐牢5年。此时GTO策略为100%选择背叛,因为不论对方怎么选择,我们都是选择背叛更有利。如果对方不幸选择了信守,我们的权益便自动上升。从都背叛的10年变成了单方面背叛的1年。也就是说,当我们执行了GTO策略,对方如果没有执行GTO,我们便提升了权益,对方丧失了权益。
要注意GTO策略所能获得的权益是单方面最大,并不总是在得知对方策略后,能获得最大权益的策略,正所谓善战者无赫赫之功。比如如果剪刀石头布中我知道对方100%出剪刀,那我100%出石头就行了,能获得100%的权益。但这样的策略建立在对对手策略的绝对了解上,这在绝大多数博弈中是不可能的。我并不是在否认知己知彼的重要性,但彼就是彼,盲目地认为自己已经了解了对手的策略是非常危险的,就像希特勒以为盟军一定在加莱登陆一样,聪明反被聪明误。所以当我们在评判决策的时候,要以GTO为基础,从GTO的角度看决策,而不能只着眼于对方会采取什么样的策略。越接近GTO的策略就越是好的策略,越偏离GTO的策略往往只能针对对方几个特定策略才能产生很大的权益提升,此时就需要越多的关于对方策略的了解度才能佐证,但这样的佐证往往又是不靠谱的。日常的策略讨论中经常会出现什么如果对方怎样怎样,你就该怎样怎样,这样的视角未免有失偏颇。与中国人的“成王败寇”理念相反,在现代博弈理论下,“不以成败论英雄”才是合理的视角,决策的质量评估从根本上来说只依赖于接近GTO的程度,其他因素比如关于对手会采取怎样的策略只能是辅助因素。
下面就可以谈到GTO理论在实际博弈中的应用,要注意在大多数非完全信息博弈中,真正的、完美的GTO是非常复杂的,往往不是人脑所能完全计算出来的,所以此时要学会化繁为简,从一些简单的角度去逼近GTO,执行一些简单明了的近似GTO策略。检验一种策略是否接近GTO的一种简单方法是假定对手知道我们要采取某一策略,是否有很好的针对策略,我个人称之为“明牌检验法”。
例1:第一次玩一个战棋,背景是斯大林格勒战役开始前,你是苏军,如何选择GTO策略?一个简单的接近GTO的策略就是——按照历史路线打一遍。既然历史已经证明了历史上的策略是可以成功的,那么在对一个棋机制不太了解的情况下,重演一下历史策略,总归不会是差的选择。明牌检验法可知,德军玩家就算知道你要按历史路线进攻,也没法有很好的针对方案。因为历史上斯大林格勒战役进程中德军并没有犯下非常非常重大的错误,最大的致命错误已经发生在了战役前的部署上。要是这种情况下你还被德军玩家暴打了,那这棋很可能有问题(滑稽)。
例2:很多战棋中,防守方都需要预先设置一些隐藏的火力点,此时如何选择GTO部署方案?比如在Elusive Victory中,埃及军队需要部署数十个隐藏SAM导弹营。在部署的时候要尽可能地考虑到对方所有可能的飞行路线,不要想当然地觉得对方一定从哪条路线飞过来。在对方优势的路线(比如路程近,固定防空点少),就倾向于部署更多的导弹营;对方劣势的路线,就倾向于部署更少的导弹营,但不能没有。最终目标是,就算我把这么一份布防图交给以色列玩家,以色列玩家依然觉得自己无从下嘴,只能上来拼拼运气。
写在最后的话: GTO策略可以说是一个完美的盾,一个任何情况下都可以采用的优质策略。但这并不代表,我们就收起了我们锋利的矛。在很多战棋中,往往对弈双方都有中途变换策略的机会。当我们对博弈对手有了真正足够的了解的时候,不要犹豫,选用最针对的策略,即刻亮剑。剑锋所指,所向披靡!
|