《合作的复杂性》:在博弈中建立规范的机制

《合作的复杂性》:在博弈中建立规范的机制

首页游戏大全噪声更新时间:2024-04-11

本书以战略博弈论为基础,研究政治博弈和市场博弈中各主体的应对策略。该书设计了一个贴近人类社会群体的现实情境,介绍了噪声因素和游戏规则,利用计算机程序进行建模,进行实验,并从理论上分析了可行性。本书提供了面对背叛、维护规范、选择营地等方面的合作方法,帮助大家在合作中获得更好的收益。

密歇根大学政治学与公共政策学教授、美国科学院院士、著名行为分析与博弈论专家罗伯特·阿克塞尔罗德以其在博弈论与复杂性理论上的根本突破而闻名。

一、如何处理噪音

“噪音”是指游戏参与者的意外背叛。我们知道,在十全十美的情况下,在屡次囚徒困境中,如果双方选择合作战略,继续合作,将实现合作共赢。然而,在真实的游戏情境中,参与者很可能会犯错误。当计算机出现系统故障时,我们呢?你犯了错也没关系。就像约会一样。A按协议来,B却忘了时间。结果,他把a放鸽子了。没关系。打电话给我道歉,一切都会解决的。

但是,如果甲方必须严格采取“一报一报”的策略,那么乙方的错误将被视为背叛。因此,甲方将以背叛来反击。乙方下次只能用背叛来对抗背叛,然后甲方会在这样的循环中继续背叛,很快就不需要任何策略了,因为甲、乙已经成为甲、乙的过客,这显然不是我们所期待的结果。我们不能因为一个偶然的错误而完全破坏合作关系。

那么,如何解决“噪音”问题呢?这本书告诉我们三种方法:宽容、忏悔和巴甫洛夫式的学习规则。

“宽容”是指被背叛的一方不应对另一方的一个错误进行报复,特别是在另一方的错误是无意的情况下;

“悔改”是指一方的背叛。如果是他的无意损失导致了另一方的背叛,那么他不应该继续背叛;

“巴甫洛夫学习规则”是指建立一个规则,如果最近的收益足够高,那么继续选择最后的策略,如果收益不好,那么改变策略。

计算机仿真结果表明,具有“宽容”和“忏悔”的“一报一报”是处理噪声的有效手段。但“巴甫洛夫式的学习规则”看起来很美,但实际上,它们并不健壮,也就是说,最终的收益并不稳定。

对“噪音”处理的研究告诉我们,在现实生活中,要想通过互利共赢来增加利润,就应该原谅别人的无心之过,主动改正自己的错误。事实上,“噪音”环境更接近我们的现实生活。人们常说人是理性的动物,但更准确的表述应该是:“人是理性的动物”,但并不保证你每次都会做出理性正确的决定。

有一个成语叫“早三晚四”。它来源于庄子的一个寓言。据说宋代有一位老人养猴子。一开始,他给每只猴子早上四粒小米,晚上四粒小米。后来,老人的收入下降了。于是他对猴子们说,我早上给你们三粒小米,晚上给你们四粒怎么样?猴子们都尖叫着抗议,于是老人说:“我早上给你四只,晚上给你三只,好吗?”?现在猴子们都高兴了。

这个故事本来是为了讽刺猴子的愚蠢,但我们人类并没有那么聪明。例如,当你购买打折产品时,你会感到非常高兴。结果如何?无良商人以前已经提高了价格。他们买的价格不过是原价。

因为每个人都会犯错,包括我们自己,所以没有必要因为对方的无意损失而取消合作。有了宽容和忏悔,合作共赢才能更加常态化。

二、如何形成规范

让我们谈谈合作的第二件事:如何形成规范。

这里的“规范”包括法律意义上的规范,以及伦理、文化、行业规则等方面的规范。

我们的生活离不开任何地方的规范。比如,临近春节。在国外工作的人需要买火车票才能回家。他们必须先来排队买票。谁在网上抢票,谁就先抢票。这样的规范对所有人都是公平合理的。遵守这种准则叫做合作。如果有人插队或用某种技术作弊,在制定规范时是违反规则的,这种行为被称为背叛。

我们需要了解的是规范是如何形成和维持的。行为主义的基本原则告诉我们,当一个行为得到回报时,它往往会继续下去。当它受到惩罚时,往往会停止。因此,规范连续性的关键在于需要惩罚那些被发现背叛的人。为此,作者进行了计算机仿真。研究结果表明,一开始,由于人们倾向于惩罚背叛者,背叛的程度逐渐降低。然而,随着选择惩罚背叛者的人数逐渐减少,背叛者的人数开始增加,最终规范趋于崩溃。为什么?

作者指出,模拟实验中规范的最终崩溃是由于缺乏对背叛者惩罚的激励。也就是说,惩罚一个背叛者需要付出一些代价。但是,惩罚者的直接利润相对较小,甚至没有。例如,我们排队买音乐会的票。因此,有些人甚至强行插队,所以我们必须惩罚背叛者。这需要我们的理论。有时甚至会有争执,甚至拳脚相向。这种惩罚行为可能会耽误我们自己的事情,影响原本的快乐心情,甚至受到伤害。这些都是成本,但这种行为带来的直接激励并不高,大多数时候都不高,所以我们都选择对此视而不见。多一件事总比少一件事好。如果大家都这么认为,那就先来,先发球,然后按顺序安排,除了崩溃的规范。

因此,为了避免规范崩溃的终结,维护规范的稳定,我们需要一些机制。这些机制中最重要的是所谓的“元规范”“元规范”是指规范的规范。“meta”这个词的意思是某物。

比如,“元电影”是指关于电影的电影,我拍的电影是如何拍的;“元写作”是指关于写作的写作,我写的是如何写的。”“元规范”就是把有罪不罚当作一种背叛,惩罚那些不惩罚背叛者的人,也就是说,惩罚那些面对背叛而漠不关心“不作为”的人。

这有点像新的交通法,新的交通法规定,如果乘客知道司机酒后驾车,但不停车,事故发生后还需要承担部分民事责任。作者的观点是,元规范的力量往往非常强大。通过绑架那些不愿付出代价的人,用规范来惩罚背叛者,元规范有效地维护了规范。

除了元规范外,该书还列举了维持规范稳定性的其他机制,如统治、内化、威慑、认同、认同、法律和声誉。同时,笔者也指出,规范不一定带来平等,规范影响下的合作往往是被迫的。

三、如何选择阵营

“选择阵营”实际上也是个带有冷战时代色彩的词汇,现在,选择阵营,更多的意味着选择盟友,所以这件事说的其实是结盟的策略,或者更通俗点,是“站队”的学问。博弈中的行动者之间,结盟或者保持敌对,究竟受什么因素影响呢?过去的博弈论理论认为,对两个结盟的个体或者群体来说,只需要看联合起来的实力有多强大,而不需要考虑这两个个体或者群体的差异。

这个观点看上去有其深刻之处,用通俗的话来讲,没有永远的朋友,也没有永远的敌人,只有永远的利益。这个原则至少在国际政治领域,可说是非常的经典。但本书作者通过研究指出,竞争的参与者在选择盟友时,虽然不得不和与他有差异的个人或者群体协同工作,但他们仍然会对合作伙伴有所选择,他们会尽量使得盟友的差异最小化。其实这个结论是“如何形成规范”的一种延伸,因为差异最小化,意味着合作的双方更可能认同同样或者类似的规范,这样会使得合作更加稳定。

在商战中,有一种我们非常熟悉的战斗,叫“市场相容性标准之争”。多年以前,在高清光碟市场,索尼公司的蓝光标准和松下公司的HDDVD标准展开激烈争夺,双方各自寻找盟友,壮大自己的实力,最后索尼获胜,蓝光光碟成为市场王者,落败的松下公司只能放弃HDDVD标准,因为没有市场的认可,这个标准已经没有意义了。从这种标准之争中,我们也可以见到盟友差异最小化这个原理在起作用。一方面,试图参与竞争的企业为了使自己有更大的概率获胜,也就是“不会站错队”,一般会选择优势的、强势的一方。

然而,企业还有其他考虑,他们预期到如果自己的“战队”获胜,自己将获得一部分利益,为了使自己的利益最大化,此时就更需要选择差异性小的盟友,避免和竞争对手联盟。通过对自己和他人历史、现状和未来的综合评估,他们决定参与哪个阵营,每个参与者都这么考虑,最后的结果会达成纳什均衡。纳什均衡是稳定的,因为均衡中的每一个参与者都不能改变目前的策略,否则就会使收益减少,或者遭受损失。到目前为止,我们所说的关于选择阵营的研究,实际上还是基于囚徒困境的“理性模型”。然而有时候,我们在实际生活中的所谓“站队”,往往不具备理性思考的条件。

前面说过,每个人都不是完美理性的,所以理性都是相对的,这是其一,其二呢?面对复杂的现实生存,要求人做到高度理性已经是一种奢望了,更不要说绝对理性。所以人们的行动往往是基于简单的决策方式,而不是理论上的理性选择。这类简单决策中,很重要的一点是过去的经验,我们把它叫做“进贡模型”。

唐玄宗前期,我国实际控制了西域绝大部分中小国家,这些国家向大唐王朝岁贡称臣,后来,阿拉伯帝国阿拔斯王朝崛起,与大唐西域驻军发生冲突,并击败了唐军,史称“怛罗斯之战”。然而,有趣的是,唐朝虽败,西域诸国却仍旧年年向唐朝进贡,直到“安史之乱”爆发,唐朝才逐渐失去对西域的控制,甚至在战乱初期,西域蕃兵还曾助唐朝平叛。

从理性的角度看,如果争取民族独立,摆脱附属地位是不可动摇的绝对利益,那么,唐朝失败或战乱时,西域诸国的选择应该是争取独立或者与阿拉伯谈判,争取更大的收益。然而,绝大部分国家并没有这样选择。

“进贡模型”就假设,行动者的选择基于相互之间过去和对方建立起的某些承诺,而不是出于理性计算。所以“进贡模型”并不是一种理性模型,而是类似于一种心理模型。这类心理可能是“如果不向某人付出,就会遭受更大的损失”,也就是“进贡”换取更小的损失,也可能是“你要支持过去帮助过你的人”,因为“以后当你有需要时,他们也可以帮你”。

由于是基于经验而不是基于理性,进贡模型下的选择可能不是正确的,但对于参与者来说,却自认为是有足够理由的。事实上,从过去的经验中发现规律,用来预测未来,一直就是我们人类的生存方式。

最后还有一种“站队”的形式是文化认同。要实现文化认同,实现一定规模的文化集群,就要了解文化交流和散布的规律。研究发现,交流发生在特征近似的个体中间,比如共同信仰、共同爱好、社会地位接近等等,效果是会更好,用我们常说的话就是有共同语言的人之间更容易交流并达成共识。所谓“物以类聚,人以群分”说的也是这个道理。

总结

以上就是这本书的主要内容。

通过增加“宽容和悔悟”识别并处理好重复囚徒困境的噪音问题,可以使“一报还一报”继续成为类似博弈环境下的最佳选择;而在多人多重博弈环境下,多种规范的形成和维持,以及通过差异最小化来选择同伴,参考过去的经验和双方各个方面文化特征的相似性来“站好队”,这三件事则是至关重要的问题。

竞争与合作是人类社会的永恒主题,如何避免恶性竞争,如何实现合作共赢,我们也许会从阿克塞尔罗德的博弈论研究中,得到一些有益的启示。

更多经典管理书籍精*读,点击下方专栏卡片了解↓↓↓↓

↓↓ 扩展阅读 ↓↓

查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved