博弈论2：鼓励合作的五个策略

2024-05-12

1. 博弈论2：鼓励合作的五个策略

1.虽然人们会互相欺骗，彼此的利益也不一致，但合作的愿望总是有的，在看起来最不可思议的地方，比如你死我活的战场上，敌对双方都有合作。
  
 2.著名的阿克斯罗德实验，实验中脱颖而出的最佳策略："一报还一报"。
  
 3.鼓励合作的五种策略，即引导人们看得长远、改变支付结构、教会人们互相关心、有条件合作比无条件合作更好、让别人看清楚你的策略。你明白了一个道理，合作比不合作好，但要知道，在什么时候采取合作的策略。
  
 1. 西线无战事
  
  
 这个故事发生在第一次世界大战期间。第一次世界大战打得极为惨烈。在西线的战场上，交战双方的军队很快陷入持久的拉锯战。双方都挖了战壕，把战壕前方范围的树砍倒，留出一块开阔地带，然后躲在战壕里，架起机关枪。如果对方发起进攻，一旦进入机枪的射程，你就可以把他们统统撂倒，但是，你也没法发起进攻，因为对方的部队也躲在战壕里头，也能在你进攻的时候把你消灭掉。
  
 当时，驻守在前线的部队大多是以营为单位。一个营也就一千人左右，营里的军官和士兵彼此都很熟悉，基本上自成一体，所以，一个营里的人比较容易达成共识。一开始，双方打得很激烈，你打死我的士兵，我就发动反击，给你造成相等的伤亡。但是，过了仅仅两三个月，西线战场上的枪声稀疏了。
  
 一开始，可能是交战双方都饿了，开饭的时间正好一样，于是，吃饭的时候双方就停火了。也可能，出现了一段极其糟糕的天气，双方都在壕沟里躲雨，冻得发抖，顾不上交战。不管是什么原因，交战双方的士兵形成了一种默契，开始实行"我活也让你活"的策略。
  
 这个策略其实很容易理解。战壕的后面是道路，运输部队会送来粮食和弹药，医生和护士会把伤员抬走。你要是想炸掉这些运输队，那是很容易的。但是，如果你炸了别人的运输队，别人一样会炸掉你的运输队，于是，你的粮食、弹药和医药就无法及时补给。于是，双方都有一个默契，就是不攻击运输部队。
  
 这是不是意味着双方的士兵想和好，想跟对方交朋友？不是的，是你的敌人，还是你的敌人。你要是露出软肋，敌人一样会狠狠地干掉你。你不能随随便便挑衅，但也不能示弱。那怎么办？双方会在固定的时间，开枪射击，显示自己的实力。比如晚上七点，英军开始瞄准墙上的一个点射击，直到把墙打烂。每天射击的时间非常精准，你都可以根据枪声对表。
  
 那会不会出现走火呢？当然会了。一个英国的士兵回忆，有一次他和战友正在喝茶，突然听见外面传来一阵枪炮声。大家出去一看，都很气愤，因为按照双方的默契，这个时候是不应该打枪的，可恶的德国人居然开火了。这是个意外呢，还是德国人要发起进攻？就在大家纷纷猜测的时候，对方阵营里有一个大胆的德国人站出来，冲这边喊话说："对不起，这个不是我们干的，这是可恶的普鲁士炮兵干的，我希望你们没有人受伤。"
  
 你看，在最不可能出现合作的地方，居然能够出现合作。这是不是一件很神奇的事情？
  
 2. 一报还一报
  
 我讲这个故事，是为了引出政治学家阿克斯罗德的一个著名的研究。他邀请了很多专家，有的是计算机科学家，有的是政治家，有的是经济学家，有的是心理学家，各种背景、各国国籍都有。他请大家提交不同的游戏规则，并用计算机程序模拟出来。然后，他做了一个实验，把代表各种游戏规则的程序都输入计算机，让这些策略互相博弈，看哪一种最终会胜出。最后，他发现获得冠军的是一种叫"一报还一报"的策略。这个策略的提出者就是我们在"家庭关系"那个学习单元介绍过的心理学家拉波波特。
  
 拉波波特提交的这个"一报还一报"策略其实很简单，一共就三条。第一，不主动作恶，也就是说，我不会首先背叛别人。第二，以牙还牙，也就是说，你要背叛我，我就会惩罚你。第三，如果你在背叛我之后又回心转意了，又愿意跟我合作了，那我不计前嫌，继续跟你合作。
  
 阿克斯罗德看到结果，还有些不敢相信，怎么这么简单的规则，能够最终胜出呢？后来，他又搞了一轮竞赛，邀请了更多的专家提交候选策略。拉波波特教授把他这个"一报还一报"的策略原封不动地第二次提交上去，结果，在第二次竞赛中，他又赢了。
  
 我们来看看这个 "一报还一报"策略。它有什么特点呢？第一，它很善良，不会机关算尽，陷害别人。第二，它不盲目地善良，你要是对它不好，它就会对你不好。第三，它比较宽容，允许对方改正错误。最后，它非常简单，简单到了别人一眼就能看出来它的"个性"，具有很强的可识别性，别人不会看走眼。
  
 我再告诉你一个更好的消息。阿克斯罗德教授还发现，如果其它的策略都很狡诈，那么，"一报还一报"策略在最开始是会吃亏的。但是，不要担心。只要突破一个小小的临界点，也就是说，只要有一小部分人坚持"一报还一报"策略，他们就能在这个乱世中找到自己的"台风眼"，他们就能互相合作，不仅能生存下来，还会吸引越来越多的人追随他们。也就是说，即使这个世界已经沉沦，只要有那么一小批人愿意跟你坚持道德底线，你仍然可以过得很好。没有人能够强迫你堕落，除非你自愿。
  
 3. 鼓励合作的五个策略
  
 这个结论真是太鼓舞人心了。当然，这个世界上有合作，就会有背叛，如果想要鼓励合作，你可以尝试五个策略。
  
 第一种策略是引导人们看得长远。你要想让别人跟你合作，就要让他知道，这不是一锤子买卖，以后的合作还多着呢。一个有用的办法是增加博弈的次数。怎么做呢？你可以把一个大的谈判分成很多小的步骤。很多次小的谈判，比一次大的谈判更容易促进合作。
  
 大名鼎鼎的基辛格博士就这么干过。第四次中东战争结束后，他为了促使以色列从西奈半岛撤军，帮助以色列取得埃及的信任，就专门把撤军的过程分成了很多小步骤。这样一来，埃及就可以知道以色列做到了哪一步，也就更容易识别出以色列合作的诚意。
  
 第二种策略是改变支付结构。要是合作的收益更大，人们就更愿意合作，要是背叛的成本更高，人们就更不愿意背叛。那么，我们怎么能够改变合作的收益，或是增加背叛的成本呢？你要是身在局中，是没有办法的，但如果你身在局外呢？警察审问犯人的时候，不是总说："坦白从宽，抗拒从严"吗？这就是想通过改变支付结构影响犯人的决策。
  
 第三种策略是教会人们互相关心。经济学家会假设支付结构都是事先给定的，是理性人自己计算出来的，其实不然，文化和教化，都会影响到人们的观念，而观念会影响到人们对成本收益的判断。从生物进化的观点来看，利他主义更容易在亲属之间维持，因为你们的基因更为相似，不过，人们之间的利他主义也可以在更广的范围内传播，从长期来看，利他主义也是一种互惠，你对别人好，是期待别人以后对你好。维持这种信任，靠的是社会风气。有的文化更鼓励信任，那么，接受了这种文化的社会群体就比其它的社会群体更容易合作。
  
 第四种策略是教育人们要回报。我们从小听老师和父母告诉我们，要与人为善。这是一种无条件的合作。无条件的合作听起来好像达到了一种更高的道德水平，但效果未必更好，因为这会鼓励不守规矩的人去欺负守规矩的人。博弈论告诉我们的是，有条件的合作比无条件的合作更好，"以直报怨"比"以德报怨"更好，因为对背叛有报复，至少是有可以报复的威慑力，更有利于把其他人拉回合作的轨道。当然，我们也要时刻记住宽恕。不要让"一报还一报"引起连锁性的复仇。
  
 第五种策略是让别人看清楚你的策略。有人觉得，最好是在人前隐藏自己，这样自己知道别人，别人不知道自己，不是更有优势吗？有时候是这样的，但未必总是如此。如果别人不知道你的策略，别人可能会从最恶意的动机猜测，反而对你不利。做你自己，我行我素，在大多数情况下都是更好的策略。你不可能讨好所有的人，试图讨好所有的人，最后一定是得罪了所有的人。做人何必那么累呢？不如清清爽爽地做人，喜欢我的跟我来，不喜欢我的拉倒。

博弈论2：鼓励合作的五个策略

2. 在博弈论中，什么是合作博弈？

案例研究  囚犯两难处境的比赛
假想你正与被关在另一个屋子里的“嫌疑”人进行囚犯两难处境的博弈。而且，再设想这种博弈不是进行一次而是多次。你博弈最后的得分是你被监禁的总年数。你希望使这种得分尽可能地少。你应该用什么战略？你应该从坦白还是保持沉默开始？另一个参与者的行动会如何影响你以后的坦白决策？
多次的囚犯两难处境是极为复杂的博弈。为了鼓励合作，参与者应该相互惩罚不合作行为。但以前描述的杰克和吉尔的水卡特尔的战略——只要另一方违约，一方就永远违约——得不到宽恕。在反复许多次的博弈中，在不合作时期之后，允许参与者回到合作结果的战略，可能是较合人意的。
为了说明哪一种战略最好，政治学家罗伯特?阿克塞尔罗德（Robert Axelrod）进行了一场比赛。人们通过输人为反复进行囚犯的两难处境而设计的电脑程序进入比赛。每个进行博弈的程序都对应于所有其他程序。得到狱中总年数最少的程序的是“赢家”。
赢家结果是被称为一报还一报的简单战略。根据一报还一报，参与者应该从合作开始，然后上一次另一个参与者怎么作自己也怎么做。因此，一报还一报参与者要一直合作到另一方违约时为止；他违约到另一方重新合作时为止。换句话说，这种战略从友好开始，惩罚不友好的参与者，而且，如果对方改变就给予原谅。令阿克塞尔罗德惊讶的是，这种简单的战略比人们输人的所有较复杂的战略都好。

3. 合作博弈的定义

博弈根据是否可以达成具有约束力的协议分为合作博弈和非合作博弈。合作博弈研究人们达成合作时如何分配合作得到的收益，即收益分配问题。合作博弈采取的是一种合作的方式，或者说是一种妥协。妥协其所以能够增进妥协双方的利益以及整个社会的利益，就是因为合作博弈能够产生一种合作剩余。这种剩余就是从这种关系和方式中产生出来的，且以此为限。至于合作剩余在博弈各方之间如何分配，取决于博弈各方的力量对比和技巧运用。因此，妥协必须经过博弈各方的讨价还价，达成共识，进行合作。在这里，合作剩余的分配既是妥协的结果，又是达成妥协的条件。

合作博弈的定义

4. 比较同时决策博弈的纯策略和混合策略

纳什均衡，又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。在一个博弈过程中，无论对方的策略选择如何，当事人一方都会选择某个确定的策略，则该策略被称作支配性策略。
由于决策问题的性质不同，群体决策与个人决策的差异及决策人个人的风格不同，其决策的时间和决策的方法也不相同。决策理论可分为传统的和现代的两种。传统决策理论是，在决策时遵循最优化原则来选择实施方案。现代决策理论的核心是令人满意的原则。 

分类：
1、按决策范围分为战略决策、战术决策和业务决策；
2、按决策性质分为程序化决策和非程序化决策；
3、按决策主体分为个人决策和群体决策；
4、按决策问题的可控程度分为确定型决策、不确定型决策和风险型决策。
决策问题：决策问题通常分确定型、非确定型、风险型三种。

5. 什么是非合作博弈？什么是合作博弈？

1、非合作博弈是指在策略环境下，非合作的框架把所有的人的行动都当成是个别行动。它主要强调一个人进行自主的决策，而与这个策略环境中其他人无关。
博弈并非只包含了冲突的元素，往往在很多情况下，既包含了冲突元素，也包含了合作元素。即冲突和合作是重叠的。
2、合作博弈是指一些参与者以同盟、合作的方式进行的博弈，博弈活动就是不同集团之间的对抗。在合作博弈中，参与者未必会做出合作行为，然而会有一个来自外部的机构惩罚非合作者。
合作博弈亦称为正和博弈，是指博弈双方的利益都有所增加，或者至少是一方的利益增加，而另一方的利益不受损害，因而整个社会的利益有所增加的。

扩展资料：
通过有效引导，使市场和政府形成合作博弈，减少政策执行层面摩擦，真正防控风险。
通常所谓监管和被监管之间的“猫鼠游戏”，属于非合作博弈的典型表现。在利益和目标相互影响的非合作博弈中，如果只考虑自身利益的最大化，那么必然对其他参与方的利益产生负面影响。若这种博弈横亘在市场与政府之间，摩擦成本不断增大，势必阻碍政策目标的实现。
实际上，监管者和被监管者之间也存在合作空间，存在合作博弈选择。合作博弈重视合作后的收益分配，将使博弈双方均受益，不会产生“谁受损、谁受益”问题。现实生活中，市场与政府之间大多处于非合作博弈和合作博弈之间，非合作博弈并不常见。
应该看到，防控风险既是监管目标，也是被监管者的底线要求，市场与政府能形成最大公约数。类似防控风险而产生监管与被监管之间的博弈，完全有可能被纳入合作博弈的范畴，
这就需要监管者能够有效引导市场形成良性预期，推动被监管者顺应监管政策导向自发调整，成为防控风险主体。
参考资料来源：百度百科—非合作博弈
参考资料来源：百度百科—合作博弈

什么是非合作博弈？什么是合作博弈？

6. 什么是非合作博弈？什么是合作博弈？

1、非合作博弈是指在策略环境下，非合作的框架把所有的人的行动都当成是个别行动。它主要强调一个人进行自主的决策，而与这个策略环境中其他人无关。2、合作博弈是指一些参与者以同盟、合作的方式进行的博弈，博弈活动就是不同集团之间的对抗。在合作博弈中，参与者未必会做出合作行为，然而会有一个来自外部的机构惩罚非合作者，博弈双方的利益都有所增加，或者至少是一方的利益增加，而另一方的利益不受损害，因而整个社会的利益有所增加的。一个完整的博弈应当包括五个方面的内容：第一，博弈的参加者，即博弈过程中独立决策、独立承担后果的个人和组织；第二，博弈信息，即博弈者所掌握的对选择策略有帮助的情报资料；第三，博弈方可选择的全部行为或策略的集合；第四，博弈的次序，即博弈参加者做出策略选择的先后；第五，博弈方的收益，即各博弈方做出决策选择后的所得和所失。拓展资料：从博弈的研究范式来划分，可分为传统博弈论和演化博弈论；从博弈的具体应用来划分，可分为静态博弈和动态博弈。静态博弈是指在博弈中，两个参与人同时选择或两人不同时选择，但后行动者并不知道先行动者采取什么样的具体行动。对双方来说，都容易形成混沌的行为重组，由于规则的严密与精细，任何人因时间问题、资金问题、心理问题等等，致使在多次均衡后直到不明不白地造成大输，参与静态博弈和动态博弈的大部分都是这种人。动态博弈是指在博弈中，两个参与人有行动的先后顺序，且后行动者能够观察到先行动者所选择的行动。

7. 简单的介绍一下非合作博弈

博弈论根据其所采用的假设不同而分为合作博弈理论和非合作博弈理论。前者主要强调的是团体理性；而后者主要研究人们在利益相互影响的局势中如何选择策略使得自己的收益最大，即策略选择问题，强调的是个人理性。目前经济学家谈到博弈论主要指的是非合作博弈，也就是各方在给定的约束条件下如何追求各自利益最大化，最后达到力量均衡。 
举例：有一天，一位富翁在家中被杀，财物被盗。警方在此案的侦破过程中，抓到两个犯罪嫌疑人，斯卡尔菲丝和那库尔斯，并从他们的住处搜出被害人家中丢失的财物。但是，他们矢口否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离，分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。检察官说，“由于你们的偷盗罪已有确凿的证据，所以可以判你们一年刑期。但是，我可以和你做个交易。如果你单独坦白杀人的罪行，我只判你三个月的监禁，但你的同伙要被判十年刑。如果你拒不坦白，而被同伙检举，那么你就将被判十年刑，他只判三个月的监禁。但是，如果你们两人都坦白交代，那么，你们都要被判5年刑。”斯卡尔菲丝和那库尔斯该怎么办呢？他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖，结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以，按照亚当·斯密的理论，每一个人都是从利己的目的出发，他们选择坦白交代是最佳策略。因为坦白交代可以期望得到很短的监禁———3个月，但前提是同伙抵赖，显然要比自己抵赖要坐10年牢好。这种策略是损人利己的策略。不仅如此，坦白还有更多的好处。如果对方坦白了而自己抵赖了，那自己就得坐10年牢。太不划算了！因此，在这种情况下还是应该选择坦白交代，即使两人同时坦白，至多也只判5年，总比被判10年好吧。所以，两人合理的选择是坦白，原本对双方都有利的策略(抵赖)和结局(被判1年刑)就不会出现。这样两人都选择坦白的策略以及因此被判5年的结局被称为“纳什均衡”，也叫非合作均衡。

简单的介绍一下非合作博弈

8. 什么是非合作博弈？什么是合作博弈

非合作博弈是指一种参与者不可能达成具有约束力的协议的博弈类型，这是一种具有互不相容味道的情形。非合作博弈研究人们在利益相互影响的局势中如何选决策使自己的收益最大，即策略选择问题。
负和博弈和零和博弈统称为非合作博弈,正和博弈亦称为合作博弈。