第五章 共同进化 5.5 不讲交情或无远见的合作
对于多数怀疑论者说来,盖亚的麻烦在于将一个非活物的星球看作是一部“聪明的”机器。我们曾试图将毫无生气的计算机设计成人工学习机器,但却遭受了挫折。因此,在行星尺度内展开头绪纷乱的人工学习,其前景似乎挺荒谬。
但实际上我们高估了学习,把它当成一件难事,这与我们的沙文主义情节——把学习当成是人类特有的能力——不无关系。在本书中,我想要表述一种强烈的看法,即进化本身就是一种学习。因此,凡有进化(哪怕是人工进化)的地方就会有学习。
将学习行为拉下神坛,是我们正在跨越的最激动人心的知识前沿之一。在一个虚拟的回旋加速器里,学习正被撞裂成为基本粒子。科学家们正在为适应、归纳、智能、进化、共同进化等事物的基本成分编目造册,使之成为一个生命的元素周期表。学习所需的各种粒子藏身于所有迟钝的介质当中,等待着被组装(并往往自行组装)成奔涌灵动的事物。
共同进化就是多种形式的学习。斯图尔特·布兰德在《共同进化季刊》中写道:“没错,生态系统是一个完整系统,而共同进化则是一个时间意义上的完整系统。它在常态下是向前推进的、系统化的自我教育,并从不断改正错误中汲取营养。如果说生态系统是在维持的话,那么共同进化则是在学习。”
生物的共同进化行为也许可以用一个更好的术语来描述——共同学习,或者共同传授也行,因为共同进化的各方在相互学习的同时也在相互传授。(我们没有恰当的字眼来表述同时施教与受教,但假如做到了教学相长,我们的学校教育将会得到改善。)
一个共同进化关系中的施与受——同时施教与受教——使许多科学家想到了玩游戏。简单的儿童游戏如“哪只手里有钢镚儿?”具有“镜子上的变色龙”般的递归逻辑。藏钢镚儿的人进入这样一个无止境的过程:“我刚才把钢镚儿藏在右手里,那么现在猜的人会认为它在我的左手,因此,我要把它移到右手。但她也知道我知道她会怎么想,于是,我还是把它留在左手里。”
由于猜的人的思考过程也是如此,双方就构成了一个相互预测对方意图的游戏。“哪只手里有钢镚儿”的谜题和“镜子上的变色龙是什么颜色”的谜题相关联。从这类简单的规则衍生出的无限复杂性令约翰·冯·诺依曼非常感兴趣。在二十世纪四十年代早期,这位数学家就研发出用于计算机的可编程逻辑,并同维纳和贝特森一起开辟了控制论的新领域。
冯·诺依曼发明了与游戏有关的数学理论。他将游戏定义为一场利益冲突,游戏各方都试图预测其他方的举动,并采取一系列的步骤,以解决冲突。1944年,他与经济学家奥斯卡·摩根斯特恩合写了一本书——《博弈论与经济行为》。他察觉到,经济具有高度共同进化和类似游戏的特性,而他希望以简单的游戏动力学来阐释它。举例说,鸡蛋的价格取决于卖方和买方彼此之间的预期猜测——我出价多少他才能够接受,他认为我会出多少,我的出价应该比我能承受的价位低多少?令冯·诺依曼惊讶的是,这种相互欺诈、相互蒙骗、效仿、映像以及“博弈”的无休止递归一般都能够落实到一个明确的价格上,而不是无限纠缠下去。即使在股市上,当有成千上万的代理在玩着相互预测的游戏时,利益冲突的各方也能迅速达成一个还算稳定的价格。
冯·诺依曼最感兴趣的是想看看自己能否给这种互动游戏找出最理想的策略,因为乍一看来,它们在理论上几乎是无解的。于是他提出了博弈论作为解答。位于加利福尼亚州圣塔莫妮卡市的兰德公司是美国政府资助的智库。那里的研究人员发展了冯·诺依曼的工作,最后列出了四种有关相互猜测游戏的基本变体。每一个变体各有不同的输赢或平局的奖励结构。这四个简单的游戏在技术文献中统称为“社会困境”,但又可以被看作是构造复杂共同进化游戏的四块积木。这四个基本变体是:草鸡博弈、猎鹿博弈、僵局,以及囚徒困境。
“草鸡博弈”是供鲁莽的青少年玩的游戏。两辆赛车朝悬崖边奔去;后摔出来的司机是赢家。“猎鹿”是一群猎手面对的难题,他们必须合作才能把鹿杀死,如果没有人合作的话,那么开小差各自去撵兔子会更好些。他们是在赌合作(高回报)还是背叛(低,但是肯定有回报)吗?“僵局”是挺无聊的游戏,彼此背叛收益最高。最后一个“囚徒困境”最有启发性,在1960年代末成为两百多例社会心理学实验的测试模型。
“囚徒困境”是由兰德公司的梅里尔·弗勒德于1950年设计出来的。游戏中,两个分别关押的囚犯必须独立决定否认还是坦白罪行。如果两人都认罪,那么两人都会受到惩罚。如果两人都否认的话,则都会被无罪释放。但假如只有一人认罪,那么他就会得到奖励,而另一个则受到惩罚。合作有回报,但如果策略奏效的话,背叛也有回报。你该怎么办呢?
如果只玩一次,背叛对手是最合理的选择。但当两个“囚徒”一次又一次地玩,从中相互学习——也即“重复的囚徒困境”——游戏的推演就发生了变化。你不能无视对手玩家的存在;不论是作为强制的敌手还是同伙,他都必须受到重视。这种紧密相连的共同命运与政敌之间、生意对手之间或者生态共生体之间的共同进化关系非常类似。随着对这个简单游戏的研究的进一步深入,问题变成了:要想在长期内取得高分,面对“重复的囚徒困境”应该采取什么样的策略?还有,同无情或友善的各类玩家对垒时,该采取什么样的策略更容易取得成功呢?
1980年,密歇根大学政治学教授罗伯特·阿克塞尔罗德组织了一次锦标赛,征集了14条不同的用于“囚徒困境”的对策,以循环赛的形式看哪个对策最后胜出。最后获胜的是一个最简单的对策,叫做“一报还一报”,由心理学家阿纳托尔·拉普伯特设计。“一报还一报”是往复型策略,它以合作回报合作,以背叛回报背叛,往往产生一轮轮合作的周期。阿克塞尔罗德发现,重复游戏能产生一次性游戏所不具备的“未来阴影”之效果,这种效果鼓励合作,因为对玩家来说,用现在对他人予以的合作来换取今后他人给予的合作是一个合理的选择。合作的闪现使阿克塞尔罗德陷入沉思:“没有中央集权的自我主义世界需要具备什么条件才能涌现出合作的行为?”
1651年,托马斯·霍布斯宣称:只有在善意的中央集权帮助下才能产生合作。这一传统政治推论曾经在几个世纪里一直被奉为圭臬。霍布斯断言,没有自上而下的管理,就只会有群体自私。不管经济体制如何,必须有强大的势力来推行政治利他主义。然而,在美国独立和法国革命后逐步建立起来的西方民主制度表明,民意通达的社会可以在没有中央集权强力干预的情况下发展合作机制。个人利益也能孕育出合作。在后工业化经济里,自发合作是常有的事情。被广泛采用的工业标准(既有质量方面的,也有协议方面的,如110伏电压,还有ASCII码),以及因特网这个世界上最大的无政府形态的兴起,都使得人们更加关注孕育共同进化合作所需的必要条件。
这种合作不是新时代的精神至上主义。相反,如阿克塞尔罗德所说,这是一种“不讲交情、无需远见的合作”——是大自然的冷规则,适用于许多层面,并催生了自组织结构。不管你愿不愿意,多少都得合作。
“囚徒困境”这类游戏,不单只人类,任何自适应个体都可以玩。细菌,犰狳,或是计算机里的半导体器件,都可以根据各种回报机制,在眼前的稳妥收获与未来的高风险高回报之间做出权衡。当长时间与相同的伙伴一起玩这个游戏时,双方既是在博弈,又是在进行某种类型的共同进化。
每一个复杂的自适应组织都面临着基本的权衡。生物必须在完善现有技能、特质(练腿力以便跑得更快)与尝试新特质(翅膀)之间作取舍。它不可能同时做所有的事情。这种每天都会碰到的难题便属于在开发和利用之间作权衡。阿克塞尔罗德用医院作了一个类比:“一般情况下你可以想见试用某种新药比尽可能发掘已有成药的疗效回报来得低。但假如你给所有病人用的都是目前最好的成药,你就永远无法验证新药的疗效。从病人个人角度来讲最好不要试用新药。但从社会集合体的角度出发,做实验是必要的。”开发(未来收益)与利用(目前稳赢的筹码)之比应该是多少,这是医院不得不作的博弈。生命有机体为了跟上环境的变化,在决定应该在多大程度上进行变异和创新时,也会作出类似的权衡。当海量的生物都在做着类似的权衡并且互相影响时,就形成一个共同进化的博弈游戏。
阿克塞尔罗德发起的、有14位玩家参与的“囚徒困境”循环锦标赛是在电脑上进行的。1987年,阿克塞尔罗德通过设定一套系统拓展了这个电脑游戏。在系统里,有一小群程序玩家执行随机产生的“囚徒困境”策略。每个随机策略在和所有其它运行中的策略对阵一圈之后被打分,得分最高的策略在下一代的复制率最高,于是最成功的策略便得以繁衍和传播。许多策略都是通过“捕食”其他策略来取胜的,因而,只有当猎物能存活时,这些策略才能兴旺发达。这就导出了自然界荒野中俯拾皆是的生物数量呈周期性波动的机理,说明了狐狸和兔子的数量在年复一年的共同进化的循环中是如何起起落落的。兔子数量增,狐狸繁殖多;狐狸繁殖多,兔子死翘翘。但是没有了兔子,狐狸就得饿死。狐狸数量少了,兔子数量就多了。兔子多了,狐狸也就多了,以此类推。
1990年,在哥本哈根尼尔斯波尔研究院工作的克里斯蒂安·林德格雷将这个共同进化实验的玩家数扩展到一千,同时引入随机干扰,并使这个人工共同进化过程可以繁衍到三万世代之后。林德格雷发现,由众多参与“囚徒困境”游戏的愚钝个体所组成的群体不但重现了狐狸和兔子数量的生态波动,也产生出许多其他自然现象,如寄生、自发涌现的共生共栖,以及物种间长期稳定的共存关系等,就如同一整套生态系统。林德格雷的工作让一些生物学家兴奋不已,因为在他的漫长回合博弈游戏中出现了一个又一个的周期。每个周期的持续时间都很长;而在一个周期内,由不同策略的“物种”所形成的混合维持着非常稳定的状态。然而,这些盛世都被一些突发、短命的不稳定插曲所打断,于是旧的物种灭绝,新的物种生根。持新策略的物种间迅速达成新的稳定,又持续发展数千代。这个模式与从早期化石里发现的进化的常见模式相契合,该模式在进化论业界里叫做间断平衡,或简称为“蹦移(punkeek)”。
这些实验得出了一个了不起的结果,令所有希望驾驭共同进化力量的人都为之瞩目。这是众神的另一条律法:在一个饰以“镜子上的变色龙”式的叠套花环的世界里,无论你设计或演变出怎样高妙的策略,如果你绝对服从它,为它所用,从进化的角度来看,这个策略就无法与其他具竞争力的策略相抗衡。也即是说,如何在持久战中让规则为你所用才是一个具竞争力的策略。另一方面,引入少许的随机因素(如差错、缺陷)反而能够在共同进化的世界里缔造出长久的稳定,因为这样一来某些策略无法被轻易地“山寨”,从而能够在相对长的时期里占据统治地位。没有了干扰——即出乎意料或是反常的选择——就没有足够多的稳定周期来维持系统的发展,逐步升级的进化也就失去了机会。错误能使共同进化关系不致因为胶着太紧而陷入自沉的漩涡,从而保持共同进化的系统顺流前行。向你的错误致敬吧。
在电脑中进行的这些共同进化游戏还提供了另外的教益。零和与非零和游戏的区别是少数几个渗透到大众文化中的博弈论理念之一。象棋、选举、赛跑和扑克是零和游戏:赢家的收益取自输家的损失。自然界的荒野、经济、思维意识、网络则属于非零和游戏:熊的存在并不意味狼獾会失败。共同进化中的冲突环环相扣、彼此关联,意味着整体收益可以惠及(有时殃及)所有成员。阿克塞尔罗德告诉我,“来自博弈论最早也是最重要的洞见之一就是,非零和游戏的战略内涵与零和游戏的战略内涵截然不同。零和游戏中对他人的任何伤害都对你有好处。在非零和游戏中,你们可能共荣,也可能同衰。我认为,人们常用零和游戏的观点看世界,其实他们本不该这样。他们常说:‘我比别人做得好,所以我就该发达。’而在非零和游戏里,尽管你比别人做得好,你也可能和他一样潦倒。”
阿克塞尔罗德注意到,作为赢家,“一报还一报”策略从不琢磨利用对手的策略——它只是以其人之道还治其人之身。在一对一的对决中,该策略并不能胜过任何一个其他策略;但在非零和游戏中,它却能够在跟许多策略对抗的过程中取得最高累积分,从而夺得锦标。正如阿克塞尔罗德向“囚徒困境”的始作俑者威廉·庞德斯通指出的:“这个理念太不可思议了。下棋时怎么可能不击败任何一个对手就夺得锦标呢?”但是在共同进化中——变化是响应自身而变化——不用打击他人就能赢。企业界那些精明的首席执行官们现在也承认,在网络和结盟的时代,公司犯不着打击他人就可以大把地赚钱。这个就是所谓的双赢。
双赢是共同进化模式下生命所演绎的故事。
坐在堆满书籍的办公室里,罗伯特·阿克塞尔罗德还沉浸在对共同进化的理解和思考中。然后他补充道:“希望我在合作进化方面的工作有助于避免世界冲突。你看过国家科学院给我的奖状没有,”他指着墙上的一块牌匾说,“他们认为它有助于避免核战争。”尽管冯·诺依曼是发展原子弹的关键人物,但他并没有将他的理论明确地应用于核军备竞赛的政治游戏。在1957年冯·诺依曼逝世之后,军事战略智囊团开始利用他的博弈论分析冷战,冷战中两个相互为敌的超级大国带有共同进化关系中“强制合作”的意味。戈尔巴乔夫具有基本的共同进化洞察力。阿尔塞德罗说,“他看到,减少而不是增加坦克数量会让苏联更安全。他单方面裁掉了一万辆坦克,使得美国和欧洲更难有借口保持大规模的军事预算,借此全面展开了结束冷战的进程。”
对于“伪神们”来说,从共同进化中获得的最有用的教训就是,在共同进化的世界里,控制和保密只能帮倒忙。你无法控制,而开诚布公比遮遮掩掩效果更好。“在零和游戏中你总想隐藏自己的策略,”阿克塞尔罗德说。“但在非零和游戏中,你可能会将策略公之于众,这样一来,别的玩家就必须适应它。”戈尔巴乔夫的策略之所以有效,是因为他公开实施了这个策略;如果只是秘密地单方面削减武器则会一事无成。
镜子上的变色龙是一个完全开放的系统。无论是蜥蜴还是玻璃,都没有任何秘密。盖亚的大封闭圈里循环不断,是因为其中所有的小循环都在不断的共同进化沟通中互相交流。从苏联指令式计划经济的崩溃中我们了解到,公开的信息能够保持经济的稳定和增长。
共同进化可以看作是双方陷入相互传教的网络。共同进化的关系,从寄生到结盟,从本质上来讲都具有信息的属性。稳步的信息交流将它们焊接成一个单一的系统。与此同时,信息交流——无论是侮辱、还是帮助,抑或只是普通新闻——都为合作、自组织,以及双赢结局的破土发芽开辟了园地。
在我们刚刚迈入的网络时代中,频繁的交流正在创造日益成熟的人工世界,为共同进化、自发的自组织以及双赢合作的涌现而准备着。在这个时代,开放者赢,中央控制者输,而稳定,则是由持续的误差所保证的一种永久临跌状态。