——《互聯(lián)網(wǎng)時(shí)代的世界觀·關(guān)系宇宙》導(dǎo)讀之七十九
由陸天然、葉舟、胡均亮合著、國務(wù)院研究室中國言實(shí)出版社出版發(fā)行的《互聯(lián)網(wǎng)時(shí)代方法論叢書》第一卷《互聯(lián)網(wǎng)時(shí)代的世界觀·關(guān)系宇宙》一書科學(xué)地論證了博弈的最佳策略是“一報(bào)還一報(bào)”。
生活中的“一報(bào)還一報(bào)”合作策略
什么是“一報(bào)還一報(bào)”策略?
即“人不犯我,我不犯人,人若犯我,我必犯人”。為了進(jìn)一步理解“一報(bào)還一報(bào)”策略,在此不妨首先看看三個(gè)小故事:
故事一:
一次,張作霖逛街正自得其樂,突然聽到一聲吆喝,嚇得他打了個(gè)哆嗦,回頭一看,原來是個(gè)賣豆腐腦的,挑著擔(dān)子正從小巷里走出來。張大帥大怒:“給我抓起來!”賣豆腐腦的莫名其妙地被一直拉進(jìn)大帥府。“我要槍斃他!”張作霖說著,把小販一直拖到操場(chǎng)上。只聽“砰”的一聲槍響,小販即癱軟在地。不一會(huì)兒,只見小販蠕動(dòng)著身子,爬了起來。奇怪,身體絲毫無傷。這時(shí),張作霖得意地說:“剛才你嚇我一跳,現(xiàn)在我嚇你一死。”
故事二:
上世紀(jì)初,張作霖所屬的東北軍有兩名士兵無故被日本查道兵打死了,事后日方賠給士兵家屬每戶120元。張作霖對(duì)此十分憤怒,下令東北軍:“碰到日本查道兵就打,我也有錢。”東北軍得令后,很快打死了12個(gè)日兵,惹得日本駐沈陽領(lǐng)事跑去找張作霖,提出抗議,要求:一、懲兇;二、道歉;三、賠償;四、保證不再有類似事件發(fā)生。結(jié)果,張作霖這樣回復(fù):一、“胡子”殺了人跑了,既捉不到,自難嚴(yán)懲;二、不是東北軍干的事,為什么要我道歉;三、東北“胡子”很多,無法保證以后不再發(fā)生,四、賠償可辦到,依日本兵打死東北軍一人賠120元賠償。日本領(lǐng)事聞言無可奈何,此事只好不了了之。
故事三:
一個(gè)面包師每天從他一位農(nóng)民鄰居那兒購買黃油。有一天,他覺得本應(yīng)該是3磅重一包的黃油似乎太輕了點(diǎn)。
于是他開始定期地稱一稱黃油,發(fā)現(xiàn)每回都是分量不足,這等于他每次都多付了錢。
他特別生氣,便開始提起訴訟。這一來事情就鬧到了法官面前。
“您沒有天平嗎?”法官問農(nóng)民。
“有哇,法官先生,我有一架天平?!鞭r(nóng)民回答道。
“有很準(zhǔn)的砝碼嗎?”
“沒有,法官先生,我不需要砝碼?!?/span>
“沒有砝碼,那你怎么稱黃油呢?”
“這好辦,”農(nóng)民回答說,“你瞧,就在面包師從我這兒買黃油的那段時(shí)間,我也一直買他的面包。我總是要同樣重的面包。每次這些面包就作為稱黃油的砝碼。如果砝碼不準(zhǔn),那就不是我的過錯(cuò),而是他的過錯(cuò)了。
于是,法官判定農(nóng)民無罪,而面包師不得不承擔(dān)訴訟的費(fèi)用。
很顯然,誰都不是傻瓜。我們?cè)鯓訉?duì)待世界,世界就會(huì)同樣對(duì)待我們;我們?cè)鯓訉?duì)待周圍的人,周圍的人也會(huì)同樣對(duì)待我們。把自己最好的東西給別人,就會(huì)從別人那里獲得最好的東西。幫助別人越多,得到也會(huì)越多;愈吝嗇就愈會(huì)一無所有。
再接著講上文圖書訂貨商的故事分析:
劉收到了訂貨商的錢而未發(fā)貨,是劉首先選擇了背叛,那么,別人很快便不敢再交錢給劉了,不敢再跟劉往下合作下去了。劉因?yàn)榈谝惠喯炔扇”撑眩芸毂皇紫忍蕴鼍至恕?/span>
這就是最典型的——一報(bào)還一報(bào)合作策略。
劉如果選擇合作——對(duì)方也會(huì)選擇繼續(xù)合作。
劉如果選擇背叛——對(duì)方也會(huì)選擇直接背叛。
其實(shí),“一報(bào)還一報(bào)策略”在社會(huì)生活中最為常見:
我贊美你,你立即報(bào)以笑臉;我過年送了一筐蘋果給你,你“五一”送一箱“王老吉”給我;我給你撓背,你也給我洗頭,等等,諸如此類的事都是最常見的一報(bào)還一報(bào)。
那么,“一報(bào)還一報(bào)”合作策略究竟是聰明的策略還是愚蠢的策略?究竟會(huì)給自己帶來什么呢?
“一報(bào)還一報(bào)”為什么會(huì)勝利?
合作是人類最有利的生存方式,多數(shù)人都相信這一結(jié)論。但多數(shù)人是否選擇合作,卻不一定,因?yàn)槿藗儗?duì)他人是否合作心存疑慮。
有一個(gè)著名的假設(shè):囚徒困境。
“囚徒困境”是1950年美國蘭德公司提出的博弈論模型。兩個(gè)共謀犯罪的人被關(guān)入監(jiān)獄,不能互相溝通情況。如果兩個(gè)人都不揭發(fā)對(duì)方,則由于證據(jù)不確定,每個(gè)人都坐牢一年;若一人揭發(fā),而另一人沉默,則揭發(fā)者因?yàn)榱⒐Χ⒓传@釋,沉默者因不合作而入獄5年;若互相揭發(fā),則因證據(jù)確實(shí),二者都判刑3年。由于囚徒無法信任對(duì)方,因此傾向于互相揭發(fā),而不是同守沉默。
囚徒困境講述的就是在信息不對(duì)稱的前提下,人與人合作與背叛選擇中利益最大化的思維模擬。
C(合作)D(背叛)
C(合作)甲=3,乙=3甲=0,乙=5
D(背叛)甲=5,乙=0甲=1,乙=1
從上圖可知,甲乙雙方都選擇合作,收益為6,任何一方背叛,總收益為5,雙方都選擇背叛,總收益為2。
以此來看,合作會(huì)比背叛有利多了。問題在于,兩個(gè)囚徒真的會(huì)作出對(duì)雙方有利的選擇而不是只顧自己?jiǎn)幔楷F(xiàn)實(shí)中的囚徒,常常彼此揭發(fā),愿意選擇合作、共守秘密的反倒是極少數(shù)。
因此,有人認(rèn)為,雖然合作與信任是人類社會(huì)得以存在和發(fā)展的基礎(chǔ),但它們總會(huì)被自私所侵蝕。霍布斯甚至得出一個(gè)極悲觀的結(jié)論:無論人與人還是國與國的關(guān)系,隨著資源稀缺的加劇,都會(huì)變得更接近狼與狼的關(guān)系。
但我們看到,現(xiàn)代社會(huì)雖說資源危機(jī)深重,終究沒有淪為原始叢林,有合作善意的人群還沒有滅絕,人與人之間的溫情和信任也沒有消失——自私和克制自私,似乎同樣屬于人類本能。
人類之所以不會(huì)墮落為狼群,可能是因?yàn)椋祟愓莆樟艘粋€(gè)簡(jiǎn)單的“法寶”:一報(bào)還一報(bào)。
為了驗(yàn)證這一推測(cè),同時(shí)也是為了探索合作中不同策略的規(guī)律,美國密歇根大學(xué)政治學(xué)家羅伯特·阿克塞爾羅德想出了一個(gè)聰明的辦法。他向當(dāng)時(shí)博弈論專家們發(fā)出了廣告邀請(qǐng),讓有興趣參賽的博弈論專家和一些社會(huì)學(xué)家,各自設(shè)計(jì)一種自認(rèn)為最好的博弈策略,來參加他的“博弈策略”比賽。
第一次實(shí)驗(yàn)中,他收到14個(gè)“策略參賽者”比賽。加上自己的第15個(gè)策略程度“隨機(jī)策略”,也就是沒有策略的策略,隨機(jī)地出“合作”或“背叛”牌。如果前面14個(gè)策略在比賽中比隨機(jī)策略得分還低,那就證明那個(gè)策略設(shè)計(jì)十分可悲和難堪。
15個(gè)策略,共進(jìn)行了225輪相互“比賽”,每場(chǎng)“比賽”都玩到了200個(gè)回合。
由于參賽者都是當(dāng)世博弈論專家,故有些參賽程序看起來設(shè)計(jì)得非常聰明,但比賽結(jié)果卻令人出乎預(yù)料。
冠軍策略居然是——一報(bào)還一報(bào)。
此策略是加拿大多倫多大學(xué)著名博弈論心理學(xué)家拉波波特教授提供。一報(bào)還一報(bào)策略非常簡(jiǎn)單:第一回合采取合作,然后再一回合都重復(fù)對(duì)手上一回合的策略。
令人跌破眼鏡的是,在15個(gè)參賽策略中,最失敗的居然是那個(gè)設(shè)計(jì)最復(fù)雜的策略。
“一報(bào)還一報(bào)”為什么會(huì)贏?
因?yàn)楫?dāng)遇到合作者時(shí),他永遠(yuǎn)采取合作,故針對(duì)合作者來說,其得分也最高。當(dāng)遇到狡詐者背叛者時(shí),你怎么來,我也怎么對(duì)付你,因此,也差不到哪里去。由此“一此還一報(bào)”得出:
一是——一開始采取合作姿態(tài)——善良;
二是——不首先背叛——講原則;
三是——對(duì)背叛者予以背叛懲罰——正義;
四是——當(dāng)背叛者改正后我也不再背叛——寬??;
五是——對(duì)合作者的高分不嫉妒——平衡。
由“一報(bào)還一報(bào)”的勝利,同樣也可推導(dǎo)出是人性的光輝的勝利,如善良、光明正大、講原則、講誠信,能理解別人的成功,能分享別人的成功,能包容寬恕別人等,這都是人性中最美好的部分。
阿克塞爾多德組織了第一屆博弈策略競(jìng)賽之后不久,又召開了第二屆比賽。
這次,阿克塞爾羅德共收到62套策略程度,加上他“沒有策略的策略”即“隨機(jī)策略”,共63套策略參賽。
而且,主辦者還將第一屆的勝利者及原因分析都告知了參與第二次比賽策略設(shè)計(jì)的所有人。
比賽結(jié)果很快又出來了,依然還是拉波波特的“一報(bào)還一報(bào)”策略再度獲勝。而且,善良策略普遍表現(xiàn)得比狡詐的策略好。在前15名中,只有一個(gè)不是善良策略,在后15名中只有一個(gè)不是“狡詐”策略。
不過,著名生物學(xué)家演化博弈論的奠基人之一史密斯設(shè)計(jì)“兩怨還一報(bào)”的“超級(jí)寬恕——好好先生”策略居然被狡詐的策略“群狼”所“擊敗”。
正因?yàn)槿绱?,阿克塞爾羅德又進(jìn)行了一輪比賽。他沒有征集新的策略,而是在改變電腦程序后,讓第二屆所有參賽策略再進(jìn)行比寒。他想找出史密斯的“演化穩(wěn)定策略”。
第三屆比賽結(jié)果表明:幾乎所有”詭詐型“策略都在200代左右完全消失了。“一報(bào)還一報(bào)”仍表現(xiàn)得很出色。其他五種“善良而勇敢”、“善良而精明”、“善良聰明堅(jiān)定”等策略也獲得了同樣的成功。
對(duì)于這一演化博弈結(jié)果,生物學(xué)家道金斯(名著《自私基因》的作者)不無感慨地歸納道:即使有自私的基因掌權(quán)控制,好人仍能得到好報(bào)!
三次比賽總結(jié)出“一報(bào)還一報(bào)”勝利原因如下:
勝利原因之一——本性善良(第一步合作);
勝利原因之二——正義(對(duì)丑惡立即反擊);
勝利原因之三——寬?。愀恼笪胰院献鳎?/span>
勝利原因之四——誠信(我自己不首先背叛);
勝利原因之五——平衡(不嫉妒強(qiáng)者);
勝利總原因是——大愛是唯一的指引。
從以上三次比賽中,我們還可以得出:
關(guān)系穩(wěn)定進(jìn)化,是每個(gè)人都希望追求的結(jié)果。因?yàn)槊總€(gè)人的財(cái)富名譽(yù)地位,都得建立在穩(wěn)定的關(guān)系進(jìn)化上;因?yàn)槊總€(gè)人的快樂幸福自由,都得依靠穩(wěn)定的關(guān)系進(jìn)化。
人與人之間有了許多相處策略,唯有采取合作,采取大愛才是最佳的選擇,才會(huì)使彼此共生共享共贏。否則,就會(huì)存在潛在的風(fēng)險(xiǎn),相互在背叛中折磨。
“一報(bào)還一報(bào)”的六種優(yōu)良特征
如何運(yùn)用“一報(bào)還一報(bào)”策略?其特征是什么?
下文引用一位專家的文章:
“一報(bào)還一報(bào)”策略,在國內(nèi)大部分人都理解為“以其人之道,還治其人之身”、“以牙還牙”等,但這些詞語都是貶義詞,就有誤解“一報(bào)還一報(bào)”策略的意義。因此,有必要說明“一報(bào)還一報(bào)”策略的真正含義?!耙粓?bào)還一報(bào)”的策略很簡(jiǎn)單,就是首先第一步選擇合作,其后的每一步都選擇跟對(duì)方上一步相同的策略。但是“一報(bào)還一報(bào)”策略卻具有一般策略所不具有的優(yōu)點(diǎn)。
阿克塞爾羅德給出了“一報(bào)還一報(bào)”策略6種優(yōu)良特征:
一是具有善良性,它不首先背叛。在計(jì)算機(jī)競(jìng)賽中,凡是善良的規(guī)則之間相處得很好,也就是能得到較高收益。只要對(duì)方不背叛,每個(gè)善良的規(guī)則一定是持續(xù)合作直到最后一步。
二是具有寬容性。就是別人只背叛一次,“一報(bào)還一報(bào)”只報(bào)復(fù)別人的一次。而那些不太寬容的規(guī)則有可能會(huì)在報(bào)復(fù)別人的同時(shí),也是在自我報(bào)復(fù),故而在計(jì)算機(jī)競(jìng)賽中這些不太寬容的規(guī)則收益也較低。因?yàn)?,“一旦一方的背叛誘發(fā)一長(zhǎng)串的報(bào)復(fù)和反報(bào)復(fù),雙方都要吃虧?!边@是人們考慮“反射效應(yīng)”不深入的緣故。一般的人都會(huì)想第一層次,“即選擇的直接效果,那就是背叛比合作來得收益高。第二層次是選擇的間接效果,即考慮對(duì)方是否會(huì)出發(fā)自己的背叛。但是第三層次就很少有人考慮了,即為了反應(yīng)對(duì)方的背叛行為,有人就會(huì)重復(fù)甚至擴(kuò)大自己以前的挑釁性選擇。一個(gè)孤立的背叛變成了一連串無休止的報(bào)復(fù)。”
三是具有韌性。就是“一報(bào)還一報(bào)”策略不僅能夠跟那些不太善良的策略相處而得到較高的收益,而且也能夠跟那些善良的策略相處而得到較高的收益,這就表明它在很大的環(huán)境中表現(xiàn)極佳。
四是策略具有明晰性,在使用“一報(bào)還一報(bào)”策略時(shí),別人能夠很快識(shí)別出你的策略。
五是不占他人便宜。從兩次競(jìng)賽的結(jié)果,“一報(bào)還一報(bào)”策略并不比其他的策略的收益高多少。因?yàn)?,試圖占便宜可以引起如下的風(fēng)險(xiǎn):一種是如果一個(gè)策略用背叛試探是否可以占便宜,它就得冒被那些可激怒的規(guī)則報(bào)復(fù)的風(fēng)險(xiǎn);另一種是雙方反擊一旦開始,就難以擺脫僵局;第三種是放棄了其他的一些合作機(jī)會(huì)。
六是報(bào)復(fù)性,而且是即刻報(bào)復(fù)。在某些情況下,即刻報(bào)復(fù)比等一段時(shí)間才報(bào)復(fù)是有好處的,因?yàn)榧纯虉?bào)復(fù),可以讓對(duì)方知道背叛是會(huì)受到立即懲罰的。
那么既然“一報(bào)還一報(bào)”策略自身有如此多的優(yōu)點(diǎn),但也還有一個(gè)缺點(diǎn),那就是報(bào)復(fù)性可以形成惡性循環(huán)。比如對(duì)方由于一次疏忽而選擇了背叛,那么“一報(bào)還一報(bào)”策略也就是背叛,這樣對(duì)方可能又會(huì)選擇背叛,于是就有可能形成了惡性循環(huán)。
雖然有形成惡性循環(huán)的可能性,但是“一報(bào)還一報(bào)”策略還是一個(gè)善良的策略。
(作者/《互聯(lián)網(wǎng)時(shí)代方法論叢書》主編、中國互聯(lián)網(wǎng)方法論課題研究中心主任)
聯(lián)系客服