囚犯的困境
囚犯的困境是一個遊戲理論思想實驗,涉及兩個理性的代理人,每個人都可以合作以互惠互利或背叛其伴侶(“缺陷”)以獲得個人獎勵。這種困境最初是由美林洪水(Merrill Flood)和梅爾文·德雷瑟(Melvin Dresher)在1950年在蘭德公司(Rand Corporation)工作的。阿爾伯特·W·塔克(Albert W. Tucker)後來通過根據監獄判決來構建獎勵,並將其命名為“囚犯的困境”,從而正式化了這場比賽。
囚犯的困境模擬許多涉及戰略行為的現實情況。在隨意使用中,標籤“囚犯的困境”可能適用於兩個實體可以從合作或未能遭受痛苦中獲得重要利益的任何情況,但發現協調其活動很困難或昂貴。
前提

威廉·龐德斯通(William Poundstone)在他的1993年《囚徒的困境》中描述了遊戲的“典型當代版本”:
犯罪團伙的兩名成員被捕和監禁。每個囚犯都被單獨監禁,沒有與對方交談或交換信息。警方承認,他們沒有足夠的證據以原理指控定罪。他們計劃以較少的指控判處一年徒刑一年。同時,警察為每個囚犯提供了浮士德的討價還價。如果他對伴侶作證,他將獲得自由,而伴侶將因主要指控入獄三年。哦,是的,有一個接球...如果兩個囚犯互相作證,兩人將被判處兩年監禁。囚犯有一點時間思考這一點,但是在任何情況下,在他不可撤銷地做出決定之前,都不會學會對方的決定。每個人都被告知,另一名囚犯也得到了同樣的交易。每個囚犯只關心自己的福利,以最大程度地減少自己的監禁。
這為囚犯A和B帶來了四種不同的可能結果:
- 如果A和B都保持沉默,他們將分別在監獄中服役一年。
- 如果A對B進行了作證,但B保持沉默,則A將釋放,而B入獄三年。
- 如果A仍然保持沉默,但B對A進行了證明,則A將在三年內入獄,B將被釋放。
- 如果A和B相互作證,他們將分別服務兩年。
囚犯困境的策略
兩名囚犯分為單個房間,無法彼此交流。假定兩個囚犯都了解遊戲的本質,彼此沒有忠誠,並且在遊戲之外沒有機會進行報應或回報。普通遊戲如下所示:
囚犯b 囚犯 | 囚犯B保持沉默 (合作) | 囚犯B作證 (缺陷) |
---|---|---|
囚犯A保持沉默 (合作) | 每個服務1年 | 囚犯A:3年 囚犯B:免費 |
囚犯作證 (缺陷) | 囚犯A:免費 囚犯b:3年 | 每個服務2年 |
無論對方做出什麼決定,每個囚犯都會通過背叛對方(“叛逃”)獲得更高的獎勵。推理涉及分析兩個玩家的最佳反應:B將合作或缺陷。如果B合作,則A應該缺陷,因為自由勝於服務1年。如果B缺陷,A也應該缺陷,因為服務2年比服務3好。因此,無論哪種方式,由於缺陷是A的最佳反應,無論B的策略如何,缺陷是A的最佳反應。並行推理將表明B應該缺陷。
叛逃總是比合作獲得更好的回報,因此,這對兩個球員來說都是嚴格的統治策略。相互叛變是遊戲中唯一強大的納什均衡。由於從自我利益的角度來看,相互合作的總體理想結果是不合理的,因此這種NASH平衡不是帕累託有效的。
廣義形式
傳統囚犯困境的結構可以從其原始囚犯環境中概括。假設兩個玩家以紅色和藍色的顏色表示,並且每個玩家都選擇“合作”或“缺陷”。
如果兩個球員合作,他們都會獲得合作的獎勵。如果兩個球員的缺陷,他們都會獲得懲罰的回報。如果藍色缺陷在紅色合作時,則藍色會收到誘惑的回報,而紅色則獲得“吸盤”的回報。同樣,如果藍色在紅色缺陷時合作,則藍色會收到吸盤的回報,而紅色會收到誘惑的回報。
這可以以正常形式表示:
紅色的 藍色的 | 合作 | 缺點 |
---|---|---|
合作 | R R | T S |
缺點 | S T | P P |
要成為囚犯的困境游戲,必須保持以下條件才能獲得回報:
回報關係意味著相互合作優於相互叛逃,而回報關係和叛逃是兩種代理人的主要策略。
迭代囚犯的困境
如果兩名球員連續扮演囚犯的困境,請記住對手以前的行動,並被允許相應地改變他們的策略,該遊戲被稱為迭代囚犯的困境。
除了上面的一般形式外,迭代版本還要求,以防止交替的合作和叛逃,給予比相互合作更大的回報。
迭代的囚犯的困境對於某些人類合作與信任的理論至關重要。假設遊戲有效地模擬了兩個需要信任的人之間的交易,那麼人群中的合作行為可以通過遊戲的多玩家迭代版本來建模。 1975年,格羅夫曼(Grofman )和普爾(Pool)估計了專門研究其的學術文章的數量超過2,000。迭代的囚犯困境也被稱為“和平戰爭遊戲”。
一般策略
如果迭代的囚犯的困境有限次,並且兩個球員都知道這一點,那麼在各回合中,占主導地位的策略和納什均衡就是缺陷。證據是歸納的:最後一輪的缺陷可能會出現,因為對手將沒有機會以後進行報復。因此,兩者都將在最後一回合。因此,玩家可能會在第二次轉彎的情況下進行缺陷,因為無論做什麼,對手都會在最後一圈缺陷,依此類推。如果遊戲長度未知,但具有已知上限,則同樣適用。
為了合作在理性球員之間出現,回合的數量必須是未知或無限的。在這種情況下,“始終缺陷”可能不再是嚴格主導的策略,而僅是納什均衡。正如羅伯特·奧曼(Robert Aumann)在1959年的一篇論文中所示,理性的球員反復為無限期的長期互動可以維持合作。具體來說,如果球員不多次合作,則可能不願合作,這會引起失望。相反,隨著時間的流逝,由於在參與參與者之間建立了“默契協議”,合作的可能性往往會上升。迭代囚犯的困境的另一個方面是,即使在雙方公開迭代次數的數量時,玩家之間的默認協議也一直在成功建立。
根據2019年《美國經濟評論》中的一項實驗研究,該研究測試了哪些策略在迭代囚犯的困境情況下使用了哪些策略,並通過完美的監控來測試,大多數選定的策略始終用於缺陷, tit-for-tat和嚴峻的觸發因素。受試者選擇哪種策略取決於遊戲的參數。
Axelrod的比賽和成功的策略條件
羅伯特·阿克塞爾羅德(Robert Axelrod)在他的1984年《合作演變》一書中,他在比賽中報導了他組織了N-步驟囚犯的困境(與N固定的N固定),他在1984年的著作《合作的演變》一書中報導了對迭代的囚犯困境的興趣。反复記住他們以前的相遇。 Axelrod邀請了來自世界各地的學術同事制定計算機策略,以參加迭代的囚犯困境錦標賽。輸入的程序在算法複雜性,最初的敵意,寬恕的能力等方面差異很大。
Axelrod發現,當這些相遇在很長一段時間內與許多玩家重複時,每個玩家都有不同的策略,從長遠來看,貪婪的策略往往會非常差,而更無私的策略則做得更好,正如純粹是根據自我利益判斷的。他用它來展示一種可能通過自然選擇純粹純粹自私的機制演變而來的機制。
獲勝的確定性策略是TAT的山雀,由Anatol Rapoport開發並參加了比賽。它是輸入的任何程序中最簡單的一個,只包含四行基本,並贏得了比賽。該策略只是在遊戲的第一次迭代中合作;之後,玩家做了他或她的對手在上一步中所做的事情。根據情況,一個更好的策略可以是“寬恕的山雀”:當對手的缺陷在下一步行動中,玩家有時會以較小的概率進行配合(約1-5%,取決於陣容對手)。這允許偶爾恢復在赤字週期中。
在分析了最高得分策略之後,Axelrod表示了成功的策略所需的幾種條件:
- 尼斯:該策略不會在其對手之前缺陷(有時將其稱為“樂觀”算法)。幾乎所有最高得分的策略都很好。純粹的自私策略首先不會出於純粹的自私原因對對手“作弊”。
- 報復:該策略有時必須進行報復。非續簽策略的一個例子始終是合作的,這是一個非常糟糕的選擇,經常被“討厭”的策略利用。
- 寬恕:成功的策略必須寬恕。儘管球員將進行報復,但如果對手不繼續缺陷,他們將再次合作。這可以停止長期的報仇和反擊,從而最大程度地提高點。
- 無意義的:該策略不得努力得分超過對手。
與一次性囚犯的困境游戲相反,迭代囚犯的困境中的最佳戰略取決於可能對手的策略,以及他們對叛逃和合作的反應。例如,如果一個人口完全由始終缺陷的球員組成,除了遵循tit tat策略的人以外,由於第一回合的損失,該人處於輕微的劣勢。在這樣的人群中,最佳策略是每次缺陷。更普遍的是,考慮到具有一定百分比的始終缺失者的人口,其餘的是tit-for-tat玩家,因此最佳策略取決於迭代的百分比和數量。
其他策略
得出最佳策略通常以兩種方式完成:
- 貝葉斯NASH平衡:如果可以確定相反策略的統計分佈,則可以通過分析得出最佳的反策略。
- 已經進行了蒙特卡洛模擬人群的模擬,得分低的個體死亡,而得分較高的人(一種用於尋找最佳策略的遺傳算法)。最終人群中算法的混合通常取決於初始種群中的混合。突變的引入(繁殖過程中的隨機變化)減少了對初始種群的依賴。使用此類系統的經驗實驗往往會產生tit-tat播放器,但沒有分析證明這將永遠發生。
在稱為Win-Stay的策略中,Lose-Switch面臨著未能合作的情況,玩家將在下一回合切換策略。在某些情況下,Pavlov通過使用類似策略為同事提供優惠待遇來擊敗所有其他策略。
儘管Tit-for-Tat被認為是最強大的基本戰略,但來自英格蘭南安普敦大學的一支團隊在第20次紀念迭代的囚犯的困境競爭中提出了更成功的戰略。它依靠程序之間的勾結來實現單個程序的最高點。大學向比賽提交了60個計劃,該計劃旨在通過一開始就通過五到十一項舉動來互相認可。一旦獲得了這種識別,一個程序將始終合作,另一個程序將始終叛逃,確保叛逃者的最大點數。如果該計劃意識到它正在扮演一個非南人派球員,那麼它將不斷出現缺陷,以最大程度地減少競爭計劃的分數。結果,2004年囚犯的困境錦標賽結果表明,南安普敦大學在前三個地方的策略(以及底部的許多位置),儘管勝利和損失少於嚴峻的戰略。南安普敦的策略利用了這一特定競賽中允許多個條目的事實,並且球隊的表現是由得分最高的球員的表現來衡量的(這意味著使用自我犧牲的球員是一種明智的形式) 。
由於這一新規則,與Axelrod的開創性錦標賽相比,在分析單一代理策略時,這項競賽的理論意義也很少。但是,它提供了分析如何在多代理框架中實現合作策略的基礎,尤其是在存在噪聲的情況下。
在參加這場新的比賽之前很久,道金斯在他的《自私基因》一書中指出,如果允許多個參賽作品,則可能會贏得此類策略的可能性,但指出,如果Axelrod提交了Axelrod,很可能不允許他們。它還依靠規定的規則是,在球員之間不允許溝通,這可以說,南安普敦計劃可以用他們的預編程的“十人舞蹈”來互相認識,從而增強瞭如何在轉移遊戲平衡方面的寶貴溝通。
即使沒有軟件策略之間的隱式勾結,tit-for-tat也不總是任何給定比賽的絕對贏家。更確切地說,它在一系列比賽中的長期結果優於其競爭對手,但這並不意味著它在短期內是最成功的。這也適用於帶有寬恕和其他最佳策略的Tit-for-Tat。
這也可以使用Darwinian ESS模擬來說明。在這樣的模擬中,tit-for-tat幾乎總是會占主導地位,儘管令人討厭的策略會進出人群,因為tit-for-tat的人群可以通過非續籤的好策略可以穿透,這反過來又很容易討厭策略的獵物。道金斯(Dawkins)表明,這裡沒有靜態組合的策略形成穩定的平衡,並且該系統將始終在邊界之間振盪。
隨機迭代囚犯的困境
在隨機迭代的囚犯困境游戲中,根據“合作概率”指定策略。在播放器X與玩家Y之間的相遇中,X的策略由與Y合作的一組概率P指定。P是其先前相遇或其某些子集的結果的函數。如果p僅是他們最近的N相遇的函數,則稱為“內存-N”策略。然後,通過四個合作概率指定內存-1策略:pCD是X在當前遇到的概率中,鑑於先前的相遇的特徵是X合作和y缺陷。如果每個概率都是1或0,則該策略稱為確定性。確定性策略的一個例子是寫的tit策略,為x在上一次遭遇中的反應。另一個是獲勝的,丟失開關策略為。已經表明,對於任何內存-N策略,都有一個相應的內存1策略,可以給出相同的統計結果,因此僅考慮內存-1策略。
如果將定義為X的上述4元素策略向量和Y的4元素策略向量(從Y的角度來看索引是指數),則可以為X的X定義一個過渡矩陣M鑑於先前的相遇是i,i和j是四個結果指數之一:CC,CD,CD,DC或DD,X和Y之間特定相遇的結果的可能性將是J。例如,從X的角度來看,鑑於先前的相遇是CD等於CD的概率是CD的概率。在這些定義下,迭代的囚犯的困境符合隨機過程,M是隨機矩陣,允許應用所有隨機過程的理論。
隨機理論的結果是,對於矩陣V,存在固定向量V。如果不喪失一般性,則可以指定V標準化V,以使其四個組成部分的總和是統一性。 ij-then條目將給出X和Y之間遇到的結果的可能性,因為X和Y之間的相遇是i。在n接近無窮大的限制中,m將收斂到具有固定值的矩陣,從而使產生j獨立於i的相遇的長期概率。換句話說,這些行將是相同的,給出了迭代囚犯困境的長期平衡結果概率,而無需明確評估大量相互作用。可以看出,v是一個固定的向量,尤其是,因此每一行等於v。因此,固定向量指定X的平衡結果概率。定義和作為{{ CC,CD,DC,DD}成果(從X的角度來看),現在可以將X和Y的平衡收益指定為並允許將兩種策略P和Q進行比較,以進行長期回報。
零確定的策略

2012年,William H. Press和Freeman Dyson為隨機迭代的囚犯困境發表了新的策略,稱為“零確定”(ZD)策略。 X和Y之間的相遇的長期收益可以表示為矩陣的決定因素,該矩陣是兩種策略的函數和短期回報向量的函數:並且,由於行為函數為v。線性在(其中)。根據定義,任何策略是ZD策略,並且長期收益遵守關係。
Tit-for-Tat是一種ZD策略,它是“公平”的,因為它沒有比其他玩家獲得優勢。但是,ZD空間還包含策略,在兩個球員的情況下,可以使一名球員單方面設定另一個球員的得分或迫使進化玩家獲得比他自己的比例低一些。被勒索的球員可能會缺陷,但因此會因獲得較低的回報而傷害自己。因此,勒索解決方案將迭代的囚犯的困境變成了一種最後通的遊戲。具體而言,X能夠選擇一種策略,該策略單方面將SY設置為特定值範圍內的特定值,而與Y策略無關,為X提供了“勒索”播放器Y(反之亦然)的機會。但是,如果X試圖將SX設置為特定值,則可能性範圍要小得多,僅包括完全合作或完全叛逃。
迭代囚犯的困境的擴展是一種進化的隨機迭代囚犯的困境,其中允許特定策略的相對豐富性改變,而更成功的策略相對增加。通過讓較少成功的玩家模仿越成功的策略,或者消除遊戲中較少成功的玩家,同時將較成功的玩家取得越來越成功,則可以通過較少成功的策略來完成此過程。已經表明,不公平的ZD策略在進化上不是穩定的。關鍵的直覺是,進化穩定的策略不僅必須能夠入侵另一個人群(勒索ZD策略可以做到這一點),而且還必須與其他類型的其他玩家相處得很好(勒索ZD參與者的表現很差,因為他們減少了彼此的範圍剩餘)。
理論和模擬證實,除了臨界人口規模之外,ZD勒索在進化競爭中反對更多的合作策略,因此,當人口較大時,人口的平均收益增加。此外,在某些情況下,勒索者甚至可以通過幫助脫離統一的缺陷和勝利(勝利,損失 - 轉換代理商)的對峙來促進合作。
儘管勒索ZD策略在大量人群中並不穩定,但另一個稱為“慷慨”策略的ZD類既穩定又強大。當人口不太小時,這些策略可以取代其他任何ZD策略,甚至可以在迭代囚犯的困境中採取廣泛的通用策略,包括Win – Stay,Loss -Switch。這是由亞歷山大·斯圖爾特(Alexander Stewart)和約書亞·普洛特金(Joshua Plotkin)在2013年專門針對捐贈遊戲進行了證明的。慷慨的策略將與其他合作者合作,面對叛逃,慷慨的球員比競爭對手失去了更多的效用。慷慨的策略是ZD策略和所謂的“良好”策略的交匯處,這些策略由Ethan Akin定義為玩家與未來合作的過去相互合作的反應和分配的預期收益,如果他至少獲得合作的收益。預期的回報。在良好的策略中,當人口不太小時,慷慨的(ZD)子集表現良好。如果人口很小,叛逃策略往往會占主導地位。
連續迭代囚犯的困境
關於迭代囚犯困境的大多數工作都集中在離散案例上,在這種情況下,玩家可以合作或缺陷,因為該模型相對簡單地分析。但是,一些研究人員研究了連續迭代的囚犯困境的模型,其中玩家能夠為另一個玩家做出可變貢獻。 Le和Boyd發現,在這種情況下,合作要比在離散的迭代囚犯的困境中更難發展。在不斷的囚犯的困境中,如果人口以非合作平衡開始,那些比非合作者更略有合作的球員幾乎沒有受益。相比之下,在一個離散的囚犯困境中,相對於非合作者,Tit-for-Tat合作者在非合作平衡中相互互相分類而獲得了巨大的回報。由於自然可以說提供了更多可變合作的機會,而不是嚴格的合作或叛逃的嚴格二分法,因此連續的囚犯的困境可能有助於解釋為什麼即使泰特犬的現實生活實例,即使tit- tict-for-tat-for-tat-for-tat-tim-tat tit-tat tit-tat-tat-tat-tat tat理論模型似乎很健壯。
現實生活中的例子
許多人類互動和自然過程的實例都具有諸如囚犯困境之類的回報矩陣。因此,社會科學(例如經濟學,政治和社會學)以及生物科學(例如倫理學和進化生物學)都引起了人們的關注。許多自然過程都被抽象成模型,其中活生生參與了無休止的囚犯困境游戲。
環境研究
在環境研究中,這種困境在諸如全球氣候變化之類的危機中很明顯。有人認為,所有國家都將從穩定的氣候中受益,但是任何一個國家通常都不願遏制CO 2排放。如果所有國家的行為發生了變化,則認為任何一個國家可以維持當前行為的直接利益大於對該國家的最終利益,因此解釋了2007年有關氣候變化的僵局。
氣候變化政治與囚犯的困境之間的重要區別是不確定性。尚不清楚污染改變氣候的程度和節奏。因此,政府面臨的困境與囚犯的困境不同,因為合作的回報尚不清楚。這種差異表明,國家的合作將比真正的迭代囚犯的困境要少得多,因此,避免可能的氣候災難的可能性要比使用真實迭代囚犯的困境對情況進行了遊戲理論分析所建議的災難的可能性要小得多。
Thomas Osang和Arundhati Nandy提供了理論上的解釋,並在邁克爾·波特(Michael Porter )的假設中以法規驅動的雙贏局勢證明,在該假設中,政府對競爭公司的監管是很大的。
動物
許多動物的合作行為可以理解為迭代囚犯困境的一個例子。動物經常建立長期夥伴關係;例如,孔雀魚分組合作檢查掠食者,他們被認為是懲罰非合作檢查員的。
吸血鬼蝙蝠是社交動物,從事互惠食品交換。應用囚犯困境中的收益可以幫助解釋這種行為。
心理學
在成癮研究和行為經濟學中,喬治·阿恩斯利(George Ainslie)指出,成癮可以作為癮君子當前和未來自我之間的跨越囚犯的困境問題。在這種情況下,“叛逃”意味著復發,而今天和將來都沒有復發是迄今為止最好的結果。當今一個戒菸但將來復發的情況是最糟糕的結果:從某種意義上說,今天棄權所涉及的紀律和自我犧牲被“浪費”了,因為未來的複發意味著癮君子是他們開始和開始的地方,將不得不重新開始。今天和明天復發是一個稍微“更好”的結果,因為癮君子仍然上癮,但他們並沒有付出努力來阻止。最後一個案子,一個人今天在明天棄權的同時從事上癮的行為,有一個問題(就像其他囚犯的困境一樣),叛逃“今天”有明顯的好處當時將出現相同的明顯好處,最終導致一系列無盡的叛逃。
在信任的科學中,約翰·戈特曼(John Gottman)將良好的關係定義為那些夥伴知道不進入相互叛逃行為的人,或者至少不要動態地將其陷入困境。在認知神經科學中,與處理不同回合有關的快速腦信號傳導可能在下一輪中表明選擇。相互合作的結果需要大腦活動的變化,可以預測一個人在下一個機會上將在實物中進行合作的速度;這項活動可能與基本的穩態和動機過程有關,可能會增加短途合作的可能性。
經濟學
囚犯的困境被稱為社會心理學大腸桿菌,它已被廣泛用於研究各種主題,例如寡頭競爭和集體行動,以產生集體利益。
有時將廣告視為囚犯困境的真實例子。當香煙廣告在美國合法時,競爭的香煙製造商必須決定要花多少錢在廣告上。公司A廣告的有效性部分取決於公司B進行的廣告,同樣,B公司的廣告獲得的利潤受A.公司進行的廣告的影響。時期,然後每個公司的廣告否定了對方的廣告,收據保持恆定,並且由於廣告費用而增加了費用。這兩家公司都將從廣告的減少中受益。但是,如果B公司選擇不做廣告,則A公司可以通過廣告大大受益。然而,一家公司的最佳廣告數量取決於另一家公司的廣告。因為最好的策略取決於另一家公司選擇的是沒有主導策略,這使其與囚犯的困境略有不同。不過,結果是相似的,因為這兩家公司的廣告要比均衡範圍少。
有時在商業情況下會出現合作行為。例如,香煙製造商認可製定禁止香煙廣告的法律,了解這將降低整個行業的成本並增加利潤。
沒有可執行的協議,卡特爾的成員也參與了(多人)囚犯的困境。 “合作”通常意味著要同意價格,而“叛逃”意味著在此最低水平下出售,立即從其他卡特爾成員那裡獲得業務。反托拉斯當局希望潛在的卡特爾成員相互缺陷,以確保消費者的最低價格。
運動
在體育運動中的興奮劑被認為是囚犯困境的一個例子。兩名競爭運動員可以選擇使用非法和/或危險藥物來提高其表現。如果沒有運動員服用該藥物,那麼兩者都沒有獲得優勢。如果只有一個人,那麼那個運動員就會獲得比競爭對手的重要優勢,這是由於服用該藥物的法律和/或醫療危險而減少了。但是,如果兩位運動員都服用藥物,則收益消除了,只有危險仍然存在,使他們倆處於比兩者摻雜的位置更糟糕的位置。
國際政治
在國際關係理論中,囚犯的困境經常被用來證明為什麼在國家之間的合作是最佳的,但是個性次優的,為什麼合作失敗了。一個典型的例子是安全困境,在這種困境中,一個州的安全(例如增加其軍事力量)的提高使其他州因擔心進攻行動而擔心自己的安全。因此,採取安全措施會導致緊張局勢,升級或與一個或多個其他各方發生衝突,從而產生任何一方真正渴望的結果。在很難區分進攻性武器和防禦武器的情況下,安全困境在情況下特別嚴格,而進攻在任何衝突中都比防守有優勢。
現實主義國際關係理論家經常使用囚犯的困境來證明為什麼在國際無政府狀態下所有國家(無論其內部政策或自稱是意識形態)為什麼即使在這種合作中都受益,也將努力互相合作。
現實主義的批評者認為,迭代和擴大未來的陰影是囚犯困境的解決方案。當演員一次扮演囚犯的困境時,他們就有叛逆的動機,但是當他們期望反复打球時,他們會有更大的動機合作。
多人遊戲困境
許多現實生活中的困境都涉及多個玩家。儘管隱喻性,但哈丁對下議院的悲劇可能被視為囚犯困境的多人概括的一個例子:每個村民都可以選擇個人利益或約束。一致或頻繁叛逃的集體獎勵是非常低的回報和公共的破壞。
下議院並不總是被利用:威廉·龐斯斯通(William Poundstone)在一本關於囚犯困境的書中描述了新西蘭的局勢,在那里報紙盒子被解鎖了。人們可以在不付錢的情況下拿一張紙(叛逃),但很少有人感到,如果他們不付款,那麼別人也不會破壞系統。隨後的2009年諾貝爾經濟科學紀念獎獲得者埃利諾·奧斯特羅姆(Elinor Ostrom)的研究假設,下議院的悲劇被過度簡化,負面結果受到外部影響的影響。在沒有使壓力複雜化的情況下,團體以共同利益的方式進行交流和管理公地,執行社會規範來保留資源並為該集團獲得最大的利益,這是為囚犯的困境帶來最佳結果的一個例子。
相關遊戲
封閉式交換

道格拉斯·霍夫斯塔特(Douglas Hofstadter)建議,人們經常發現諸如囚犯的困境問題之類的問題更容易理解,以簡單遊戲的形式進行說明或權衡。他使用的幾個例子之一是“封閉的袋子交換”:
有兩個人見面並交換了關閉的行李,有一個理解其中一個包含錢,另一個包含購買。任何一個玩家都可以選擇通過將他或她同意的書包放入書包中來兌現這筆交易,或者他或她可以通過交出一個空的書包來赤字。
是敵是友?
是敵是友?是一場遊戲節目,該節目從2002年至2003年在美國的遊戲表演網絡上播出。在遊戲節目中,三對人競爭。當一對被淘汰時,他們玩的遊戲類似於囚犯的困境,以確定獎金是如何分裂的。如果他們倆都合作(朋友),他們將分享50-50的獎金。如果一個人合作和另一個缺陷(敵人),叛逃者將獲得所有獎金,而合作者一無所獲。如果兩個缺陷,兩者都一無所有。請注意,獎勵矩陣與上面給出的標準矩陣略有不同,因為“缺陷”和“在對手缺陷”案件中的獎勵是相同的。這使得“兩個缺陷”案例成為弱平衡,而在標準囚犯的困境中是嚴格的平衡。如果參賽者知道他們的對手將投票“敵人”,那麼他們自己的選擇就不會影響他們自己的獎金。從特定的意義上講,朋友或敵人在囚犯的困境與雞肉遊戲之間具有獎勵模型。
獎勵矩陣是
配對2 一對1 | “朋友” (合作) | “敵人” (缺點) |
---|---|---|
“朋友” (合作) | 1 1 | 2 0 |
“敵人” (缺點) | 0 2 | 0 0 |
這個回報矩陣也已在英國電視節目中使用,信任我,軸心,銀行工作和金色球,在美國遊戲節目中,以及在真人秀上的獲勝夫婦表演單身漢和愛情島。一支經濟學家團隊對金球系列的遊戲數據進行了分析,他們發現合作“令人驚訝的是”,這在現實世界中似乎是造成的,但在遊戲背景下相對較低。
迭代的雪花
洛桑大學和愛丁堡大學的研究人員建議,“迭代的雪花遊戲”可能會更緊密地反映現實世界中的社交場合,儘管這種模式實際上是雞肉遊戲。在此模型中,通過叛逃的利用的風險較低,並且個人始終從合作選擇中獲利。雪花遊戲的遊戲想像著兩個駕駛員被困在雪地的相對側,每個駕駛員都可以選擇鏟雪以清理一條路或留在汽車中。球員的最高收益來自使對手自己清除所有雪,但對手仍然因其工作而名義上獲得了回報。
這可能更好地反映了現實世界中的情況,研究人員舉例說明了兩名科學家在報告中合作的例子,如果另一個報告更加努力,他們倆都會受益。 “但是,當您的合作者沒有做任何工作時,您自己做所有工作可能會更好。您仍然可以完成一個完整的項目。”
|
|
協調遊戲
在協調遊戲中,玩家必須協調他們的策略以取得良好的結果。一個例子是兩輛汽車,突然在暴風雪中相遇。每個都必須選擇是向左還是向右轉。如果兩者都向左轉動,或者均向右轉動,則汽車不會碰撞。本地的左手和右手交通慣例有助於協調其行動。
對稱的協調遊戲包括Stag Hunt和Bach或Stravinsky 。
非對稱囚犯的困境
一組更一般的遊戲是不對稱的。就像在囚犯的困境中一樣,最好的結果是合作,並且有叛逃的動機。不過,與對稱囚犯的困境不同,一個球員比另一個球員更能輸掉和/或更多。一些這樣的遊戲被描述為一個囚犯的困境,其中一個囚犯患上了abi ,因此“ albi game”一詞。
在實驗中,玩家在重複的遊戲中獲得不平等的收益可能會尋求最大化利潤,但只有在兩個球員都獲得同等收益的情況下才能提高利潤;這可能會導致穩定的平衡策略,在這種策略中,處於弱勢群體的每個X遊戲中都有缺陷,而另一個始終會合作。這種行為可能取決於實驗圍繞公平的社會規範。
軟體
已經創建了幾個軟件包來運行囚犯困境的模擬和比賽,其中一些包含其源代碼:
- 羅伯特·阿克塞爾羅德(Robert Axelrod)(由Axelrod和Fortran的許多貢獻者撰寫)進行的第二次比賽的源代碼可在線獲得
- 監獄,在Java撰寫的圖書館,最後一次更新於1998年
- Axelrod-Python ,用Python寫
- Evoplex ,一項基於快速代理的建模計劃,由Marcos Cardinot於2018年發布
在小說中
漢努·拉賈尼米(Hannu Rajaniemi)在“困境監獄”中設置了他的《量子小偷》三部曲的開幕場面。該系列的主題被描述為“二進制宇宙的不足”,而最終的對手是一個稱為全侵犯者的角色。該系列中的第一本書於2010年出版,分別於2012年和2014年出版了兩個續集《分形王子和因果天使》 。
以迭代囚犯的困境為基礎的遊戲是2012年視頻遊戲零逃生的中心重點:firtue的最後獎勵和在其2016年續集零逃生中的小部分:零時間困境。
在特倫頓·李·斯圖爾特(Trenton Lee Stewart)的神秘本尼迪克特協會和囚犯的困境中,主要角色首先要玩遊戲的版本,並完全逃離了“監獄”。後來,他們成為實際的囚犯,再次逃脫。
在冒險區域:在苦難的比賽中的平衡,玩家角色在兩個地衣的域名中曾兩次出現囚犯的困境,曾經合作,曾經陷入叛逃。
溫斯頓·杜阿爾特(Winston Duarte)在作者詹姆斯·薩科里·蒂亞納特(James Sa Corey Tiamat)的《憤怒》(James Sa Corey Tiamat)的《憤怒》(James Sa Corey Tiamat)的第八部小說中向他的14歲女兒特雷莎(Teresa)解釋了囚犯的困境,以訓練她進行戰略思維。
2008年的電影《黑闇騎士》(The Dark Knight)介紹了囚犯困境的極端版本,小丑鑽機在這兩輛渡輪中,一個渡輪,一輛裝有囚犯,另一個裝有平民的渡輪,武裝兩組,以互相爆炸炸彈的渡輪,威脅要爆炸炸彈如果他們猶豫,請引爆它們。最終,雙方決定不採取行動,給蝙蝠俠足夠的時間逮捕小丑,並阻止任何人受傷。