賭博と国家と男と女 ~囚人のジレンマ

これ、日本含むアジア各国は教育課程に取り入れたらどうかね?

我先にと車で踏み切りをふさいでしまうインド人
我先にと電車の出口に固まってしまう中国人
既得権益にしがみつき、開放しない日本人

それは、負けるプログラムなんだということを体で覚えると良いだろう。

「囚人のジレンマ」という賭博ゲームがある。かつては政治学、経済学などの分野で一世を風靡した。二人のプレ
イヤーが「協調」と「裏切り」と書いた二枚のカードを持っている。互いの腹を探りあいながらどちらかのカードを選び
テーブルの上に伏せて置く。カードをめくるのは胴元の役目である。
二人とも「協調」を出したなら胴元の負け。彼は両者に同額の金を支払う。一方が、協調、他方が裏切りなら、
どうもとは裏切りを出したほうに大変多くの金を支払う。が、協調を出したほうからはいくらかの金を徴収する。さら
に二人とも裏切りを出した場合には胴元の思うツボ
だ。胴元は二人から金(これはそれほど多くない同額)を巻き
上げていく。

プレイヤーとしてどうふるまうことが得策だろう。相手の出方がどうあれ、「裏切り」のカードを出すとの決断を下す。
囚人のジレンマという名称は、次のような状況を想定してつけられたようである。犯罪の共犯者二人が別々の部
屋で取調べを受けている。互いに相手の動向はわからない。囚人Aにとって、囚人Bが黙秘を続けているのなら
(「協調」のカードを出しているのなら)、裏切って、できれば相手に不利になるような証言をすべきだろう。一方
Bが自白しているのなら、自分も自白するより他はない。黙秘を続けたら、まずそのことで自分の方に罪が重くの
しかかり、Bがでたらめな証言をしようものなら、Bの分まで罪を着せられる。Bの出方如何にかかわらず、裏切って
自白するより手はないとAは考える。ところがBも全く同様のことを考えている。かくして二人は自白する。だが、そ
れは警察の思うツボなのだ。

囚人のジレンマゲームが多くの分野で注目を浴びているのは実は対戦が一回限りで終わるのではなく、何回も繰
り返し行われる
という場合である。対戦が何回も続くとなると、裏切ることは唯一の手ではなくなる。相手の出方に
よって態度を決めるとか、良くしてくれたことに対する恩返しをする、裏切られたら復讐する、などいろいろ工夫を凝
らした戦略が可能になるのである。

アメリカの政治学者であるロバート・アクセルロッドは、反復囚人のジレンマゲームのコンピューター選手権を開催した。
参加者は全部で14名あったが、アクセルロッドが、1/2の確率ででたらめに出す戦略を加え、計15のプログラム
がしのぎを削った。

各プログラムは自分自身との試合も含め、総当りする。偶然による効果を除くため、同じ相手と5試合させられる。
対戦は1試合につき200回と決まっているが、この回数はつきあいが十分長く続くということを意図している。
相互協調 各3点、一方が裏切った場合、裏切った方に5点、裏切られた方は0点、両方裏切ったごきには各1点。
というようにすべて正の数で得点が設定されている。1回の試合で勝ったか負けたかということは全く問題にされない。
成績や順位は、最終的に上げた総得点によって決められるのである。
 さて、優勝したのは、カナダの心理学者、アナトール・ラポポートが提出した「しっぺ返し」
(Tit for tat
「やられたらやり返す」)というプログラムであった。自分からは決して裏切らないが、相手が裏切ったら即座に裏切り返
す。相手が"改心"して協調したら、すぐに自分も強調する。要するに初回に協調する以外は、直前に取った相手の
行動をそっくりそのままお返しするという、まことに単純明快なものである。それにしてもこんな自分から積極的に攻めて
行かない戦略がどうして優勝をさらうことができたのか不思議だ。選手権大会はおそらく生き馬の目を抜く戦場で「し
っぺ返し」のようなおっとりした戦略は、他の素早くて攻撃的な戦略の餌食となったとしても仕方ないと思うのだが・・・。

ところが参加プログラムの約半数が、自分からは決して裏切らない性質(気の良い戦略)を持っていた。何とそれらが
はっきり上位半分を独占してしまったのである。しっぺ返しが強そうであることはあらかじめわかっており、それは参加者
に知らされた。参加プログラムは、「しっぺ返し」の改良型か、「しっぺ返し」から搾取しようとするタイプかの二手に分か
れた。一方、下位半分を占めたのは、気紛れにせよ、故意にせよ、とにかく自分から裏切ることがある戦略であった。
(最下位は「でたらめ戦略」)。どうしてこんな現象が起きてしまったのだろうか。

気の良い戦略が気の良い戦略と対戦すると、どちらも自分からは裏切らず、最後の200回まで延々と「協調」のカ
ードが続く。したがって得点は両者仲良く3×200=600点である。
この選手権大会では、協調 3 > (5+0)/2 裏切りと協調の期待値 であり、確かにジレンマが発生する
よう得点が設定されている。ノンゼロサムゲームでは、対戦する相手を打ちのめすのではなく、いかに相手と協調して
胴元から金を巻き上げるかがポイント
である。

第二回大会は参加者は62名にも上ったが、結果はまたしても「しっぺ返し」の優勝であった。
次は、第二回大会の参加プログラムを使い、進化論的アプローチを試みようと言うわけである。まず第二回大会で
得られた得点に比例させてプログラムのコピー数を決める。これを第一世代とする。そのメンバーでまた選手権大会
を行わせ、特定に比例させてメンバー、ならびにコピー数を決める。これが第二世代。つまり得点が、子孫の数に置
き換えられるのがミソである。初め50世代くらいまでは大きく二つのグループに分かれていた。子孫数を急速に増や
していくタイプと、早々と衰退し、消え去っていくタイプである。これはプログラムに出来不出来があるということで、現
象自体はそれほど不思議なことではない。ところが100~200世代目くらいにさしかかったとき、奇妙な現象が起
きてきた。それまで日の出の勢いで子孫数を増やしてきた戦略の中から、一つ、また一つと脱落するものが現れたの
である。これらは他の戦略をカモにして得点を稼ぐと言うタイプだった。カモの衰退と絶滅に伴い、自分たちも後を追
うように衰退していった
のである。一方で「しっぺ返し」とそれに類似の戦略たちはますます繁栄していった。それらは
カモを必要としない。あくまで互いに協調しようとする。繁栄すればするほど、自分自身や自分に類似した戦略との
対戦が増えるが、これらの戦略にとってそれが少しもマイナスにならない
。そこが強みである。「しっぺ返し」は第一世
代での優位がものをいい、1000世代を経て、もはや各プログラムの比率がすっかり固定されて変動しなくなるま
で、一貫してトップを走り続けたのである。

【教育関連記事】
2010.11.17: 知られざる技術大国イスラエルの頭脳
2010.10.04: ハーバード大が世界の大学番付首位 vs東大
2010.08.06: 学業は良い子の遊びじゃねぇんだよ
2010.02.24: 容疑者Xの献身
2010.01.15: 幼少期からのエリート性教育
2009.11.06: 子育て1人3000万円 その内訳
2009.09.17: 名前をカタカナや漢字で書いてはならない
2009.09.03: 教育者としての主婦
2009.07.29: 学成り難し
2009.07.10: 得意の交渉術
2009.07.03: 暴君の家庭
2009.04.09: 金(カネ)の重み
2009.04.08: 試験の評価がスペシャリストを殺す
2008.08.07: 子供のための動物園だよね


Track Back

Track Back URL

Comments [4]

>ノンゼロサムゲームでは、対戦する相手を打ちのめすのではなく、いかに相手と協調して胴元から金を巻き上げるかがポイント

もし3世代ぐらいが食っていけるだけの金が手に入るなら、僕だったらいつ裏切るのがベストかを常に考えるかも・・・という歴史が繰り返されているような気がします。

次の金融危機がいつ来るかは分かりませんが、僕はそのときのためにしっかりと準備しておきたいです。2008年以降はまぐれ当たりの全力ショートでしたが、次はしっかり狙っていきたいです。

お返事ありがとうございます!胴元、いいですねw

>暴落準備
そうですね。ただ、もし僕にトレードの才能があるなら、1000ドル/ozの時点で迷わずGOLDを買いに行っていたはずです。でも僕にはできませんでした。なので才能がない僕は、いまのところは過去の成功体験に依存した方法によるトレードしか考えることができません。手を広げられるほど器用でもありませんし・・・。

>ポールソン
はい。とても尊敬しているトレーダーの1人です。一番好きなのはJ.W.Henryですw 「絵でわかるCDS」楽しみです!いつもありがとうございます!!

コメントする

公開されません

(いくつかのHTMLタグ(a, strong, ul, ol, liなど)が使えます)


画像の中に見える文字を入力してください。

このページの上部へ

Ad

LINEスタンプ「カバコ」公開されました!

top

プロフィール

投資一族の長


サイト内検索

最近のコメント

Twitter Updates