秩序と情報とブロッコリー: ゲーム理論

ラベル ゲーム理論 の投稿を表示しています。すべての投稿を表示

2013年4月23日火曜日

「オークション理論の基礎」読書メモ

オークション理論の基礎（著：横尾真）を読んでる。説明が丁寧でわかりやすい。以下、勉強になったことの個人的メモ。重要そうなところは、後日整理して再ポストする予定。

オークションは不完全情報ゲーム。

ここの例とは異なり、相手の利得行列などの情報が分かっていない状態で行うゲーム。
相手がいくらまで金を出すとか、どこまでリスクをとるとか、事前にわからないからね。

オークションの仕組みやルールを「オークションのプロトコル」という。
オークション参加者が自分の評価値を正直に入札するのが支配戦略となるプロトコルは「誘因両立性（Incentive compatibility）がある」という。（この言葉は「行動実験」を行う時にも意識されるらしい。実験する時には、アンケートなどに被験者が正直に答えるようにしてほしいから。）
様々なプロトコルがある。
買い手・売り手のどちらか一方だけが複数でオークションを行うものを「片方向オークション」という。
片方向オークションの例

単一財のオークション

公開入札方式 (open bid auction)

英国式

支配戦略「少しずつ値を上げて、自分の評価値より大きくなると、ビッドをやめる。」

オランダ式

戦略的に第一価格秘密入札と同値
一般的な支配戦略は存在しない。（相手の戦略による。）

封印入札方式 (sealed bid auction)

第一価格秘密入札

戦略的に、オランダ式と同値
一般的な支配戦略は存在しない。（相手の戦略による。）

第二価格秘密入札（ビックレー方式）

支配戦略は「自分の表価値を正直に入札する」こと。
つまり「誘因両立性」がある。

【収入同値定理】・・・ベイジアンナッシュ均衡が存在する場合、均衡点の収入の期待値は上記４つのプロトコルで等しくなる。

複数財のオークション（組み合わせオークション）

同時多数回オークション（英国式の一般化方式）

FCCの無線周波数帯域の使用権オークションで使用されている。

一般化ビックレー入札

誘因両立性あり。
支配戦略均衡における割り当て結果はパレート効率的。

買い手・売り手の両方が複数のオークションを行うものを「ダブル（両方向）オークション」という。

例えば、株取引なんかがこれに相当する。

パレート効率性と囚人のジレンマ

あるゲームで各参加者に支配戦略が存在する場合、そのゲームは各参加者が支配戦略を選択する支配戦略均衡状態となることが予想される。

しかし、支配戦略均衡状態になったとしても、その状態が必ずしも「社会（集団）全体で最適な状態」となっているとは限らないというお話。

「社会全体で最適な状態」というのはどういうものかを考えるために、「パレート効率性」という考え方を導入する。

■パレート効率性とは？

ある集団が、1つの社会状態(資源配分)を選択するとき、集団内の誰かの効用（満足度）を犠牲にしなければ他の誰かの効用を高めることができない状態を、「パレート効率的(Pareto efficient)」であると表現する。また誰の効用も悪化させることなく、少なくとも一人の効用を高めることができるとき、新しい社会状態は前の社会状態をパレート改善(Pareto improvement)するという。言い換えれば、パレート効率的な社会状態とは、どのような社会状態によってもそれ以上のパレート改善ができない社会状態のことである。～Wikipediaより～

具体例として、AさんとBさんが1000円を分け合う場合を考える。この場合、AさんとBさんは自分の取り分が増えれば増えるほどうれしい（効用が大きい）。

AさんとBさんが300円づつ分け合う場合・・・これはパレート効率的ではない。なぜなら、例えばAさんが700円でBさんが300円を取るようにすれば、AさんもBさんも取り分を減らすことなく、配分できるからだ。
AさんとBさんが500円づつ分け合う場合・・・これはパレート効率的。なぜなら、この状態から配分を変更して片方の取り分を増やそうとすると、もう一人の取り分を減らさざるえないから。
Aさんが0円、Bさんが1000円・・・これもパレート効率的。なぜならこの状態からAさんの取り分を増やそうとするとBさんの取り分を減らさざるえないから。

最後の例のように、結果の公平性についてパレート効率性は考えない（Aさんかわいそう）。パレート効率性は、社会全体としての望ましい選択の「必要条件」ではあるが、「十分条件」ではないことに注意。

■囚人のジレンマ

パレート効率性が分かったら、本題の「支配戦略均衡はパレート効率とは限らない」というお話を囚人のジレンマを例に見る。

（例）

警察が共犯２人の身柄を拘束している。この時、

２人とも自白しなければ、犯罪が立証できず、２人とも釈放（それぞれの利得 = 3）
片方だけ自白した場合、自白した者は報奨金を得て釈放（利得 = 5）。自白しなかった者は通常よりも長い懲役になる。（利得=1）
両方とも自白した場合は、通常の懲役（それぞれの利得 = 2）

とする。これを利得行列で表わすと以下の表になる。

このとき、支配戦略均衡は両方とも「自白する」を選ぶことになる。

でも、これってパレート効率的ではない。

明らかにパレート効率的な状態は「両者が自白しない」状態であり、両者が合理的な判断をしたにも関わらず、パレート効率的な状況に至れない状況になっている。

結論として「支配戦略均衡状態になったとしても、その状態が必ずしも「社会（集団）全体で最適な状態」となっているとは限らない。」

2013年4月19日金曜日

ミニマックス戦略と混合戦略

前回、支配戦略均衡・反復支配戦略均衡について書いたが、それらのどちらも存在しない場合がある。この場合、なんとかして最悪の結果を避けるという考え方の「ミニマックス戦略」をとる方法がある。

下図のような利得行列を考える。ここでゲームはゼロサムゲームで、下図はプレイヤー甲の利得行列を表わしている。（プレーヤー乙は甲の利得の -1倍）

このゲームは両者に支配戦略均衡がない。そのため、プレイヤー甲は乙がどの戦略を選択しても最悪利得が最大になる戦略C（最悪利得が3で他の戦略よりも大きい）を選ぶ。一方、プレイヤー乙は、甲がどの戦略を選択しても最悪損失が最も小さくなる戦略F（最悪損失が-1で他の戦略より損失額が小さい）を選ぶ。

以上から、戦略CとFの組み合わせが均衡点となる。ここでこの組み合わせは以下のような性質がある。

プレイヤー甲が戦略Cを選んだ場合、乙は損失を最小にするために戦略Fを選ばざるを得ない。また逆に、プレイヤー２が戦略ｂを選んだ場合に、プレイヤ１は利益を最大にするために、戦略Cを選ばざるを得ない。

これは、戦略CとFの組み合わせが丁度、プレイヤー甲の最悪利益を極大にしプレイヤー乙の最悪損失を極小にする鞍点となっている。ゲームに鞍点があればその戦略の組み合わせが均衡点になる。

一方で、鞍点が存在しないようなケースもある。たとえば数のような利得行列の場合だ。（ゼロサムゲームで行列はプレイヤー甲側の利得）

この利得行列には支配戦略均衡が無いからミニマックス戦略で考えると戦略BとDの組み合わせとなる。しかし前述の鞍点がある例と異なり、プレイヤー甲がミニマックス戦略で戦略Bを選ぶなら乙は戦略Cを選んだ方が得。つまり鞍点が存在しない。

このような場合、画一的な戦術（純粋戦術：複数回行う場合に毎回同じ戦略を選択する）のではなく、確率的に戦略を選択（混合戦術）するのが現実的。

支配戦略と支配戦略均衡、そして反復支配戦略均衡

他のプレイヤーがとる戦略のすべてに対して最適な戦略を支配戦略という。例えば、下図のような利得行列を考える。

この利得行列の場合、プレイヤー甲の利得は乙が戦略CとDのどちらを選択しても戦略Aのほうが大きい。そのためプレイヤー甲にとって戦略Aは支配戦略となる。同様にプレイヤー乙の利得は、甲が戦略AとBのどちらを選択しても戦略Cが大きい。そのため甲と乙が合理的である場合、戦略の組み合わせは（A,C）の組み合わせに落ち着く。この状態を支配戦略均衡という。

一般には支配戦略均衡が存在しない場合もある（というかその場合の方が多い）。例えばジャンケンを考える。相手がグーを出す場合にはパーを出すのが利得が大きい一方で、相手がチョキを出す場合はグーを出すのが利得が大きく、支配戦略は存在しない。

支配戦略が無い場合にも、相手がどのような戦略をとっても、利得が大きくない戦略を削除していくことにより、最終的に選ぶべき戦略が残る場合がある。これを反復支配戦略均衡（支配される戦略の逐次消去）という。

例えば、下図のような利得行列を考える。

この利得行列は、両プレーヤーにとって先述の支配戦略は存在しない。
しかし、プレイヤー乙は、プレイヤー甲が戦略AやBをとっても戦略Eが最も利得が高くなることはないため、プレイヤー乙は戦略Eを選択することはない。そのため戦略Eを除去し、A、B、C、Dの四つだけの利得行列（下図）を考える。

この行列では、プレイヤー乙には支配戦略が存在しない一方で、プレイヤー甲は戦略Aが支配戦略である。そのためプレイヤー甲が戦略Bを選択することはない。そのため行列から戦略Bを除去すると、自動的にプレイヤー乙は戦略Dをとらざるを得ない。（戦略Aのもとでは戦略Dのほうが利得が大きいため。）最終的に戦略の組み合わせ（A、D）が均衡状態となる。

このように、相手の戦略選択に関わらず利得の少ないものを取り除いていって生まれる均衡を反復支配戦略均衡（支配される戦略の逐次消去）という。