ICMの第一原理:マルムス・ハービルがチップをドルに変える方法

ファイナルテーブルでのチップは、お金ではありません。それは収益逓減の宝くじのようなものです。ここでは、Stackをドル換算の数値に変換する正確なアルゴリズムを、ゼロから導出し、具体的な数値を使って解説します。

すべてのトーナメントプレイヤーは、「チップは額面通りの価値がない」というスローガンを聞いたことがあるでしょう。それはファイナルテーブルで聖書のように繰り返され、通常、誰かがまずいCallをしてVarianceのせいにする直前です。しかし、このスローガンは伝承ではなく、定理です。StackのベクトルとPayout構造を受け取り、各シートのドル値を返す正確で計算可能なアルゴリズムが存在します。そのアルゴリズムがIndependent Chip Modelであり、最も広く使われているバージョンがMalmuth-Harvilleです。

ICMをブラックボックスとして理解している場合――「電卓がFoldだと言っている」――簡単なスポットは正しくプレイできますが、難しいスポットでは間違えるでしょう。もしアルゴリズムとして理解していれば、テーブルでそれを再構築し、いつそれが機能しなくなるかを予測し、ファイナルテーブルでのChip LeaderがそのStackが示すよりも「貧しい」一方で、Short Stackがそれよりも「豊か」である理由を正確に知ることができます。この記事では、モデルを明確に導き出し、具体的な4人プレイの例を明示的な数値で示し、Malmuth-Harvilleをそのあまり知られていない親戚であるMalmuth-Weitzmanと比較し、そして静的ICMがどこで終わり、Future Game Simulationがどこで始まるかを示します。

根本的な問題:チップは金銭に対して線形ではない

Cash Gameでは、チップはドルです。Stack EVとMoney EVは同じものであり、Cash戦略が1ハンドあたりに獲得するチップを最大化することに帰結する理由です。トーナメントはその繋がりを断ち切ります。チップをCash outすることはできません。自分のフィニッシュポジションをPayoutに変換することしかできません。そして、Payout構造は凹型です。1位は、プレイ中の全チップの比例価値よりもはるかに少ない額しか支払われません。

具体的に言うと、典型的な構造では、1位はPrize Poolの50%かもしれませんが、終わりにはチップの100%を保持します。その「失われた」Equityの50%ポイントは消滅したわけではなく、他のプレイヤーを最後まで残る彼らの可能性に比例して、途中で他の全員に分配されました。ICMの主な役割は、残りのプレイヤー間で固定されたPrize Poolを、彼らの現在のChip Countsのみに基づいてどのように分割するかを算出することです。

名前の「Independent」という言葉は、中心となる簡略化の仮定を示しています。ICMは、フィニッシュ確率がChip Countsのみに依存するとみなし、Position、Skill、Blind Level、および将来のプレイを無視します。この仮定は細部では誤りですが、全体としては有用です。FGSに到達した際により詳しく説明します。

マルムス・ハービルモデル

マルムス・ハービルは、たった一つの明確な公理に基づいています。

特定のプレイヤーが1位になる確率は、プレイ中の総チップにおける彼らのシェアに等しい。

プレイヤーiがStack \(s_i\)を保持し、プレイ中の総チップが\(T\)である場合:

\[P(i \text{ finishes 1st}) = \dfrac{s_i}{T}\]

これが全体のエンジンです。他のすべては事務処理に過ぎません。

このモデルのエレガントな点は、低いフィニッシュポジションをどのように扱うかにあります。一度誰が1位になるかを決めれば、そのプレイヤーとそのチップは考慮から外され、残りのフィールドに残りのチップで同じ質問をします。プレイヤーjが2位になる確率は、他の誰かが1位になる確率に、jが生き残ったプレイヤー間のサブトーナメントで「勝つ」確率を掛けたものです。

形式的には、jが2位になる確率は、あらゆる可能な1位フィニッシャーkk ≠ j)の合計です。

\[P(j \text{ is 2nd}) = \sum_{k \neq j} P(k \text{ is 1st}) \cdot \dfrac{s_j}{T - s_k}\]

これを注意深く読んでください。kが1位になるという条件の下では、kのチップはプールから除外され、新しい総計は\(T - s_k\)となり、その縮小されたフィールド内でプレイヤーjが「1位」(つまり全体で2位)になる確率は\(s_j / (T - s_k)\)です。1位の枠が埋められるすべての方法について合計すると、jの正確な2位の確率が得られます。

3位はさらに深く再帰します。すべての順序対の(1位、2位)フィニッシャーについて合計し、両方のStackを削除し、残りの残りのチップにおけるjのシェアを計算します。一般的に、あなたはフィニッシュの順序を列挙し、各順序をそのマルムス・ハービル確率で重み付けし、累積します。n人のプレイヤーが残っている場合、n!通りの順序があります。これは9人のファイナルテーブルでは些細なことで(362,880通りの順序、数ミリ秒の計算)、そのため実際のファイナルテーブルでのICMは近似ではなく正確です。

あなたのドルEquity

完全なフィニッシュ分布――各プレイヤーについて、1位、2位、3位…でフィニッシュする確率――が得られれば、お金への変換は内積です。\(\text{pay}[r]\)をポジションrでのフィニッシュに対するPayoutとします。すると:

\[\text{EV}(i) = \sum_r P(i \text{ finishes in position } r) \cdot \text{pay}[r]\]

この1行がモデルの主要な結果です。あなたのトーナメントにおけるドルEquityは、すべてのフィニッシュポジションについて、そのポジションに到達する確率にそのポジションが支払う額を乗じたものの合計です。 ICMは、これらの確率を計算するための原則的な方法に過ぎません。

具体的な4人残り例

理論は数字を通してよりよく理解されます。4人のプレイヤーが残っています。Stackと$10,000のPrize Poolがあり、Payoutは50 / 30 / 15 / 5です。

| プレイヤー | Stack | チップシェア | そのフィニッシュでのPayout | |---|---|---|---| | A | 5,000 | 50% | 1位 = $5,000 | | B | 3,000 | 30% | 2位 = $3,000 | | C | 1,500 | 15% | 3位 = $1,500 | | D | 500 | 5% | 4位 = $500 | | 合計 | 10,000 | 100% | Pool = $10,000 |

この設定に仕込まれた意図的な罠に注目してください。Payout(50/30/15/5)は、チップシェア(50/30/15/5)を完全に反映しています。もしチップが金銭に対して線形であれば、各プレイヤーの$EVは彼らのチップシェアドルと等しくなります。A = $5,000、B = $3,000、C = $1,500、D = $500。ICMはこれらがいずれも成立しないことを示します。

ステップ1 — P(1st)は単なるチップシェア

公理から直接、合計はちょうど1になります。

(0.5000 + 0.3000 + 0.1500 + 0.0500 = 1.0000.) ✓

ステップ2 — P(2nd)の計算の一例

手計算でP(Dが2位になる確率)を求めましょう。誰が1位になる可能性があったかを合計します。

合計: 0.05000 + 0.02143 + 0.00882 = 0.08025。したがって、チップの5%を保持するDは、約8%の確率で2位になります。すべてのプレイヤーに同じ再帰を適用すると(ここでは24通りの順序をすべて列挙して計算)、以下の完全なフィニッシュ分布が得られます。1位の列は公理により正確であり、2位/3位/4位の列は正確なマルムス・ハービルの再帰であり、丸められています。

| プレイヤー | P(1位) | P(2位) | P(3位) | P(4位) | |---|---|---|---|---| | A | 0.5000 | 0.3288 | 0.1456 | 0.0255 | | B | 0.3000 | 0.3687 | 0.2613 | 0.0699 | | C | 0.1500 | 0.2222 | 0.4197 | 0.2081 | | D | 0.0500 | 0.0803 | 0.1733 | 0.6965 |

各行は1.0に合計され、各列も1.0に合計されます。これらはモデルが満たすべき健全性チェックです。Short StackのDが圧倒的に最初にBustする可能性が高い(69.65%)ですが、もはやそれが保証されていないことに注目してください。サバイバルは最後まで確率的です。

ステップ3 — ドルへの変換

各プレイヤーのフィニッシュ分布とPayoutベクトル [5000, 3000, 1500, 500] の内積を取ります。

| プレイヤー | チップシェア | 「チップEquity」 $ (線形) | ICM $EV | チップとの差額 | |---|---|---|---|---| | A | 50% | $5,000 | $3,717.74 | −$1,282.26 | | B | 30% | $3,000 | $3,033.17 | +$33.17 | | C | 15% | $1,500 | $2,150.19 | +$650.19 | | D | 5% | $500 | $1,098.89 | +$598.89 | | 合計 | 100% | $10,000 | $10,000.00 | 0 |

ドルは合計すると元の$10,000のPrize Poolに戻ります。Equityは保存され、決して生成されたり破壊されたりすることはありません。これがモデル全体の核心であり、具体的な数字で示されています。

これは、これらの特定のStackの奇妙な点ではなく、構造的なものです。Payoutラダーの凹性と、1チップのStackでさえ何らかのフィニッシュポジションが保証されるという事実により、Short Stackはドル換算でチップに対して体系的に過大評価され、Big Stackは体系的に過小評価されます。全員がPay Scaleの「中央」に引き寄せられるのです。

これがプレイ方法をどう変えるか

その実用的な結果は、一つのフレーズに集約されます。それはrisk premiumです。失われた最後のチップが(ドル換算で)次に獲得するチップよりも価値が高いため、Stack-offのブレイクイーブンEquityは、単純なChip-EVのブレイクイーブンを上回ります。明らかなChip-EVのCallであるスポットが、ICMでは明らかなFoldとなることがあります。

リーダーAの状況を上記のレンズを通して見てみましょう。AがミドルStackに対してチップをリスクにさらすのは、不利な為替レートでドルを賭けていることになります。Aは損失に対して完全な限界チップコストを支払い、勝利に対しては割引された限界チップ価値を受け取ります。なぜなら、ダブルアップしてもAのお金は倍にならないからです(Aはすでにカーブの頂点近くにいます)。対照的に、Short Stack Dは、より大きなStackに対して低いrisk premiumを持っています。Dのチップはリスクを冒すのが安価です。なぜなら、Dのダウンサイドは小さく、Laddering Equityによって十分に補償されるからです。これが「Big StackはBullyすべきだが、他のBig Stackに対してではない」や「ICM pressureはミドルStackに最も厳しくかかる」という数学的根拠です。ミドルStackは失うLadder Equityが最も多く、得るものが最も少ないからです。

これを目測で判断する必要はありません。StackとPayoutをshadepokerのICM計算機に入力し、各シートの$EVを読み取れば、勝利とBust時のドルEquityを比較することで、特定の対決におけるrisk premiumがわかります。その前後におけるドルのSwing — チップのSwingではなく — こそが、Riverでの判断の基準とすべき数値です。

マルムス・ハービル対マルムス・ワイツマン

マルムス・ハービルは、実質的にすべての市販ICMツールでデフォルトですが、唯一のフィニッシュ順序モデルではありません。マルムス・ワイツマンは、同じ質問――Chip Countsが与えられたとき、フィニッシュ分布はどうなるか――に対し、異なる条件付けルールで答えます。

その違いは、下位の順位がどのように導き出されるかにあります。ハービルは分布を前方に構築します。誰が最初にフィニッシュするかを固定し(確率 = チップシェア)、それらを削除し、残りのプレイヤーで再帰します。一方、ワイツマンはボトムアップで推論し、最後にフィニッシュする確率をチップStackに反比例するものとしてモデル化し、その後、脱落順序を上に再帰します。両モデルはP(1st)と2人プレイの場合には完全に一致しますが、より大きなフィールドでの中間のフィニッシュポジションにはわずかに異なる確率を割り当て、したがってわずかに異なるドルEquityを割り当てます。

どちらが「正しい」のでしょうか?どちらも経験的に完璧ではありません。両方とも、Blinds、Position、Skillに依存する実際の脱落プロセスを簡略化したものです。ハービルは、その前方再帰が直感的で高速であり、観測されたトーナメントデータと許容できるほどよく一致するため、人気投票に勝ちました。ワイツマンは、ハービルよりもBig Stackに対してわずかに悲観的で、Short Stackに対してはわずかに優しい傾向があります。意見の相違は実在しますが、現実に対する両モデルが共有するモデル化誤差に比べれば通常は小さいです。実用的な目的のために、「ICM」がほとんど常にマルムス・ハービルを意味することを知り、ワイツマンが原理的な代替案として存在することを知り、両者の小数点以下2桁の差について苦悩しないでください。それらは両モデルが行う仮定によって矮小化されます。

静的ICMを超えて:Future Game Simulation

ここに正直な限界があります。静的ICMは、トーナメントがそれ以上のプレイなしに解決すると仮定します。つまり、Stackを固定した瞬間にフィニッシュ分布が結晶化するかのように扱います。これには2つのフィクションが組み込まれています。

  1. 将来のハンドがない。 Blindsは上がらず、AntesもStackを消耗させず、誰もOpen-Shoveすることはありません。チップは固定された宝くじとして扱われます。
  2. Skillがない。 すべてのプレイヤーは同一です。世界クラスのRegとレクリエーションプレイヤーが同じStackを持っていても、同じEquityを得ます。Buttonに対するPosition――Short Stackの大きなEdge――は、モデルには見えません。

これらのフィクションは、将来のプレイが多く残っている場合に最も重要になります。つまり、より深いStack、Stackに対して大きなBlinds、そして誰もBustする前にButtonが数回回る場合です。静的ICMは、次のOrbitで生じるPositionやイニシアチブのアドバンテージを無視するため、これらのスポットを体系的に誤って評価します。

Future Game Simulation (FGS)は、その改良版です。Stackを固定する代わりに、FGSは次のkハンドのプレイ(通常、1〜4ハンド程度の短いLookahead)を、Blindsがどのように争われるかについての簡略化された戦略(多くの場合、Push/FoldまたはSolver由来のモデル)を使用してシミュレートし、その後に静的ICMを結果として得られるStack分布に適用します。実質的に、FGSはチップをドルに換金する前に少し「前進させてプレイ」させ、Positionの価値やすぐにBlindsに入るコストを捉えます。

その効果:FGSは、Short Stackに対してPositionを持っていることを報酬とし、限界的なHoldingでBig Blindsをポストしようとしていることを罰し、また、誰かがEliminateされる前にSkillとPositionを使うことができるスポットにおいて、静的ICMの最も厳しいFoldの一部を一般的に緩和します。コストは計算とモデリングの複雑さです。シミュレーションは、将来のハンドに対して仮定する戦略に依存し、Lookaheadの深さによって状態空間が急速に爆発するため、FGSの深さは浅く保たれます。FGSを静的ICMに加えて、次のOrbitへの短く原則的な一瞥だと考えてください。将来のプレイが少ないファイナルテーブルやBubbleの意思決定では、静的マルムス・ハービルはすでに優れています。より深いミドルステージのPay-Jumpスポットでは、FGSはそれを意味のある形で修正します。

まとめ

ICMは感覚ではありません。それは具体的なアルゴリズムです。P(1st)はチップシェアに等しく、下位の順位は上位のフィニッシャーを除外して再帰することで導き出され、あなたのドルEquityは、Payoutラダーとフィニッシュ分布の内積です。4人プレイのどんなスポットでも実行すれば、常に同じ構造的真実が現れます。Chip Leaderは自身のStackよりも価値が低く、Short Stackは価値が高く、そしてミドルStackがモデルによって最も強く圧迫されるプレイヤーたちです。

これを内面化したプレイヤーは、単に「BubbleでTightにプレイする」だけではありません。彼らはすべてのAll-inをチップのSwingではなく、ドルのSwingに対して価格設定し、risk premiumがいつ彼らをギャンブルに解放し、いつ縛り付けるかを知っており、モデルのどの仮定が破綻しようとしているかを正確に理解しています。それは、FGSや純粋な判断に頼るべき瞬間です。チップをお金として扱うことと、正確な為替レートを知ることの間のそのギャップは、Min-Cashとファイナルテーブルでのスコアリングの間のギャップです。実際のスポットをshadepokerのICM calculatorに入力し、ドルのEquityを読み取り、この変換を第二の天性とし始めてください。