GTO vs. エクスプロイト：ソルバーからいつ、どの程度逸脱すべきか

GTOはフロアであり、天井ではない。ソルバーからの逸脱に関するメタフレームワークを学ぼう。弱いPoolがアグレッシブなエクスプロイトを正当化する状況や、自分がターゲットになる前にどれだけリスクを取れるのか。

オンラインでもライブでも、ミッドステークスのテーブルには必ず出会うプレイヤーがいる。GTO Wizardをやりこみ、BTN-vs-BBのシングルレイズポットでのc-bet頻度をパーセント単位で暗唱でき、Betがポットの75%を超えた瞬間に「MDF以下だから」とRiverをFoldする。紙の上では、彼らは理論的に完璧だ。しかし、彼らはゆっくりと、静かに、ソルバーが想定するようなプレイをしないPoolに対して、資金を流出させている。

そのようなプレイヤーと真の勝者との間のギャップは、ソルバーの時間を増やすことではない。それは、ソルバーの出力がハンドの出発点であり、目標ではないと知ることだ。均衡は、逸脱を測定するためのBaselineだ。利益は逸脱の中にある――規律があり、正当化され、正しく方向付けられた逸脱の中に。この記事は、それらを見つけるためのメタフレームワークだ。GTOが実際に何を保証し、何を保証しないのか、いつGTOから離れるべきか、そして――ほとんどのプレイヤーが間違える部分――具体的にどの程度離れるべきか。

GTOとは何か（そして何でないのか）

GTO（Game-Theory-Optimal）戦略は、ナッシュ均衡戦略である。これは、どのプレイヤーも、一方的に自身の戦略を変更することによって、自身の期待値（EV）を改善できない戦略を指す。互いに均衡をプレイする相手に対しては、両者が同時に最大化を目指し、誰も逸脱して利益を得ることはできない。

我々の目的のために重要な特性はこれだ。GTO戦略はアンエクスプロイタブルである。相手が何をするかに関わらず、少なくともゲームの価値を保証する。あなたがGTOをプレイすれば、最悪のケースはロックされる。相手が完璧に、ひどく、あるいはランダムにプレイしたとしても、あなたはその分け前を得る。ヘッズアップの意味では、それはミニマックス戦略である。あなたの保証された最小値を最大化するのだ。

ここに重要な部分がある。これはチャートを丸暗記する人が見落とす点だ。

GTOはミスを最大限に罰しない。 相手のエラーに対しては無関心なのだ。

VillainがRiverでオーバーFoldしても、GTOは突然Bluffを増やしてそのFoldを刈り取ることはしない。均衡頻度でBluffを続け、無料のチップをテーブルに残す。VillainがBottom Pairで永遠にCallし続けても、GTOはバリューレンジを薄くしてゴミをBetすることはしない。均衡の幅でValue betし、残りは捨てる。ソルバーの仕事は無敵であることであり、欠陥のある相手に対して最大化することではない。これらは異なる目的であり、それらを混同することが根本的な誤りなのだ。

だからGTOはあなたの保険だ。それはフロアだ。情報がない時に頼るものだ。しかしフロアは天井ではない。保証された最小値を得ることで金持ちになった者はいない。

エクスプロイト的プレイとは何か

エクスプロイト的なプレイとは、GTOよりも特定の相手やPoolに対してより多くのProfitを得るために、均衡から逸脱することを指す。相手が実際にどのようにプレイするかを、Read、Sample、またはPoolの知識からモデル化し、理論的な均衡相手ではなく、そのモデルに対する最大EVの反応をプレイするのだ。

既知の固定戦略に対しては、EV最大化の対抗戦略はGTOよりもはるかに多く勝つことができる。もしプレイヤーがポットサイズのBetに対してRiverで100%Foldするなら、エクスプロイトは自明だ。全RangeをBluffとしてBetし、プリントする。GTOは決してこれを行わない。均衡でValue betを続け、Foldを罰せず放置するだろう。

しかし、あらゆるエクスプロイトには代償が伴う。そして、これがあなたが内面化すべき法則だ。

GTOからのあらゆる逸脱は、定義上、あなたをカウンターエクスプロイトに晒すことになる。

オーバーFoldするプレイヤーを攻撃するために、均衡よりも多くBluffする瞬間、あなたのRiver betting RangeはBluffが多すぎる状態になる。もしVillainがオーバーFoldをやめ、正しくCallし始めたら、あなたのエクスプロイトが彼らのエクスプロイトになる。あなたはGTOの保護を特定の傾向に対する追加のEVと交換したのだ。この交換はしばしば素晴らしいものだが、常に交換だ。無料のエクスプロイトは存在しない。あなたはミニマックスの盾から一歩踏み出しているのだから、それには理由がなければならない。

核心的な決定：追加のEVはリスクに見合うか？

あらゆるエクスプロイトの状況は、一つの疑問に集約される。

逸脱によって得られるEVは、Villainが調整した場合にリスクに晒されるEVよりも大きいか――そして、その調整の可能性によって重み付けされているか？

これにより、明確な決定ルールが得られる。

強く逸脱するのは、**信頼できるRead、十分なSample、または調整しない、あるいはできないソフトなPool*を相手にする場合だ。レクリエーションプレイヤーは、あなたのRiver bluffing頻度をリーク検出器にかけることはない。50,000ハンドのプレイヤーPoolのSampleが、次の火曜日に突然異なる行動をとることはない。対抗調整が起こりにくい場合、露出は安価であり、EVはあなたのものだ。

GTOに近いプレイを維持するのは、強い、適応力のある相手と対戦する場合、または単に情報が不足している場合だ。あなたをモデル化している思考型のRegularを相手にすると、あなたが仕掛けるあらゆるエクスプロイトが反撃を招き、不要なLeveling Warに巻き込まれる可能性がある。全くReadがない場合、均衡は罰せられない最高のEV戦略であり、正しくデフォルトとなる。

非対称性に注目しよう。逸脱には正当性が求められる。GTOは誰にも説明する必要のないものだ。だから、実用的なワークフローはこうだ。まずソルバーのBaselineから始め、次にソルバーが知らないことを私は何を知っているか？と自問する。もし答えが「信頼できるものは何もない」なら、それで終わりだ。Baselineをプレイする。もし答えが具体的で証拠に裏打ちされた傾向なら、その傾向が要求する方向に逸脱するのだ。

情報バーは、間違えることのStakesに応じて変化する

逸脱する前に必要な証拠の量は固定されていない。それは間違えるコストと、正しくてもカウンターエクスプロイトされるコストに応じて変化する。MTTでは、ICMも考慮する。Pay Jumpの近くやBubbleでは、バストするペナルティが増幅されるため、チップEVでは正しいマージナルなエクスプロイトが、$-EVでは間違っている可能性がある。タイトでICMに駆動されたBaselineから逸脱する基準は、ディープスタックでローStakesのCash pot（チップとドルの価値が線形である）で逸脱する基準よりも高い。同じフレームワークでも、閾値は異なるのだ。

具体的なミッドステークスPoolの逸脱

ここからが理論が金になる部分だ。以下に、最も信頼性が高く、再現性のあるミッドステークス人口の傾向と、それぞれの適切な方向への調整を示す。これらはエクスプロイトであり、それぞれが扉を開くことを意味する。次の表でその扉がどれかを示す。

PoolはRiverで大Betに対してオーバーFoldする

ミッドステークスで最も一般的なLeak。大きなRiver Bet（ポットの75%以上またはOverbet）に対して、プレイヤー人口はMDFが要求するよりも多くFoldする。彼らはサイズを感じ、"こんなに高いBetに対応できるほど"強いハンドを持っていないと感じ、Foldするのだ。

エクスプロイト：Riverで均衡よりも多くBluffし、Fold Equityを最大化するためにBluffでより大きなSizingsを傾ける。同時に、より小さなSizingsでより薄いValue betをすることもできる――なぜなら、彼らが大きなBetをCallするときは、彼らはcapped strongだが、Foldすべきだった弱いRangeで小さなBetを支払うからだ。あなたは使い分ける。大きくBetしてFoldさせ、小さくBetして彼らがすべきでないCallからチップを搾り取るのだ。

PoolはRiverでBluffが少ない

鏡像だ。ミッドステークスのプレイヤーがRiverで大きなBet、特にOverbetを打つ場合、彼らのRangeは均衡に比べてBluffが少ない――バランスの取れたRangeが示すよりもはるかに頻繁に、彼らは実際にハンドを持っている。

エクスプロイト：MDF以下でオーバーFoldする。 GTOは、相手のBluffを無関心にするのに十分な防御を要求する。しかし、相手が十分にBluffしないなら、あなたのFoldを罰するBluffは存在しない――だから、バランスの取れたBluffing Rangeしか打ち負かせないBluff-CatchersをFoldするのだ。Hero-callingをやめよう。あなたのBluff-Catchersは、存在しないBluffを捕らえるために価格設定されていたのだ。

PoolはFlatが多すぎ、3-betがTightすぎる

ミッドステークスのRegularの大部分は、PreflopでCallしすぎ、3-betはPremiumsに限定する傾向がある。そのため、彼らの3-betting Rangeは強さに偏り、ハイエンドで上限がなく、一方、彼らのFlatting Rangeは広く、弱い。

エクスプロイト：2つの調整を行う。まず、Light 3-bet bluffsをTightにする――A5sのようなハンドをBluffとして3-betしても、CallをFoldしないRangeをFoldさせる意味はなく、彼らはあなたをCrushするNut Handsでしか続けないだろう。次に、彼らの広く弱いFlatting Rangeに対してPostflopでより薄くValue betする――彼らはSecond PairやThird PairでCall downしてくるので、あなたのミディアムストロングハンドは、よりTightで正しいCallerを相手にするよりも多く支払われることになる。

UTG RangeがTightすぎる

ミッドステークスのEarly-PositionでのOpening Rangeは、通常、Tightすぎる。プレイヤーはまだUTGを2010年のように扱い、特にライブやBuy-inが低いMTTでは、Premiumsが中心のRangeを開ける傾向がある。

エクスプロイト：相手のUTG openに対してオーバーFoldする。 相手のOpening Rangeがソルバーが想定するよりも実際にTightな場合、あなたのDefending Range（より広く、弱いRangeに対して調整されていた）は今やLooseすぎる。あなたのマージナルなディフェンスの多くはドミネートされている。Continuing Rangeの下限をFoldし、よりTightにFlatし、相手の強化された強さを考慮したRangeで3-bet for valueするのだ。

各エクスプロイトがもたらすリスク

上記の各行は均衡からの逸脱であり、Villainが目覚めたらいつでも反撃の機会を与えることを意味する。ドアを開ける前に、あなたが何を開いているのかを知っておこう。

| Poolの傾向 | 正しいエクスプロイト | 開くリスク（反撃） | |---|---|---| | Riverで大Betに対してオーバーFoldする | Bluffを増やす / BluffのSizingsを大きくする；薄いValueを小さくする | あなたのBig-Bet RangeはBluff過多になる――もしVillainが正しくCallし始めたら、あなたのBluffに対してProfitを得るだろう | | RiverでBluffが少ない | MDF以下でオーバーFoldする | あなたはエクスプロイト可能なほどFoldしやすくなる――RiverでBluffを増やすVillainは、あなたが「守るべき」ポットを奪う | | Flatが多すぎる / 3-betがTightすぎる | Light 3-bet bluffsを減らす；薄くValue betする | あなたの3-bet RangeはValue過多で読まれやすくなる；彼らがCallをTightにする / Check-Raiseを増やすと、薄いValueが罰せられる | | UTG opensがTightすぎる | UTG opensに対してオーバーFoldする | あなたはBlindsを放棄し、防御が少なすぎる――もし彼らがUTGを広げたら、あなたは正しいRangeに対して大量にオーバーFoldしていることになる |

このパターンは一様だ。エクスプロイトとその反撃は、同じレバーを反対方向に押したものなのだ。 これはエクスプロイトの欠陥ではなく、ゲームの構造そのものだ。それはただ、そのドアを開けたままにしておくのがまだ安全かどうかを追跡する必要があることを意味するだけだ。

どの程度逸脱すべきか――幅がゲームのすべて

これは、有能なエクスプロイトプレイヤーと破産するプレイヤーを分ける部分だ。逸脱の決定は二元的だが、逸脱の幅は連続的であり、そこにほとんどのスキルが宿る。

指導原則：

エクスプロイトに傾倒するが、Villainのたった一つの調整であなたが壊滅しない程度に留めること。

スイッチではなく、ダイヤルだと考えよう。もしPoolがRiverでオーバーFoldするなら、全ての該当するコンボをBluffし、バランスを完全に捨てるのではなく――あなたのBluffing頻度をエクスプロイトの最大値に向かって増やし、もしVillainが突然正しく防御し始めたとしても、潰されるのではなく、少し損をする程度で止めるのだ。あなたは利用可能なEVの大部分を刈り取りつつ、自分のRangeが半端なプレイヤーでも簡単に見破れるような、退廃的で単調なカリカチュアにならないようにする必要がある。

有用な思考モデル：最大限にエクスプロイトする戦略とGTO baselineは二つの終点だ。エクスプロイトから得られるEVは、通常、収穫逓減の法則に従う曲線を描く――逸脱の最初の増分が利益のほとんどを捉え、最後の増分（完全に退廃的になること）は、わずかなEVを追加する一方で、途方もないリスクを追加する。スイートスポットは、最大限エクスプロイト的な極端な状態の手前にある。あなたはエクスプロイトのEVの80%を獲得しつつ、そのカウンターエクスプロイトのリスクの20%を負っているのだ。

具体的には：

PoolはRiverでオーバーFoldする？ もっとBluffする――ただし、一部のミストドローは諦めとして残し、Valueの基盤を維持する。今日彼らがたくさんFoldするからといって、あなたのRiver betting Range全体を空気にするのはやめよう。
Poolは3-betがTightすぎる？ Light 3-bet bluffsを減らす――しかし、ゼロにしてはいけない。さもないと、一人の観察力のあるプレイヤーがあなたが3-betするたびにFoldし、あなたは完全に透明になり、別の方向からエクスプロイト可能になってしまう。
MDF以下でオーバーFoldしたくなる？ そうする――ただし、VillainのBluffing頻度を追跡すること。Sampleが彼らがもっとBluffしていると示したら、Foldの数をMDFの方に戻すのだ。

あなたの逸脱の大きさは、あなたの自信に比例し、Villainの適応能力に反比例するべきだ。静的なPoolに関する大量のSample → 強く傾倒する。鋭いRegularに関する薄いRead → ほとんど逸脱しない、もし逸脱するとしても。

Leveling WarとGTOの安全な港

強力で適応力のある相手に対して、エクスプロイトは再帰的なゲームになる。あなたが彼らの傾向をエクスプロイトする。彼らはそれに気づき、反撃する。あなたは彼らの反撃に反撃する。これがLeveling Warであり、安定した解決策はない――「私があなたが知っていることを知っている」という無限の後退だ。

Leveling Warについて重要なこと：GTOはそれらに対する唯一の安定した答えだ。 均衡は、定義上、後退を終わらせる戦略である――アンエクスプロイト可能なので、それを打ち破る上位のレベルは存在しない。あなたが、あなたをモデル化するのと同じくらい相手もあなたをモデル化している同僚との真のLeveling Warに巻き込まれた場合、多くの場合の動きは、LevelingをやめてBaselineに戻ることだ。マージナルなエクスプロイトEVは諦めるが、保護を取り戻す――そして鋭い相手に対しては、保護は大きな価値がある。

だからこそ、未知のプレイヤーや強いプレイヤーに対しては、GTOが正しいデフォルトなのだ。 宇宙で最もEVの高い戦略だからではない――欠陥のある相手に対してはそうではない――しかし、あなたにとって不利にならない情報なしでプレイできる最もEVの高い戦略だからだ。それが安全な港だ。理由があるときにそこから出てエクスプロイトし、理由が消えるか、相手が逸脱を罰するのに十分なほど優秀なときに、そこへ戻るのだ。

逸脱を正当化するSampleを構築する

このフレームワーク全体は、たった一つの入力に基づいている。それは正当化されたReadだ。「PoolがRiverでオーバーFoldする」というのは、それが実際にあなたが所属するPoolに当てはまる場合のみエクスプロイトとなる――これは経験的な主張であり、感覚ではない。規律あるエクスプロイトと投機的なプレイ（spew）の違いは、証拠を示すことができるかどうかだ。

これは地味で決定的な作業だ。RiverでオーバーFoldを見たらTagをつけよう。どのRegularがPremiumsのみを3-betするかをメモしよう。このPoolのUTG Rangeが本当にTightなのか、それとも別のStakeからパターンマッチングしているのかを追跡しよう。shadepokerのハンド Trackerはまさにこのために存在する――「彼らはたくさんFoldするように感じる」という感覚を、「記録された40回のRiverのうち、このプレイヤーは75%+のBetに対して31回Foldした」というSample Sizeに変えるためのSpotsとReadsを記録するのだ。一方は勘、もう一方は逸脱のライセンスだ。

同じ規律はあなた自身のラインにも当てはまる。逸脱が正しいと判断する前に、そのSpotのGTO baselineが何であったかを知っていなければならない――さもなければ「エクスプロイト」は「なんとなくやりたかったこと」の単なる言葉になってしまう。shadepokerのRangeツールを使って、自分の実際の頻度とSolverのBaselineを比較することで、あなたが本当にPoolをエクスプロイトしているのか、それともそれにまつわる物語を語りながら静かに資金を流出させているのかを知ることができる。逸脱は、あなたが逸脱したBaselineと、逸脱した根拠となる証拠を挙げられる場合にのみ正当化される。

主要なポイント

GTOは目的地ではない。それは出発点となる地図であり、撤退する安全な港なのだ。

GTOはアンエクスプロイト可能なフロアである――ゲームの価値を保証するが、ミスを最大限に罰することはない。無関心こそがその本質だ。
エクスプロイトこそが真の稼ぎどころ――しかし、あらゆるエクスプロイトは保護をEVと交換し、あらゆるエクスプロイトは反撃の機会を与える。
ソフトなPool、大きなSample、調整しないReadに対しては強く逸脱する。強力で適応力のある相手や、情報がない場合はGTOを維持する。
方向性よりも大きさが重要である――エクスプロイトに傾倒し、そのEVの大部分を獲得するが、Villainの一つの調整であなたが壊滅しない程度に留めること。
あらゆる逸脱を証拠で正当化する。 Sampleこそがエクスプロイトと投機的なプレイ（spew）の違いだ。

ソルバーのラインは始まりであり、目標ではない。勝つプレイヤーとは、均衡を完璧に理解し、そしてあらゆるセッションで、規律があり、証拠に裏打ちされ、適切な規模の理由を見つけて、そこから逸脱する者なのだ。