GTO vs. 익스플로잇: 솔버에서 언제, 얼마나 벗어나야 하는가

GTO는 바닥이지 천장이 아니다. 솔버에서 벗어나는 메타 프레임워크를 배우고, 약한 Pool이 강력한 익스플로잇을 정당화하는 시점과 자신이 표적이 되기 전에 얼마나 멀리 나아갈 수 있는지 알아보세요.

온라인이든 라이브든 모든 미드 스테이크 테이블에서 당신이 만났을 법한 플레이어가 있다. 그들은 GTO Wizard를 갈고닦았고, BTN-vs-BB 싱글 레이즈 팟 c-bet 빈도를 퍼센트 단위로 암송할 수 있으며, Bet이 Pot의 75%를 넘는 즉시 River를 Fold한다. 왜냐하면 "그것은 MDF 미만이기 때문이다." 이론적으로는 완벽해 보인다. 하지만 그들은 Solver가 가정하는 대로 플레이하지 않는 Pool을 상대로 돈을 천천히, 조용히 흘리고 있다.

그 플레이어와 진정한 승자 사이의 간극은 더 많은 솔버 시간이 아니다. 그것은 솔버의 결과물이 핸드의 출발점이지 목표가 아님을 아는 것이다. 균형은 편차를 측정하는 기준선이다. 수익은 편차에 있다 — 규율 있고, 정당하며, 올바르게 지시된 편차에 말이다. 이 글은 그것들을 찾는 메타 프레임워크이다: GTO가 실제로 무엇을 보장하고 무엇을 보장하지 않는지, 언제 GTO를 벗어나야 하는지, 그리고 대부분의 플레이어가 잘못 이해하는 부분인 — 정확히 얼마나 멀리까지 벗어나야 하는지.

GTO의 실제 모습 (그리고 그렇지 않은 것)

GTO(Game-Theory-Optimal) 전략은 내쉬 균형 전략이다: 즉, 어떤 플레이어도 일방적으로 자신의 전략을 변경함으로써 기대값(EV)을 향상시킬 수 없는 전략이다. 균형을 플레이하는 상대방을 상대로, 당신과 상대방 모두 동시에 최적화하며 아무도 이득을 얻기 위해 벗어날 수 없다.

우리 목적에 중요한 속성은 이것이다: GTO 전략은 익스플로잇 불가능하다. 상대방이 무엇을 하든 최소한 게임의 가치를 보장한다. 당신이 GTO를 플레이한다면, 최악의 경우도 고정된다 — 상대방이 완벽하게 플레이하든, 형편없이 플레이하든, 무작위로 플레이하든, 당신은 여전히 당신의 몫을 차지한다. Heads-up 상황에서는 맥시민 전략이다: 당신이 보장된 최소값을 극대화하는 것이다.

여기에 중요한 부분이 있다. 차트 암기자들이 간과하는 부분이다:

GTO는 실수를 최대로 처벌하지 않는다. 상대방의 실수에 무관심하다.

Villain이 River에서 과도하게 Fold하더라도, GTO는 갑자기 Bluff를 더 많이 하여 그 Fold를 수확하지 않는다 — 균형 빈도로 Bluff를 계속하여 공짜 돈을 테이블에 남긴다. Villain이 Bottom Pair로 영원히 Call down하더라도, GTO는 가치 Range를 얇게 하여 쓰레기를 Bet하지 않는다 — 균형 너비로 Value bet하고 나머지는 놓아준다. 솔버의 역할은 이길 수 없게 되는 것이지, 결함 있는 상대를 상대로 최대화하는 것이 아니다. 이들은 다른 목표이며, 이를 혼동하는 것이 근본적인 오류이다.

따라서 GTO는 당신의 보험 정책이다. 그것은 바닥이다. 정보가 없을 때 의지할 수 있는 것이다. 그러나 바닥은 천장이 아니며, 보장된 최소한의 금액을 모아 부자가 된 사람은 아무도 없다.

익스플로잇 플레이란 무엇인가

익스플로잇 플레이는 GTO가 할 법한 것보다 특정 상대방이나 Pool을 상대로 더 많은 Profit을 얻기 위해 균형에서 벗어나는 것이다. 당신은 상대방이 실제로 어떻게 플레이하는지에 대한 모델을 — Read, Sample, 또는 Pool 지식에서 — 구축하고, 이론적인 균형 상대방이 아닌 그 모델에 대한 최대 EV 응답을 플레이한다.

알려진 고정 전략에 대해 최대 EV 반대 전략은 GTO보다 훨씬 더 많은 이득을 얻을 수 있다. 만약 플레이어가 Pot-sized Bet에 대해 River에서 100% Fold한다면, 익스플로잇은 사소하다: 모든 Range를 Bluff로 Bet하고 돈을 찍어낸다. GTO는 결코 이런 일을 하지 않을 것이다 — 균형에서 Value bet을 계속하고 Fold를 처벌하지 않은 채 내버려둘 것이다.

하지만 모든 익스플로잇에는 대가가 따르며, 이는 당신이 내면화해야 할 법칙이다:

GTO에서 벗어나는 모든 행동은 정의상 카운터 익스플로잇에 당신을 노출시킨다.

당신이 오버폴더를 공격하기 위해 균형보다 더 많이 Bluff하는 순간, 당신의 River betting Range는 Bluff가 너무 많아진다. 만약 Villain이 오버폴드를 멈추고 올바르게 Call하기 시작하면, 당신의 익스플로잇은 그들의 익스플로잇이 된다. 당신은 특정 경향에 대한 추가 EV를 위해 GTO의 보호를 거래한 것이다. 그 거래는 종종 훌륭하지만 — 항상 거래다. 공짜 익스플로잇은 없다. 당신은 맥시민 방패 뒤에서 벗어나고 있는 것이므로, 합당한 이유가 있어야 한다.

핵심 결정: 추가 EV가 노출될 가치가 있는가?

모든 익스플로잇 스팟은 한 가지 질문으로 귀결된다:

벗어남으로써 얻는 EV가 Villain이 조정을 했을 때 내가 감수해야 할 EV보다 큰가 — 조정 가능성에 따라 가중치를 부여하여?

이는 명확한 결정 규칙을 제공한다:

강하게 벗어나라 당신에게 **신뢰할 수 있는 Read, 큰 Sample, 또는 조정하지 않거나 조정할 수 없는 약한 Pool**이 있을 때. 레크리에이션 플레이어들은 당신의 River bluffing 빈도를 Leak-Detector로 돌리지 않는다. 50,000 핸드 인구 Sample이 다음 화요일에 갑자기 다르게 행동할 리 없다. 반대 조정이 불가능할 때, 노출은 싸고 EV는 당신의 것이다.

GTO에 가깝게 유지하라 당신이 강하고 적응력 있는 상대와 맞서거나 단순히 정보가 부족할 때. 당신을 모델링하고 있는 생각을 하는 Regular를 상대로, 당신이 시도하는 모든 익스플로잇은 카운터를 유발하며, 싸울 필요 없는 Leveling War에 빠져들 수 있다. 아무 Read도 없을 때, 균형은 벌어질 수 없는 가장 높은 EV 전략이다 — 그것은 올바르게 기본값이다.

비대칭성에 주목하라: 벗어나려면 정당성이 필요하다. GTO는 누구에게도 설명할 필요가 없는 것이다. 따라서 실제 워크플로는 다음과 같다: 솔버 Baseline에서 시작하여 솔버가 모르는 것을 내가 무엇을 알고 있는가?라고 묻는다. 답변이 "신뢰할 만한 것이 없다"면 끝이다 — Baseline을 플레이하라. 답변이 구체적이고 증거가 있는 경향이라면, 그 경향이 요구하는 방향으로 벗어나라.

정보의 기준은 틀릴 경우의 Stakes에 따라 달라진다

벗어나기 전에 필요한 증거의 양은 고정되어 있지 않다. 이는 틀릴 경우의 비용과, 맞았지만 카운터 익스플로잇 당했을 경우의 비용에 따라 달라진다. MTT에서는 ICM을 고려하라: Pay Jump 근처나 Bubble에서 bust될 경우의 페널티가 증폭되므로, Chip-EV에서는 올바른 미세한 익스플로잇도 $-EV에서는 틀릴 수 있다. Tight하고 ICM 기반의 Baseline에서 벗어나는 기준은, Deep-Stacked, Low-Stakes Cash Pot (칩과 달러가 선형적인 관계인 경우)에서 벗어나는 기준보다 높다. 같은 프레임워크지만, Threshold는 다르다.

미드 스테이크스 Pool의 구체적인 편차

이것은 이론이 돈이 되는 부분이다. 아래는 가장 신뢰할 수 있고 반복 가능한 미드 스테이크스 Pool 경향과 각각에 대한 정확한 방향성 조정이다. 이것들은 익스플로잇이며, 각각이 문을 연다는 것을 의미한다 — 다음 표는 어떤 문을 여는지 보여줄 것이다.

Pool은 큰 Bet에 River를 과도하게 Fold한다

가장 흔한 미드 스테이크스 Leak이다. 큰 River Bet(Pot의 75% 이상 또는 Overbet)에 대해, Pool은 MDF가 요구하는 것보다 더 많이 Fold한다. 그들은 사이즈를 느끼고, "이만큼" 강한 핸드가 없다고 느끼며, Fold한다.

익스플로잇: River에서 균형보다 더 많이 Bluff하고, Fold Equity를 극대화하기 위해 Bluff 시 더 큰 Sizings를 사용하는 경향이 있다. 동시에, 더 작은 Sizings로 더 얇게 Value bet할 수 있다 — 왜냐하면 그들이 크게 Call할 때는 capped strong하지만, 그들이 Fold했어야 할 약한 Range로 작은 Bet을 지불할 것이기 때문이다. 당신은 나누어서 플레이한다: 크게 Bet하여 Fold시키고, 작게 Bet하여 그들이 하지 말아야 할 Call에서 Profit을 얻는 것이다.

Pool은 River Bluff가 부족하다

거울 이미지. 미드 스테이크스 플레이어가 큰 River Bet, 특히 Overbet을 했을 때, 그들의 Range는 균형에 비해 Bluff가 부족하다 — 그들은 균형 잡힌 Range가 나타내는 것보다 훨씬 더 자주 좋은 핸드를 가지고 있다.

익스플로잇: MDF 미만으로 과도하게 Fold. GTO는 상대방의 Bluff를 무관심하게 만들 만큼 충분히 방어하라고 말한다. 하지만 상대방이 충분히 Bluff하지 않는다면, 당신의 Fold를 처벌할 Bluff는 존재하지 않는다 — 그러므로 균형 잡힌 Bluffing Range만 이길 수 있는 Bluff-Catchers는 Fold한다. Hero-calling을 멈춰라. 당신의 Bluff-Catchers는 존재하지 않는 Bluff를 잡기 위해 Pricing 되어 있었다.

Pool은 너무 많이 Flat하고 3-bet을 너무 Tight하게 한다

미드 스테이크스 레귤러의 상당수는 Preflop에서 너무 넓게 Call하고, 3-bet은 Premiums에만 사용한다. 따라서 그들의 3-betting Range는 강한 쪽으로 편향되어 있고 상한이 없으며, Flatting Range는 넓고 약하다.

익스플로잇: 두 가지 조정. 첫째, Light 3-bet bluffs를 Tight하게 줄인다 — A5s와 같은 핸드를 Bluff로 3-bet하여 Call할 Range를 Fold시키거나, 당신을 Crush하는 Nut Hands로만 계속할 Range를 상대로는 의미가 없다. 둘째, 그들의 넓고 약한 Flatting Range를 상대로 Postflop에서 더 얇게 Value bet한다 — 그들은 Second Pair와 Third Pair로 Call down할 것이므로, 당신의 중간 강도의 핸드는 더 Tight하고 올바른 Caller를 상대로 하는 것보다 더 많은 Pay off를 얻는다.

UTG Range가 너무 Tight하다

미드 스테이크스 Early-Position Opening Range는 일반적으로 너무 Tight하다 — 플레이어들은 여전히 UTG를 2010년처럼 취급하며, 특히 라이브 및 낮은 Buy-in MTT에서 Premiums 위주의 Range를 오픈한다.

익스플로잇: 상대방의 UTG opens에 과도하게 Fold. 상대방의 Opening Range가 솔버가 가정하는 것보다 실제로 더 Tight하다면, 당신의 Defending Range — 더 넓고 약한 Range에 맞춰 조정되었던 — 는 이제 너무 Loose하다. 당신의 많은 마지널 디펜스는 도미네이트된다. Continuing Range의 Bottom을 Fold하고, 더 Tight하게 Flat하며, 상대방의 높은 강도를 고려한 Range로 3-bet for value하라.

각 익스플로잇이 생성하는 노출

위의 각 행은 균형에서의 이탈을 의미하며, 이는 각 행이 상대방이 깨어날 경우 카운터를 제공한다는 것을 의미한다. 문을 열기 전에 어떤 문을 여는지 알아두라:

| Pool 경향 | 올바른 익스플로잇 | 그것이 여는 노출 (카운터) | |---|---|---| | 큰 Bet에 River를 과도하게 Fold | Bluff를 더 많이 / Bluff의 Sizings를 늘린다; 얇은 Value를 더 작게 | 당신의 Big-Bet Range는 Bluff-heavy가 된다 — 만약 Villain이 올바르게 Call하기 시작하면, 그들은 당신의 Bluff를 상대로 수익을 올릴 것이다 | | River Bluff가 부족 | MDF 미만으로 과도하게 Fold | 당신은 이제 익스플로잇 가능하게 Fold하기 쉽다 — River Bluff를 추가하는 Villain은 당신이 "방어해야 할" Pot을 훔쳐간다 | | 너무 많이 Flat / 3-bet 너무 Tight | Light 3-bet bluffs를 줄인다; 더 얇게 Value bet | 당신의 3-bet Range는 Value-heavy하고 읽기 쉬워진다; 그들이 Call을 Tight하게 하거나 Check-Raise를 더 많이 하면 얇은 Value는 벌을 받는다 | | UTG opens 너무 Tight | UTG opens에 과도하게 Fold | 당신은 Blinds를 포기하고 너무 드물게 방어한다 — 만약 그들이 UTG를 넓히면, 당신은 이제 올바른 Range에 대해 엄청나게 과도하게 Fold하고 있는 것이다 |

패턴은 일관적이다: 익스플로잇과 그 카운터는 같은 레버를 반대 방향으로 미는 것이다. 이는 익스플로잇의 결함이 아니라 — 게임의 구조이다. 그것은 단지 문이 아직 안전하게 열려 있는지 추적해야 한다는 것을 의미한다.

얼마나 멀리 벗어나야 하는가 — 크기가 전부다

이것은 유능한 익스플로잇 플레이어와 자멸하는 플레이어를 가르는 부분이다. 벗어나는 결정은 이진법적이지만, 벗어남의 크기는 연속적이며, 대부분의 기술이 여기에 있다.

지도 원칙:

익스플로잇 쪽으로 기울지만, 상대방의 단 한 번의 조정으로 당신이 파괴될 정도로 멀리 기울지 마라.

스위치 대신 다이얼이라고 생각하라. Pool이 River에서 과도하게 Fold한다면, 모든 적격한 콤보를 Bluff하고 모든 균형을 포기하는 것이 아니다 — 당신은 Bluffing 빈도를 익스플로잇 최대치 쪽으로 늘려나가되, Villain이 갑자기 올바르게 방어하기 시작하더라도 완전히 Crush 당하는 대신 약간의 손실만 입는 지점에서 멈춰야 한다. 당신은 사용 가능한 EV의 대부분을 수확하면서도, 당신의 Range가 어떤 평범한 플레이어라도 쉽게 간파할 수 있는 퇴화하고 단조로운 캐리커처가 되지 않도록 해야 한다.

유용한 정신 모델: 최대한 익스플로잇적인 전략과 GTO baseline은 두 개의 끝점이다. 익스플로잇으로부터 얻을 수 있는 EV는 보통 수익 체감의 곡선을 따른다 — 벗어남의 초기 증분은 이득의 대부분을 차지하고, 마지막 증분 (완전히 퇴화하는 것)은 엄청난 위험을 추가하면서 EV는 거의 추가하지 않는다. 스위트 스팟은 최대한 익스플로잇적인 극단보다 훨씬 못 미치는 지점에 있다. 당신은 익스플로잇 EV의 80%를 얻으면서 카운터 익스플로잇 위험의 20%를 감수하고 있는 것이다.

구체적으로:

Pool이 River를 과도하게 Fold하는가? 더 많이 Bluff하라 — 하지만 일부 미스 드로는 포기하고 가치 중심을 유지하라. 단지 오늘 많이 Fold한다고 해서 당신의 모든 River-betting Range를 공기로 만들지 마라.
Pool이 3-bet을 너무 Tight하게 하는가? Light 3-bet bluffs를 줄여라 — 하지만 제로로 만들지 마라. 그렇지 않으면 단 한 명의 관찰력 있는 플레이어가 당신이 3-bet할 때마다 Fold할 수 있고, 당신은 완전히 투명해져 다른 방향으로 익스플로잇 가능해진다.
MDF 미만으로 과도하게 Fold하고 싶은가? 그렇게 하라 — 하지만 Villain의 Bluffing 빈도를 추적하라. Sample이 그들이 더 많이 Bluff하고 있음을 보여주는 순간, Fold를 MDF 쪽으로 다시 조정하라.

당신의 벗어남의 크기는 당신의 자신감에 비례하고 Villain의 조정 능력에 반비례해야 한다. 정적인 Pool에 대한 큰 Sample → 강하게 기울어라. 날카로운 Regular에 대한 약한 Read → 거의 벗어나지 마라, 만약 벗어난다면.

레벨링 전쟁과 GTO의 안전한 항구

강하고 적응력 있는 상대와 맞설 때, 익스플로잇은 재귀적인 게임이 된다. 당신은 상대의 경향을 익스플로잇하고; 상대는 알아차리고 반격하며; 당신은 상대의 반격에 반격한다. 이것이 바로 Leveling War이며, 안정적인 해결책이 없다 — "나는 당신이 내가 아는 것을 안다는 것을 알고 있다"는 무한한 퇴행이다.

레벨링 전쟁에 대한 한 가지 사실: GTO는 그들에 대한 유일한 안정적인 해답이다. 균형은 정의상 퇴행을 끝내는 전략이다 — 익스플로잇 불가능하므로, 그것을 이길 수 있는 상위 레벨은 없다. 당신이 당신을 모델링하는 만큼 당신도 상대를 모델링하는 동료와 진정한 레벨링 전투에 휘말렸을 때, 종종 레벨링을 멈추고 Baseline으로 후퇴하는 것이 해답이다. 당신은 미미한 익스플로잇 EV를 포기하지만 보호를 되찾는다 — 그리고 날카로운 상대에 대해서는 보호가 큰 가치가 있다.

이것이 알려지지 않았거나 강한 플레이어를 상대로 GTO가 올바른 기본값인 이유이다. 우주에서 가장 높은 EV 전략이어서가 아니라 — 결함 있는 상대를 상대로는 그렇지 않다 — 당신에게 불리하게 사용될 수 없는 정보 없이 플레이할 수 있는 가장 높은 EV 전략이기 때문이다. 그것은 안전한 항구이다. 당신은 이유가 있을 때 그곳에서 벗어나 익스플로잇하고, 이유가 사라지거나 상대가 당신의 이탈을 벌할 만큼 충분히 강할 때 그곳으로 돌아온다.

벗어남을 정당화하는 Sample 구축

이 프레임워크 전체는 하나의 입력에 달려 있다: 정당화된 Read. "Pool이 River에서 과도하게 Fold한다"는 것은 당신이 실제로 속한 Pool에 해당하는 경우에만 익스플로잇이다 — 그리고 그것은 경험적 주장이지, 느낌이 아니다. 규율 있는 익스플로잇과 무모한 플레이(spew)의 차이는 증거를 제시할 수 있는지 여부이다.

이것이 바로 화려하지는 않지만 결정적인 작업이다. River에서 과도한 Fold를 볼 때 Tag을 지정하라. 어떤 Regular들이 Premiums만 3-bet하는지 기록하라. 이 Pool의 UTG Range가 실제로 Tight한지, 아니면 당신이 다른 Stake에서 패턴 매칭하고 있는지 추적하라. shadepoker의 핸드 Tracker는 바로 이런 목적을 위해 존재한다 — "그들이 많이 Fold하는 것 같다"를 "40개의 River 기록에서 이 플레이어는 75% 이상의 Bet에 31번 Fold했다"로 바꾸는 Sample Size로 축적되는 Spots와 Reads를 기록하는 것이다. 하나는 직감이고, 다른 하나는 벗어날 수 있는 면허이다.

같은 규율이 당신 자신의 Lines에도 적용된다. 어떤 벗어남이 옳다고 결정하기 전에, 그 Spot의 GTO baseline이 무엇인지 알아야 한다 — 그렇지 않으면 "익스플로잇"은 "내가 하고 싶은 대로"라는 말에 불과하다. shadepoker의 Range 도구를 사용하여 실제 빈도를 솔버 Baseline과 비교하는 것이 당신이 Pool을 진정으로 익스플로잇하고 있는지, 아니면 그것에 대한 이야기를 스스로에게 들려주면서 조용히 Leak을 내고 있는지 알아내는 방법이다. 벗어남은 당신이 어떤 Baseline에서 벗어났는지, 그리고 어떤 증거에 근거하여 벗어났는지를 명명할 수 있을 때에만 정당화된다.

핵심 요약

GTO는 목적지가 아니다. 그것은 당신이 시작하는 지도이자 당신이 물러서는 안전한 항구이다.

GTO는 익스플로잇 불가능한 바닥이다 — 게임 가치를 보장하지만 실수를 최대로 처벌하지는 않는다. 무관심이 그 본성이다.
익스플로잇은 진정한 돈이 있는 곳이다 — 하지만 모든 익스플로잇은 보호를 EV와 교환하며, 모든 익스플로잇은 카운터를 유발한다.
약한 Pool, 큰 Sample, 그리고 조정하지 않을 Read에 대해서는 강하게 벗어나라; 강하고 적응력 있는 상대와 정보가 없을 때는 GTO를 유지하라.
방향보다 크기가 더 중요하다 — 익스플로잇 쪽으로 기울되, 상대방의 단 한 번의 조정으로 당신이 파괴될 정도로 멀리 기울지 마라.
모든 벗어남을 증거로 정당화하라. Sample이 익스플로잇과 무모한 플레이(spew)의 차이이다.

솔버의 Line은 시작이지 목표가 아니다. 승리하는 플레이어는 균형을 완벽하게 알고 — 그리고 매 세션마다 규율 있고, 증거가 있으며, 올바른 크기의 벗어날 이유를 찾는 사람이다.