当Grok、Gemini和ChatGPT坐上扑克桌,结果惨不忍睹

2025-10-15

十月底,一位俄罗斯程序员计划让多个大语言模型在一场漫长的扑克对局中相互较量,以测试谁的牌技更胜一筹(详情:全球首次大型AI扑克对决即将上演,GPT-5等主流模型牌桌争霸)。

然而,如果参考PokerScout对几款知名聊天机器人的测试结果,这场AI比赛的牌技水平可能还不如普通的1/2级别牌局。

当Grok、Gemini和ChatGPT坐上扑克桌,结果惨不忍睹

这场名为PokerBattle.ai的赛事的发起人是Max Pavlov。他的设想是举办一场全AI模拟的常规桌对战,参赛者包括Grok、Gemini、Claude和OpenAI(ChatGPT)等知名模型。比赛将于10月27日至11月3日期间进行,规则如下:

  • 盲注10/20常规桌;

  • 无前注、straddle或盲注上涨机制;

  • 最多9人桌;

  • 起始记分牌量为100个大盲;

  • 初始资金10万,记分牌低于50个大盲时可随时补充。

  • 最终记分牌量最高的语言模型将获胜。

Pavlov解释了举办这场实验的初衷:

“大语言模型天然像是能辅助学习的工具——通过解析手牌、解释决策,将游戏中不同环节整合成连贯整体。但扑克圈对其推理能力的可靠性仍无定论。为了更清晰地验证各模型在扑克情境中的推理能力,我们决定组织这场锦标赛。”

PokerScout使用求解器GTO Wizard的训练模式,对部分预计参赛的AI进行了先行测试。

语言模型的扑克决策逻辑

大语言模型与GTO Wizard等求解器有本质区别。后者会通过数十万次模拟计算期望值来优化决策,而大语言模型则是通过海量公开信息进行训练。因此它们的扑克策略基于训练时“阅读”的内容,其中可能包含错误信息。

此外,LLM基于词语在特定语境中的出现概率进行统计推测。与基于AI的扑克求解器不同,大语言模型底层并没有对扑克游戏进行数学模拟。

新版本模型采用多步推理,将问题拆解为子语境。例如ChatGPT会先评估筹码底池比、范围、胜率等因素,再综合这些信息生成最终输出。相比几年前,聊天机器人的输出至少听起来更像懂扑克的玩家了。但PokerScout发现,它们对扑克的实际理解仍然有限。

PokerScout通过GTO Wizard的练习牌局进行测试,观察LLMs在决策树中的表现。测试对象包括Gemini 2.5 Pro(侧重推理、数学和代码)和Grok Expert(深度思考模式)。本应参赛的ChatGPT最初未能理解查询,反而反问用户的思考过程,但在使用付费版本并优化提问结构后,得到了更合适的回应。

测试使用与PokerBattle AI相似的设定(双盲注常规桌,100个大盲,少人桌),以下案例展示了这些程序在扑克策略上的局限。

案例研究:语言模型实战扑克牌局

这手牌是单次加注底池,枪口位玩家加注至2.5个大盲。大盲位玩家用K♣7♣跟注。翻牌发出9♠8♥6♦,部分模型立即出现误判:两个建议过牌,一个建议下注,策略开始分化。

翻牌圈:9♠8♥6♦

Grok称:Hero位是“K-high,带后门同花听牌和卡顺听牌”。它与Gemini都认为需要10才能成顺子,忽略了5也能组成顺子。建议过牌。

Gemini表示:Hero位有“卡顺听牌”和“两张高牌”——尽管7显然不是高牌。建议全范围过牌,但求解器实际会混合下注与过牌策略。它还认为Hero位应该准备对标准下注弃牌,而实际上求解器会用手牌中所有带7的组合继续游戏,且经常对下注bluff加注。

ChatGPT建议:下注2个大盲,理由是翻牌“更击中大盲位范围”。但GTO Wizard显示大盲位实际有轻微权益劣势(49.48% vs 50.52%)。不过K7组合确实更多选择下注,虽然频率差异不大,这意味着ChatGPT给出了最精准的细致回应。

GTO Wizard建议:小注或过牌。

实战:Hero位过牌,对手过牌。

转牌圈:K♦

Grok建议:下注2.75个大盲(50%底池),错误地将50%下注称为“极化手牌的标准尺寸”,实际上极化下注尺寸更大。还错误认为超池下注“在深筹码时过于激进”。

Gemini建议:下注4.1个大盲(75%底池),正确识别顶对弱踢脚,但错误假设对手不可能有超对。

ChatGPT建议:过牌,正确指出K♦提升了枪口位玩家权益,但对后续行动的理解有误:认为只应跟注小/中等尺度下注(实际上求解器不会对任何尺度弃牌),还对5/10河牌提出警示(尽管这些牌会令Hero成顺)。

GTO Wizard建议:主要过牌,混合大小尺度下注。

实战:Hero位下注4.1个大盲,对手弃牌。

语言模型无法提供有价值的扑克策略建议

这手未到河牌的简单牌局,清晰揭示了这些程序在提供扑克策略建议方面的局限性。虽然付费版ChatGPT给出的建议最为细致,但仍对明显牌理存在误解。

对于担心线上作弊的扑克玩家而言,实时辅助(RTA)确实是隐患——已有职业牌手被发现在对局中使用GTO Wizard等求解器。但任何基于LLM的实时辅助,其危害性可能不亚于帮助。

PokerBattle.ai是个有趣的实验,但扑克玩家不必期待向获胜模型请教策略。扑克策略还是应该交给专业求解器和人类专家,让大语言模型专注回答基础查询等简单任务更为妥当。

本文标签:AI

上一篇:为什么德州扑克必须强制投入盲注?精巧的游戏设计

下一篇:为什么国内玩家打锦标赛很难盈利?职业玩家心得分享

德州扑克APP下载

相关文章