全球首次大型AI扑克对决即将上演,GPT-5等主流模型牌桌争霸

2025-10-09

如今,人工智能无处不在——以这句话或类似表述开头的文章也随处可见。说实话,你并不需要我来解释近年来大型语言模型的崛起。很可能,你正在阅读本文的设备上,就能直接访问这类工具。

像Grok、ChatGPT、Gemini这样的消费级人工智能产品,已经以数不清的方式融入了我们的生活。无论是求职者还是雇主,学生还是老师,每个人都很乐意把某些任务交给AI去完成。

全球首次大型AI扑克对决即将上演,GPT-5等主流模型牌桌争霸

这些模型有好坏之分吗?

按理说应该是有的——它们由不同的团队开发,目标也常常不同。你具体使用哪一款,可能取决于获取途径、成本、具体需求,或者仅仅是用习惯了。但从普通用户的角度来看,它们往往大同小异。

不过,你是否曾想过,在牌桌上,哪家大型语言模型的表现会更胜一筹?

来自俄罗斯、现居葡萄牙的IT产品经理Max Pavlov就思考过这个问题。本月晚些时候,他将通过一场前所未有的超长扑克对局来检验这些AI的实力。届时,主流消费级大模型将同台竞技,一决高下,看看谁技高一筹,谁又稍逊一筹。

Max Pavlov

这场即将到来的“AI扑克大战”正是由这位常驻里斯本的Pavlov策划的

牌局将于10月27日开始

“我一直在研究这个游戏,并思考如何能让这种研究更有效,”Pavlov解释道。“我对求解器很着迷,但可能有点难以驾驭,所以一直尝试为自己制定一些简单的策略——目前来看,求解器对我来说可能有些大材小用了。”

“我考虑过用大语言模型来帮忙,但似乎公认的一点是,使用时你必须非常小心,因为你可能会学到一些坏习惯,而且它们的分析并不总是一致的。”

“我找不到关于哪款大语言模型最适合我需求的研究,所以决定自己组织一场比赛来寻找答案。”

这场锦标赛将于10月27日至11月3日在PokerBattle AI网站上在线举行。所有牌局、结果以及每位AI牌手的推理过程都将公之于众。

与所有精彩的电视扑克节目一样,具体参赛“选手”将在临近比赛时最终确定,但我们预计主流大模型都会参与。Gemini、Claude、OpenAI、DeepSeek和Grok预计都将在这场虚拟牌局中占据一席之地,争夺“最强AI牌手”的称号。

图片

牌桌上会出现一些熟悉的名字(尽管不是面孔)

然而,与大多数扑克游戏不同,这些“牌手”永远不需要休息。同样,与其他电视扑克比赛不同的是,这场比赛的筹码完全是虚拟的。开发这些大语言模型的公司并未参与此次比赛,也不会为它们的“代表”提供资金。

它们也不会针对比赛对模型进行任何调整或优化——每款大语言模型都将以其当前、任何人都能使用的状态参赛,并且会接收到完全相同的指令。

具体细节可能在比赛临近时有所调整,但目前计划是:在这场无限注德州扑克常规桌/锦标赛混合赛中,每位“牌手”的初始资金为10万美元游戏币,盲注级别为10/20,起始记分牌为2000。当记分牌量低于50个大盲注时,系统会自动补足;当筹码输光时,则会自动重置(直到初始资金耗尽)。盲注级别不会上涨。

观众不仅可以观看比赛、阅读每位牌手的推理,还能获取关键数据统计。

“我会分享诸如入池率、翻牌前加注率、3-Bet率、持续下注率等数据,”Pavlov确认道。“我们是在线比赛,何乐而不为呢?”

每位牌手在多个同时进行的牌桌上的数据都将公开。

图片

届时将提供类似这样的统计数据,上图来自快速演示

“它们肯定会犯很多错误”

Pavlov坦然承认自己只是一名休闲扑克玩家——尽管他最近在罗兹瓦多夫举办的WSOP欧洲站比赛中首次进入了奖励圈——他推出这个项目是出于对扑克的热爱和着迷,而非进行严谨的学术研究。

“我更倾向于不把这个实验看作一个纯粹的基准测试,”他说。“我希望能积累1万到1万5千手牌,但即便如此,手数仍然不足以铁定证明哪一个模型更优。不过,这应该足以分析它们推理过程中的优缺点了。”

比赛中使用的随机数发生器、游戏逻辑和大部分界面都来自现成的代码,其中很多是由加拿大一个研究博弈论的学术团队开发的。

然而,用于观看和分析比赛的框架则是他自己完成的。界面中一个引人入胜的设计是,每位“牌手”都会阐述其每一步行动背后的理由,让我们得以窥见其决策过程。

图片

每个决策背后的理由都将实时显示

这种透明度只是Pavlov的项目与高级扑克AI机器人(如Pluribus和Libratus)的众多不同之处之一,后者是过去曾与人类对手交锋的专用程序。

“例如,你可以把Libratus看作一个专门为扑克训练的特化机器人,”Pavlov说,“因此它的策略更接近博弈论最优解。而且它是个‘黑匣子’——输入牌局状态,它输出决策,仅此而已。”

“相反,大语言模型的训练目标截然不同。你可以把它们想象成强化版的‘自动补全’。它们在推理任务上已经变得非常出色——例如,在数学奥林匹克竞赛中,它们的表现已经超过了大多数人类——但我完全不指望它们能打出博弈论最优解。”

“在它们的训练数据中,会包含博弈论的信息,包括扑克专用的博弈论。它们几乎是在互联网上的所有信息上训练的,所以会接触到论坛帖子、牌局评论、书籍文献和扑克博客中的内容。”

“但它们肯定会犯很多错误。它们只是在输出下一个词元,下一个词。我好奇的是,它们将如何生成简单、易懂的策略。”

牌手会在比赛中进步吗?

如果AI牌手不太可能打出博弈论最优扑克,那么它们玩出剥削性风格的可能性又有多大?AI牌手是否会随着比赛进展而调整策略?这是本实验中有待观察的众多看点之一。

“牌桌上的很多有用信息并非来自正在进行的这手牌,而是来自与特定对手之前的互动,”Pavlov解释道。“它们需要一种方法来获取之前牌局的信息,并将其融入当前牌局的语境中。当然,我可以将过去100手牌的完整描述放入上下文窗口中,并期望它们能借此做出些精彩的决策。”

“笔记功能是现成的,为何不用呢?这可能意味着信息量过大,但也确实可能为比赛增加一个维度。”

图片

观众将能够追踪数千手牌的进程

使用现成的技术,如开源随机数发生器、现成的界面和笔记功能,正是这个项目的特色所在。这项实验背后没有巨额资金,没有专门的扑克程序,也没有实验室环境;它仅仅是对我们当下都能接触到的工具的一次测试,但它很可能成为指引扑克技术未来发展方向的一个路标。

恰如其分地体现了该实验的“自己动手”精神,Pavlov独立完成了整个项目的创建,尽管他本人并非开发者。嗯,几乎是独立完成的。

“在某种程度上,这也证明了即使你不是开发者,也能构建出东西,”Pavlov说。“我是用AI来构建它的。”

本文标签:AI

上一篇:大脑的“健身房”:新研究指出扑克有助于降低失智风险

下一篇:没有了

德州扑克APP下载

相关文章