赢麻了赢麻了!
今天,鹅厂宣布棋牌类 AI “绝艺” LuckyJ 在国际知名麻将平台“天凤”上达到十段水平,刷新了 AI 在麻将领域的最好成绩。
和人类玩家相比,LuckyJ从零达到十段所需的对战局数仅需 1321 局,这个数字越小,说明升段速度更快,实力更强。
(资料图片仅供参考)
图:相比其他麻将AI和人类玩家,“绝艺LuckyJ“稳定段位更高,从零开始达到十段所需的对战局数也明显少,仅需要 1321 局
图:天凤稳定段位bootstrap的分布,绝艺LuckyJ显著强于之前最强的两个日本麻将AI(Suphx,NAGA)LuckyJ vs Suphx p value=0.02883;LuckyJ vs NAGA p value=3e-05
创建于 2006 年的“天凤”平台,拥有体系化的竞技规则和专业段位规则,受到职业麻将界的广泛认可。截至目前,天凤平台活跃人数 23.8万,而能达到十段的仅 27 人(含AI),不到万分之一。
而且,就离谱,这不是绝艺 LuckyJ第一次赢
此前,LuckyJ在国标麻将线下职业选手邀请赛中,成功击败六位职业选手,成为首个战胜国标麻将顶尖职业选手的麻将AI。
图:对战数据显示,在近2000 场对局中,绝艺LuckyJ 的平均赢番达到 1.76番,这里番为国标麻将的结算单位,数值越大,说明赢得越多。
非完美信息博弈
麻将AI需要更强大的决策能力
从国际象棋到围棋,再到德州扑克、王者荣耀等游戏,AI 不断在游戏场景中拓展能力边界。腾讯AI Lab自研的绝艺、绝悟两款决策AI,借助棋牌、MOBA等多类游戏场景,探索用AI解决现实中的复杂问题。
不同的游戏对AI的能力要求也不一样,游戏AI等竞技类的项目,体现的是AI的博弈能力。简单来看,这种博弈能力又可以分为完美信息博弈和非完美信息博弈。
围棋、象棋等游戏中,参与竞技的双方的每次决策,都可以看到全局的信息,这种情况就是完美信息博弈。AI可以通过强大的计算力来枚举各种可能性,从而找到致胜策略;而麻将等游戏中,因为无法看到对手的手牌,加上还有大量未揭开的牌,存在大量的隐藏信息,是典型的非完美信息博弈。
麻将一共有136张牌,每一位玩家只能看到很少的牌,包括自己的13张手牌和所有人打出来的牌,牌局开始时,另外三位玩家的手牌以及墙牌都是看不到的,面对如此多的隐藏未知信息,麻将玩家的每一个决策都需要兼顾进攻和防守。
此外,在麻将的对战中,除了正常的摸牌、打牌之外,还要决定是否吃牌、碰牌、杠牌、立直以及是否胡牌。任意一位玩家的吃碰杠都会改变摸牌的顺序,这一过程也涉及了大量的决策。
如上图所示,横坐标信息集数目表示可观察状态的多少,即牌面的信息。纵坐标信息集平均大小表示隐藏信息多少,即其他所有对手的手牌的可能性。麻将对战中所包含的隐藏信息要远远大于德州扑克和围棋。
据腾讯 AI Lab 研究员介绍,在游戏环境中推进决策AI的能力,最终是希望AI能从虚拟走向现实,解决真实世界的复杂问题,在现实世界中也充满了需要在非完美信息状态下做决策的场景,比如金融交易、自动驾驶、交通物流、拍卖系统等。
算法创新
拓展决策AI能力边界
过去超越人类的棋牌类AI,比如围棋和扑克,包含两大核心技术要素——离线训练和在线搜索。离线训练的目的在于得到一个固定的较优的游戏策略(什么状态下做什么动作)。在线搜索的目的在于根据当前实际的游戏状态,通过往前搜索很多步的方式来更精确地评价当前游戏状态下各个动作的得失,从而改善离线训练的固定游戏策略。
例如,围棋 AI AlphaGo 采用的就是强化学习+蒙特卡洛树搜索;德州扑克AI “冷扑大师” 采用的就是遗憾值最小化算法 +安全子博弈搜索(一种针对非完美信息游戏搜索算法)。值得一提的是,由于德州扑克是非完美信息游戏,训练AlphaGo采用的算法框架完全不适用,因为蒙特卡洛树搜索要求知道对手的当前状态,而这在扑克里面是不成立的,因为对手的手牌不可见。
麻将是一类更大规模的非完美信息博弈问题。鉴于传统的强化学习针对非完美信息游戏没有收敛到最强策略的理论保证,而有理论保证的遗憾值最小化算法(表格型)计算复杂度太高。
腾讯AI Lab 的研究员提出了一种新型的策略优化算法,该算法具备传统强化学习可扩展性好的优点,又部分继承了遗憾值最小化算法的一些理论性质,相比传统的强化学习方法,该策略优化算法在非完美信息游戏中训练得到的策略更平衡(攻守兼备),也更鲁棒。结合深度学习,在不使用任何人类数据的情况下,研究人员采用该策略优化算法训练得到了绝艺LuckyJ的离线策略。
另一方面,目前的AI在围棋和德州扑克上的成功很大程度依赖于搜索算法,因为搜索可以最大程度地发挥计算机的计算优势,但是由于麻将巨大的隐藏信息存在,环境不确定性较大,传统非完美信息搜索算法在麻将面前很难发挥同样的功效。
具体来说,过去一系列非完美信息搜索算法的算法复杂度是隐藏信息数量的平方,这对于扑克来说可以承受(因为对手只有2张不可见手牌),但是对于有海量隐藏信息的麻将来说太高。
基于以上考虑,研究员引入了 一种高效的非完美信息搜索技术,该技术有两大特征:
一是对搜索树做了高效的变换和剪枝,避免了AI 大量的无效搜索,极大提高了搜索效率;另一方面,区别于过去搜索与离线策略的结合方式,腾讯AI Lab将搜索返回的结果作为一种“特征”输入到自研的策略神经网络。
这种方式的巧妙之处在于,它既能同时在离线训练&在线决策上提供有用的信息,又不会对AI的效果上限造成影响。这种搜索方式解决了非完美信息搜索复杂度高难以应用于大规模博弈的问题,使深度强化学习高效结合非完美信息搜索成为可能。
解决真实世界问题
走向通用人工智能
“AI+游戏”是攻克AI终极研究难题——通用人工智能(AGI)的关键应用场景。在模拟真实世界的虚拟游戏中,AI学会快速分析、决策与行动,就能执行更困难复杂的任务并发挥更大作用。由于现实生活中存在大量的隐藏信息和不确定的因素,对非完美信息游戏的研究,将有助于我们开发出适用于真实生活场景的更加“智能”的AI系统。
腾讯 AI Lab 从 2017 年开始投入游戏 AI 研究,在决策 AI 及生成式 AI 两大方向取得多项领先成果。“绝艺 LuckyJ” 在专业领域获得的成果,体现了腾讯 AI Lab 的深度强化学习智能体通过步步进化,正逐渐向解决更复杂更多样化的问题迁移,每一次进展,都让 AI 朝解决真实世界问题的目标更近一步。
—END—
腾讯这个数据库,助力抗癌新药研发
“十问”最近爆火的向量数据库
支持十万卡GPU,腾讯这张“网”是如何支撑大模型的?
标签: