麻将AI难在哪?微软宣布公开麻将AI Suphx 的十段秘籍

 人工智能解决方案     |      2020-04-10 12:06

导读:4月9日,微软亚洲研究院日前在arXiv平台上正式发布了一篇关于麻将AI系统Suphx的论文,并发布了Suphx背后的核心技术细节,包括决策过程、模型架构、训练算法等。那么,麻将人工智能

4月9日,微软亚洲研究院日前在arXiv平台上正式发布了一篇关于麻将AI系统Suphx的论文,并发布了Suphx背后的核心技术细节,包括决策过程、模型架构、训练算法等。

那么,麻将人工智能的难点是什么?Suphx是如何在游戏人工智能领域实现这一突破的?最近,微软亚洲研究院的Suphx研发团队正式发表了一篇关于arXiv平台的论文,宣布了Suphx背后的核心技术。

麻将面临的挑战

麻将人工智能系统Suphx主要基于深度强化学习技术。虽然深度强化学习在一系列的人工智能游戏中取得了巨大的成功,但要将其直接应用到麻将人工智能中并不容易,还面临着一些挑战。

挑战1:麻将的计分规则通常非常复杂。在像天丰平台这样的竞技麻将中,计分规则更为复杂。

首先,一轮麻将游戏通常有8轮或更多轮。每轮结束后,四名玩家将获得这一轮的分数(可能是正数或负数)。当整轮游戏结束时,四名玩家将根据所有回合的累积分数进行排名,并计算这一轮游戏的积分奖励。在天丰平台上,排名第二的玩家将获得一定数量的积分,排名第三的玩家将获得相同的积分,排名第四的玩家将被扣除一定数量的积分。因此,玩家的点数和点数可能会上升或下降。当分数增加到一定程度时,分段将上升,而分数将被扣除到0。因此,为了提高成绩,运动员需要尽可能排在第一或第二位,并尽可能避免排在第四位。

有趣的是,由于一轮游戏的最终分数是由多轮游戏的累积分数决定的,所以主人可能会策略性地输掉一些回合,也就是说,某一轮游戏的输赢并不直接代表玩家是否玩得好,因此每一轮游戏的分数不能直接用作强化学习的奖励反馈信号。微软亚洲研究所的研究人员发现了另一种方法,这将在后面解释。

其次,天丰平台上每场比赛的计分规则需要根据获胜者手中的牌类型累计计算分数。卡片类型有多种可能,如统一、混色、透明门等。不同卡片类型的分数会有很大的不同。这种计分规则比象棋、围棋和其他游戏复杂得多。麻将高手需要仔细选择牌型,以平衡胡牌的概率与胡牌的得分,从而获得第一、第二或摆脱第四名。

挑战2:从博弈论的角度来看,麻将是一个多玩家的不完全信息游戏。麻将总共有136张牌。每个玩家只能看到几张牌,包括他的13张牌和每个人玩的牌。更多的牌是看不见的,包括其他三个玩家的牌和墙壁牌。面对如此多隐藏和未知的信息,麻将玩家很难根据自己的手做出一个好的决定。


  • 共2页:
  • 上一页
  • 1
  • 2
  • 下一页