AI化身电竞选手,展现团队合作默契

AI化身電競選手,展現團隊合作默契 今年(2018)八月,继AlphaGo与世界棋王的精彩对弈后,AI又再次向人类下战帖。只是,这一次,不再是一对一的对决,而是团队竞赛。由非营利组织OpenAI打造的OpenAI FIVE团队,迎战五位顶尖人类电玩高手,在Dota2(一款多人线上策略游戏)国际邀请赛上展开对决。较量的,不仅是高超的游戏技巧,更是团队合作精神。

辉煌战绩

1997年,IBM打造的Deep Blue AI成功挑战西洋棋冠军 Garry Kasparov以来,AI无论在棋盘、牌类或电玩游戏上的表现,可说是势如破竹,不断过关斩将。2016年,AlphaGo对战南韩围棋九段棋手李世石的胜利,到现在都还记忆犹新,为人所乐道。然而,这次的游戏─Dota2,由2013年发表以来,已吸引全球上百万名玩家,是一款讲究反应速度与团队合作的多人线上游戏。游戏採两队竞赛模式,玩家团队在合力摧毁对方堡垒的同时,尚需顾虑来自敌队的攻击。这对擅长单打独斗、运筹帷幄的AI而言,俨然是项全新的挑战。

此次AI代表,则是由OpenAI所开发的OpenAI FIVE团队。OpenAI,由前Tesla执行长Elon Musk于2015年与他人共同创办,在此之前已向世人多次展示AI的无穷潜力。在一场一对一的Dota2预赛中,更成功击败人类电玩高手。落败的人类玩家─William “Blitz” Lee表示:「被非人类玩家这样压着打很不好受,尤其在整场游戏过程中,我们完全被AI左右包夹,惨遭击溃。」邀请赛赢家的头衔,OpenAI FIVE看似势在必得,然而OpenAI的共同创办人与技术总监Greg Brockman则不敢过于乐观。

AI化身电竞选手,展现团队合作默契

OpenAI FIVE背后的开发团队。( 来源: Synced )

强化学习

在跳棋及围棋中,AI主要透过搜寻树(search trees),来分析游戏未来可能的发展途径。相较之下,Dota2,需考量的动作与指令更加複杂,每个玩家可执行的指令选项高达上千种,包括该施哪一个咒语、往哪个方向逃或瞄準何处等,且需连续不间断地下指令。高自由度,意味着 AI若要以过往的搜寻树来进行预测的话,将需要更快的计算速度,难度也相对提升许多。

因此,此次OpenAI FIVE改採神经网路为核心演算法,先前提到的AlphaGo则是同时结合两者。在训练过程中,首先让OpenAI FIVE漫无目的地随意尝试各种指令。当特定组合能让AI在游戏中获得更好的表现时,一连串指令所对应神经网路中「神经元」的连结也受到强化,最终历经上千次的反覆测试后,找出最万无一失的策略,这种训练过程被称为「强化学习」(reinforcement learning)。

针对前哨赛中OpenAI FIVE的表现,英国Falmouth大学资讯科学教授Michael Cook认为:OpenAI FIVE的出色表现,主要在于过人的计算能力。基于这点,在游戏过程中,其能预测一些特定动作所带来的后果与效益,例如特定攻击指令能为对手造成多大的伤害;其次,虽然研究团队将OpenAI FIVE的反应时间调整至与人类相同,约为1/5秒,但在这看似短暂的时间内,AI所获得或运算的资讯量,其实远超出于一般人类玩家。如此缜密又精準的演算法,让OpenAI FIVE能在游戏中无往不利,快速又準确地击败对手。但Cook也担心OpenAI FIVE恐无法胜任长时间的战略游戏:一旦AI在其中一场对战中落败,必须花上一段时间重新建立连结,难以适时调整。

团体合作与自我牺牲

儘管如此,AI仍有另一项优势:OpenAI FIVE中的任一电脑玩家,相较于人类,都更愿意牺牲自我,成全全体利益。Lee指出,AI对自我牺牲的无惧,是多数人类玩家无法比拟的。另外,由于OpenAI FIVE由五个相似AI所组成,建立于一个蜂巢状系统上,彼此间可以互相窥探对方的思维和行为模式,而人类玩家只能透过语言沟通,这也是OpenAI FIVE能合作无间的另一项因素。

遗憾的是,最终OpenAI FIVE未能在邀请赛中取得最后的胜利。历经45分钟的精彩对战后,败给五位中国前职业玩家─Xiao8、BurNIng、rOtK、Ferrai_430及SanSheng。即使如此,OpenAI FIVE仍创下许多纪录,如最高杀戮次数胜于其他人类玩家、赢得最多次的团队战争等;然与此同时,也铸下不少错误,例如随便乱选道具、ganking(两名以上玩家联手偷袭)次数较少等。

以游戏模拟现实

但这次的失败并非OpenAI FIVE的结束。之所以致力于游戏AI的开发,在于透过游戏中所遭遇的各种情境,模拟人类的日常生活。如此,当AI最终应用于实际生活中时,面对真实世界中的各种难题,都能迎刃而解。OpenAI表示接下来会继续训练OpenAI FIVE,报名参加明年的Dota2国际邀请赛,再次与世界各地的职业玩家一较高下。

伦敦大学电脑科学教授与星海争霸II(另一款线上策略竞技电玩)的协作者Jun Wang表示:AI仍需加强彼此间的「合作」;而同是协作者暨牛津大学电脑科学教授Jakob Foerster,则认为:策略推理能力,是往后称霸Dota2的另一项重点。除Dota2外,许多游戏其实都是更好的练功坊,例如:星海争霸II、策略型桌游,如卡坦岛拓荒等,举凡採取多人模式,涉及谈判、交易与结盟的游戏,都是磨练AI合作、竞技,以及执行长期规划能力的选项。

德国Dortmund理工大学资讯科学教授Vanessa Volz,则点出OpenAI FIVE的另一个潜在弱点:由于OpenAI FIVE过去总是以单机模式自我训练,一旦有游戏风格特异的玩家出现,AI将无法猜测对方的行为模式。这点,预赛中落败的人类玩家Lee也十分认同,认为只要再与OpenAI FIVE对战几回,便可轻易掌握AI的行为模式,拿下胜利。

编译来源

M. Hutson, “To hone its collaborative skills, this AI is taking on the world’s top video game players“, Science | AAAS, 2018.

参考资料

T. Peng, “OpenAI’s Long Pursuit of Dota 2 Mastery“, Synced, 2018.

延伸閱讀