鲫鱼介绍

首页 » 常识 » 预防 » 会玩王者荣耀的AI,真的有用么
TUhjnbcbe - 2022/7/29 2:28:00
估计经常玩王者荣耀的人,都应该对一个词不陌生——“王者绝悟”。它是王者荣耀和腾讯AILab团队共同打造的一个策略协作型AI。在年《王者荣耀》世界冠*杯的特设环节,它打败了职业选手赛区联队,一鸣惊人。当天它还在ChinaJoy进行了场1V1比赛,面对一众实力强劲的玩家,最终只输了一场,输给了当时的国服第一后羿,总体胜率高达99.8%。后来王者绝悟进一步面向普通玩家限时开放,去年11月限时开放的20个挑战关卡更是让每个玩家都体会到了王者绝悟的厉害。这么说吧,像王者绝悟这样的AI,它通过强化学习机制经历无数对战,一天的训练强度高达人类年,对自己的能力特别有B数,啥大风大浪都见过。能打过就会上,打不过绝不刚,抱团支援贼溜,越塔强杀也会。对技能的方位和时间的把控异常精准,彼此间合作天衣无缝,坐拥顶级拉扯战术。年的绝悟就已经会轮流抗塔分摊伤害了▼普通人正常打肯定打不过,只好到快手等平台去搜些特殊战术,才能勉强拿个“智极·绝悟”的标签。大家纷纷感叹AI现在居然已经这么强大了。可能很多人都有相同的感知,现在游戏AI的发展或多或少都受了当年AlphaGo的影响。年AlphaGoLee与李世乭的大战堪称人机大战的转折点,在这之前人们不相信机器能够胜任围棋这种高智商的游戏,但事实证明了AI的潜力。后来AlphaGoMaster在棋坛横扫一众棋手,把Lee那一版的缺陷补足,便再无对手,柯洁与之对弈也只能投子认输。到了AlphaGoZero这一代,AI已经摒弃了学习人类棋谱这一步,通过大量自我对战,只需要短短的时间,从能瞎走的小白,就能蜕变成段位极高的大师,甚至发展出人类不曾想到的招数。只用了3天,AlphaGoZero就把赢过李世乭的AlphaGoLee踩到了脚下,21天就打败AlphaGoMaster。也就是说,AlphaGoZero证明了,只要人们给输入规则和目标,程序就可以经过自我博弈不断进步,也能成为身经百战的顶流大师。这种“无师自通,自学成才”的本事,立刻在学术界和民间掀起滔天巨浪。这套自我博弈的方法就是机器学习理论中的——“强化学习”。强化学习能解决哪些问题?这套方法解决问题的极限在哪里?研究人员把目光从围棋这种棋牌游戏,打量到星际争霸、Dota2这些复杂策略的游戏身上。这类游戏的复杂度可比围棋高多了,因为它们可能包含丰富的画面信息,还涉及多人对战,战争迷雾、即时战略、第一人称射击等元素。所以在开发这类AI时,会遇到多智能体协同策略,不完全信息等等技术难题,更有挑战性。

AlphaStar就是DeepMind团队

打造的星际争霸AI▼

这几年,针对星际争霸、Dota2等不同游戏的AI不断出现,当然,王者绝悟也是其中之一。说起来大家可能会觉得惊讶,但王者荣耀这样的游戏中,玩家的动作状态空间能高达10的次方,远远超过宇宙原子总数的10的80次方。在如此浩瀚的运算空间里,要做出王者绝悟那样高效准确的决策,可想而知这挑战有多大。基于王者绝悟的研究方法和经验,王者荣耀和腾讯AILab还搞了一个AI开放研究平台——开悟。最近,腾讯举办了一个名为“开悟多智能体强化学习大赛”的活动,并邀请国内包括北大、清华、中科大等二十余所国内外顶尖院校的学霸们参加比赛。简单来说,这个比赛就是要求高校师生训练出一个属于自己的mini版“绝悟”,然后导入王者荣耀一决高下。在比赛中,各大高校的教授和学霸们会利用开悟平台研究如何用算法解决单、多智能体解决方案,模型结构设计,强化学习算法设计、奖励函数设计等问题。比赛模式包括1v1墨家机关道、3v3长平攻防战,规则与我们玩家在王者荣耀日常接触到的一样,最先推倒对方水晶的一方获胜。今年已经是第二届比赛了,去年第一届赛程还使用过5v5梦境大乱斗,冠*被中科大收入囊中。肯定有差友好奇,AI到底怎么经过自我博弈,最终学会玩王者荣耀的?那给大家看看鲁班七号AI的进化之路,我们以训练10分钟,1小时,12小时为节点,分别看看AI的水平有怎样的变化。(下方动图里,左上角能看小地图,会显示红蓝双方的位置)这个是训练了10min的AI,可以说这时候的AI菜得抠脚,仿佛完全不知道要做啥。。。10minAI▼对战开始,红蓝两方的小鲁班AI出了塔之后都非常迷茫,一脸的“我是谁?我在哪?”,兜兜转转瞎溜达,技能也在瞎放。迷糊了两分钟,蓝方的小鲁班才跌跌撞撞走到了兵线附近。(左上角能看到红方还在迷茫中。。。)这时蓝方鲁班发现,站在兵线前随意的平A就可以获得金钱的奖励。并且红方一直没出水晶,蓝方连2、3技能都没按出来,就已经锁定胜局。有意思的是,这时候鲁班虽然不知道主动进攻,却知道抗塔会掉血,看来以前经历过不少教训。据我猜测,通过这一局AI就会知道,走中间有兵线的地方平A就能得到经济。那么AI经过1h的对战训练后,水平又如何了呢?1hAI▼战局一开始,红蓝两方都开始跌跌撞撞往中间走,看来AI已经知道了中间兵线有经济。红蓝相见分外眼红,直接硬刚,蓝方险胜。看来此时AI还没学会血量少的时候要苟一下,只知道拿下对方人头就可以获得经济。训练了1小时的AI终于知道放特殊技能了,可惜技能2和技能3基本就是瞎按,没有一星半点的准头。。。不过相对于10min的版本,还是有不小的进步~最终蓝方坚定的在小兵的掩护下推了塔,尽管红方也知道守塔,显然大势已去,无能为力了。那训练了12小时的AI会怎样呢?对战开始,红蓝双方迅速在兵线附近狭路相逢,二话不说上来就对喷。12hAI▼蓝方因为靠小兵太近,中间不小心火力被兵线吸引了一下,被红方取得优势。这时大家会发现这时的AI已经学会在血量较少的时候后撤,可惜在边退边战的时候被喷死了。继续观看比赛,发现AI还学会了在血量少的时候舔血包,甚至懂得回家加血!蓝方鲁班舔血包▼

红方鲁班缺血后回家补血

满血后回来反杀▼

而且,鲁班的2技能的准确率也直线上升,3技能也知道要在兵线和敌方身前释放。所以,虽然看起来这个训练了12小时的AI动作还是蠢萌蠢萌的,跟人类比起来意识也不行,可是相比较于只学习了10分钟的AI强多了。这就是强化学习AI的厉害之处,只要规划合理,继续训练就会变得越来越厉害,直到无法成长。而学生需要做的就是:优化算法,提高AI的上限,缩短AI的成熟路径。纸上读来终觉浅,其实这种算法、模型,只有自己亲身去实践,才能知道书本上的公式和理论是如何在真实世界中发挥作用。为了让学生好好比赛,王者荣耀和腾讯AILab把一切都包圆了。需要算力?直接开放云平台,只需要上传模型,睡一觉就练好;想复盘模型好坏?模型的对战形成的录像随便观看;比赛的底层信息太杂了?直接把游戏场景和英雄行为打包成数据接口,直接调用就成……估计很多人好奇了,这种比赛有什么意义么?想当初,AlphaGo在围棋界大杀四方时,有人不屑的表示,只会下棋的AI能有什么用?但4年后,它的后辈AlphaFold便在CASP蛋白质结构预测比赛上,解决困扰了人类50年来的蛋白折叠问题。很多人评价说这是能与诺贝尔奖齐名的成就,因为它可以从根本上改变很多生物学的研究方式。AlphaFold在预测蛋白质如何折叠上准确的离谱,准到大家不敢相信这是真的。在下面的动图里,绿色是实验测量得出的蛋白质结构,蓝色是AlphaFold的预测结果,两个蛋白质样本的实验结果和预测结果几乎重合。人们原本预估能达到这种准确率的方法要几十年后才会面世。但是它就这么突然出现了,就像当年的AlphaGo一样。这是偶然么?或许这也是必然。当年研究AlphaGo积攒的人才、经验和学术成就,让AlphaFold的研究如虎添翼,而现在他们已经盯上天体物理、计算化学等基础科学领域。人们这几年疯狂刷“ImageNet”图像识别准确率、参加Kaggle机器学习比赛,不断互相竞争和学习,把图像处理、机器学习推向高峰,我们生活中接触到的面部识别、AI捏脸等都沾了这些成果的光。现在问题来了,AI学会打游戏有什么意义呢?其实王者绝悟、星际争霸AI背后遇到的技术难题,包括不完全信息、多智能体协同策略等等,其中得到经验和方法,没准也可以在未来的医疗、智能工业、自动驾驶、智慧城市等领域得到应用。。。举个例子,如果把每个红绿灯都看作一个智能体,那么这些红绿灯应该怎么配合才能让车流更加顺畅,减少交通堵塞?虽然这看起来和王者荣耀的场景并不一样,但实际上解决起来背后的算法是互通的,就是协同策略的问题。我们又知道,评价AI算法优劣是很困难的一件事。譬如我们要验证自动驾驶技术,如果我们一开始就造个车或者造个真实场景来验证,成本很大,很浪费。后面英伟达、Google等公司、甚至独立的开发者们都开始在《GTA5》上训练无人驾驶AI。B站

XuDongLiang_自制自动驾驶AI▼

在游戏上验证,研究员们就可以专心研究算法,而不用纠结平台的建造和成本问题。

如果要评价游戏对于AI研究的意义,举个类似的感觉,就像是果蝇对于生物研究的意义,因为它们都是成本低廉且便捷的。

同时,AI研究领域也有个说法“下一个AI里程碑,可能会在复杂策略游戏中诞生”。

为了抢占先机,世界顶尖的科技公司都在探索相应的技术,让OpenAI一炮而红的OpenAIFive、DeepMind的星际争霸AIAlphaStar、连Facebook也在打造AICherryPi,当然也包括腾讯的王者绝悟。论文中王者绝悟的训练模型▼而王者荣耀和腾讯AILab合作搭建的开悟平台,为国内AI学术界提供了一个试验场,让国内高校也能在复杂策略游戏中开展研究。将来,开悟还要和北大、中科大等高校一起开发AI课程。按照王者荣耀执行制作人、腾讯天美L1总经理*蓝枭的话来说,他们为此开放了《王者荣耀》的核心机制,提供标准接口、核心算法、脱敏的测试数据、评估工具和计算集群等,给高校师生进行多智能体的机器学习算法研究、学习成果交流、对算法成果反复迭代升级提供便利条件。游戏和学习相结合,早几年有这好事儿估计鲫鱼也是AI研究员了。。。也许,现实社会中的问题比游戏中的要复杂的多,但我们想要在这个领域获得突破,就少不了一步一个脚印的去积累,去成长。去年跟王者绝悟死磕到底的我,现在也可以骄傲的说一声,当年咱也是参加过全民级AI研究的人~

编辑:结界美编:萱萱

参考资料:

1.开悟平台

2.《王者荣耀里的绝悟:AI江湖里的“武林高手”》,懂懂笔记

3.《王者荣耀职业选手输给AI对话团队负责人:战胜人类,意味着什么?》,成都商报

4.《AlphaFold:asolutiontoa50-year-oldgrandchallengeinbiology》,DeepMind

5.《最强“新狗”AlphaGoZero发布,柯洁:对于它的自我进步来讲,人类太多余》,观察者网

6.《腾讯策略协作型AI「绝悟」升级至王者荣耀电竞职业水平》,腾讯AI实验室

7.《这些名校学霸打开《王者荣耀》的方式,让我大受震撼》,游戏葡萄

(广告)预览时标签不可点收录于话题#个上一篇下一篇
1
查看完整版本: 会玩王者荣耀的AI,真的有用么