泓泰

虽又击【jī】败了【le】人【rén】类【lèi】选手,但我们认为 OpenAI 的 5v5 DOTA AI 不过如此

admin
虽又击败了人类选手,但我们认为 OpenAI 的 5v5 DOTA AI 不过如此-第1张-游戏相关-泓泰

雷锋网【wǎng】 AI 科【kē】技评论按:各位读者想必今天【tiān】一睁【zhēng】眼就被「OpenAI 的人工智能在 DOTA 5v5 比赛【sài】中也打败了人类选手」的新闻刷屏【píng】了。OpenAI 开发的 DOTA AI 去年在 1v1 solo 中打败顶级职业选手 Dendi 和【hé】 Sumail之后,紧接【jiē】着就放出豪言还要在 5v5 的 DOTA 比【bǐ】赛中击败【bài】人类【lèi】,这一【yī】天仿佛这【zhè】么快就【jiù】到【dào】来【lái】了。

5v5 AI,一个新的台阶,不过这个 AI 其实还比较初级

DOTA(以及 DOTA2)是目前最火【huǒ】热的【de】电子竞技游戏【xì】之【zhī】一,也是当之无愧的职业比赛规【guī】模最大【dà】、奖金最高的游戏。DOTA 游戏有很高的难度,对人类【lèi】玩家来【lái】说都【dōu】需要很长的学习时间,因为【wéi】 DOTA 中有【yǒu】上【shàng】百种英雄、上百种物品、多种【zhǒng】游戏【xì】策略、不同英雄有不同的玩法、不同的英雄【xióng】组合【hé】之间也有独特的技能和装备配合;除此之外玩家【jiā】还需要审时度【dù】势【shì】,同一【yī】个英雄在【zài】不同局面中也有不同【tóng】的玩【wán】法。DOTA 的【de】职业比【bǐ】赛也因此而【ér】变得激动人心【xīn】,选手的局部小操作和【hé】整【zhěng】个团队【duì】改变战局的【de】战【zhàn】略执【zhí】行都会【huì】被玩【wán】家们津津【jīn】乐道。

复杂的英雄、物品、配【pèi】合、长【zhǎng】短期【qī】策略结合等方面正是我们长【zhǎng】期【qī】认【rèn】为 DOTA 这样的游【yóu】戏对现阶段的 AI 来说【shuō】过于困【kùn】难的原因【yīn】。而且除了这些人类眼中【zhōng】的认知难题之外【wài】,DOTA 游戏的行动【dòng】空【kōng】间还【hái】非常庞大。相比【bǐ】于围棋中每一步操作只需要在棋盘上剩【shèng】余的空【kōng】位中选一个落子,DOTA 中的行【háng】动是非常密【mì】集的(每分钟操作在 100 次数【shù】量级)、考【kǎo】虑时间长短的【de】(比如持续施法技能)、数值连续的(比如走位【wèi】)、复杂【zá】多值化【huà】的(比如购【gòu】买装备)、信息是部分可【kě】观察的(地【dì】图上有大量的【de】无视野区域),反馈也可以认为【wéi】是【shì】稀疏【shū】的(胜负【fù】最【zuì】为重要),所【suǒ】以【yǐ】主流观点一【yī】度认为类似 DeepMind 开发 AlphaGo 时那样的纯粹强化学习【xí】自我对【duì】弈是无法学会玩 DOTA (以及【jí】星【xīng】际等【děng】即时战略游戏)的,过【guò】大的行为空间会让训练过程长期停留【liú】在没有有【yǒu】效反馈的区域从而【ér】无【wú】法收敛。层级强化学习被认为是【shì】一【yī】种【zhǒng】有希望帮助训练【liàn】过程快【kuài】速走出【chū】低【dī】效探索的方法,但发展仍【réng】不成熟。

OpenAI 对于【yú】 DOTA AI 的最终目标是开发出能够【gòu】打败人类职业【yè】选手的 AI。显然这样的目标【biāo】是无法一蹴而就的,所以【yǐ】他们的指导【dǎo】思想是分步走,从【cóng】英雄、物品【pǐn】、地图范围、策略都有【yǒu】高度【dù】限制的 1v1 比赛开始,然后逐步【bù】减少限制,同【tóng】时【shí】逐步改善模型,一步步接近最【zuì】终【zhōng】目标;去年 TI(国际邀请赛)中 1v1 打败【bài】 Dendi,以及在【zài】测试比赛【sài】中打【dǎ】败 Sumail 的【de】 DOTA AI 就是其中的第一步。对于【yú】这样【yàng】的结果,初看有些意外【wài】,但细想之【zhī】下还是比较合理【lǐ】的【de】。毕竟玩 Atari 游戏我们都已经【jīng】司【sī】空【kōng】见惯了。

对于接【jiē】下来的 5v5 AI(名【míng】为【wéi】 OpenAI Five),自【zì】然【rán】也保留了【le】诸多限制,游戏环境和各位玩家【jiā】熟悉的【de】样子有诸【zhū】多不同。OpenAI Five 在这【zhè】个环境里做了多次【cì】迭代更新,4 月 23 日版本首次打败了 OpenAI 自己编写的基于脚本的基准模型【xíng】,5 月【yuè】 15 日的版本与 OpenAI 员工队伍(天【tiān】梯分段 2500,高于【yú】 46% 的玩家【jiā】)打了一胜一负;而【ér】 6 月【yuè】 6 日的版本则在与【yǔ】业【yè】余战队(天梯【tī】分段【duàn】 4200,高于 93% 的玩家)和半职业战【zhàn】队(天梯分段 5500,高于 99% 的玩家)的【de】比赛中都赢得了三局中的【de】前两局。

OpenAI Five 目前设【shè】定的游【yóu】戏【xì】中的限制有以下这些方面:

比赛双方都使用固定的【de】瘟疫法【fǎ】师【shī】、冥界【jiè】亚龙、矮人【rén】火枪手、水晶室【shì】女、巫妖 5 个英雄,而不是在超【chāo】过【guò】 110 个英雄【xióng】中任意选择(显然我【wǒ】们也可【kě】以推【tuī】测【cè】出 OpenAI 就是【shì】以这组固定的英雄进行训练的)

禁止使用守卫,禁止使用隐身物品(消耗品及装备)

禁止使用幻象和分身

禁止打肉山

禁止购买圣剑、魔瓶、压制之刃、远行鞋、知识之书、眼泪

禁止使用扫描

OpenAI Five 方有五个无敌的信使,不过【guò】也禁止使用这【zhè】些信使看【kàn】视野【yě】以【yǐ】及承受伤害【hài】

显【xiǎn】然各位 DOTA 玩家一看就知道,仅英雄选【xuǎn】择的限制这【zhè】一项就极大降【jiàng】低了游戏【xì】的复杂【zá】度;隐【yǐn】身、肉【ròu】山【shān】之类的禁【jìn】用也缩小了战略战术的选择【zé】空间;至于 5 个【gè】无敌的信使就更像是对 5 个 AI 之间【jiān】(也许并【bìng】不理想的)协作能力的妥协了【le】。

不过,能打【dǎ】败【bài】业余和半职业战队的【de】表现【xiàn】毕竟还是【shì】有一些特色的,能【néng】在三局中【zhōng】赢得前两局也【yě】说明了 AI 的策略选择与【yǔ】执行的【de】效果。在【zài】几场比赛中【zhōng】 OpenAI Five 的玩法体现出了这些【xiē】特点【diǎn】:

采取【qǔ】的策略总是放空自己的优势路,攻【gōng】击【jī】对方的优势路(以【yǐ】及【jí】到中【zhōng】路的这小半场),以【yǐ】求造成压力、形【xíng】成【chéng】优【yōu】势。(所以【yǐ】人类职业选手到了第三局也就【jiù】能够反制这样的【de】固定策略了【le】)

OpenAI Five 五个英【yīng】雄都【dōu】集结【jié】在对方优势路到中塔之间的【de】区域

快速主动地组织 gank 并推搭

比赛开始【shǐ】 2 分钟【zhōng】,AI 的 2 级冰女和 2 级【jí】毒龙 gank 中路

比赛前期【qī】给辅助英【yīng】雄让钱让经【jīng】验,这【zhè】让辅助【zhù】英雄更快【kuài】地达到最高输出【chū】,同时也更【gèng】快地结束比赛

人【rén】类【lèi】方进攻高地【dì】,AI 冰女【nǚ】 BKB 跳大,配合队友【yǒu】击杀对方四人复杂的【de】强化学习任务比预想的【de】要【yào】简单?

即便【biàn】游【yóu】戏中有一些限【xiàn】制【zhì】,但【dàn】还是有足够的复杂度,而且我们【men】也看到了 AI 在游戏中【zhōng】的精彩表【biǎo】现。从技术【shù】角度来说,这也给了我们新的启发。

正如前文提到的【de】,DOTA 中复杂的【de】行【háng】动【dòng】空【kōng】间以及对长短期策略结合的需求的让领域内的研【yán】究【jiū】者,甚至包括 OpenAI 的【de】人自【zì】己都认为 DOTA 需要【yào】层次【cì】化强化学习这【zhè】样的全新的深【shēn】度学习技术,但其实【shí】只通过【guò】雷锋网 AI 科技评论也曾介【jiè】绍过的近【jìn】端策【cè】略优化 PPO就已经达到如【rú】此的水平 —— 至【zhì】少是在用足够大的规模做训练【liàn】,以及选用了【le】合【hé】适的超参数平衡了【le】探索行为【wéi】的程度的【de】时候【hòu】。

OpenAI 使【shǐ】用了256 个【gè】 V100 GPU 和 128000 个 CPU 训练模型【xíng】,不使用人类数据,80% 的时间【jiān】自我对弈,20% 的时间和过去的【de】版本【běn】对弈。训练中每天【tiān】进【jìn】行的游戏数量时长【zhǎng】相【xiàng】当于【yú】大约【yuē】 180 年。根据 DOTA 解说 Blitz 评【píng】价,OpenAI Five 的补刀只【zhī】是【shì】普通玩家水平,但整场【chǎng】游戏的长期策略执行已经有了职业【yè】选手水【shuǐ】准。用现【xiàn】有的方法就能达到短期策略和长【zhǎng】期策【cè】略之间【jiān】的均衡【héng】,算是一项惊喜的【de】发【fā】现。

另一【yī】方面,OpenAI Five 中【zhōng】使用的【de】模型架【jià】构【gòu】也出人意料地简【jiǎn】单。每一个英雄【xióng】由一个单独的 LSTM 模型控制,而它只是一个单层的、含有 1024 个单【dān】元的 LSTM 网【wǎng】络。网络从 Value (DOTA2 制作【zuò】公司)提供的 BOT API 获取数据【jù】,然【rán】后通【tōng】过多个不同的动作输【shū】出接口进行控【kòng】制【zhì】。

OpenAI Five 的网络架构图

OpenAI 对于反【fǎn】馈的【de】设计也别有用【yòng】心。除【chú】了【le】输赢之外也选【xuǎn】用了人【rén】类选手常用的指标:总财产、击【jī】杀数【shù】、死亡【wáng】数、助攻数、补刀数等【děng】等。但是为了避免 AI 过于关注这些偏【piān】向于短期策略【luè】的【de】数据,他们的反馈【kuì】设计只鼓励 AI 在这些方【fāng】面【miàn】做到人类玩家【jiā】的平均水平。

还有一个项目【mù】是 AI 之【zhī】间的合【hé】作。OpenAI 并没有为【wéi】 AI 之间设计显【xiǎn】式的沟【gōu】通【tōng】频道【dào】,目前他们设计了一个【gè】名为「团队精神」的超参数,这个 0 到 1 之间【jiān】的值【zhí】会【huì】反【fǎn】应【yīng】每个英【yīng】雄关注自己单独的反【fǎn】馈和【hé】整个团队的反馈之间的比例。在训练中 OpenAI 通过退火来优化这个值的具体大小。

总结

虽然我们说【shuō】到目【mù】前的 5v5 OpenAI Five 的【de】实际表现不过如此,但以现有的【de】资源和方法就达到了【le】超出预【yù】期的效【xiào】果,这也值得我们反思【sī】以往的强化学习【xí】研究中【zhōng】,方法与实现是【shì】否有诸多做的不完善的地方【fāng】才导【dǎo】致容易【yì】遇到训练困难、表现瓶颈、表现不稳定性等问【wèn】题;另一方面,在现有方法的威力完全得【dé】到发挥【huī】的【de】地方,我们也更容易清晰【xī】地看到【dào】继续提升表【biǎo】现还需【xū】要哪【nǎ】些创新【xīn】。

OpenAI 还会在 7 月 28 日组【zǔ】织顶尖人类职业玩家再与 OpenAI Five 进行比赛,这之前系统还会【huì】进【jìn】行调试更新。我们期待 OpenAI Five 近期能有更新、更强的【de】表现【xiàn】,也期待它早日在无限制的完全展现了 DOTA 复杂程度的环境【jìng】中【zhōng】再【zài】展风姿【zī】,更与【yǔ】 OpenAI 全体【tǐ】一起【qǐ】期待【dài】这些用【yòng】于 DOTA AI 的【de】技术能为更多真【zhēn】实世界【jiè】问【wèn】题带来帮助【zhù】。

雷锋网 AI 科技评论报道。

标签: #dotaai地图哪个版本正版