泓泰

星际2新智能体开源:单机并行能力强,适应环境广,个人可训练

admin
星际2新智能体开源:单机并行能力强,适应环境广,个人可训练-第1张-游戏相关-泓泰

前言:

此【cǐ】时各位老铁【tiě】们对“星际【jì】争霸ii单机版”大约【yuē】比较关注,大家都需要分析一些“星际争霸【bà】ii单机版”的相关文【wén】章。那么小编【biān】同【tóng】时【shí】在网络上收集了一些有关“星【xīng】际争霸ii单机【jī】版””的相关文章【zhāng】,希望大家能喜欢【huān】,姐妹【mèi】们一起来学习一下吧!

铜灵 编译整理

量子位 出品 | 公众号 QbitAI

今天,《星际争霸2》(后称星【xīng】际2)深度强【qiáng】化【huà】学习(DRL)智能体Reaver开【kāi】源了,引来【lái】大量【liàng】Reddit用户围观。



来【lái】自塔尔图大学的Roman Ring介绍【shào】说,这种【zhǒng】模块化的【de】框架主【zhǔ】要用于训练星际2的各种任【rèn】务,提供比大多数【shù】开【kāi】源解决方案更快【kuài】的【de】单机【jī】环境并行化能力。

Reaver可适应多种环境,除了用于【yú】星际2的SC2LE外【wài】,还支持其他强化学习任务上【shàng】常用【yòng】的【de】Gym、Atari和Mujoco。它用简单的Keras模型来【lái】定义神经网络,配置【zhì】和共享配置也非常方便【biàn】。

最重要的是,Reaver的训练规模【mó】亲民到爆炸。在普通的4核CPU的笔记本【běn】电脑上,每秒采【cǎi】样率可【kě】以达到【dào】5K,10秒内【nèi】就能学会那个立杆子【zǐ】的游戏CartPole-0。

在电【diàn】脑配【pèi】置为Intel i5-7300HQ CPU (4 核) 和 GTX 1050 GPU 的笔记本情况下,Reaver 30分钟攻克了星际2 的【de】MoveToBeacon游戏【xì】,成绩与DeepMind不【bú】分伯仲。


功能介绍

Reaver主要有6大特点:

可扩展

Reaver同时【shí】适用于初学者和老手。对业余编程爱好【hǎo】者,Reaver提供了必要工具,修改智【zhì】能体(例如超参数)后【hòu】就能【néng】训练。

老手【shǒu】可直【zhí】接【jiē】利用Reaver模块化架构和性能优化过的【de】代码【mǎ】库,其中的智能【néng】体、模型和环境都是【shì】解耦【ǒu】的,可随意搭配,可【kě】扩展性强。

性能

Reaver利用无锁数据结构共享内存,将星际2的采样【yàng】速率提升了2倍(通常能实【shí】现【xiàn】100倍的【de】加速),瓶颈【jǐng】在GPU输【shū】入/输出pipeline。

可配置

Reaver中所有配置都能【néng】通过gin-config配置框架【jià】处理【lǐ】,并且能够将【jiāng】所有超参数、环境参【cān】数和模型定义【yì】轻松共【gòng】享成.gin格式文【wén】件。

实现智能体

作者采用两种经典DRL算法进行实现:

优势actor-critic算法(A2C)

近端策略优化(PPO)

支持多种环境

PySC2(用所有【yǒu】迷你游戏测试【shì】过)OpenAI Gym(用CartPole-v0测试【shì】过)Atari(用PongNoFrameskip-v0测试过)Mujoco (用InvertedPendulum-v2和HalfCheetah-v2测【cè】试过【guò】)

其他强化学习特点

GAE算法加持奖励剪裁梯【tī】度标准剪裁利用归一化方【fāng】法基线引导独立基线【xiàn】网【wǎng】络结果展【zhǎn】示【shì】

Reaver具【jù】体实战的【de】表【biǎo】现如何?研究人员在不【bú】同【tóng】地图上,对A2C架构【gòu】的Reaver、DeepMind的SC2LE和ReDRL进行【háng】基准测评,同时,还给出了人类GrandMaster级的专业【yè】人【rén】员在【zài】这些任【rèn】务上的成【chéng】绩。



其中,DeepMind的结果均来自此前发布论文中的最佳结果。

Reaver(A2C)是训【xùn】练reaver.agents.A2C智能体得到的,通过训练—test模块【kuài】进行100次迭代【dài】,计【jì】算总奖励【lì】值得到这【zhè】个结果。图中【zhōng】括号值代表是平均值、标准差,方括号中为最【zuì】小和【hé】最大值。

传送门

Reddit讨论贴:

https://www.reddit.com/r/MachineLearning/comments/a0jm84/p_reaver_starcraft_ii_deep_reinforcement_learning/

具体的安装说明,可移步GitHub:

https://github.com/inoryy/reaver-pysc2

此外【wài】,如果你的电脑配置了【le】Google Colab,还可以在线使用Reaver,地【dì】址【zhǐ】:

https://colab.research.google.com/drive/1DvyCUdymqgjk85FB5DrTtAwTFbI494x7

— 完 —

诚挚招聘

量子位正【zhèng】在招募编辑/记者,工作【zuò】地点【diǎn】在【zài】北京中关【guān】村。期待有才气、有热情的同学加入我【wǒ】们!相关细节,请在量子位【wèi】公众号(QbitAI)对话界面【miàn】,回复【fù】“招聘”两【liǎng】个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

标签: #星际争霸ii单机版