星际2新智能体开源：单机并行能力强，适应环境广，个人可训练

admin 2024-9-21 14:35:11

前言：

此【cǐ】时各位老铁【tiě】们对“星际【jì】争霸ii单机版”大约【yuē】比较关注，大家都需要分析一些“星际争霸【bà】ii单机版”的相关文【wén】章。那么小编【biān】同【tóng】时【shí】在网络上收集了一些有关“星【xīng】际争霸ii单机【jī】版””的相关文章【zhāng】，希望大家能喜欢【huān】，姐妹【mèi】们一起来学习一下吧！

铜灵编译整理

量子位出品 | 公众号 QbitAI

今天，《星际争霸2》（后称星【xīng】际2）深度强【qiáng】化【huà】学习（DRL）智能体Reaver开【kāi】源了，引来【lái】大量【liàng】Reddit用户围观。

来【lái】自塔尔图大学的Roman Ring介绍【shào】说，这种【zhǒng】模块化的【de】框架主【zhǔ】要用于训练星际2的各种任【rèn】务，提供比大多数【shù】开【kāi】源解决方案更快【kuài】的【de】单机【jī】环境并行化能力。

Reaver可适应多种环境，除了用于【yú】星际2的SC2LE外【wài】，还支持其他强化学习任务上【shàng】常用【yòng】的【de】Gym、Atari和Mujoco。它用简单的Keras模型来【lái】定义神经网络，配置【zhì】和共享配置也非常方便【biàn】。

最重要的是，Reaver的训练规模【mó】亲民到爆炸。在普通的4核CPU的笔记本【běn】电脑上，每秒采【cǎi】样率可【kě】以达到【dào】5K，10秒内【nèi】就能学会那个立杆子【zǐ】的游戏CartPole-0。

在电【diàn】脑配【pèi】置为Intel i5-7300HQ CPU (4 核) 和 GTX 1050 GPU 的笔记本情况下，Reaver 30分钟攻克了星际2 的【de】MoveToBeacon游戏【xì】，成绩与DeepMind不【bú】分伯仲。

功能介绍

Reaver主要有6大特点：

可扩展

Reaver同时【shí】适用于初学者和老手。对业余编程爱好【hǎo】者，Reaver提供了必要工具，修改智【zhì】能体（例如超参数）后【hòu】就能【néng】训练。

老手【shǒu】可直【zhí】接【jiē】利用Reaver模块化架构和性能优化过的【de】代码【mǎ】库，其中的智能【néng】体、模型和环境都是【shì】解耦【ǒu】的，可随意搭配，可【kě】扩展性强。

性能

Reaver利用无锁数据结构共享内存，将星际2的采样【yàng】速率提升了2倍（通常能实【shí】现【xiàn】100倍的【de】加速），瓶颈【jǐng】在GPU输【shū】入/输出pipeline。

可配置

Reaver中所有配置都能【néng】通过gin-config配置框架【jià】处理【lǐ】，并且能够将【jiāng】所有超参数、环境参【cān】数和模型定义【yì】轻松共【gòng】享成.gin格式文【wén】件。

实现智能体

作者采用两种经典DRL算法进行实现：

优势actor-critic算法（A2C）

近端策略优化（PPO）

支持多种环境

PySC2（用所有【yǒu】迷你游戏测试【shì】过）OpenAI Gym（用CartPole-v0测试【shì】过）Atari（用PongNoFrameskip-v0测试过）Mujoco （用InvertedPendulum-v2和HalfCheetah-v2测【cè】试过【guò】）

其他强化学习特点

GAE算法加持奖励剪裁梯【tī】度标准剪裁利用归一化方【fāng】法基线引导独立基线【xiàn】网【wǎng】络结果展【zhǎn】示【shì】

Reaver具【jù】体实战的【de】表【biǎo】现如何？研究人员在不【bú】同【tóng】地图上，对A2C架构【gòu】的Reaver、DeepMind的SC2LE和ReDRL进行【háng】基准测评，同时，还给出了人类GrandMaster级的专业【yè】人【rén】员在【zài】这些任【rèn】务上的成【chéng】绩。

其中，DeepMind的结果均来自此前发布论文中的最佳结果。

Reaver（A2C）是训【xùn】练reaver.agents.A2C智能体得到的，通过训练—test模块【kuài】进行100次迭代【dài】，计【jì】算总奖励【lì】值得到这【zhè】个结果。图中【zhōng】括号值代表是平均值、标准差，方括号中为最【zuì】小和【hé】最大值。

传送门

Reddit讨论贴：

https://www.reddit.com/r/MachineLearning/comments/a0jm84/p_reaver_starcraft_ii_deep_reinforcement_learning/

具体的安装说明，可移步GitHub：

https://github.com/inoryy/reaver-pysc2

此外【wài】，如果你的电脑配置了【le】Google Colab，还可以在线使用Reaver，地【dì】址【zhǐ】：

https://colab.research.google.com/drive/1DvyCUdymqgjk85FB5DrTtAwTFbI494x7

— 完 —

诚挚招聘

量子位正【zhèng】在招募编辑/记者，工作【zuò】地点【diǎn】在【zài】北京中关【guān】村。期待有才气、有热情的同学加入我【wǒ】们！相关细节，请在量子位【wèi】公众号(QbitAI)对话界面【miàn】，回复【fù】“招聘”两【liǎng】个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

标签： #星际争霸ii单机版