相关文档

针对《反恐精英2》中选手的多模态人工智能的高级托管方案

项目介绍

本项目最初是为了“ CS:GO ”(反恐精英:全球攻势)而开发的托管人工智能,数据源自于该游戏。尽管“CS2”并未进行大幅更改,我们也投入了大量时间进行模型训练与优化。惊喜的是,模型的推理速度似乎得到了提升,我们正在进行这方面的研究,用更少的参数适应更多任务。

为避免过拟合,我们在训练过程中采用参数重置策略,导致模型会出现轻微遗忘。受“FastAttention2的启发,模型现在能在更长时间的游戏对局中保持表现水平,避免出现性能下降。

Attention is All You Need.

在最新的模型训练计划中,结合多数玩家的对局反馈,我们优先优化了模型的指令跟随能力,以实现在团队中适应多种角色、多种任务。玩家可以在通过无线指令的“跟着我”和“跟着你”来进行强化指令跟随,相信我,它会成为你的知己的。

logs

在 OpenCS 2d 中我们使用了4x36B(MoE)的模型结构,而其中画面都会经过自注意力而重采样,这使得模型更加精确于定位敌人,我们让其真正“看见了”。

除了加强模型的常规训练,我们着重强化了其离群学习能力。这意味着模型能够奖励一些从未经历过的行为,并通过学习对其进行进一步探索。这种学习方式排除了模型自身和玩家的行为,专注于未知和新颖的情况,使其具备更强的应对能力。

要知道,在最初仅仅为了让其“明白”自己在做什么,我们就花费了整整 1 年多。

logs

在不同噪声下的局部收敛情况

此外,玩家的积极引导也被鼓励和强调,他们的行为将有助于模型更好地适应新情景,这种互动促进了模型对多样性行为的理解和学习。

该项目目前仍在测试阶段,请定期关注我们的官方网站获取最新动态。

指令说明

当前支持绝大部分指令。需要特定武器时,请发送武器名称,否则智能将分析并给出任意武器建议!我们提供了一些指令,如“跟着我”和“拒绝”,以便玩家与智能进行互动。这些指令帮助控制模型生成下一个行为的概率分布。

响应说明

智能系统可以作出多种响应以适应不同情况: 基本响应,用于与玩家互动并执行基本行动。 策略性响应,针对局势变化,提出更具策略性的建议。 信息性响应,用于提供特定位置或局势信息。

更新日志

OpenCS 1.5 已经发布,这在当时(CS:GO)中的初步表现非常优秀,但在后续研发中,我们发现模型架构存在较大问题,这使我们不得不暂停投放训练。

OpenCS 2d(Delta) 我们正在尝试新的模型架构,并将在未来几周内正式发布研究细节(现官匹机器人所使用的)。

更多信息

智能的指令跟随效果不佳?

模型的训练数据多为2P的协作和单人作战,尽管我们已经对于指令方面进行优化,模型通常还是会按照自认为的最大优势去行动。

为什么这么像作弊?

这是个关键问题,我们的一项技术实现从频谱到声场的分析,理论上来说,任何低频声音都逃不过智能。

这是不是作弊?

我们的智能基于200k场人机对战和真实玩家的数据。它能输出前 k 个最可能的行为,记忆整局游戏内容,包括战术、武器和道具。这足以让我们的模型被称为“策略大师”。通过整合人机和真实玩家数据的训练,我们相信OpenCS会越来越接近真实的玩家。

如何获取邀请码?

请持续关注官方动态,团队的规模并不大,能够处理的问题很有限,模型将在不久后公开,请大家稍安勿躁!