AI大战AI，一个深度强化学习多智能体竞赛系统

转载作者：我是一只小鸟更新时间：2023-03-08 14:31:13

27

4

小伙伴们快看过来！这是一款全新打造的 ⚔️ AI vs. AI ⚔️——深度强化学习多智能体竞赛系统 .

这个工具托管在 Space 上，允许我们创建多智能体竞赛。它包含三个元素

一个带匹配算法的 Space ， 使用后台任务运行模型战斗 。
一个包含结果的 Dataset 。
一个获取匹配历史结果和显示模型 LEO 的 Leaderboard 。

然后，当用户将一个训练好的模型推到 Hub 时，它会获取评估和排名。得益于此，我们可以在多智能体环境中对你的智能体与其他智能体进行评估.

除了作为一个托管多智能体竞赛的有用工具，我们认为这个工具在多智能体设置中可以成为一个健壮的评估技术。通过与许多策略对抗，你的智能体将根据广泛的行为进行评估。这应该能让你很好地了解你的策略的质量.

让我们看看它在我们的第一个竞赛托管: SoccerTwos Challenge 上是如何工作的.

AI vs. AI是怎么工作的？

AI vs. AI 是一个在 Hugging Face 上开发的开源工具，对多智能体环境下强化学习模型的强度进行排名 .

其思想是通过让模型之间持续比赛，并使用比赛结果来评估它们与所有其他模型相比的表现，从而在不需要经典指标的情况下了解它们的策略质量，从而获得对技能的相对衡量，而不是客观衡量 .

对于一个给定的任务或环境，提交的智能体越多，评分就越有代表性 .

为了在一个竞争的环境里基于比赛结果获得评分，我们决定根据 ELO 评分系统进行排名.

游戏的核心理念是，在比赛结束后，双方玩家的评分都会根据比赛结果和他们在比赛前的评分进行更新。当一个拥有高评分的用户打败一个拥有低排名的用户时，他们便不会获得太多分数。同样，在这种情况下，输家也不会损失很多分.

相反地，如果一个低评级的玩家击败了一个高评级的玩家，这将对他们的评级产生更显著的影响.

在我们的环境中，我们尽量保持系统的简单性，不根据玩家的初始评分来改变获得或失去的数量。因此，收益和损失总是完全相反的 (例如+10 / -10)，平均 ELO 评分将保持在初始评分不变。选择一个1200 ELO 评分启动完全是任意的.

如果你想了解更多关于 ELO 的信息并且查看一些计算示例，我们在深度强化学习课程里写了一个解释.

使用此评级，可以自动在具有可对比强度的模型之间进行匹配。你可以有多种方法来创建匹配系统，但在这里我们决定保持它相当简单，同时保证比赛的多样性最小，并保持大多数比赛的对手评分相当接近.

以下是该算法的工作原理

从 Hub 上收集所有可用的模型。新模型获得初始 1200 的评分，其他的模型保持在以前比赛中得到或失去的评分。
从所有这些模型创建一个队列。
从队列中弹出第一个元素 (模型)，然后从 n 个模型中随机抽取另一个与第一个模型评级最接近的模型。
通过在环境中 (例如一个 Unity 可执行文件) 加载这两个模型来模拟这个比赛，并收集结果。对于这个实现，我们将结果发送到 Hub上的 Hug Face Dataset。
根据收到的结果和 ELO 公式计算两个模型的新评分。
继续两个两个地弹出模型并模拟比赛，直到队列中只有一个或零个模型。
保存结果评分，回到步骤 1。

为了持续运行这个配对过程，我们使用免费的 Hug Face Spaces 硬件和一个 Scheduler 来作为后台任务持续运行这个配对过程.

Space 还用于获取每个以及比赛过的模型的 ELO 评分，并显示一个排行榜，每个人都可以检查模型的进度 .

该过程通常使用几个 Hugging Face Datasets 来提供数据持久性 (这里是匹配历史和模型评分).

因为这个过程也保存了比赛的历史，因此可以精确地看到任意给定模型的结果。例如，这可以让你检查为什么你的模型与另一个模型搏斗，最显著的是使用另一个演示 Space 来可视化匹配，就像这个 .

目前，这个实验是在 MLAgent 环境 SoccerTwos 下进行的，用于 Hugging Face 深度强化学习课程，然而，这个过程和实现通常是环境无关的，可以用来免费评估广泛的对抗性多智能体设置 .

当然，需要再次提醒的是，此评估是提交的智能体实力之间的相对评分，评分本身与其他指标相比没有客观意义。它只表示一个模型与模型池中其他模型相对的好坏。尽管如此，如果有足够大且多样化的模型池 (以及足够多的比赛)，这种评估将成为表示模型一般性能的可靠方法.

我们的第一个 AI vs. AI 挑战实验: SoccerTwos Challenge ⚽

这个挑战是我们免费的深度强化学习课程的第 7 单元。它开始于 2 月 1 日，计划于 4 月 30 日结束.

如果你感兴趣，你不必参加课程就可以加入这个比赛。你可以在这里开始。

在这个单元，读者通过训练一个 2 vs 2 足球队学习多智能体强化学习 (MARL) 的基础.

用到的环境是 Unity ML-Agents 团队制作的。这个比赛的目标是简单的: 你的队伍需要进一个球。要做到这一点，他们需要击败对手的团队，并与队友合作.

除了排行榜，我们创建了一个 Space 演示，人们可以选择两个队伍并可视化它们的比赛 .

这个实验进展顺利，因为我们已经在排行榜上有 48 个模型了.

我们也创造了一个叫做 ai-vs-ai-competition 的 discord 频道，人们可以与他人交流并分享建议.

结论，以及下一步

因为我们开发的这个工具是环境无关的，在未来我们想用 PettingZoo 举办更多的挑战赛和多智能体环境。如果你有一些想做的环境或者挑战赛，不要犹豫，与我们联系 .

在未来，我们将用我们创造的工具和环境来举办多个多智能体比赛，例如 SnowballFight.

除了称为一个举办多智能体比赛的有用工具，我们考虑这个工具也可以在多智能体设置中成为一项健壮的评估技术: 通过与许多策略对抗，你的智能体将根据广泛的行为进行评估，并且你将很好地了解你的策略的质量 .

保持联系的最佳方式是加入我们的 Discord 与我们和社区进行交流.

引用。

引用: 如果你发现这对你的学术工作是有用的，请考虑引用我们的工作

                        
                          Cochet, Simonini, "Introducing AI vs. AI a deep reinforcement learning multi-agents competition system", Hugging Face Blog, 2023.

BibTeX 引用

                        
                          @article{cochet-simonini2023,
  author = {Cochet, Carl and Simonini, Thomas},
  title = {Introducing AI vs. AI a deep reinforcement learning multi-agents competition system},
  journal = {Hugging Face Blog},
  year = {2023},
  note = {https://huggingface.co/blog/aivsai},
}

英文原文: https://huggingface.co/blog/aivsai 。

作者: Carl Cochet、Thomas Simonini 。

译者: AIboy1993 (李旭东) 。

审校、排版: zhongdongy (阿东) 。

最后此篇关于AI大战AI，一个深度强化学习多智能体竞赛系统的文章就讲到这里了,如果你想了解更多关于AI大战AI，一个深度强化学习多智能体竞赛系统的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

27

4

0

文章推荐：常用的Java开发工具比较

文章推荐：消息队列中间件的选型与比较

文章推荐： OracleDatabase——数据库表空间dmp导出与导入

wit.ai - 将数据导入wit.ai
更新:下面提到的stackoverflow给出了另一种解决方案，即导入json并用正确格式的数据替换文本。我现在试图看看如何适应给定的格式，它看起来像这样: { "text" : "use
artificial-intelligence - luis.ai 与 api.ai 与 wit.ai 之间的比较？
有谁知道三者之间的具体区别和功能，或者作为开发人员是否有更多功能/更灵活地使用？最佳答案 wit.ai 与 Dialogflow 与 luis.ai ╔═══════════════════════
wit.ai - 有没有办法自动训练 Wit.ai？
我知道 Wit.ai 引擎可以通过手动验证案例来训练，但是有没有办法用一组定义的输入和输出来训练它？最佳答案您可能可以查看其中一个应用程序的导出格式并对其进行调整以导入新应用程序。 https:/
wit.ai - wit.ai 的商业用途
来自 wit.ai 团队的一些人请回答这个我们计划将 wit.ai 用于商业目的。有使用政策吗？请提供一些注意事项指南。此外，这项服务将来是否也是免费的，还是您计划推出企业版？主要是 API 命中
api-ai - 在对话框流中添加确认实体(api.ai)
我需要添加一个确认实体，以便在对话框流 (api.ai) 中的某个操作的参数中得到"is"或“取消”。假设用户正在购买咖啡，我会询问有关咖啡和数量的详细信息，最后我需要确认，我应该向哪个实体申请？任何
python - 考虑一个整数数组 n A=[a1,a2,a3......an]。查找并打印满足 ai*aj <= max(ai,ai+1,.....aj) 的总对数，其中 i < j
谁能帮我解决上面的问题。我们必须在数组 (a1,a2),(a1,a3),(a1,a4).... 等中找到元素的组合，然后选择满足条件 (ai*aj) <= max 的组合(A) 其中 A 是数组并返回
wit.ai - 我是否正确地训练了我的 wit.ai 机器人？
我正在尝试训练我的 Wit.ai 机器人以识别某人的名字。我不太确定我是否完全理解 NLP 的工作原理，所以我会给你一个例子。我定义了很多表达，比如“我的名字是XXXX”、“大家都叫我XXXX” 在
algorithm - 是否存在用于测试棋盘游戏 AI 与其他 AI 的通用站点？
我想知道是否存在一个网站，人们可以上传他们的 AI 在不同的棋盘游戏中相互竞争:国际象棋、五子棋等。该站点将接受程序的源代码(以某种通用语言编写)、对其进行编译并相互运行程序。所有程序都必须使用一些
Golang AI 开发：通过将 AI 集成到你的应用程序
大家好，我是程序员幽鬼。你想为后代开发一个令人难以置信的应用程序，你想到的第一件事——人工智能!还有什么比模仿人类智能的机器更令人着迷的呢?如果你期待打破刻板印象并准备推出出色的 AI 应用
azure - 将 AI Analytics 查询添加到 AI 仪表板？
我在 Application Insights Analytics 中创建了几个查询来获取我想要的图表。示例: customEvents | where timestamp >= ago(31d)
wit.ai - 使用 wit.ai API 删除实体值
我似乎无法让这个请求生效: https://wit.ai/docs/http/20160526#delete--entities-:entity-id-values-link 我已经设置了一个值为“C
wit.ai - wit.ai 的 Node.js 客户端调用多个自定义操作
我正在尝试在 wit.ai 中编写示例应用程序。我使用在 https://wit.ai/docs/quickstart 中显示的 node.js 客户端跟随快速启动应用程序。 .那里显示的示例只有一个
php - 如何在dialoglow(api.ai)中生成我的代理的api.ai url并在PHP中使用该api URL将用户的输入存储在MYSQL数据库中
在 api.i(dialogflow) 中，我想获取用户的输入，如姓名、年龄、邮件等，并使用 PHP 将它们存储在我的 MYSQL 数据库中。如何在对话流中生成我的代理的公共(public) API
wit.ai - 使用跨域 HTTP API 检索 Wit.ai 机器人文本响应
我目前正在与 Wit.ai 合作 webpage in CodePen.io .我想知道是否可以使用 HTTP API 检索 Wit.ai 机器人的文本响应(“Bot says”)。例如:如果用户要
java - 使用 Minimax 算法的 NIM 游戏和 AI 玩家 - AI 会输棋
我接到了一项任务，要编写一个由人类玩家和 AI 玩家组成的 NIM 游戏。游戏是“Misere”(最后一个必须拿起一根棍子的人输了)。 AI 应该使用 Minimax 算法，但它正在采取使其输得更快的
google-ai-platform - 如何取消部署模型，或者特别是如何从 Vertex AI 上的 shell 获取已部署模型的 ID？
为了通过 shell 从端点取消部署模型，我必须指定 deployed-model-id如 gcloud ai endpoints undeploy-model 中所述我如何获得这个已部署的模型 I
docker - 如何将环境变量传递给 gcloud beta ai custom-jobs create with custom container (Vertex AI)
我在谷歌的 Vertex AI 中运行自定义训练作业。执行自定义作业的简单 gcloud 命令将使用类似于以下语法的内容(可以查看命令的完整文档 here ): gcloud beta ai cust
wit.ai - 有没有办法通过 HTTP API 管理(创建/编辑/验证)Wit AI Stories？
Wit AI project 在他们的 Converse 功能中添加了一个名为 Story 的新概念。有没有办法通过 HTTP API 管理(创建/编辑/验证)这些 Wit AI 故事？最佳答案 W
dialogflow-es - 我可以在不使用 Google 的 AI 平台 (Api.ai) 的情况下将应用程序部署到 Google Assistant
我想为 Google 智能助理部署一个应用。但是，我想使用不同的 AI 后端而不是 api.ai。有人知道这是否可能吗？如何？或者如果我想使用 Google 智能助理，我会被 api.ai 困住吗
gcp-ai-platform-notebook - 如何在 GCP AI Platform Notebook 上运行 Python 3.6
我的项目有一个依赖项，需要 python v3.6+。因此，它会在通过 pip 在 python 3 内核中安装时抛出错误，因为 AI Platform Notebooks 默认附带 v3.5。如何使

首页

博学

6Ren·AI

商城

AI大战AI，一个深度强化学习多智能体竞赛系统

AI vs. AI是怎么工作的？

我们的第一个 AI vs. AI 挑战实验: SoccerTwos Challenge ⚽

结论，以及下一步