- Java锁的逻辑(结合对象头和ObjectMonitor)
- 还在用饼状图?来瞧瞧这些炫酷的百分比可视化新图形(附代码实现)⛵
- 自动注册实体类到EntityFrameworkCore上下文,并适配ABP及ABPVNext
- 基于Sklearn机器学习代码实战
小伙伴们快看过来!这是一款全新打造的 ⚔️ AI vs. AI ⚔️——深度强化学习多智能体竞赛系统 .
这个工具托管在 Space 上,允许我们创建多智能体竞赛。它包含三个元素
然后,当用户将一个训练好的模型推到 Hub 时, 它会获取评估和排名 。得益于此,我们可以在多智能体环境中对你的智能体与其他智能体进行评估.
除了作为一个托管多智能体竞赛的有用工具,我们认为这个工具在多智能体设置中可以成为一个 健壮的评估技术 。通过与许多策略对抗,你的智能体将根据广泛的行为进行评估。这应该能让你很好地了解你的策略的质量.
让我们看看它在我们的第一个竞赛托管: SoccerTwos Challenge 上是如何工作的.
AI vs. AI 是一个在 Hugging Face 上开发的开源工具, 对多智能体环境下强化学习模型的强度进行排名 .
其思想是通过让模型之间持续比赛,并使用比赛结果来评估它们与所有其他模型相比的表现,从而在不需要经典指标的情况下了解它们的策略质量,从而获得 对技能的相对衡量,而不是客观衡量 .
对于一个给定的任务或环境,提交的智能体越多, 评分就越有代表性 .
为了在一个竞争的环境里基于比赛结果获得评分,我们决定根据 ELO 评分系统进行排名.
游戏的核心理念是,在比赛结束后,双方玩家的评分都会根据比赛结果和他们在比赛前的评分进行更新。当一个拥有高评分的用户打败一个拥有低排名的用户时,他们便不会获得太多分数。同样,在这种情况下,输家也不会损失很多分.
相反地,如果一个低评级的玩家击败了一个高评级的玩家,这将对他们的评级产生更显著的影响.
在我们的环境中,我们尽量保持系统的简单性,不根据玩家的初始评分来改变获得或失去的数量。因此,收益和损失总是完全相反的 (例如+10 / -10),平均 ELO 评分将保持在初始评分不变。选择一个1200 ELO 评分启动完全是任意的.
如果你想了解更多关于 ELO 的信息并且查看一些计算示例,我们在 深度强化学习课程 里写了一个解释.
使用此评级,可以 自动在具有可对比强度的模型之间进行匹配 。你可以有多种方法来创建匹配系统,但在这里我们决定保持它相当简单,同时保证比赛的多样性最小,并保持大多数比赛的对手评分相当接近.
以下是该算法的工作原理
为了持续运行这个配对过程,我们使用 免费的 Hug Face Spaces 硬件和一个 Scheduler 来作为后台任务持续运行这个配对过程.
Space 还用于获取每个以及比赛过的模型的 ELO 评分,并显示一个排行榜, 每个人都可以检查模型的进度 .
该过程通常使用几个 Hugging Face Datasets 来提供数据持久性 (这里是匹配历史和模型评分).
因为这个过程也保存了比赛的历史,因此可以精确地看到任意给定模型的结果。例如,这可以让你检查为什么你的模型与另一个模型搏斗,最显著的是使用另一个演示 Space 来可视化匹配,就像 这个 .
目前, 这个实验是在 MLAgent 环境 SoccerTwos 下进行的,用于 Hugging Face 深度强化学习课程 ,然而,这个过程和实现通常是 环境无关的,可以用来免费评估广泛的对抗性多智能体设置 .
当然,需要再次提醒的是,此评估是提交的智能体实力之间的相对评分,评分本身 与其他指标相比没有客观意义 。它只表示一个模型与模型池中其他模型相对的好坏。尽管如此,如果有足够大且多样化的模型池 (以及足够多的比赛),这种评估将成为表示模型一般性能的可靠方法.
这个挑战是我们免费的深度强化学习课程的第 7 单元。它开始于 2 月 1 日,计划于 4 月 30 日结束.
如果你感兴趣, 你不必参加课程就可以加入这个比赛。你可以在 这里 开始 。
在这个单元,读者通过训练一个 2 vs 2 足球队 学习多智能体强化学习 (MARL) 的基础.
用到的环境是 Unity ML-Agents 团队 制作的。这个比赛的目标是简单的: 你的队伍需要进一个球。要做到这一点,他们需要击败对手的团队,并与队友合作.
除了排行榜,我们创建了一个 Space 演示,人们可以 选择两个队伍并可视化它们的比赛 .
这个实验进展顺利,因为我们已经在 排行榜 上有 48 个模型了.
我们也创造了一个叫做 ai-vs-ai-competition 的 discord 频道,人们可以与他人交流并分享建议.
因为我们开发的这个工具是 环境无关的 ,在未来我们想用 PettingZoo 举办更多的挑战赛和多智能体环境。如果你有一些想做的环境或者挑战赛, 不要犹豫,与我们联系 .
在未来,我们将用我们创造的工具和环境来举办多个多智能体比赛,例如 SnowballFight.
除了称为一个举办多智能体比赛的有用工具,我们考虑这个工具也可以在多智能体设置中成为 一项健壮的评估技术: 通过与许多策略对抗,你的智能体将根据广泛的行为进行评估,并且你将很好地了解你的策略的质量 .
保持联系的最佳方式是 加入我们的 Discord 与我们和社区进行交流.
引用 。
引用: 如果你发现这对你的学术工作是有用的,请考虑引用我们的工作
Cochet, Simonini, "Introducing AI vs. AI a deep reinforcement learning multi-agents competition system", Hugging Face Blog, 2023.
BibTeX 引用
@article{cochet-simonini2023,
author = {Cochet, Carl and Simonini, Thomas},
title = {Introducing AI vs. AI a deep reinforcement learning multi-agents competition system},
journal = {Hugging Face Blog},
year = {2023},
note = {https://huggingface.co/blog/aivsai},
}
英文原文: https://huggingface.co/blog/aivsai 。
作者: Carl Cochet、Thomas Simonini 。
译者: AIboy1993 (李旭东) 。
审校、排版: zhongdongy (阿东) 。
最后此篇关于AI大战AI,一个深度强化学习多智能体竞赛系统的文章就讲到这里了,如果你想了解更多关于AI大战AI,一个深度强化学习多智能体竞赛系统的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
我正在开发一个项目,该项目允许用户作为访客或注册用户加入。 有应用范围user具有当前用户类型的 LiveData 的对象 private val _isGuest = MutableLiveData
我正在创建一个应用程序来帮助我们的团队管理 Twitter 竞赛。到目前为止,我已经成功地与 API 进行交互,并返回了一组我需要的推文。 我正在努力决定处理数据库中推文存储的最佳方式、检查它们的频率
我在处理这段特殊代码时遇到了一些麻烦。它要么存在竞争条件,要么存在 quint8 问题。 quint8 chunk3[CHUNK_SIZE_MULT]; memset(chunk3,0x00, siz
我有一个带有 background.js 的 Chrome 扩展程序,其中收集和存储有关页面的信息, chrome.webRequest.onCompleted.addListener( func
我在我的应用程序中遇到了竞争条件,每当我暂停调试时,所有或除 1 个线程外的所有线程都会卡在 syscall_thread_switch 上。它在模拟器上更频繁地重现,但在 iPad Air 上也是如
我有一个简单的包,用于在程序运行期间记录统计信息,我发现 go run -race 说其中存在竞争条件。查看该程序,我不确定每次读写都受互斥锁保护时如何出现竞争条件。谁能解释一下? package c
我是一名优秀的程序员,十分优秀!