unity-game-engine - 如何让强化学习代理学习无尽跑者？-6ren

unity-game-engine - 如何让强化学习代理学习无尽跑者？

转载作者：行者123 更新时间：2023-11-30 09:46:57

25

4

我尝试使用 Unity-ML 训练强化学习代理来玩无尽的运行游戏。

游戏很简单:障碍物从侧面接近，代理必须在正确的时机跳跃才能克服它。

作为观察，我知道到下一个障碍物的距离。可能的操作是 0 - 空闲； 1 - 跳跃。玩时间越长就会获得奖励。

不幸的是，代理甚至无法学会克服第一个可靠的障碍。我猜想这是由于这两个操作的不平衡性太高，因为理想的策略在大多数情况下什么也不做(0)，并且仅在非常特定的时间点跳跃(1)。此外，跳跃过程中的所有 Action 都毫无意义，因为代理无法在空中跳跃。

如何改进学习以使其收敛？有什么建议要研究什么吗？

当前训练师配置:

EndlessRunnerBrain:
  gamma: 0.99
  beta: 1e-3
  epsilon: 0.2
  learning_rate: 1e-5
  buffer_size: 40960
  batch_size: 32
  time_horizon: 2048
  max_steps: 5.0e6

谢谢!

最佳答案

如果没有看到强化学习算法所使用的确切代码，就很难说。以下是一些值得探索的步骤:

您让特工培训多长时间？根据游戏环境的复杂性，代理很可能需要数千个回合才能学会避开第一个障碍。
使用 Academy 对象的 Frameskip 属性进行实验。这允许代理仅在经过一定数量的帧后才采取行动。增加此值可能会提高更简单游戏的学习速度。
调整学习率。学习率决定了代理对新信息与旧信息的权重。你使用的学习率非常小；尝试将其增加几位小数。
调整 epsilon。 Epsilon 确定采取随机操作的频率。给定状态和 0.2 的 epsilon 率，您的代理将在 20% 的时间内采取随机操作。另外 80% 的情况下，它会选择具有最高相关奖励的(状态，操作)对。您可以尝试减少或增加该值，看看是否会获得更好的结果。由于您知道在训练开始时需要更多随机 Action ，因此您甚至可以在每一集中“衰减”epsilon。如果您从 0.5 的 epsilon 值开始，则在每个游戏回合完成后，将 epsilon 减少一个小值，例如 0.00001 左右。
改变代理的奖励方式。也许您可以奖励代理成功跳过的每个障碍，而不是奖励代理保持事件的每一帧。
您确定给定的 time_horizon 和 max_steps 为游戏提供足够的跑道来完成一集吗？

希望这对您有所帮助，祝您好运!

关于unity-game-engine - 如何让强化学习代理学习无尽跑者？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51348410/

25

4

0

文章推荐： javascript - 一项一项获取json项

文章推荐： java - hibernate 忽略 LEFT JOIN

文章推荐： javascript - 在 Javascript 中按值传递变量

文章推荐： java - 我做的不正确或理解 Android 上的双缓冲吗？

php - 这个脚本有多安全(强化)？
下面的脚本 test.php 旨在放置在我所有 wordpress 站点的特定目录中。它的作用是抓取下面$source地址的文件，解压到它所在的目录下。这就是它的全部意图。例如，我将在我的中央服务器
java - 强化 : Resource Injection
我有以下代码，并且在 copyMessages() 处遇到资源注入(inject)问题。我不知道如何解决这个问题？ Abstract: Attackers are able to control t
java - 强化 Java 技能
上个学期我介绍了 Java 中的面向对象编程，下学期我将学习 Java 计算机科学 2，它基本上学习用 Java 实现的各种算法和数据结构，例如链表、二叉树等。 ..我可以通过哪些方法来巩固在面向对象
android - 强化 Android 检查
我很好奇 Fortify 规则集在 Android 应用程序中寻找哪些漏洞。不幸的是，我找不到任何相关文件。我知道他们四处寻找 Java 特定的漏洞以及组件的权限检查——还有其他吗？ SQL注入(in
java - 强化 XML 外部实体 (XXE)
我在 fortify 报告中收到第 4 行的 XML 外部实体注入(inject)安全警告。不知道如何解决它。我对 SOAP、JAXB 和 Marshaller 还很陌生。 1 private
python - 通过 python 强化 sshd_config
查找以“#PermitRootLogin yes”开头的行并替换为“PermitRootLogin no” 在底部添加一行“AllowUsers user1@test.com” 重新启动 sshd 守
php - 强化 PHP session - 比较错误
我正在尝试强化我的 session 并找到了下面的代码。我的问题是这一行 isset($_SESSION['last_ip']) !== $_SERVER['REMOTE_ADDR']。当我回显比较
java - 强化 : Null dereference for Java 8
当我在 Java 8 中包含以下代码时，我在 fortify 中遇到 Null Dereference 问题: String name = statusList.stream() .map(s
javascript - 强化 : DOM based cross site scripting
我有一个强化漏洞:跨站点脚本:DOM。在我的应用程序(asp.net)中，我们动态构建 html 并将其分配给一个 div 标签，它在其中提示问题。 str += '
java - 强化 try-with-resource 的安全问题 "Unreleased resource stream"
强化安全运行不合规代码 public static A read(String path) throws IOException, ClassNotFoundException { try (
azure - 强化 Azure Web Apps 和 Azure SQL 数据库之间的安全性
出于安全考虑，我计划不允许 Azure 服务与 Azure 服务进行通信，而只允许与它正在使用的服务进行通信。例如，我有一些使用 Azure SQL 数据库的 Web 应用程序。我应该只在 Azur
azure - 强化 Azure Web Apps 和 Azure SQL 数据库之间的安全性
出于安全考虑，我计划不允许 Azure 服务与 Azure 服务进行通信，而只允许与它正在使用的服务进行通信。例如，我有一些使用 Azure SQL 数据库的 Web 应用程序。我应该只在 Azur
java - 强化 : vsprintf: prevented 33-byte write into 32-byte buffer
早上好，我在 Android 项目上使用 native 库，它只是包签名的简单 md5hash，但是我在具有 JNI 功能的 64 位设备上遇到问题: char *getSignatureMd5(JN
java - 使用 Office 2007/2010 打开 .xls 文件时收到扩展检查(强化)警报
我正在开发一个基于 struts 的 Web 应用程序。在该应用程序中，我们从 Jsp 生成并下载 xls 文件。在Jsp文件和web.xml中，我将内容类型设置为“application/vnd.m
javascript - 强化 JavaScript 劫持 : Vulnerable Framework aspx using Jquery Ajax
我正在处理遗留系统，我们只是用 HP Fortify 扫描了它并得到了JavaScript Hijacking: Vulnerable Framework，代码如下。我能做些什么来确保这一点？我并不完
c - 强化 : Path Manipulation in C - White List Implementation doesn't work - fopen issue
大家好，我有一个由 fopen 使用产生的强化问题“路径操作”。根据 fortify，我可以实现一个白名单来修复它，所以有我的白名单验证器: white_list.c #define BUFF_WHI
android - (强化)类别 : Android Bad Practices: Missing Google Play Services Updated Security Provider (1 Issues)
我们正在使用 Fortify 扫描我的 Android 源代码，但我无法解决这个问题: Category: Android Bad Practices: Missing Google Play Ser

首页

博学

6Ren·AI

商城

unity-game-engine - 如何让强化学习代理学习无尽跑者？