- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个关于强化学习 (RL) 对于我们正在尝试解决的问题的适用性的基本问题。
我们正在尝试使用强化学习进行库存管理 - 其中需求完全随机(它可能在现实生活中具有某种模式,但现在让我们假设我们被迫将其视为纯粹的随机需求)随机的)。
据我了解,强化学习可以帮助学习如何玩游戏(例如国际象棋)或帮助机器人学习走路。 但是所有游戏都有规则,(OpenAI Gym 的)“车杆”也是如此 – 有一些“物理”规则来控制车杆何时倾斜并摔倒。
对于我们的问题来说,没有规则——环境随机变化(对产品的需求)。
强化学习真的适用于这种情况吗?
如果确实如此,那么什么会提高性能?
更多详情:- “环境”中唯一可用的两个刺激是产品“X”的当前可用水平和当前需求“Y”- “ Action ”是二元的 - 我是否订购一定数量的“Q”来重新填充或不订购(离散 Action 空间)。- 我们正在使用 DQN 和 Adam 优化器。
我们的结果很差 - 我承认我只训练了大约 5,000 或 10,000 - 我应该让它训练几天,因为这是一个随机环境?
谢谢拉杰什
最佳答案
你说的是非平稳意义上的随机,所以,不,强化学习在这里不是最好的。
强化学习假设您的环境是静止的。在整个学习过程中,环境的潜在概率分布(转换函数和奖励函数)必须保持不变。
当然,强化学习和深度强化学习可以处理一些稍微不稳定的问题,但在这方面却很困难。马尔可夫决策过程 (MDP) 和部分可观察 MDP 假设平稳。因此,专门用于利用类似 MDP 环境的基于值的算法,例如 SARSA、Q-learning、DQN、DDQN、Dueling DQN 等,将很难在非平稳环境中学习任何内容。您越多地采用基于策略的算法,例如 PPO、TRPO,甚至更好的无梯度算法,例如 GA、CEM 等,您的机会就越大,因为这些算法不会尝试利用此假设。此外,调整学习率对于确保代理永不停止学习至关重要。
最好的选择是采用黑盒优化方法,例如遗传算法等。
关于machine-learning - 强化学习适用于随机环境吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52744919/
下面的脚本 test.php 旨在放置在我所有 wordpress 站点的特定目录中。它的作用是抓取下面$source地址的文件,解压到它所在的目录下。这就是它的全部意图。 例如,我将在我的中央服务器
我有以下代码,并且在 copyMessages() 处遇到资源注入(inject)问题。 我不知道如何解决这个问题? Abstract: Attackers are able to control t
上个学期我介绍了 Java 中的面向对象编程,下学期我将学习 Java 计算机科学 2,它基本上学习用 Java 实现的各种算法和数据结构,例如链表、二叉树等。 ..我可以通过哪些方法来巩固在面向对象
我很好奇 Fortify 规则集在 Android 应用程序中寻找哪些漏洞。不幸的是,我找不到任何相关文件。我知道他们四处寻找 Java 特定的漏洞以及组件的权限检查——还有其他吗? SQL注入(in
我在 fortify 报告中收到第 4 行的 XML 外部实体注入(inject)安全警告。不知道如何解决它。我对 SOAP、JAXB 和 Marshaller 还很陌生。 1 private
查找以“#PermitRootLogin yes”开头的行并替换为“PermitRootLogin no” 在底部添加一行“AllowUsers user1@test.com” 重新启动 sshd 守
我正在尝试强化我的 session 并找到了下面的代码。我的问题是这一行 isset($_SESSION['last_ip']) !== $_SERVER['REMOTE_ADDR']。 当我回显比较
当我在 Java 8 中包含以下代码时,我在 fortify 中遇到 Null Dereference 问题: String name = statusList.stream() .map(s
我有一个强化漏洞:跨站点脚本:DOM。 在我的应用程序(asp.net)中,我们动态构建 html 并将其分配给一个 div 标签,它在其中提示问题。 str += '
强化安全运行不合规代码 public static A read(String path) throws IOException, ClassNotFoundException { try (
出于安全考虑,我计划不允许 Azure 服务与 Azure 服务进行通信,而只允许与它正在使用的服务进行通信。 例如,我有一些使用 Azure SQL 数据库的 Web 应用程序。我应该只在 Azur
出于安全考虑,我计划不允许 Azure 服务与 Azure 服务进行通信,而只允许与它正在使用的服务进行通信。 例如,我有一些使用 Azure SQL 数据库的 Web 应用程序。我应该只在 Azur
早上好,我在 Android 项目上使用 native 库,它只是包签名的简单 md5hash,但是我在具有 JNI 功能的 64 位设备上遇到问题: char *getSignatureMd5(JN
我正在开发一个基于 struts 的 Web 应用程序。在该应用程序中,我们从 Jsp 生成并下载 xls 文件。在Jsp文件和web.xml中,我将内容类型设置为“application/vnd.m
我正在处理遗留系统,我们只是用 HP Fortify 扫描了它并得到了JavaScript Hijacking: Vulnerable Framework,代码如下。我能做些什么来确保这一点?我并不完
大家好,我有一个由 fopen 使用产生的强化问题“路径操作”。根据 fortify,我可以实现一个白名单来修复它,所以有我的白名单验证器: white_list.c #define BUFF_WHI
我们正在使用 Fortify 扫描我的 Android 源代码,但我无法解决这个问题: Category: Android Bad Practices: Missing Google Play Ser
我是一名优秀的程序员,十分优秀!