- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我最近参加了 RL 类(class),正在为具有连续状态和离散操作的电源管理应用程序编写 Q 学习 Controller 。我使用神经网络(Q 网络)来近似 Action 值并选择最大 Action 值。与任何控制系统一样,我对变量有一定的约束或界限,代理不能违反这些约束或界限。假设我的 Controller (代理)的 Action 是对电池进行放电或充电,则所得能量分别不能小于 0 或大于最大容量。
我想了解如何在操作选择或值近似例程中添加此类约束?我想到了两种方法
(1) 假设我正在运行 T 步的一集。在每一步中,我都会将当前状态输入到 Q 网络并选择最大 Action 值。采取此操作后,如果违反了我的约束,我可以分配巨大的负奖励,如果没有,我可以分配相关的奖励。最终,所有获得巨大负面奖励的行为(对应于不良行为)都将被避免,因此代理将在模型约束内运行。但是,如果我从优化的角度来看,永远不应该采取此类操作,因为它们不属于允许的区域。因此,理想情况下,我应该立即停止迭代,因为所有顺序操作都是 Not Acceptable 。这会造成数据的严重浪费。
(2) 其次,我将当前状态输入 Q 网络,选择与最大 Q 值对应的操作并检查约束。如果违反,我将采取与第二高 Q 值相对应的操作并重复,直到满足我的约束。但这会导致最优吗?
我认为这可能是训练涉及多个变量约束的自主控制系统时反复出现的问题。非常高兴收到您的反馈!
最佳答案
我想说选项(1)更可取,也是通常所做的。如果你真的不想执行某个 Action ,就不要执行并停止该事件(并给予巨大的负奖励)。关于选项(2),我认为它不会导致最优性。
此外,Q-learning 是一种离策略算法。这意味着您可以使用其他一些采样器策略收集的样本来训练您的目标策略,这可以“更安全”并避免危险操作。然而,由于探索减少,这可能需要更多时间。
无论如何,这是强化学习中一个非常常见的问题。我建议你看看 Google 上的“成本敏感探索”,你会发现一些关于你的问题的有趣研究。
回复评论
我不太明白。您是否已有元组 (s,a,r,s')
的数据集? (由任何代理/政策收集)。如果是这样,请不要停止该情节并只是学习(使用批处理算法,例如拟合 Q 迭代)。如果您必须在线收集数据,我建议您停止:您收集一个操作,通过 Q-learning 更新规则更新策略,然后继续这一事件。如果是这样,并且安全是您的首要考虑因素,那么只要发生不允许的事情就停止该事件。
如果你的真正目标是“很远的时间”(例如,你在一段时间后给予积极的奖励),那么我看到的与“需要太多时间学习”相关的唯一问题就会出现,这对代理来说会很困难去体验它。然而,这是不可避免的:“安全/学习时间”与“探索/利用”之间总是存在妥协。
关于machine-learning - 在 Q 学习中添加约束并在违反约束时分配奖励,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36648996/
我可以添加一个检查约束来确保所有值都是唯一的,但允许默认值重复吗? 最佳答案 您可以使用基于函数的索引 (FBI) 来实现此目的: create unique index idx on my_tabl
嗨,我在让我的约束在grails项目中工作时遇到了一些麻烦。我试图确保Site_ID的字段不留为空白,但仍接受空白输入。另外,我尝试设置字段显示的顺序,但即使尝试时也无法反射(reflect)在页面上
我似乎做错了,我正在尝试将一个字段修改为外键,并使用级联删除...我做错了什么? ALTER TABLE my_table ADD CONSTRAINT $4 FOREIGN KEY my_field
阅读目录 1、约束的基本概念 2、约束的案例实践 3、外键约束介绍 4、外键约束展示 5、删除
SQLite 约束 约束是在表的数据列上强制执行的规则。这些是用来限制可以插入到表中的数据类型。这确保了数据库中数据的准确性和可靠性。 约束可以是列级或表级。列级约束仅适用于列,表级约束被应用到整
我在 SerenityOS project 中偶然发现了这段代码: template void dbgln(CheckedFormatString&& fmtstr, const Parameters
我有表 tariffs,有两列:(tariff_id, reception) 我有表 users,有两列:(user_id, reception) 我的表 users_tariffs 有两列:(use
在 Derby 服务器中,如何使用模式的系统表中的信息来创建选择语句以检索每个表的约束名称? 最佳答案 相关手册是Derby Reference Manual .有许多可用版本:10.13 是 201
我正在使用 z3py 进行编码。请参阅以下示例。 from z3 import * x = Int('x') y = Int('y') s = Solver() s.add(x+y>3) if s.c
非常快速和简单的问题。我正在运行一个脚本来导入数据并声明了一个临时表并将检查约束应用于该表。显然,如果脚本运行不止一次,我会检查临时表是否已经存在,如果存在,我会删除并重新创建临时表。这也会删除并重新
我有一个浮点变量 x在一个线性程序中,它应该是 0或两个常量之间 CONSTANT_A和 CONSTANT_B : LP.addConstraint(x == 0 OR CONSTANT_A <= x
我在使用grails的spring-data-neo4j获得唯一约束时遇到了一些麻烦。 我怀疑这是因为我没有正确连接它,但是存储库正在扫描和连接,并且CRUD正在工作,所以我不确定我做错了什么。 我正
这个问题在这里已经有了答案: Is there a constraint that restricts my generic method to numeric types? (24 个回答) 7年前
我有一个浮点变量 x在一个线性程序中,它应该是 0或两个常量之间 CONSTANT_A和 CONSTANT_B : LP.addConstraint(x == 0 OR CONSTANT_A <= x
在iOS的 ScrollView 中将图像和带有动态文本(动态高度)的标签居中的最佳方法是什么? 我必须添加哪些约束?我真的无法弄清楚它是如何工作的,也许我无法处理它,因为我是一名 Android 开
考虑以下代码: class Foo f class Bar b newtype D d = D call :: Proxy c -> (forall a . c a => a -> Bool) ->
我有一个类型类,它强加了 KnownNat约束: class KnownNat (Card a) => HasFin a where type Card a :: Nat ... 而且,我有几
我知道REST原则上与HTTP无关。 HTTP是协议,REST是用于通过Web传输hypermedia的体系结构样式。 REST可以使用诸如HTTP,FTP等的任何应用程序层协议。关于REST的讨论很
我有这样的情况,我必须在数据库中存储复杂的数据编号。类似于 21/2011,其中 21 是文件编号,但 2011 是文件年份。所以我需要一些约束来处理唯一性,因为有编号为 21/2010 和 21/2
我有一个 MySql (InnoDb) 表,表示对许多类型的对象之一所做的评论。因为我正在使用 Concrete Table Inheritance ,对于下面显示的每种类型的对象(商店、类别、项目)
我是一名优秀的程序员,十分优秀!