RIME：用交叉熵loss大小分辨preference是否正确+内在奖励预训练rewardmodel-6ren

RIME：用交叉熵loss大小分辨preference是否正确+内在奖励预训练rewardmodel

转载作者：撒哈拉更新时间：2024-07-25 17:03:48

文章题目：RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences，ICML 2024 Spotlight，3 6 8（？）
pdf：https://arxiv.org/pdf/2402.17257
html：https://arxiv.org/html/2402.17257v3 或 https://ar5iv.labs.arxiv.org/html/2402.17257v3
GitHub：https://github.com/CJReinforce/RIME_ICML2024

0 abstract

Preference-based Reinforcement Learning (PbRL) circumvents the need for reward engineering by harnessing human preferences as the reward signal. However, current PbRL methods excessively depend on high-quality feedback from domain experts, which results in a lack of robustness. In this paper, we present RIME, a robust PbRL algorithm for effective reward learning from noisy preferences. Our method utilizes a sample selection-based discriminator to dynamically filter out noise and ensure robust training. To counteract the cumulative error stemming from incorrect selection, we suggest a warm start for the reward model, which additionally bridges the performance gap during the transition from pre-training to online training in PbRL. Our experiments on robotic manipulation and locomotion tasks demonstrate that RIME significantly enhances the robustness of the state-of-the-art PbRL method. Code is available at https://github.com/CJReinforce/RIME_ICML2024. 。

background 和 gap：基于偏好的强化学习（PbRL）通过利用人类偏好作为奖励信号，来规避奖励工程的需求。然而，目前的 PbRL 方法过度依赖专家的高质量反馈，导致缺乏鲁棒性。
method：在本文中，我们介绍了 RIME，这是一种鲁棒的 PbRL 算法，用于从嘈杂的偏好中有效地进行奖励学习。
- 1 利用一个基于样本选择的鉴别器（discriminator），动态过滤噪声，确保鲁棒训练。
- 2 为了抵消因错误选择而产生的累积误差（？），提出 reward model 的热启动（warm start），这进一步弥合了 PbRL 中的 pretrain → 正式训练的性能差距。
实验：在机器人操作（Meta-world）和运动任务（DMControl）上的实验表明，RIME 显著增强了最先进的 PbRL 方法（指 pebble）的稳健性。

1 intro

background：PbRL 省去 reward engineering，PbRL 好。
gap 1：PbRL 假设 preference 都是专家打的、没有错误，但人类是容易犯错的。
gap 2：从 noisy 的标签中学习，也称为鲁棒训练。
- Song et al. （ 2022）将鲁棒训练方法分为四个关键类别：鲁棒架构（Cheng et al.， 2020）、鲁棒正则化（Xia et al.， 2020）、鲁棒损失设计（Lyu & Tsang， 2019）和样本选择（Li et al.， 2020;Song 等人，2021 年）。
- 然而，把它们整合到 PbRL 中很难，貌似因为 1 需要大量样本，而 PbRL 的 feedback 数量（我们常跑的几个 benchmark）最多几万；2 RL 训练期间有 distribution shift，破坏了 i.i.d（独立同分布）输入数据的假设，这是支持稳健训练方法的核心原则。
我们提出了 RIME（Robust preference-based reInforcement learning via warM-start dEnoising discriminator），据他们生成是第一个研究 PbRL noisy label 的工作（？）
主要方法：
- 1 使用一个 discriminator，用一个阈值找到认为正确的样本 \(\mathcal D_t\)，再用一个阈值找到看起来很错误的样本 \(\mathcal D_f\)，将其翻转，最后我们使用的样本是 \(\mathcal D_t \cup\mathcal D_f\) 。
- 具体的，这里的阈值是交叉熵 loss，有一个理论，感觉很 intuitive，是好工作ww
- 2 用预训练的 intrinsic reward，初始化训一下 reward model。
- 具体的，要在预训练时就归一化 intrinsic reward 到 (-1,1)，这是因为 reward model 一般采用 tanh 做激活函数，而 tanh 的输出是 (-1,1)。

PbRL。
learning from noisy labels：
- 把 intro 的介绍又说了一遍。
- 提到，在 PbRL 背景下，Xue 等人（2023 年）提出了一种编码器-解码器架构，来模拟不同的人类偏好，但是相比 RIME 的工作，大概需要 100 倍的 preference 数量。
Policy-to-Value Reincarnating RL（PVRL）：
- Reincarnate：vt，使投胎、转世、赋予新形体。
- PVRL，指将次优的 teacher policy 转移到一个 value-based 的 student RL agent（Agarwal 等人，2022 年）。
- 启发：Uchendu et al. （ 2023）发现，PVRL 中随机初始化的 Q 网络，会导致 teacher policy 很快被遗忘。
- gap：在广泛采用的 PbRL pipeline 中，PVRL 挑战也出现在从 pretrain 到 online training 的过渡过程中，但在以前的研究中被忽视了。在 noisy feedback 下，忘记预训练策略的问题变得更加重要，详见第 4.2 节。
- （这里的预训练指的是 pebble 等工作的比如说最大熵预训练策略。
- 引出 reward model 的热启动。

3 preliminaries

PbRL。
Unsupervised Pre-training in PbRL：讲了 pebble 的预训练。
Noisy Preferences in PbRL：讲了 BPref 的模仿人类 scripted teacher，使用 error teacher。

4 method: RIME

4.1 RIME 的 denoising discriminator

省流：用各个 (σ0, σ1, p) 的 CELoss 大小，来判断它是正确 / 错误样本，并翻转所有错误样本的 p。
为什么用交叉熵 loss 来判断是正确 / 错误样本？
- 现有研究表明，深度神经网络首先学习可泛化的模式，然后再过度拟合数据中的噪声（Arpit et al., 2017; Li 等人, 2020 年）。
- 因此，将与较小损失相关的 sample 优先为正确样本，是提高稳健性的有充分依据的方法。（其实没太理解）
回顾交叉熵与 KL 散度的关系。
如何确定交叉熵 loss 的阈值？
- 定理 4.1，假设干净数据的 x 交叉熵 loss 以 ρ 为界，即 \(\mathcal L^\text{CE}(x)\le\rho\) ；则有，损坏样本 x 的预测偏好 \(P_\psi(x)\) ，和 \(\tilde y(x)=1-y\) 之间的 KL 散度，下限为 \(D_{\mathrm{KL}}(\tilde{y}(x)\parallel P_{\psi}(x))\geq-\ln\rho+\frac{\rho}{2}+O(\rho^{2})\) 。
- 然后，我们制定 KL 散度阈值的下限 \(\tau_\text{base}=\ln \rho+\alpha\rho\)，以过滤掉不可信样本。其中，\(\rho\) 表示上次更新期间观察到的可信样本的最大交叉熵 loss，\(\alpha\in(0,0.5]\) 是可调的超参数。
- 但是还要考虑 distribution shift 问题。为了在 distribution shift 的情况下，增加对干净样本的 tolerance，我们引入一个辅助项 \(\tau_\text{unc}=\beta_t\cdot s_\mathrm{KL}\) ，来表征过滤的不确定性，其中 \(\beta_t=\max(\beta_\min,\beta_\max-kt)\) 是随时间变化的参数（β max = 3, β min = 1）， \(s_\mathrm{KL}\) 是 KL 散度的标准差（看起来是 \(D_{\mathrm{KL}}(\tilde{y}(x)\parallel P_{\psi}(x))\) 的 KL 散度）。这里的 intuition 是，训到 OOD 数据可能导致 CELoss 的波动（其实也没太听懂）
识别可信样本的数据集： \(D_t=\{(\sigma^0,\sigma^1,\tilde{y}) | D_{\mathrm{KL}}(\tilde{y}\parallel P_\psi(\sigma^0,\sigma^1))<\tau_{\mathrm{lower}}\}\) ，其中 \(\tau_{\mathrm{lower}}=\tau_{\mathrm{base}}+\tau_{\mathrm{unc}}=-\ln\rho+\alpha\rho+\beta_{t}\cdot s_{\mathrm{KL}}\) 。
识别不可信样本的数据集： \(D_f=\{(\sigma^0,\sigma^1,\tilde{y}) | D_{\mathrm{KL}}(\tilde{y}\parallel P_\psi(\sigma^0,\sigma^1))>\tau_{\mathrm{upper}}\}\) ， \(\tau_{\mathrm{upper}}\) 貌似是预先定义的值，定义成 \(3\ln(10)\) 了。然后翻转 Df，将翻转后的 Df 与 Dt 并起来，拿去训 reward model。

4.2 reward model 的 warm start

省流：用 intrinsic reward 训一下 reward model。
观察：
- 观察到在从预训练到在线训练的过渡过程中，性能显著下降（见图 2）。在 noisy feedback的 setting 下，这种差距是可以明显观察到的，并且对鲁棒性是致命的。
- 在预训练后，PEBBLE 会重置 Q 网络，仅保留预训练的 policy。由于 Q 网络学的是最小化 noisy feedback 的 reward model 下的 TD-error，因此这种 biased Q 函数会导致 policy 学的不好，从而抹去预训练期间的收益。
reward model 的 warm start：
- 具体来说，我们在预训练阶段，先拿 intrinsic reward 训一下 reward model。
- 由于 reward model 的输出层通常使用 tanh 激活函数（Lee et al.， 2021b），因此我们首先将内在奖励归一化到 (-1,1)，使用当前已获得的 intrinsic reward 的 mean \(\hat r\) 和 variance \(\sigma_r\) 来做： \(r_{\mathrm{norm}}^{\mathrm{int}}(\mathbf{s}_t)=\mathrm{clip}(\frac{r^{\mathrm{int}}(\mathbf{s}_t)-\hat r}{3\sigma_r},-1+\delta,1-\delta)\) 。
- 预训练 reward model 的数据，貌似就是 \((s_t,a_t,r_{\mathrm{norm}}^{\mathrm{int}},s_{t+1})\) ，而不是用 segment 的形式。（这里提到一个最近邻，我没太看懂w）

4.3 整体算法流程

在附录 A 放了伪代码。在附录 A 放伪代码，真是好文明.

关键点:

预训练与 reward model 的 warm start：
- 第 5 行，收集的 intrinsic reward 是归一化过的。
- 第 10 行，训 reward model 用的是 \(r_{\mathrm{norm}}^{\mathrm{int}}\) 与 \(\hat r\) 的 MSE，而非 segment。
鉴别错误 preference 的 denoising discriminator：
- 第 13 行，初始化 ρ 为正无穷。
- 第 19 行，算辨别可信样本的阈值 τ lower。
- 第 24 行，用可信样本 ∪ 错误样本翻转的数据集，来算新 ρ，其中 ρ 是 KL 散度的下界。

5 experiments

setting：跟 pebble 一样，三个 DMControl + 三个 Meta-world。
baselines： pebble、surf、rune、MRN（MRN 我还没看）。
error rate（即随机挑选 (σ0,σ1,p) 并翻转 p 的概率）是 0.1 到 0.3。
大量 ablation：
- 在 Appendix D.3 尝试了更多种 noisy teacher，放在正文的表比的是各种 noisy teacher 的 average。
- 与其他稳健的训练方法的比较：自适应去噪训练（ADT）（Wang 等人，2021 年），即丢弃一定比例的 CELoss 大的样本，貌似效果不错；使用 MAE 和 t-CE 作为替代 CELoss（？）的损失函数；使用标签平滑（LS）来处理所有 preference label（？）。
- 居然有真 human，见 Appendix D.4。总反馈量和每个会话的反馈量分别为 100 和 10。任务是 hopper 后空翻（真假的，这么好学（？）难道 hopper 后空翻是一个只要控制变量拉到极限就能一直后空翻的任务嘛）。但是怎么截图变成了 OpenAI gym 而非 DMControl。
- 增加 feedback 总数，可以有效提升性能。
- 各个模块是否有效？当反馈数量相当有限时（即，在Walker-walk上），热启动对于鲁棒性至关重要，可以节省 query 数量。

最后此篇关于RIME：用交叉熵loss大小分辨preference是否正确+内在奖励预训练rewardmodel的文章就讲到这里了,如果你想了解更多关于RIME：用交叉熵loss大小分辨preference是否正确+内在奖励预训练rewardmodel的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐：三星app移植修复(app反编译修改)

文章推荐： LeetCode513.找树左下角的值

文章推荐： ThinkPHP一对一关联模型的运用（ORM）

文章推荐：深入探讨SpringBoot中的参数传递

python - 多输出模型的编译选项: multiple losses & loss weighting
正如 Keras 手册中所述 -使用 Pyhton 进行深度学习-，对于多输出模型，我们需要为网络的不同头指定不同的损失函数。但由于梯度下降要求您最小化标量，因此您必须将这些损失组合成单个值才能训练模
python - 直流-GAN : Discriminator loss going up while generator loss goes down
我无法判断这个错误是由于技术错误还是超参数造成的，但我的 DC-GAN 的鉴别器损失一开始很低，然后逐渐攀升，在 8 左右减慢，而我的发电机损失则大幅下降。我在大约 60,000 epoch 时结束了
python - 解释深度神经网络的训练轨迹 : very low training loss and even lower validation loss
我对以下日志有点怀疑，这是我在训练深度神经网络时得到的回归目标值在 -1.0 和 1.0 之间，学习率为 0.001 和 19200/4800 训练/验证样本: ___________________
python - Keras自动编码器: validation loss > training loss - but performing well on testing dataset
简而言之: 我训练了一个自动编码器，其验证损失始终高于其训练损失(见附图)。我认为这是过度拟合的信号。然而，我的自动编码器在测试数据集上表现良好。我想知道是否: 1)引用下面提供的网络架构，任何人都
python - 深度学习: Validation Loss Fluctuates Wildly Yet Training Loss is Stable
我正在处理文本序列，序列长度在 1-3 之间。标签是一个“分数”。我有超过 500 万个样本。我的网络如下所示(Keras): model.add(Embedding(word_count, 128,
deep-learning - CNN : Normal that the validation loss decreases much slower than training loss?
我正在训练用于图像语义分割的 CNN U-net 模型，但是训练损失的减少速度似乎比验证损失的减少速度快得多，这正常吗？我使用的是 0.002 的损失下图可以看到训练和验证损失: 最佳答案是的，
machine-learning - 神经网络中的 Train loss、Valid loss 和 Train/Val 是什么意思
我目前正在通过研究 MNIST 示例等示例来学习卷积神经网络。在神经网络的训练过程中，我经常看到如下输出: Epoch | Train loss | Valid loss | Train
python - 值错误 : Unknown loss function:focal_loss_fixed when loading model with my custom loss function
我设计了自己的损失函数。但是，当尝试恢复到训练期间遇到的最佳模型时 model = load_model("lc_model.h5") 我收到以下错误: -----------------------
sockets - RAW套接字发送: packet loss
在基于RAW套接字的数据包发送测试期间，我发现了非常令人讨厌的症状。使用默认的RAW套接字设置(尤其是SO_SNDBUF大小)，原始套接字可以毫无问题地发送100,000个数据包，但大约花费了8秒
JAVA : possible loss of precision
我用JAVA编写了以下方法: public static float surface(float r) { return(4*Math.PI*Math.pow(r,2));
loss - 关于torch.nn.CrossEntropyLoss参数形状
我正在学习pytorch，并正在做anpr项目，它是基于tensorflow的(https://github.com/matthewearl/deep-anpr，奥 git _a)作为练习，将其移植
Java程序错误: possible loss of precision
我试图找出为什么我的 Java 程序中会出现这种精度丢失错误。这是错误: error: possible loss of precision int digit = num/Mat
tensorflow - 如何设计tensorflow的ctc loss layer的label
我刚开始在 tensorflow(r1.0) 中使用 ctc 损失层，对“标签”输入有点困惑在tensorflow的API文档中是这样写的 labels: An int32 SparseTensor
java - Java中BigDecimal转Double时什么时候出现 "data loss"
我知道在 Java 中将 BigDecimal 值转换为 Double 时存在“精度问题”。使用 BigDecimal.doubleValue() 简单地从 BigDecimal 转换为 Double
python - keras loss 是否必须每批输出一个标量或整个批处理输出一个标量？
我读了 related question keras 自定义损失函数必须为每个批处理项返回一个标量。我写了一个损失函数，输出整个批处理的标量，网络似乎收敛了。但是，我找不到任何关于此的文档或代码中究
c++ - 高频接收UDP包 : packet loss?
我有一个 C++ 应用程序，它使用 UDP 服务器(使用 Boost.Asio)以高频率(每秒 3500 个数据包)从千兆本地网络设备接收数据包。一些用户报告了一些数据包丢失。所以最后我选择并行运行
JSP 重定向 : Session Loss Issues
更换了用response.sendRedirect("URL"); ，我发现我知道一旦重定向发生就会失去 session 。有没有办法通过重定向保留 session ，或者重建 session co
tensorflow - DQN - Q-Loss 不收敛
我正在使用 DQN 算法在我的环境中训练代理，如下所示: 代理通过选择离散 Action (左、右、上、下)来控制汽车目标是以理想的速度行驶而不会撞到其他汽车状态包含代理的汽车和周围汽车的速度和位
python - DQN Pytorch Loss 不断增加
我正在实现简单的 DQN算法使用 pytorch , 解决来自 gym 的 CartPole 环境.我已经调试了一段时间，我无法弄清楚为什么模型没有学习。观察: 使用 SmoothL1Loss性能比
PHP JPEG 裁剪 : Loss of quality?
我正在开发一个网络打印海报打印应用程序。我正在考虑使用 PHP 来裁剪用户上传的图像，我们最终将打印 PHP 裁剪的图像。我担心的是原始用户上传的图像与被 PHP 裁剪后的图像之间的“质量”会有所

撒哈拉

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城