machine-learning - 任意大 Action /状态空间中的强化学习-6ren

machine-learning - 任意大 Action /状态空间中的强化学习

转载作者：行者123 更新时间：2023-11-30 08:48:25

24

4

我有兴趣使用深度强化学习，以便在(太多)可能性和一些(必需的)中间站点(例如，买杯咖啡或加油)中找到一条独特的最佳回家路径。

此外，我想在代理不知道环境“模型”并且代理根本无法尝试所有可能的状态和操作组合的情况下应用此方法。 IE。需要在 Q 值函数(和/或策略)中使用近似技术。

我读过处理此类案例的方法 - 如果有的话，奖励也是稀疏和二元的 - 例如蒙特卡罗树搜索(根据我的理解，这意味着某种建模和规划)或事后经验重放(HER)，应用DDPG的思想。

但是有很多不同类型的算法需要考虑，我有点困惑什么是最好的开始。我知道这是一个难题，也许问这个问题太天真了，但是有没有任何明确、直接且我们已知的方法来解决我要面对的问题？

非常感谢!

马蒂亚斯

最佳答案

如果最终目的地是固定的，如本例(家)，您可以进行动态搜索，因为由于环境变化，a* 将不起作用。如果您想使用深度学习算法，那么请选择a3c，由于 Action /状态空间很大，因此可以进行经验回放。它能够处理复杂的问题。

关于machine-learning - 任意大 Action /状态空间中的强化学习，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55140695/

24

4

0

文章推荐： java - 无法从 SDN4 检索一组父类(super class)型对象

文章推荐： java - HSL 到 RGB 转换器不工作

c++ - 我怎样才能实现一个函数来调用任何(任意)函数及其(任意)参数？
我想要以下内容: void foo( /* something representing a function f */, /* arguments a1, a2, etc. in s
scala - 如何将函数的返回类型指定为(任意)monad？
简而言之，我想声明一个这样的特征: trait Test { def test(amount: Int): A[Int] // where A must be a Monad } 这样我就可以
java - GWT 任意 HTML
在 GWT 中，如何在 onModuleLoad 方法中插入框架集以及相对嵌套的框架集和框架，以合并许多小程序和其他小部件和 HTML？代码片段是: 公共(public)类 MainEntryPoin
r - 从(任意)连续概率分布进行模拟
这个问题在这里已经有了答案: How do I best simulate an arbitrary univariate random variate using its probability
java - 任意 Java 枚举参数
我对java相当陌生，并且习惯于枚举本质上只不过是一个命名的整数列表。现在我正在编写一个实现，其中父类有几个采用枚举值作为参数的方法。枚举将在子类中定义，并且会略有不同。由于枚举基本上看起来像类，所
python - 任意 C 项目的预处理
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 6 年前。 Improve this ques
jvm - 任意 JVM 行为
想象一下 6-7 台服务器的设置都完全相同Java 版本“1.6.0_18”OpenJDK 运行时环境 (IcedTea6 1.8) (fedora-36.b18.fc11-i386)OpenJDK
c++ - 任意 double 容器的模板语法是什么？
这个问题在这里已经有了答案: What are some uses of template template parameters? (10 个答案) 关闭 4 年前。我有一个根据策略舍入值的函数
Java CompletableFuture 任意 N
我正在寻找如何在 Java 中给定一个 Async CompletableFutures 列表，以便前 N 个中的任何一个成功完成或失败。除非没有 N 次成功，否则忽略任何失败。有这方面的例子吗？
node.js - Nodejs集群只将任务分配给一个worker(任意)
我面临的问题是项目已经使用集群编程来分配任务。 if (cluster.isMaster) { // Fork workers. for (var i = 0; i { }); } el
python - 匹配python中的特定字符串+任意 float
我正在为 Luxology modo(3D 和 VFX 应用程序)编写脚本，该脚本使用 python 作为脚本语言。在我的脚本中的某个位置，我正在读取从其他应用程序输出的文本文件，并从该文本文件的行创
python - 如何从(任意)连续概率分布进行模拟？
这个问题在这里已经有了答案: Fast arbitrary distribution random sampling (inverse transform sampling) (5 个答案) 关闭
sorting - 按(任意)字段名称对结构数组进行简单排序的最短方法是什么？
我只是遇到了一个问题，我有一个结构数组，例如 package main import "log" type Planet struct { Name string `json:"
json - Scala Circe。编码器类型任意
我正在尝试将 class ResponseResult 编码为 json case class ResponseResult (var Code : Int, var
Python:使用列表索引 [from:to] 任意 numpy 数组
我想将一个矩阵中的一个 block 复制到另一个矩阵的一部分中。要将其与任何类型的 n 维数组一起使用，我需要通过 [] 运算符应用带有偏移量的列表。有办法做到这一点吗？ mat_bigger[0:5
javascript - 正则表达式匹配字母和数字，除非有三个连续的(任意)字母
我有一个匹配一组数字和字母的正则表达式。但是我希望能够排除任何三个连续的字母。这是为了防止意外形成单词或缩写。我的表达如下。它还排除了一些类似的字符，如 0、o、O 和 1、i、I、l): ^[2-
MySQL Regexp 点(任意)不匹配重音字符
根据documentation . 应匹配任何字符，但不匹配重音字符。 mysql> select 'test' regexp 't.st'; +----------------------+ | '
javascript - 如何相？如果变量=(条件1)+(任意)
我该如何用 JavaScript 编写这个 if 语句？ if(url == "http://www.google.com/" && "*") { ... } * 需要灵活并接受添加到第一个变量上
python - cPython 是否使用多个内核来实现排序、任意、全部等内置函数？
我知道 cPython 有一个 GIL，因此如果不使用多处理模块，您的脚本就无法在多个内核上运行。但是有什么可以阻止内置功能，例如使用多核进行排序吗？我不了解 cPython 结构，但我想我要问的问题
xcode - 有没有办法用 Xcode 打开(任意)核心转储？
寻找命令行 gdb 的替代方法来检查 OSX 上的核心转储 - 有没有办法让 Xcode 打开带有调试符号的任意核心转储？最佳答案您是否尝试过使用 MachOView 1？听起来它可能适用于查看

首页

博学

6Ren·AI

商城

machine-learning - 任意大 Action /状态空间中的强化学习