gradient - 为什么强化学习的策略梯度方法适用于大型行动空间-6ren

gradient - 为什么强化学习的策略梯度方法适用于大型行动空间

转载作者：行者123 更新时间：2023-12-03 20:47:34

25

4

正如标题中所述，我已经阅读了多个来源，Policy Gradient 方法是 RL 适用于大型 Action 空间，但我不明白为什么会这样。
我想看看 RL 是否可以解决我的一个具有巨大组合数的问题。可能的行动。假设它是关于发送 n 没有。从位置 i 到 j 的项目。 (i,j,n) 的任何组合都是一个可能的 Action ，并且 (i,j,n) 的幅度都在 1000 秒内，这使得可能的 Action 超过 10 亿。
由于策略梯度方法中神经网络的输出层节点表示没有。的行动。有 >1000,000,000 个可能的 Action ，Policy Gradient 如何成为解决此类问题的好方法？

最佳答案

对于大型或连续 Action 空间，您需要使用 函数逼近逼近最优策略的方法。这称为策略近似。有许多可能的方法，包括最小二乘优化或基于梯度的优化。几乎所有这些技术都利用随机抽样来产生和比较在无限时间范围内最大化返回的可能行动。
来自萨顿和巴托的 RL 书 1 :

Policy-based methods offer practical ways of dealing with large action spaces, even continuous spaces with an inﬁnite number of actions. Instead of computing learned probabilities for each of the many actions, we instead learn statistics of the probability distribution. For example, the action set might be the real numbers, with actions chosen from a normal (Gaussian) distribution.

查看:

Sutton and Barto's 中的第 13.7 节本书更多理论解释

This GitHub 存储库中的代码示例具有解决此问题的可行方法

关于gradient - 为什么强化学习的策略梯度方法适用于大型行动空间，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64837141/

25

4

0

文章推荐： php - 传递带空双撇号的 PHP 参数

文章推荐： iphone - 如何更改 Pagecontroller 指示器颜色默认的白色？

文章推荐：来自审计跟踪数据库的 Mysql 用户事件报告

Ruby 方法() 方法
我想了解 Ruby 方法 methods() 是如何工作的。我尝试使用“ruby 方法”在 Google 上搜索，但这不是我需要的。我也看过 ruby-doc.org，但我没有找到这种方法。
VBS教程：方法-Test 方法
Test 方法对指定的字符串执行一个正则表达式搜索，并返回一个 Boolean 值指示是否找到匹配的模式。 object.Test(string) 参数 object 必选项。总是一个
VBS教程：方法-Replace 方法
Replace 方法替换在正则表达式查找中找到的文本。 object.Replace(string1, string2) 参数 object 必选项。总是一个 RegExp 对象的名称。
VBS教程：方法-Raise 方法
Raise 方法生成运行时错误 object.Raise(number, source, description, helpfile, helpcontext) 参数 object 应为
VBS教程：方法-Execute 方法
Execute 方法对指定的字符串执行正则表达式搜索。 object.Execute(string) 参数 object 必选项。总是一个 RegExp 对象的名称。 string
VBS教程：方法-Clear 方法
Clear 方法清除 Err 对象的所有属性设置。 object.Clear object 应为 Err 对象的名称。说明在错误处理后，使用 Clear 显式地清除 Err 对象。此
VBS教程：方法-CopyFile 方法
CopyFile 方法将一个或多个文件从某位置复制到另一位置。 object.CopyFile source, destination[, overwrite] 参数 object 必选
VBS教程：方法-Copy 方法
Copy 方法将指定的文件或文件夹从某位置复制到另一位置。 object.Copy destination[, overwrite] 参数 object 必选项。应为 File 或 F
VBS教程：方法-Close 方法
Close 方法关闭打开的 TextStream 文件。 object.Close object 应为 TextStream 对象的名称。说明下面例子举例说明如何使用 Close 方
VBS教程：方法-BuildPath 方法
BuildPath 方法向现有路径后添加名称。 object.BuildPath(path, name) 参数 object 必选项。应为 FileSystemObject 对象的名称
VBS教程：方法-GetFolder 方法
GetFolder 方法返回与指定的路径中某文件夹相应的 Folder 对象。 object.GetFolder(folderspec) 参数 object 必选项。应为 FileSy
VBS教程：方法-GetFileName 方法
GetFileName 方法返回指定路径（不是指定驱动器路径部分）的最后一个文件或文件夹。 object.GetFileName(pathspec) 参数 object 必选项。应为
VBS教程：方法-GetFile 方法
GetFile 方法返回与指定路径中某文件相应的 File 对象。 object.GetFile(filespec) 参数 object 必选项。应为 FileSystemObject
VBS教程：方法-GetExtensionName 方法
GetExtensionName 方法返回字符串，该字符串包含路径最后一个组成部分的扩展名。 object.GetExtensionName(path) 参数 object 必选项。应
VBS教程：方法-GetDriveName 方法
GetDriveName 方法返回包含指定路径中驱动器名的字符串。 object.GetDriveName(path) 参数 object 必选项。应为 FileSystemObjec
VBS教程：方法-GetDrive 方法
GetDrive 方法返回与指定的路径中驱动器相对应的 Drive 对象。 object.GetDrive drivespec 参数 object 必选项。应为 FileSystemO
VBS教程：方法-GetBaseName 方法
GetBaseName 方法返回字符串，其中包含文件的基本名 (不带扩展名), 或者提供的路径说明中的文件夹。 object.GetBaseName(path) 参数 object 必
VBS教程：方法-GetAbsolutePathName 方法
GetAbsolutePathName 方法从提供的指定路径中返回完整且含义明确的路径。 object.GetAbsolutePathName(pathspec) 参数 object
VBS教程：方法-FolderExists 方法
FolderExists 方法如果指定的文件夹存在，则返回 True；否则返回 False。 object.FolderExists(folderspec) 参数 object 必选项
VBS教程：方法-FileExists 方法
FileExists 方法如果指定的文件存在返回 True；否则返回 False。 object.FileExists(filespec) 参数 object 必选项。应为 FileS

首页

博学

6Ren·AI

商城

gradient - 为什么强化学习的策略梯度方法适用于大型行动空间