- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在 A2C 强化学习中工作,在该学习中,我的环境中的代理人数正在增加和减少。由于代理数量的增加和减少,状态空间也将发生变化。我试图解决以这种方式更改状态空间的问题:
n_input
,多余的状态空间将由np.random.choice
,其中随机选择提供了一种在将状态空间转换为概率后从状态空间创建随机样本的方法。def get_state_new(state):
n_features = n_input-len(get_state(env))
# print("state",len(get_state(env)))
p = np.array(state)
p = np.exp(p)
if p.sum() != 1.0:
p = p * (1. / p.sum())
if len(get_state(env)) > n_input:
statappend = np.random.choice(state, size=n_input, p=p)
# print(statappend)
else:
statappend = np.zeros(n_input)
statappend[:state.shape[0]] = state
return statappend
最佳答案
对于本文,我将提供与other post中相同的引用:
Benchmarks for reinforcement learning minmixed-autonomy traffic。
实际上,在这种方法中,预先确定了预期数量的代理(预计随时会出现在模拟中)。在运行期间,然后将模拟中存在的代理的观测值检索并压缩到固定大小的容器(张量)中(称为整体观测容器),该容器可以包含(预期来自单个代理的)观察者数量与预期数量一样多的观察值(来自单个代理)。随时随地出现在模拟中只是要清楚:size(overall observation container) = expected number of agents * individual observation size
。由于模拟中存在的实际代理数可能随时间步长而变化,因此适用以下规则:
state
(传递给函数
get_state_new
)和调用
get_state(env)
,因为我希望
get_state(env)
返回的信息与已存储在变量
state
中的信息相同。提示,如果您可以尝试仅使用
state
变量(如果变量和函数调用确实提供了相同的信息),它将使代码更易于阅读。
p = np.exp(p)
,
p = p * (1. / p.sum())
。这通过所有单独观察中存在的所有指数值的总和来标准化整个观察容器。相反,我将单独对每个观察值进行归一化。
import numpy as np
# Less state representations
state = np.array([1,1,1])
state = state/state.sum()
state
# Output: array([0.33333333, 0.33333333, 0.33333333])
# More state representations
state = np.array([1,1,1,1,1])
state = state/state.sum()
state
# Output: array([0.2, 0.2, 0.2, 0.2, 0.2])
实际上,由单个代理获得的相同输入状态表示,在归一化之后始终将导致相同的输出状态表示,而不管模拟中当前存在的代理数量如何。因此,请确保自行对所有观测值进行归一化。我将在下面举一个例子。
statappend
中。这很重要,原因如下。
A1
到
A5
,但是整个观察容器只能进行三个观察,那么将随机选择五分之三的状态表示形式。假设从以下代理商以下列顺序随机抽取的观测数据被压缩到整个观测容器中:
A2, A5, A1
。然后,这些特工的观察将严格按照此顺序压缩到整个观察容器中。首先观察
A2
,然后观察
A5
,最后观察
A1
。相应地,给定上述总体观察容器,您的Reinforcement Learning Controller 预测的三个 Action 将分别对应于代理
A2
,
A5
和
A1
(顺序!)。换句话说,代理在输入侧的顺序还指示预测 Action 在输出侧对应于哪些代理。
import numpy as np
def get_overall_observation(observations, expected_observations=5):
# Return value:
# order_agents: The returned observations stem from this ordered set of agents (in sequence)
# Get some info
n_observations = observations.shape[0] # Actual nr of observations
observation_size = list(observations.shape[1:]) # Shape of an agent's individual observation
# Normalitze individual observations
for i in range(n_observations):
# TODO: handle possible 0-divisions
observations[i,:] = observations[i,:] / observations[i,:].max()
if n_observations == expected_observations:
# Return (normalized) observations as they are & sequence of agents in order (i.e. no randomization)
order_agents = np.arange(n_observations)
return observations, order_agents
if n_observations < expected_observations:
# Return padded observations as they are & padded sequence of agents in order (i.e. no randomization)
padded_observations = np.zeros([expected_observations]+observation_size)
padded_observations[0:n_observations,:] = observations
order_agents = list(range(n_observations))+[-1]*(expected_observations-n_observations) # -1 == agent absent
return padded_observations, order_agents
if n_observations > expected_observations:
# Return random selection of observations in random order
order_agents = np.random.choice(range(n_observations), size=expected_observations, replace=False)
selected_observations = np.zeros([expected_observations] + observation_size)
for i_selected, i_given_observations in enumerate(order_agents):
selected_observations[i_selected,:] = observations[i_given_observations,:]
return selected_observations, order_agents
# Example usage
n_observations = 5 # Number of actual observations
width = height = 2 # Observation dimension
state = np.random.random(size=[n_observations,height,width]) # Random state
print(state)
print(get_overall_observation(state))
关于python - 强化学习中如何应对不同的状态空间大小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63728800/
我正在通读 Windows Phone 7.5 Unleashed,有很多代码看起来像这样(在页面的代码隐藏中): bool loaded; protected override void OnNav
在cgi服务器中,我这样返回 print ('Status: 201 Created') print ('Content-Type: text/html') print ('Location: htt
我正在查看 esh(easy shell)的实现,无法理解在这种情况下什么是 22 和 9 信号。理想情况下,有一个更具描述性的常量,但我找不到列表。 最佳答案 信号列表及其编号(包括您看到的这两个)
我的Oozie Hive Action 永远处于运行模式。 oozie.log文件中没有显示错误。
我正在编写一个使用 RFCOMM 通过蓝牙连接到设备的 Android 应用程序。我使用 BluetoothChat 示例作为建立连接的基础,大部分时间一切正常。 但是,有时由于出现套接字已打开的消息
我有一个云调度程序作业,它应该每小时访问我的 API 以更新一些价格。这些作业大约需要 80 秒才能运行。 这是它的作用: POST https://www.example.com/api/jobs/
我正在 Tomcat 上访问一个简单的 JSP 页面: 但是当我使用 curl 测试此页面时,我得到了 200 响应代码而不是预期的 202: $ curl -i "http://localhos
有时 JAR-RS 客户端会发送错误的语法请求正文。服务器应响应 HTTP status 400 (Bad Request) , 但它以 HTTP status 500 (Internal Serve
我正在尝试通过 response.send() 发送一个整数,但我不断收到此错误 express deprecated res.send(status): Use res.sendStatus(sta
我已经用 Excel 和 Java 做过很多次了……这次我需要用 Stata 来做,因为保存变量更方便'labels .如何将 dataset_1 重组为下面的 dataset_2? 我需要转换以下
我正在创建一个应用程序,其中的对象具有状态查找功能。为了提供一些上下文,让我们使用以下示例。 帮助台应用程序,其中创建作业并通过以下工作流程移动: 新 - 工作已创建但未分配 进行中 - 分配给工作人
我想在 Keras 中运行 LSTM 并获得输出和状态。在 TF 中有这样的事情 with tf.variable_scope("RNN"): for time_step in range
有谁知道 Scala-GWT 的当前状态 项目? 那里的主要作者 Grzegorz Kossakowski 似乎退出了这个项目,在 Spring 中从事 scalac 的工作。 但是,在 interv
我正在尝试编写一个 super 简单的 applescript 来启动 OneDrive App , 或确保打开,当机器的电源设置为插入时,将退出,或确保关闭,当电源设置为电池时。 我无法找到如何访问
目前我正在做这样的事情 link.on('click', function () { if (link.attr('href') !== $route.current.originalPath
是否可以仅通过查看用户代理来检测浏览器上是否启用/禁用 Javascript。 如果是,我应该寻找什么。如果否,检测用户浏览器是否启用/禁用 JavaScript 的最佳方法是什么 最佳答案 不,没有
Spring 和 OSGi 目前的开发状况如何? 最近好像有点安静了。 文档的最新版本 ( http://docs.spring.io/osgi/ ) 来自 2009 年。 我看到一些声明 Sprin
我正在从主函数为此类创建一个线程,但即使使用 Thread.currentThread().interrupt() 中断它,输出仍然包含“Still Here”行。 public class Writ
为了满足并发要求,我想知道如何在 Godog 中的多个步骤之间传递参数或状态。 func FeatureContext(s *godog.Suite) { // This step is ca
我有一个UIButton子类,它不使用UIImage背景,仅使用背景色。我注意到的一件事是,当您设置按钮的背景图像时,有一个默认的突出显示状态,当按下按钮时,该按钮会稍微变暗。 这是我当前的代码。
我是一名优秀的程序员,十分优秀!