- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
为了训练,我随机生成一个包含值 0 和 1 的形状为 N 的网格。定义了两个操作 [0,1],我想教一个使用 DQN 的策略,当下一个数字为 1 时采取行动 0,当数组中的下一个数字为 0 时采取行动 1。
我正在使用 DQN 和 Keras 来创建我的网络
Example :
N=11
grid=[ 0,1,0,1,1,1,1,0,0,0,0]
Agent mark = 0.5
start point=0
current state =[ 0.5,1,0,1,1,1,1,0,0,0,0]
action=[0,1]
考虑我们只移动到数组的右侧:下一步应采取有效操作 0,导致以下状态:
Next state=[ 0,0.5,1,0,1,1,1,1,0,0,0]
这是通过经验重放来强制执行的。它训练得很好,我的胜率达到了100%(通过连续解决同一个迷宫10次来计算。现在是时候根据这个网格的变体来评估它了:
[0,0,0,0,1,0,1,1,0,1,0]
从
开始[0.5,0,0,0,1,0,1,1,0,1,0]
网络无法预测正确的有效操作,在本例中为 1。
我的网络如下所示:
Dense
Relu
Dense
Relu
Dense (number_of_actions)
最佳答案
通过更多的训练,它学会了更好地预测。第一次评估是在训练8小时后进行的。经过近 36 小时的训练后,它对变化的预测也更好!
关于python - 网络在形状 N 的网格上训练良好,但在评估任何变化时失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55754315/
嗨,我正在考虑开发一种文件传输程序,想知道我是否想要尽可能好的加密,我应该使用什么? 我会用 C# 开发它,所以我可以访问 .net 库 :P在我的 usb 上有一个证书来访问服务器是没有问题的,如果
我创建的这个计算两个数组的交集是线性的方法的复杂度(在良好、平均、最差的情况下)? O(n) public void getInt(int[] a,int[] b){ int i=0; int
我已经能够使用 RTCPeerConnection.getStats() API 获得 WebRTC 音频调用的各种统计信息(抖动、RTT、丢包等)。 我需要将整体通话质量评为优秀、良好、一般或差。
基本问题: 如果我正在讲述/修改数据,我应该通过索引硬编码索引访问文件的元素,即 targetFile.getElement(5);通过硬编码标识符(内部翻译成索引),即 target.getElem
在 Linux 上,我想知道要调用什么“C”API 来获取每个 CPU 的统计信息。 我知道并且可以从我的应用程序中读取 /proc/loadavg,但这是系统范围的负载平均值,而不是每个 CPU 的
在客户端浏览器中使用 fetch api,GET 或 POST 没有问题,但 fetch 和 DELETE 有问题。它似乎将 DELETE 请求方法更改为 OPTIONS。 大多数研究表明是一个cor
我是一名优秀的程序员,十分优秀!