gpt4 book ai didi

machine-learning - 使用神经网络进行强化学习

转载 作者:行者123 更新时间:2023-11-30 09:13:51 25 4
gpt4 key购买 nike

  • 我正在与 RL 和 NN 合作开展一个项目
  • 我需要确定将馈送到神经网络的 Action 向量结构​​。

我有 3 个不同的操作(A & B & Nothing),每个操作都有不同的能力(例如 A100 A50 B100 B50)我想知道将这些 Action 提供给神经网络以产生最佳结果的最佳方法是什么?

1- 将 A/B 馈送到输入 1,同时 Action 功率 100/50/无输入 2

2-输入A100/A50/无输入1,而B100/B50/无输入2

3- 将 A100/A50 馈送到输入 1,将 B100/B50 馈送到输入 2,而将 Nothing 标记馈送到输入 3

4- 还要喂入 100 和 50 或将它们标准化为 2 和 1 ?

我需要选择一种方法的理由有什么建议都可以推荐

谢谢

最佳答案

你想学什么?输出应该是什么?输入只是使用的操作吗?如果您正在学习环境模型,则它由概率分布表示:

P(next_state|状态,操作)

通常为每个操作使用单独的模型。这使得输入和输出之间的映射更简单。输入是状态特征向量。输出是下一个状态的特征向量。模型隐含了所使用的操作。

状态特征可以编码为位。事件位表示某个功能的存在。

这将学习确定性模型。我不知道学习下一状态的随机模型的好方法是什么。一种可能性可能是使用随机神经元。

关于machine-learning - 使用神经网络进行强化学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2749498/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com