gpt4 book ai didi

machine-learning - 简单游戏的深度强化学习参数和训练时间

转载 作者:行者123 更新时间:2023-11-30 08:46:13 24 4
gpt4 key购买 nike

我想了解深度强化算法的工作原理以及针对任何给定环境进行 self 训练需要多长时间。我想出了一个非常简单的环境示例:

有一个计数器,保存 0 到 100 之间的整数。数到 100 是它的目标。

有一个参数direction,其值可以是+1或-1。它只是显示移动的方向。

神经网络将此方向作为输入,并以 2 个可能的 Action 作为输出。

  1. 改变方向
  2. 不要改变方向

第一个 Action 将简单地翻转方向(+1 => -1 或 -1 =>+1)。第二个 Action 将保持方向不变。

我使用 python 作为后端,使用 javascript 作为前端。这似乎花费了太多时间,而且仍然是相当随机的。我使用了 4 层感知器。训练率为0.001。批量100个内存学习。代码是Udemy人工智能教程,运行正常。

我的问题是,完成任务和每个状态的奖励应该是什么?训练这样一个简单的例子需要多少时间?

最佳答案

在强化学习中,奖励函数定义了游戏。不同的奖励函数导致不同的博弈具有不同的最优策略。

就您的情况而言,有几种不同的可能性:

  1. 达到 100 时才给予 +1。
  2. 如果达到 100,则给出 +1;对于未达到 100 的每个时间步,给出 -0.001。
  3. 上升+1,下降-1。

第三种情况太简单了,不涉及长期规划。在第一种情况下,智能体只有在意外达到 100 并发现效果良好时才会开始学习。但在第一种情况下,一旦它学会了上升,花多长时间到达那里就不再重要了。第二个是最有趣的,它需要尽快到达那里。

对于使用什么奖励没有正确答案,但最终您选择的奖励决定了您正在玩的游戏。

注意:这个问题的 4 层感知器是大杀器。一层就够了(这个问题很简单)。您是否尝试过 OpenAI's gym 的强化学习环境? ?强烈推荐它,他们有所有“经典”强化学习问题。

关于machine-learning - 简单游戏的深度强化学习参数和训练时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46979986/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com