gpt4 book ai didi

machine-learning - 机器学习: specific strategy learned because of playing against specific agent?

转载 作者:行者123 更新时间:2023-11-30 08:45:58 25 4
gpt4 key购买 nike

首先,我发现提出问题很困难,欢迎反馈。

我必须制作一个机器学习代理来玩点和盒子。

我还处于早期阶段,但提出了一个问题:如果我让我的机器学习代理(具有特定的实现)与它自身的副本进行对抗来学习和改进它的游戏玩法,这不是会让针对特定类型游戏的策略?

如果我让我的智能体以任意方式与不同形式的其他智能体进行游戏和学习,会不会更有趣?

最佳答案

让代理通过与自身副本对战来学习的想法被称为 self 对战。是的,在 self 对战中,您有时会看到代理会对其“训练伙伴”进行“过度拟合”,从而导致学习过程不稳定。请参阅this blogpost by OpenAI (特别是“多人游戏”部分),其中准确描述了此问题。

到目前为止,我在研究中看到的解决这个问题的最简单方法确实是产生一组更加多样化的培训合作伙伴。例如,这可以通过将代理的多个过去版本的检查点存储在内存/文件中,并在每一集开始时随机选择其中一个作为训练伙伴来完成。这大致就是DeepMind原始AlphaGo围棋程序(2016版)的自训练过程中所做的事情,在another blogpost by OpenAI中也有描述。 .

关于machine-learning - 机器学习: specific strategy learned because of playing against specific agent?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49401486/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com