gpt4 book ai didi

machine-learning - 玩检查时权重更新和估计训练示例值

转载 作者:行者123 更新时间:2023-11-30 08:32:23 26 4
gpt4 key购买 nike

我正在阅读 Tom Mitchell 的机器学习书,第一章。

我想做的是编写一个程序来与自己下跳棋,并学会最后获胜。我的问题是关于它遇到的非终端板位置的信用分配。也许我们可以使用其特征和随机权重的线性组合来设置值,如何用LMS规则更新它?因为除了结束状态之外我们没有训练样本。

尽管我尝试过,但我不确定我是否清楚地表达了我的问题。

最佳答案

我还没有读过那本书,但我的方法如下。假设白方获胜。然后,白棋经过的每个位置都应该获得正积分,而黑棋经过的每个位置都应该获得负积分。如果你重复这个推理,每当你有一组 Action 组成一个游戏时,你应该为胜利者的所有位置添加一些分数,并从失败者的所有位置中删除一些分数。你这样做是为了一堆电脑对电脑游戏。

您现在拥有一个由一堆棋子位置和各自分数组成的数据集。您现在可以计算这些位置的特征并训练您最喜欢的回归器,例如 LMS。

这种方法的改进是训练回归器,然后进行更多游戏,其中每个 Action 都是根据该 Action 的预测得分随机抽取的(即导致得分较高的位置的 Action 具有较高的概率)。然后更新这些分数并重新训练回归器等。

关于machine-learning - 玩检查时权重更新和估计训练示例值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12415953/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com