gpt4 book ai didi

machine-learning - 国际象棋评价函数的训练

转载 作者:行者123 更新时间:2023-11-30 08:46:41 28 4
gpt4 key购买 nike

我即将编写一个基于强化学习的国际象棋引擎。我想训练一个评估函数并找出董事会最重要特征的权重。

我不是机器学习专家,我正在尝试从书籍和教程中学习。在每个教程中,奖励都非常简单,通常是 1、0,也许是 -1,但国际象棋中没有如此明显的奖励(无论将死位置如何)。例如,假设我在董事会中有一个情况。我进行 10 次(随机)移动,此时我应该计算奖励,即起始位置与当前位置之间的差异(或误差)。当我唯一的评估函数正在训练时,如何做这样的事情?

我想避免使用其他引擎的评分系统,因为我觉得那宁愿是监督学习,这不是我的目标。

最佳答案

你确实不能直接这样做。

我可以建议的一些方法:

  • 使用外部来源的评分也不错,至少可以启动您的算法。不过,评估给定职位的算法非常有限,仅使用它你的人工智能无法达到大师水平。
  • 探索使用另一个下棋人工智能(最好是开源的)来评估位置的可能性。假设你有一个“老师”人工智能。您启动它的 2 个实例,并从您想要评估的位置开始游戏。让他们从那里开始互相比赛,直到比赛结束。这一举措成功了吗?根据结果​​奖励你自己的人工智能。
  • 要添加一些可变性(您不想比单个 AI 更好),请对其他 AI 执行相同的操作。或者甚至是你自己的人工智能与自己对战。不过,要使后者发挥作用,它可能需要已经能够很好地下棋,而不是完全随机下棋。您可以多次重玩相同的 Action 并完成游戏,让您的 AI 随机探索新的 Action 和策略(例如:尝试沿途的第二个最佳 Action )。
  • 使用真实玩家之间的游戏数据集来支持您的机器学习。胜者和败者的每一步棋都可以因此得到“强化”
  • 让您的 AI 通过与真实玩家对战来学习。强化你的人工智能 Action (失败和获胜的 Action )和玩家的 Action 。

关于machine-learning - 国际象棋评价函数的训练,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40137240/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com