machine-learning - 国际象棋评价函数的训练-6ren

machine-learning - 国际象棋评价函数的训练

转载作者：行者123 更新时间：2023-11-30 08:46:41

28

4

我即将编写一个基于强化学习的国际象棋引擎。我想训练一个评估函数并找出董事会最重要特征的权重。

我不是机器学习专家，我正在尝试从书籍和教程中学习。在每个教程中，奖励都非常简单，通常是 1、0，也许是 -1，但国际象棋中没有如此明显的奖励(无论将死位置如何)。例如，假设我在董事会中有一个情况。我进行 10 次(随机)移动，此时我应该计算奖励，即起始位置与当前位置之间的差异(或误差)。当我唯一的评估函数正在训练时，如何做这样的事情？

我想避免使用其他引擎的评分系统，因为我觉得那宁愿是监督学习，这不是我的目标。

最佳答案

你确实不能直接这样做。

我可以建议的一些方法:

使用外部来源的评分也不错，至少可以启动您的算法。不过，评估给定职位的算法非常有限，仅使用它你的人工智能无法达到大师水平。
探索使用另一个下棋人工智能(最好是开源的)来评估位置的可能性。假设你有一个“老师”人工智能。您启动它的 2 个实例，并从您想要评估的位置开始游戏。让他们从那里开始互相比赛，直到比赛结束。这一举措成功了吗？根据结果奖励你自己的人工智能。
要添加一些可变性(您不想比单个 AI 更好)，请对其他 AI 执行相同的操作。或者甚至是你自己的人工智能与自己对战。不过，要使后者发挥作用，它可能需要已经能够很好地下棋，而不是完全随机下棋。您可以多次重玩相同的 Action 并完成游戏，让您的 AI 随机探索新的 Action 和策略(例如:尝试沿途的第二个最佳 Action )。
使用真实玩家之间的游戏数据集来支持您的机器学习。胜者和败者的每一步棋都可以因此得到“强化”
让您的 AI 通过与真实玩家对战来学习。强化你的人工智能 Action (失败和获胜的 Action )和玩家的 Action 。

关于machine-learning - 国际象棋评价函数的训练，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40137240/

28

4

0

文章推荐：文本分类/机器学习 : do I also need a 'Default' categorie?

文章推荐： machine-learning - 理解pycaffe中的load_image()方法

java -++i+i++ 评价
Confusion rose because of this post. The author updated his post, and the result became clear. Concl
c++ - if else 评价
假设我有以下语句: bool foo=true; if (foo){ foo=false; } else{ //do
objective-c - 更喜欢 if 评价
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improve
c# - 在 C# 中使用其他变量字符串访问变量？评价？
我有一个表单，其中有很多设置页面。所有的页面都是一样的，所以我宁愿只制作一个表格，然后传入它应该编辑的设置的名称。我该怎么做？假设该表单称为“ConfigForm”，我希望能够用这样的方式调用它: n
javascript - 评价(喜欢/不喜欢)YouTube 评论
简单问题: 我通过 javascript 使用 Youtube gdata 来:评论、回复和喜欢/不喜欢视频。到目前为止一切正常! 但是，我正在尝试允许用户特别喜欢和不喜欢评论(就像在本地 youtu
ios - App Store 发表评论/评价 iOS 8 Swift
我在设置 TableView 中有一个单元格，我想将用户直接发送到 Appstore 并打开应用程序页面，以便他们可以发表评论。在 Stackoverflow 中有很多关于此的内容，但在 iOS8 和
api - youtube API v3 - 评价(喜欢/不喜欢)评论/评论线程？
快速提问 - 如标题所述。那可能吗？我认为以下端点是我最好的选择:https://developers.google.com/youtube/v3/docs/comments/update ，但找不到

首页

博学

6Ren·AI

商城

machine-learning - 国际象棋评价函数的训练