gpt4 book ai didi

algorithm - AlphaGo self 提升

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:19:42 25 4
gpt4 key购买 nike

我读过几篇关于 AlphaGo 的新闻文章,它们都提到 AlphaGo 从先与人类对弈,然后与自己对弈,变得更好。我很好奇的一件事是,AlphaGo 是如何改进自己的?它会修改代码中的变量吗?或者它会完全改变它自己编写的代码吗?还是创作者添加的?它实际上是如何学习的?笼统的答案很好,因为它只是我的常识。

也许我误解了整个概念,新闻文章往往会给出广泛的、有时是错误的理解。一些清晰度或指向有用信息的链接会很好。

最佳答案

AlphaGo 使用机器学习。

在机器学习中,您有一个函数(比如 ax +b)可以给您一个结果,您可以调整该函数的参数(ab ) 以便结果匹配越来越多的示例。就 AlphaGo 而言,他们有 2 个函数,一个用于选择下一步,另一个用于说明谁获胜,两者都非常复杂,有数千个参数。

当他们在 AlphaGo 的两个实例之间进行对弈时,他们会记录结果并将其作为示例来训练函数,以便下一个版本的下棋效果更好。

如果您想了解更多信息,网上有很多关于机器学习如何工作的很棒的教程。

关于algorithm - AlphaGo self 提升,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36774241/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com