- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我读过几篇关于 AlphaGo 的新闻文章,它们都提到 AlphaGo 从先与人类对弈,然后与自己对弈,变得更好。我很好奇的一件事是,AlphaGo 是如何改进自己的?它会修改代码中的变量吗?或者它会完全改变它自己编写的代码吗?还是创作者添加的?它实际上是如何学习的?笼统的答案很好,因为它只是我的常识。
也许我误解了整个概念,新闻文章往往会给出广泛的、有时是错误的理解。一些清晰度或指向有用信息的链接会很好。
最佳答案
AlphaGo 使用机器学习。
在机器学习中,您有一个函数(比如 ax +b
)可以给您一个结果,您可以调整该函数的参数(a
和 b
) 以便结果匹配越来越多的示例。就 AlphaGo 而言,他们有 2 个函数,一个用于选择下一步,另一个用于说明谁获胜,两者都非常复杂,有数千个参数。
当他们在 AlphaGo 的两个实例之间进行对弈时,他们会记录结果并将其作为示例来训练函数,以便下一个版本的下棋效果更好。
如果您想了解更多信息,网上有很多关于机器学习如何工作的很棒的教程。
关于algorithm - AlphaGo self 提升,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36774241/
我读过几篇关于 AlphaGo 的新闻文章,它们都提到 AlphaGo 从先与人类对弈,然后与自己对弈,变得更好。我很好奇的一件事是,AlphaGo 是如何改进自己的?它会修改代码中的变量吗?或者它会
我最近下载了 Deeplearning for Java (DL4J),现在正在尝试使用卷积网络。我在主页和互联网上找到了一些工作示例,例如如何对图像进行分类,即识别人脸。我大致了解如何读取训练数据以
如图所示,AlphaGo Zero 神经网络使用损失函数,该函数使用 MCTS 概率和值作为真实标签。我试图了解神经网络的输出是否被视为逻辑(例如实值)或原始概率([0,1])。在损失函数中,看起来
我是一名优秀的程序员,十分优秀!