作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
如图所示,AlphaGo Zero 神经网络使用损失函数,该函数使用 MCTS 概率和值作为真实标签。我试图了解神经网络的输出是否被视为逻辑(例如实值)或原始概率([0,1])。在损失函数中,看起来 MCTS 概率(我确信位于 [0,1] 中)是向量乘以 NN 概率的对数。这是损失中的负项,但是该项的大小表明两个向量的相似性是什么?为什么值越大表示相似度越高?
最佳答案
结果是交叉熵损失的蒙特卡罗估计,如所解释的 here .
关于machine-learning - AlphaGo 零损失函数如何衡量 MCTS 概率和 NN 概率之间的相似性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47138694/
我读过几篇关于 AlphaGo 的新闻文章,它们都提到 AlphaGo 从先与人类对弈,然后与自己对弈,变得更好。我很好奇的一件事是,AlphaGo 是如何改进自己的?它会修改代码中的变量吗?或者它会
我最近下载了 Deeplearning for Java (DL4J),现在正在尝试使用卷积网络。我在主页和互联网上找到了一些工作示例,例如如何对图像进行分类,即识别人脸。我大致了解如何读取训练数据以
如图所示,AlphaGo Zero 神经网络使用损失函数,该函数使用 MCTS 概率和值作为真实标签。我试图了解神经网络的输出是否被视为逻辑(例如实值)或原始概率([0,1])。在损失函数中,看起来
我是一名优秀的程序员,十分优秀!