gpt4 book ai didi

machine-learning - 概率分布中的 argmax 比 softmax 中的随机采样更好的策略?

转载 作者:行者123 更新时间:2023-11-30 09:31:29 24 4
gpt4 key购买 nike

我正在尝试按照强化学习的方式训练回声状态网络以进行文本生成,并进行随机优化,其中优化取决于奖励信号。

我观察到,在评估过程中,当我从概率分布中采样时,bleu 分数比我从分布中采样 argmax 时的分数更大。差异几乎超过 0.10 分(BLEU 分数一般在 0 和 1 范围之间)。我不知道为什么会发生这种情况。需要帮助。

最佳答案

您不使用 argmax 函数,因为它是一种确定性方法。这样做的主要问题是它很容易让你陷入循环。这意味着,如果文本生成中出现错误,您可能会继续沿着这条路走下去,而没有任何可能退出。随机性允许“跳出”循环。

页面排名算法是说明这种跳出需求的一个很好的例子。它使用随机游走参数,允许假想的冲浪者走出死胡同。

TensorFlow 团队在他们的教程中谈到了这一点(没有任何理由):

Note: It is important to sample from this distribution as taking the argmax of the distribution can easily get the model stuck in a loop.

关于machine-learning - 概率分布中的 argmax 比 softmax 中的随机采样更好的策略?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55963251/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com