gpt4 book ai didi

machine-learning - 使用越来越多的反馈更新 Beta 发行版的 alpha 和 beta 参数

转载 作者:行者123 更新时间:2023-12-04 08:33:16 26 4
gpt4 key购买 nike

我正在根据我大学项目的客户反馈对在线内容进行排名。为此,我将每个内容与先前的 alpha 和 beta 参数相关联,并根据我得到的反馈更新这些内容。
随着我模拟越来越多的试验,alpha 和 beta 参数的值不断增加。我希望我的模型对最近的客户行为更具 react 性,因此在我的更新中,我将先验参数衰减 0.9 倍,并对最后一天的 alpha、beta 求和(作为一阶非齐次线性差分方程)。

由于衰减,模型忘记了某些内容是次优的,并尝试再次探索它,从而导致一些循环行为。有没有更好的方法来解决这个问题?我试着只查看上个月的数据来构建我的发行版,但这似乎也很“健忘”。如何防止 alpha/beta 变得太大,同时确保模型是被动的并且不会忘记次优策略?

最佳答案

无论您对模型​​进行何种更改,总会在它的 react 性和保留的内存量之间进行权衡。模型不可能保留所有内容并仍然 catch 客户行为。例如,如果模型保留了所有内容,即使客户行为发生了变化,它也没有理由尝试其他武器。另一方面,为了保持 react 性,模型确实需要不断尝试次优臂来检查其中一个臂是否没有成为最优臂,即使这可能会导致一些额外的遗憾。
请注意,在非固定设置中,其性能无法达到固定设置。

您已经尝试了两种标准方法来为新数据赋予更多权重:贴现(因子为 0.9)和仅考虑最近 n 天的数据。如果您发现使用这些参数值给您的模型过于健忘,您可以尝试增加折扣因子或数字 n(您考虑的天数)。

随着您增加这些参数,您的模型将变得不那么健忘和 react 性降低。你需要找到适合你的值(value)观。此外,可能无法同时达到您希望的 react 性和健忘程度。

希望这可以帮助!

关于machine-learning - 使用越来越多的反馈更新 Beta 发行版的 alpha 和 beta 参数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60183934/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com