gpt4 book ai didi

machine-learning - 如何计算AUC(曲线下面积)以进行推荐系统评估

转载 作者:行者123 更新时间:2023-11-30 08:28:08 24 4
gpt4 key购买 nike

我对计算 AUC(曲线下面积)来评估推荐系统结果感到困惑。

如果我们有交叉验证数据,例如(用户、产品、评级)。如何为每个用户选择正样本和负样本来计算AUC?

选择数据集中每个用户出现的产品作为正样本,而数据集中未出现的其余产品作为负样本,这样好吗?我认为这种方式无法找出那些“真正的”负样本,因为用户有机会喜欢负样本中的那些产品。

最佳答案

“ROC 曲线绘制了召回率(真阳性率)与影响率(假阳性率)的关系,以增加推荐集的大小。” Schröder, Thiele, and Lehner 2011 (PDF)

通常,您将保留一部分数据作为测试数据。对于特定用户,您将使用(例如)80% 的数据进行训练,并尝试根据剩余 20% 的数据来预测她会表现出对哪些项目(在数据集中的所有项目中)的偏好。

假设您正在构建一个 Top-20 推荐系统。您为用户推荐的 20 个项目是 Positive 项目,不推荐的项目是 Negative 项目。因此,真正的项目是您在 Top-N 列表中显示的与用户在保留的测试集中首选的项目相匹配的项目。误报是指您的 Top-N 列表中的项目与她保留的测试集中的首选项目不匹配。 True Negative 项目是那些您未包含在 Top-N 推荐中的项目,并且是用户在保留的测试集中的首选项目中没有的项目。假阴性是您未包含在 Top-N 推荐中的项目,但确实与用户在保留的测试集中首选的项目相匹配。这就是混淆矩阵。现在,您可以改变推荐的项目数量,计算每个项目的混淆矩阵,计算每个项目的召回率和影响率,并绘制 ROC。

关于machine-learning - 如何计算AUC(曲线下面积)以进行推荐系统评估,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41757653/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com