gpt4 book ai didi

mahout - 针对 Mahout 推荐器使用多个加权数据模型

转载 作者:行者123 更新时间:2023-12-02 09:20:29 25 4
gpt4 key购买 nike

我有一个基于用户相似性的 bool 偏好推荐器。我的数据集本质上包含关系,其中 ItemId 是用户决定阅读的文章。我想添加第二个数据模型,其中包含 ItemId 是对特定主题的订阅。

我能想到的唯一方法是将两者合并在一起,偏移订阅 ID,这样它们就不会与文章 ID 冲突。对于加权,我考虑放弃 bool 偏好设置并引入偏好分数,其中文章子集的偏好分数为 1(例如),订阅子集的偏好分数为 2。

但是,我不确定这是否有效,因为偏好分数并不完全类似于我所追求的权重;它们可能包含一些代表不满意的较低分数的概念。

我必须想象有更好的方法来做到这一点,或者至少对我的计划进行调整,使其更符合我想要的方式。

最佳答案

我认为你的想法是正确的。是的,对于订阅和文章,您想要比简单的存在/不存在更具表现力,因为它们的含义有些不同。我建议选择反射(reflect)其相对频率的权重。例如,如果用户一直阅读了 10 万篇文章,并进行了 10000 次订阅,那么您可以选择订阅权重为“10”,阅读权重为“1”。

如果您将这些值视为偏好分数,则由于多种原因,这不太有效。如果您使用一种按其本来面目对待它们的方法,即线性权重,效果会更好。

我会向您介绍 ALS-WR 算法,它是专门为此类输入设计的。例如:Collaborative Filtering for Implicit Feedback Datasets

这在 Mahout 中作为 Hadoop 上的 ParallelALSFactorizationJob 实现。尽管需要 Hadoop,但它工作得很好。 (尽管我确实在 Mahout 中编写了大部分推荐代码,但我不能将此归功于我。)

广告:我正在致力于将“下一代”系统商业化,该系统是由我在 Mahout 的工作演变而来的,如 Myrrix 。它是 ALS-WR 的实现,非常适合您的输入类型。这很容易download and run ,并且不需要 Hadoop。

鉴于它可能直接适合您的问题,我不介意将其插入此处。

关于mahout - 针对 Mahout 推荐器使用多个加权数据模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15707013/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com