gpt4 book ai didi

apache-spark - Apache Spark 用户推荐?

转载 作者:行者123 更新时间:2023-11-30 08:40:57 25 4
gpt4 key购买 nike

我有一个数据集,其中包含用户通过选择完成的一些问题答案。我正在尝试构建一个用户-用户推荐引擎,以根据用户对问题的回答来查找相似的用户。重要的一点是问题是打乱的并且没有顺序,并且数据是流式传输的。

因此,对于每个用户,我都有这样的数据:

user_1: {"question_1": "choice_1", ...}
user_2: {"question_3": "choice_4", ...}
user_3: {"question_1": "choice_3", ...}

我发现大多数教程都是关于用户-项目推荐,但没有涉及用户-用户推荐。

我意识到聚类和余弦相似度可能是一些不错的选择,并且我发现列相似度非常有效。

rows = sc.parallelize([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])

mat = RowMatrix(rows)

sims = mat.columnSimilarity()

我有两个问题:

将每个用户定义为列,将问题/选择定义为行以获得我需要的结果是否明智?

我应该如何将这种数据矢量化为数字?如果我需要进行聚类。

提前致谢:)

最佳答案

不幸的是,这不是可以做到的方法。 这好得令人难以置信,不是吗?

columnSimilarity 用于瘦矩阵和高矩阵,因此如果您希望在用户-用户矩阵上执行该任务,则它将不起作用。例如,如果您有 100 万用户)

根据您的描述,我发现您的矩阵可能又短又宽,columnSimilarity 不适用于您。

如果您希望执行 UUCF,集群将是一种可行的方法。 (其中,LSH 也是一个很好的方法。)

关于apache-spark - Apache Spark 用户推荐?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45833178/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com