gpt4 book ai didi

machine-learning - MahoutRecommenditembased 中相似性策略之间的差异

转载 作者:行者123 更新时间:2023-11-30 08:41:36 25 4
gpt4 key购买 nike

我正在使用基于mahout推荐项目的算法。所有可用的 --similarity 类之间有什么区别?如何知道什么是最适合我的应用程序的选择?这些是我的选择:

SIMILARITY_COOCCURRENCE
SIMILARITY_LOGLIKELIHOOD
SIMILARITY_TANIMOTO_COEFFICIENT
SIMILARITY_CITY_BLOCK
SIMILARITY_COSINE
SIMILARITY_PEARSON_CORRELATION
SIMILARITY_EUCLIDEAN_DISTANCE

每一项的含义是什么?

最佳答案

我并不熟悉所有这些,但我可以为其中一些提供帮助。

共现是指同一用户同时出现两个项目的频率。 http://en.wikipedia.org/wiki/Co-occurrence

对数似然是根据您推荐的特征,推荐该项目的概率的对数。 http://en.wikipedia.org/wiki/Log-likelihood

不确定谷本

如果您假设您只能像在棋盘式城市中一样四处移动,则城市街区是两个实例之间的距离。 http://en.wikipedia.org/wiki/Taxicab_geometry

余弦相似度是两个特征向量之间角度的余弦。 http://en.wikipedia.org/wiki/Cosine_similarity

PIL 逊相关性是按标准差标准化的特征的协方差。 http://en.wikipedia.org/wiki/Pearson_correlation_coefficient

欧氏距离是两点之间的标准直线距离。 http://en.wikipedia.org/wiki/Euclidean_distance

要确定哪个最适合您的应用程序,您很可能需要对您的数据及其含义有一些直觉。如果您的数据是连续值特征,那么欧几里德距离或 PIL 逊相关性之类的东西就有意义了。如果您的离散值比城市街区或余弦相似度的值更多,则可能更有意义。

另一种选择是设置交叉验证实验,您可以在其中查看每个相似性指标在预测所需输出值方面的效果,并从交叉验证结果中选择最有效的指标。

关于machine-learning - MahoutRecommenditembased 中相似性策略之间的差异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23332512/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com