gpt4 book ai didi

statistics - 计算相似度的方法

转载 作者:行者123 更新时间:2023-12-03 14:05:26 24 4
gpt4 key购买 nike

我正在做一个社区网站,要求我计算任何两个用户之间的相似度。每个用户都具有以下属性:

年龄,皮肤类型(油性,干燥),头发类型(长,短,中),生活方式(活跃的户外恋人,电视迷)和其他。

谁能告诉我如何解决这个问题或为我提供一些资源?

最佳答案

计算(在R中)数据集中观测值之间所有成对的差异(距离)的另一种方法。原始变量可以是混合类型。通过使用Gower的一般相异系数来处理标称,序数和(a)对称二进制数据(Gower,J.C。(1971)相似性的一般系数及其某些特性,Biometrics 27,857–874)。有关更多信息,请查看this on page 47。如果x包含这些数据类型的任何列,则高尔系数将用作度量。

例如

x1 <- factor(c(10, 12, 25, 14, 29))
x2 <- factor(c("oily", "dry", "dry", "dry", "oily"))
x3 <- factor(c("medium", "short", "medium", "medium", "long"))
x4 <- factor(c("active outdoor lover", "TV junky", "TV junky", "active outdoor lover", "TV junky"))
x <- cbind(x1,x2,x3,x4)

library(cluster)
daisy(x, metric = "euclidean")


你会得到 :

Dissimilarities :
1 2 3 4
2 2.000000
3 3.316625 2.236068
4 2.236068 1.732051 1.414214
5 4.242641 3.741657 1.732051 2.645751


如果您对分类数据降维的方法(也是一种将变量排列到齐群中的方法)感兴趣,请检查 this

关于statistics - 计算相似度的方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2981743/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com