r - 加权 Kmeans R-6ren

r - 加权 Kmeans R

转载作者：行者123 更新时间：2023-11-30 08:33:28

29

4

我想对具有三个变量(列)的数据集(即 Sample_Data)进行 Kmeans 聚类，如下所示:

     A  B  C
1    12 10 1
2    8  11 2
3    14 10 1
.    .   .  .
.    .   .  .
.    .   .  .

以典型的方式，在缩放列并确定簇数之后，我将在 R 中使用此函数:

Sample_Data <- scale(Sample_Data)
output_kmeans <- kmeans(Sample_Data, centers = 5, nstart = 50)

但是，如果变量有偏好怎么办？我的意思是，假设变量(列)A 比其他两个变量更重要？如何将它们的权重插入模型中？谢谢大家

最佳答案

我遇到了同样的问题，这里的答案并不令我满意。

我们都想要的是 R 中的观察加权 k 均值聚类。我们的问题的一个很好的可读示例是此链接:https://towardsdatascience.com/clustering-the-us-population-observation-weighted-k-means-f4d58b370002

然而，使用 flexclust 包的解决方案并不令人满意，因为所使用的算法不是“标准”k-means 算法，而是“硬竞争学习”算法。上面和包描述中已经详细描述了差异。

我浏览了许多网站，但没有在 R 中找到任何解决方案/包来用于执行具有加权观测的“标准”k 均值算法。我还想知道为什么 flexclust 包明确不支持标准 k 均值算法的权重。如果有人对此有解释，请随时分享!

所以基本上你有两个选择:首先，重写 flexclust 算法以在标准方法中启用权重。或者，您可以将加权聚类质心估计为起始质心，并仅通过一次迭代执行标准 k 均值算法，然后计算新的加权聚类质心并通过一次迭代执行 k 均值算法，依此类推，直到达到收敛。

我使用了第二种选择b/c，这对我来说是更简单的方法。我使用了data.table包，希望你熟悉它。

rm(list=ls())

library(data.table)

### gen dataset with sample-weights
dataset     <- data.table(iris)
dataset[, weights:= rep(c(1, 0.7, 0.3, 4, 5),30)] 
dataset[, Species := NULL]


### initial hclust for estimating weighted centroids
clustering    <- hclust(dist(dataset[, c(1:4)], method = 'euclidean'), 
                        method = 'ward.D2')
no_of_clusters <- 4


### estimating starting centroids (weighted)
weighted_centroids  <- matrix(NA, nrow = no_of_clusters, 
                              ncol =  ncol(dataset[, c(1:4)]))
for (i in (1:no_of_clusters))
{
 weighted_centroids[i,] <- sapply(dataset[, c(1:4)][cutree(clustering, k = 
                                                    no_of_clusters) == i,], weighted.mean, w = dataset[cutree(clustering, k = no_of_clusters) == i, weights])
 }


### performing weighted k-means as explained in my post
iter            <- 0 
cluster_i       <- 0
cluster_iminus1 <- 1

## while loop: if number of iteration is smaller than 50 and cluster_i (result of 
## current iteration) is not identical to cluster_iminus1 (result of former 
## iteration) then continue
while(identical(cluster_i, cluster_iminus1) == F && iter < 50){

  # update iteration  
  iter <- iter + 1

  # k-means with weighted centroids and one iteration (may generate warning messages 
  # as no convergence is reached)
  cluster_kmeans <- kmeans(x = dataset[, c(1:4)], centers = weighted_centroids, iter = 1)$cluster

  # estimating new weighted centroids
  weighted_centroids <- matrix(NA, nrow = no_of_clusters, 
                               ncol=ncol(dataset[,c(1:4)]))
  for (i in (1:no_of_clusters))
{
 weighted_centroids[i,] <- sapply(dataset[, c(1:4)][cutree(clustering, k = 
                                                    no_of_clusters) == i,], weighted.mean, w = dataset[cutree(clustering, k = no_of_clusters) == i, weights])
 }

  # update cluster_i and cluster_iminus1
  if(iter == 1) {cluster_iminus1 <- 0} else{cluster_iminus1 <- cluster_i}
  cluster_i <- cluster_kmeans

}


## merge final clusters to data table
dataset[, cluster := cluster_i]

关于r - 加权 Kmeans R，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48901178/

29

4

0

文章推荐： machine-learning - Caffe - 连接层输入和输出

文章推荐： machine-learning - Keras:为什么 'accuracy' 高于 'val_acc' ？

sql查询选择一个随机值(加权)
我有一个包含三个字段的表:ID、值、计数 ID和Value构成PK。给定一个 ID，我想选择一个按计数加权的值，然后将计数减一。如果我有 1 A 2 1 B 3 我应该有 2/5 的机会获
python - 有没有一种方法可以从这个连续的周期性日期时间时间序列中更新月平均值(加权)？
我有一个数据集，其中开始日期和日期没有特定的顺序。我想创建一组新的几个月列和数据的加权平均值。 del 代表否。日期范围内的天数 d 是该时间段的平均值 from datetime import da
algorithm - 加权、负载均衡的资源调度算法
我正在开发的一个软件应用程序需要能够根据用户当前拥有的任务数量将任务分配给一组用户，其中任务最少的用户最有可能获得下一个任务。然而，当前的任务负载应该被视为一个权重，而不是一个绝对的顺序定义。 IOW
OCR:加权 Levenshtein 距离
我正在尝试用字典创建一个光学字符识别系统。事实上，我还没有实现字典=) 我听说有一些基于 Levenstein 距离的简单指标，这些指标考虑了不同符号之间的不同距离。例如。 'N' 和 'H' 彼此
artificial-intelligence - 加权 A* 中的启发式函数
三个AI新手问题: 为什么 A* 可以采用启发式算法来找到最佳路径？如果障碍物挡住了道路，系带制动技术有什么用？什么算法适合在有障碍物的网格上找到路径？ (像吃 bean 一样) 第一个问题让我们
r - 加权 Pearson 相关系数？
我有一个 2396x34 double matrix命名 y其中每一行 (2396) 代表一个单独的情况，由 34 个连续的时间段组成。我也有 numeric[34]命名 x这代表了 34 个连续时
javascript - JQuery 按多个值对数组进行排序(加权)
我有一个如下所示的多维数组，我想做一些奇特的排序，但我不知道如何处理它。我想首先按第 5 个元素对数组元素进行排序，然后是第 4 个元素，然后是第 3 个元素，然后是第 2 个元素，然后是第 1 个元
r - 加权 Kmeans R
我想对具有三个变量(列)的数据集(即 Sample_Data)进行 Kmeans 聚类，如下所示: A B C 1 12 10 1 2 8 11 2 3 14 10
php - 加权 MySql 查询搜索
我环顾四周，发现了一些与我类似的问题，但它们缺乏解释。我正在尝试搜索包含多列的表格。我希望匹配列数最多的行位于顶部，匹配列数最少的行位于底部。我见过几种方法。我目前的糟糕方式是使用大量 MySQL
Python:加权 fiddle 图
我必须大量使用加权概率分布，并且想使用 violinplots 进行一些可视化。但是，我找不到在任何常见嫌疑人(matplotlib、seaborn、bokeh 等)中使用加权数据创建这些数据的方法。
algorithm - 排序算法 - 分组，加权
我会尽量做到彻底: 我有 11 个小组。我有很多人需要在这些组之间进行划分每个人都有一个加权偏好列表。通常在该列表上有 3 个有序的组，但一些异常值会有更多或更少的组。 IE:人 1 有进入 A
algorithm - 加权 n 着色问题算法
我有 100 个顶点和一个计算顶点 x 和顶点 y 之间边的权重的函数 f(x,y)。 f 不是特别昂贵，因此如果需要，我可以生成带权重的索引邻接列表。有哪些有效、易处理的方法可以通过最小化或最大化
algorithm - 加权 voronoi 图的引用算法？
谁能给我指出一个关于如何构建(乘法和/或加法)加权 voronoi 图的引用实现，该图最好基于 Fortune 的 voronoi 算法？我的目标:给定一组点(每个点都有一个权重)和一组边界边(通常
C++。加权 std::shuffle
有没有一种方法可以使用标准库进行漂亮而优雅的加权洗牌？有 std::discrete_distribution。我想要的是这样的: std::vector data { N elements }; s
vba - Excel UDF 加权 RANDBETWEEN()
其实不是RANDBETWEEN()。我正在尝试创建一个 UDF 来返回数组中数字的索引，其中数字越大，被选择的可能性就越大。我知道如何将概率分配给工作表中的随机数(即对概率之和使用 MATCH()
python - tkinter - 加权 Canvas 不填充空白空间
canvas 占据了整个屏幕，从绿色可以看出。canvasFrame 有两行，其中第二行是滚动文本小部件。第二行也被加权但是它没有填满屏幕，因为绿色区域应该是黄色的。如何让第二行填充空白并让滚动的文本
java - 加权 HITS 算法实现(中心和权威分数)
我正在研究 HITS 算法实现的加权版本。这是 Hits 算法的公式(非加权版本): 其中HITS A为权威评分，HITS H为hub评分，维基百科算法伪代码: G := set of pages
c++ - 加权 boolean 值 - 缩放
我不确定如何实现这个，但这里是描述: 取一个 0-10 之间的数字作为输入(0 总是返回 false，10 总是返回 true) 将接收到的参数作为输入，并传递给一个函数，在运行时确定所需的 bool
python - Pandas 中的分组、加权、列平均值
所以我在 Pandas DataFrame 中有两个值列和两个权重列，我想生成第三列，它是这两列的分组依据、加权平均值。因此: df = pd.DataFrame({'category':['a',
R:加权 Joyplot/Ridgeplot/Density Plot？
我正在尝试使用 ggridges 包(基于 ggplot2)创建一个 joyplot。一般的想法是 joyplot 创建很好缩放的堆叠密度图。但是，我似乎无法使用加权密度生成其中之一。在创建 joyp

首页

博学

6Ren·AI

商城

r - 加权 Kmeans R