r - R 中 Kmeans 的一致簇顺序-6ren

r - R 中 Kmeans 的一致簇顺序

转载作者：行者123 更新时间：2023-12-02 03:04:57

24

4

这可能是不可能的，但到目前为止，Google 已经让我失望了，所以我希望其他人可能有一些见解。抱歉，如果之前有人问过这个问题。

背景是，我有一个不同城市信息的数据库，比如按年份排列的名称、人口、污染、犯罪等。我正在查询它以按城市聚合数据并将结果输出到表中。效果很好。

下一步是我在数据集上运行 R 中的 kmeans() 函数来查找簇，在测试中我发现通过“肘法”，5 个簇几乎总是一个不错的选择。

我遇到的问题是这些簇具有不同的含义/解释，因此我想使用簇对该行的解释来标记原始数据集中的每一行，而不是簇号。所以我不想将第 2 行标识为“集群 5”，我想说“人口少、犯罪率高、收入低”。

如果 R 以相同的顺序输出集群，假设集群 5 始终等同于“人口少、犯罪率高、收入低”的城市集群，那就可以正常工作，但事实并非如此。例如，如果您运行如下代码:

> a =  kmeans(city_date,centers=5)
> b =  kmeans(city_date,centers=5)
> c =  kmeans(city_date,centers=5)

运行此代码:

a$centers
b$centers
c$centers

簇将全部包含相同的数据集，但簇号将不同。因此，如果我在 SQL 中有一个具有簇号和解释的映射表，它将无法工作，因为当我有一天运行它时，它可能会将“人口少、犯罪率高、收入低”簇设为 5，而下一个簇可能是“人口少、犯罪率高、收入低”。可能是 2，接下来的 4，等等。

我想弄清楚是否有一种方法可以保持输出的一致性。数据集会更新，因此每次都不会相同，而且由于即使对于相同的数据集，R 也无法保持簇顺序一致，我想知道这是否可能。

感谢任何人可以提供的帮助。就我而言，我当前的想法是将 $centers 数据输出到 SQL 表，然后按各种指标对表进行排序，每次都将最高/最低的指标标记为这样，然后连接结果以标记级别。这可能有效，但不太优雅。

最佳答案

我知道这是一篇很老的帖子，但我现在才看到它。我今天遇到了同样的问题，并根据 Barker 的建议提出了解决方案:

library(dplyr)

# create a random data frame
df <- data.frame(id = 1:10, obs = sample(0:500, 10))

# use kmeans a first time to get the centers
centers <- kmeans(df$obs, centers = 3)$centers

# order the centers
centers <- sort(centers)

# call kmeans again but this time passing the centers calculated in the previous step
clusteridx <- kmeans(df$obs, centers = centers)$cluster

不是很优雅，但它可以工作。 clusteridx 向量将始终根据中心按升序返回簇编号。

如果您愿意，也可以将其折叠为一行:

clusteridx <- kmeans(df$obs, centers = sort(kmeans(df$obs, centers = 3)$centers))$cluster

关于r - R 中 Kmeans 的一致簇顺序，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39906180/

24

4

0

文章推荐： c# - 如何在 Azure 网站上安全管理 Google Analytics 证书

文章推荐： java - 从异常重定向回来后如何将数据保留在表单中

文章推荐： RSelenium 和 findElements 与检查元素的使用

文章推荐： excel - 如何使用Delphi正确设置公式的Excel NumberFormat属性？

c# - 保持字典的 Where() 一致
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Recreating a Dictionary from an IEnumerable 在 Dictiona
imagemagick - 是否可以修剪图像并强制其尺寸与 ImageMagick 一致？
是否可以使用命令行版本的 ImageMagick 修剪图像(比如带有 alpha 的 PNG)，使输出图像的宽度和高度都是偶数(不是奇数)？准确地说，应该先修剪输出图像，然后用透明像素填充。我需要这
java - 保持数据结构 View 一致
我有一个订单的Map，可以由许多不同的线程访问。我想控制访问，所以考虑以下简单的数据结构+包装器。 public interface OrderContainer { boolean cont
css - 我如何使我的导航与 Logo 一致？
我有以下代码，现在只是 div 中的一个 Logo ，但我正在尝试添加一些导航单元格，稍后我将对其进行样式设置。问题是，我似乎无法让它们与(除此之外) Logo “一致”，它们总是下降到下一行。我做错
java - 一致 UI 的设计模式
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 9 年前。 Improve this qu
javascript - 使用种子值在刷新之间保持 d3-cloud 一致？
有没有办法将种子值传递给 d3-cloud 或其他基于 javascript 的标签云，以使其在页面加载之间保持一致？我们的客户希望使用标签云作为导航/发现辅助工具，但由于 d3-cloud 会在每
javascript - 路径长度变化时保持 stroke-dasharray 一致
我有一条由用户使用 D3.js 绘制的路径。我想在我的用户绘制路径上定义一个破折号数组，但是，随着它改变其形状和长度，破折号的行为不一致并且间隙在移动并变得越来越小。这是一个代码笔: https:
ios - UIStatusBar 风格与 UINavigationBar 一致
只是为了研究UINavigationBar和UIStatusBar的UI，我把Navigation Bar Style改成了Black，并且取消勾选Bar visibility，即Shows Navi
macos - 一致 "-repeat watch"不工作
我最近在我的家用机器 (OSX 10.9) 和我的远程服务器 (Ubuntu 12.04 64 位) 上安装了 unison。我在这两个地方都安装了 2.40.102 版本。我在我的 Mac 上使用
python - 测试数据库迁移结果是否与(ORM)一致？楷模
我正在使用 migrate 创建 SQL 数据库模式并用初始数据填充它。后来使用 SQLAlchemy 来处理这个数据库。我如何测试我的 SQLAlchemy 模型是否与 migrate 生成的真实
html - 图像与文本 HTML CSS 一致
道歉对这一切来说还是新鲜事。我正在创建一个网页，并在两个单独的 div 中将图像和文本并排放置。我已经设法将它们放在页面上我想要的位置，但是当我调整页面大小时，文本会调整大小，但图像不会。我希望文本底
cassandra - 为什么 Cassandra 不一致而 HBase 一致？
在翻阅Cassandra和HBase的阅读资料时，我发现Cassandra并不一致，但HBase是一致的。没有找到任何合适的阅读 Material 。有人可以提供有关此主题的任何博客/文章吗？最佳
objective-c - 如何计算文件夹的大小。 (此尺寸必须与 Finder 一致。)
我需要计算 MacOS 中文件夹的大小。该尺寸值必须与 Finder 一致。我尝试了几种方法来做到这一点。但结果总是与Finder不同。以下方法是我尝试过的。 typedef struct{
c++ - 如何保证 C++ 模板类特化之间的接口(interface)一致？
问:我可以使用 C++ 中的任何编译时机制来自动验证模板类方法集是否从类特化到特化相匹配？示例:假设我想要一个类接口(interface)，它根据模板值专门化具有非常不同的行为: // forwar
python - SelectKBest 与 GaussianNB 结果不精确/一致
我想使用 SelectKBest 选择前 K 个特征并运行 GaussianNB: selection = SelectKBest(mutual_info_classif, k=300) data_t
html - 有没有最好的方法来证明 h1 文本与其包含的 div 一致？
我想要一个位于页面中央的 div，其中包含一行(两个单词)的 h1 文本，并且该文本与 div 的长度对齐；意思是，字母留出空间(同时保持它们的大小)以占据 div 的整个宽度，并且不要超出 div。
php - 更新 Ubuntu 服务器错误后与 apache 一致
我试图更新我的服务器，所以我通过 ssh 运行以下命令: sudo do-release-upgrade 我收到以下错误: Errors were encountered while processi
opencv - 我如何计算 SVD 并验证第一个奇异值与最后一个奇异值的比率是否与 OpenCV 一致？
我想验证单应矩阵会给出好的结果，而这个 this answer 有答案 - 但是，我不知道如何实现答案。那么谁能推荐我如何使用 OpenCV 计算 SVD 并验证第一个奇异值与最后一个奇异值的比率是
ios - CocoaPod 规范不会与 0.36 一致
我最近更新到 cocoapods 0.36 并对内部规范做了一些更改，现在 podspec 不再有效。我用 0.35 验证了此规范的先前版本 (0.3.8)，但使用 0.36 失败。很明显 cocoa
ios - 滚动第二个 UITableView 与第二个 UITableView 一致
我有两个并排设置的 TableView ，我需要它们同时滚动。因此，当您滚动一个时，另一个也会同时滚动。我进行了一些搜索，但找不到任何信息，但我认为这一定是有可能的。我的 TableView 都连

首页

博学

6Ren·AI

商城

r - R 中 Kmeans 的一致簇顺序