machine-learning - 如何对抗 KMeans 聚类引起的随机性-6ren

machine-learning - 如何对抗 KMeans 聚类引起的随机性

转载作者：行者123 更新时间：2023-11-30 08:38:47

26

4

我正在开发一种算法，根据图像数据对不同类型的狗进行分类。算法步骤为:

遍历所有训练图像，检测图像特征(即 SURF)并提取描述符。收集所有图像的所有描述符。
对收集到的图像描述符进行聚类，并在集合中找到 k 个“单词”或质心。
迭代所有图像，提取 SURF 描述符，并将提取的描述符与通过聚类找到的最接近的“单词”进行匹配。
将每个图像表示为聚类中找到的单词的直方图。
将这些图像表示(特征向量)输入分类器并训练...

现在，我遇到了一些问题。在图像描述符集合中查找“单词”是非常重要的一步。由于聚类的随机性，每次运行程序时都会发现不同的聚类。不幸的结果是，有时我的分类器的准确性非常好，而有时则非常差。我将此归因于聚类算法有时会发现“好”词，有时会发现“坏”词。

有谁知道我如何避免聚类算法发现“坏”词？目前我只是进行几次聚类并取分类器的平均准确率，但一定有更好的方法。

感谢您花时间阅读本文，并感谢您的帮助!

编辑:

我没有使用 KMeans 进行分类；我正在使用支持向量机进行分类。我使用 KMeans 查找图像描述符“单词”，然后使用这些单词创建描述每个图像的直方图。这些直方图用作特征向量，输入支持向量机进行分类。

最佳答案

有许多可能的方法可以使聚类可重复:

处理 k 均值随机性的最基本方法就是简单地运行多次并选择最佳的方法(最小化内部簇距离/最大化簇间距离的方法)。
可以使用一些fixed initialization为您的数据而不是随机化。有许多用于启动 k 均值的启发式方法。或者至少使用 k-means++. 这样的算法来最小化方差
使用 k-means 的修改来保证正则化函数的全局最小值，即convex k-means
使用不同的聚类方法，这是确定性的，即。 Data Nets

关于machine-learning - 如何对抗 KMeans 聚类引起的随机性，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18674701/

26

4

0

文章推荐： javascript - 如何根据窗口/文档高度更改元素的高度？

文章推荐： machine-learning - SGD 型号 "overconfidence"

文章推荐： javascript - 如何通过 mqtt.js 连接到 ec2 上的 mqtt 代理？

生成模型值的 Z3 随机性
我试图影响 Z3 生成的模型值结果的随机性。据我所知，这方面的选择非常有限:在线性算术的情况下，单纯形求解器不允许仍然满足给定约束的随机结果。但是，有一个选项 smt.arith.random_ini
mysql - 使用两个参数排序时优化 MySQL 随机性
我需要从表中获取一些数据并通过两个参数对它们进行排序。参数之一是 RAND()，因为记录需要是随机的。我有一个很大的数据库，使用 RAND() 会大大降低性能，我想避免它。是否有机会优化随机排序的性能
c++ - 使用模板 boost 随机性
所以我尝试将 Boost.Random mt19937 生成器与模板一起使用。我的 c++ 有点生疏，但据我所知(和文档一样，Boost 的文档也很模糊)它应该采用一个模板参数来指定它的返回类型(fl
python - random.shuffle 随机性
我正在尝试为家庭作业编写一个遗传算法来解决旅行商问题。我正在尝试的变异函数之一是在游览中使用 random.shuffle。当我阅读 random.shuffle 的文档时，我看到: shuffl
javascript - bool 随机性 - 递归......或不是？
尝试创建随机 (0/1) boolean 操作。我设置了一个多维数组。到目前为止，一切正常。我在正确的道路上吗？我目前使用递归；有没有更有效的方法来做到这一点？ function randomMove
google-cloud-platform - Cloud Scheduler 随机性
我想在每天下午 1 点到 2 点之间的随机时间运行一个云函数。我使用 Cloud Scheduler (cron) 将消息发布到触发该功能的 PubSub。我想在 Cloud Scheduler 端实
google-cloud-platform - Cloud Scheduler 随机性
我想在每天下午 1 点到 2 点之间的随机时间运行一个云函数。我使用 Cloud Scheduler (cron) 将消息发布到触发该功能的 PubSub。我想在 Cloud Scheduler 端实
swift - 在 Swift 中调用不同程度的 arc4random 随机性？
这可能是一个相当愚蠢的问题。我想知道在 Swift 中使用 arc4random_uniform 是否可以实现不同的细微差别/随机性程度。这是一个例子: let number = arc4random
java - java Calendar.toInstant() 和 Instant.atZone(还有 Local/ZonedDateTime.ofInstant())中的不准确性/随机性
我正在开发一部分代码，其中我必须使用日历 API 使用现有的 api，而我使用的是全新的 API。在转换中出现了一些奇怪的行为，请看这个例子: SimpleDateFormat df = new Si

首页

博学

6Ren·AI

商城

machine-learning - 如何对抗 KMeans 聚类引起的随机性