python - KMeans 如何用于断言数据集有噪声？-6ren

python - KMeans 如何用于断言数据集有噪声？

转载作者：行者123 更新时间：2023-11-28 16:38:45

25

4

我偶然发现了一篇旧论文的摘录，其中不经意地提到，

If required, we could use KMeans as a method of asserting that this dataset is noisy, thus proving that our classifier working as well as can be reasonably expected.

在网上搜索解决方案后，我找不到任何提及此方法的信息。如何才能做到这一点？如何调整此通用 KMeans 代码以断言此数据集包含噪声？

从 here 中提取的代码

print(__doc__)


# Code source: Gael Varoqueux
# Modified for Documentation merge by Jaques Grobler
# License: BSD 3 clause

import numpy as np
import pylab as pl
from mpl_toolkits.mplot3d import Axes3D


from sklearn.cluster import KMeans
from sklearn import datasets

np.random.seed(5)

centers = [[1, 1], [-1, -1], [1, -1]]
iris = datasets.load_iris()
X = iris.data
y = iris.target

estimators = {'k_means_iris_3': KMeans(n_clusters=3),
              'k_means_iris_8': KMeans(n_clusters=8),
              'k_means_iris_bad_init': KMeans(n_clusters=3, n_init=1,
                                              init='random')}


fignum = 1
for name, est in estimators.iteritems():
    fig = pl.figure(fignum, figsize=(4, 3))
    pl.clf()
    ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)

    pl.cla()
    est.fit(X)
    labels = est.labels_

    ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=labels.astype(np.float))

    ax.w_xaxis.set_ticklabels([])
    ax.w_yaxis.set_ticklabels([])
    ax.w_zaxis.set_ticklabels([])
    ax.set_xlabel('Petal width')
    ax.set_ylabel('Sepal length')
    ax.set_zlabel('Petal length')
    fignum = fignum + 1

# Plot the ground truth
fig = pl.figure(fignum, figsize=(4, 3))
pl.clf()
ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)

pl.cla()

for name, label in [('Setosa', 0),
                    ('Versicolour', 1),
                    ('Virginica', 2)]:
    ax.text3D(X[y == label, 3].mean(),
              X[y == label, 0].mean() + 1.5,
              X[y == label, 2].mean(), name,
              horizontalalignment='center',
              bbox=dict(alpha=.5, edgecolor='w', facecolor='w'))
# Reorder the labels to have colors matching the cluster results
y = np.choose(y, [1, 2, 0]).astype(np.float)
ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=y)

ax.w_xaxis.set_ticklabels([])
ax.w_yaxis.set_ticklabels([])
ax.w_zaxis.set_ticklabels([])
ax.set_xlabel('Petal width')
ax.set_ylabel('Sepal length')
ax.set_zlabel('Petal length')
pl.show()

最佳答案

K 均值聚类的本质是将一组多维向量划分为紧密分组的分区，然后用单个向量(也称为质心)表示每个分区(也称为聚类)。执行此操作后，您可以计算拟合优度，即获得的质心代表原始向量集的程度。这种拟合优度将取决于所选择的簇/质心的数量、使用的训练算法(例如 LBG 算法)、选择初始质心的方法、用于计算向量之间距离的度量……当然，还有统计数据的属性(多维向量)。

执行聚类后，您可以使用拟合优度(或量化失真)对您的数据做出一些判断。例如，如果您有两个不同的数据集，给出两个显着不同的拟合优度值(同时保持所有其他因素，尤其是聚类的数量相同)，您可以说拟合优度较差的数据集是更“复杂”，也许更“嘈杂”。我将这些判断放在引号中是因为它们是主观的(例如，你如何定义噪音？)并且受到你的训练算法和其他因素等的强烈影响。

另一个例子可能是使用“干净”的数据集训练聚类模型。然后，使用相同的模型(即相同的质心)对新数据集进行聚类。根据新数据集的拟合优度与原始干净训练数据集的拟合优度的不同，您可以对新数据集中的“噪声”做出一些判断。

关于python - KMeans 如何用于断言数据集有噪声？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22334987/

25

4

0

文章推荐： javascript - Lookup 字段的 DataValue 始终为空

文章推荐： python - Python中使用fft2的"valid"和"full"卷积

文章推荐： javascript - 我可以在提交表单之前等待 $.get() 调用吗？

OpenCV - 去除图像中不需要的小点/噪声
我正在研究我的论文，以构建乐谱(乐谱)识别系统。这是我的输入文件: 这是一些预处理和去除五线谱后的结果: 我在这里遇到的问题是，在五线谱删除步骤之后出现了一些超小的、不需要的“点”。这些点/噪声与实际
Git rebase 噪声
这可能是一个愚蠢的问题(当然)，但对于我已阅读/发现的所有内容，没有一个与我想做的相匹配......这是 GIT 的基本情况。为了使我的情况更简单，我有两个分支: - master(主要分支) -
filtering - 尝试过滤来自加速度计和陀螺仪的(大量)噪声
我的项目: 我正在开发一辆带有 3 轴加速度计和陀螺仪的槽车，试图估计汽车姿态(x、y、z、偏航、俯仰)，但我的振动噪音有一个大问题(而汽车在例如，加速度计的噪声值在 ±4[g](其中 g = 9.8
math - 用于地形生成的 Perlin 噪声
我正在尝试实现 2D Perlin 噪声来创建类似 Minecraft 的地形(Minecraft 实际上并不使用 2D Perlin 噪声)而没有悬垂或洞穴之类的东西。我这样做的方式是创建一个 [
python - 向图像添加 RMS 噪声
我有一个代表图像的二维数组。我必须向图像添加 RMS 2 单位的背景高斯噪声。我不熟悉噪声的 RMS 测量以及如何添加它。您能否告诉我如何执行此操作？最佳答案按照我的理解，您想要在每个像素处添加遵
用于二维地形生成的 Java Perlin 噪声
更新:正式问题列表: 2D 噪声实现的浮点值(输入参数和输出)代表什么？ - 部分回答，输入是坐标。输出怎么样？另外，我可以使用我的整数作为坐标的 float 吗？ 1.0、122.0 等？在 2D
algorithm - 如何在球面上生成 Perlin 噪声？
我正在尝试使用 Perlin 噪声生成地形。我了解如何使用笛卡尔坐标生成它，但无法完全理解它在球体上的工作方式。我知道您可以将 2D 表面投影到球体上，但失真不会扰乱噪声分布吗？要在球体表面生成均匀噪
C++0x 噪声、膨胀和可移植性
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
c++ - 不需要的常规 Perlin 噪声
我正在尝试将 fBm 实现到行星的球体上。为了创建我的球体，我将其从立方体转换为此类。不幸的是，生成的 fBm 显示为镜像补丁。此外，它只在 2 个面上执行(包装其他面的值)。当呈现为 sphere
image-processing - 单纯形噪声与 Perlin 噪声
我想知道为什么在 Simplex 推出后，Perlin 噪声至今仍然如此流行。单纯形噪声是由 Ken Perlin 自己制作的，它应该取代他的旧算法，该算法对于更高的维度来说速度较慢，但质量更好(
random - 改进的 Perlin 噪声 "too smooth"
我终于设法为 Love 2D 编写了 Perlin 改进噪音的工作 Lua 版本。但是，当我运行它时，我得到了这个: 我想这很好。但我想要看起来更像这样的东西: 我怎样才能做到这一点？最佳答案第一
random - 改进的 Perlin 噪声 "too smooth"
我终于设法为 Love 2D 编写了 Perlin 改进噪音的工作 Lua 版本。但是，当我运行它时，我得到了这个: 我想这很好。但我想要看起来更像这样的东西: 我怎样才能做到这一点？最佳答案第一
使用小数处理字节数组后的 Java Sound API 噪声
我正在尝试处理我从采样源数据行(Java Sound API)获得的字节数组。如果我将字节数组与小数相乘，播放流时会产生噪音。在播放声音之前，我将立体声 wav 文件分成左右声道。这很好用。但是，如
java - Java 中的 Perlin 噪声
对于我正在进行的元胞自动机项目，我需要使用不同的算法和技术随机生成二维 boolean 数组。目前，我在应用程序中只有一种随机化类型——循环遍历数组中的每个单元格并生成一个随机 double 变量，然
用于随机地形生成的 Java 2D Perlin 噪声
我叫 Chris，正在开发我的第一个 Java 游戏。到目前为止，我已经创建了一个基于图 block 的 2D 游戏，但是我的关卡是以这样一种方式完成的，如果我创建一个图像并且它全是绿色，那么绿色就代
c# - 如何在多个 perlin 噪声 block 之间平滑？
block 之间的平滑所以我一直在开发一个统一的游戏，想将我的世界从 150x150 的 map 扩展到一个看似无限的程序世界。我的计划是以Perlin Noise为基础，使用0-1的不同值来判断地
haskell - 在 Haskell 中优化 Perlin 噪声
(此程序的依赖项:vector --any 和 JuicyPixels >= 2 。代码可用作 Gist。) {-# LANGUAGE Haskell2010 #-} {-# LANGUAGE Ban
c# - Diamond-Square 算法不产生 "smooth"噪声
我最近用 C# 编写了 Diamond-Square 过程生成算法的实现。但是，生成的噪声在所处理的“正方形”之间具有非常明显的边界。伪代码看起来像这样 gen() { This takes
javascript - 我无法在 Javascript 中生成平滑的 Simplex 噪声
我已经尝试了所有方法并阅读了我在互联网上看到的关于 Perlin Noise 或 Simplex Noise 的每一个链接，甚至剖析了一些我认为工作正常的 Javascript 示例。但我仍然得到看
video - block 运动补偿编码器 - 如何处理引用帧中的 block 噪声？
我在任何方面都不精通视频压缩，但目前正在从事一个使用 H.264 压缩残差图像的项目我的问题更多是关于视频编码器的一般性问题。据我了解(正如维基百科所解释的那样)， block 运动补偿编码器将当前

首页

博学

6Ren·AI

商城

python - KMeans 如何用于断言数据集有噪声？