gpt4 book ai didi

python - KMeans 如何用于断言数据集有噪声?

转载 作者:行者123 更新时间:2023-11-28 16:38:45 25 4
gpt4 key购买 nike

我偶然发现了一篇旧论文的摘录,其中不经意地提到,

If required, we could use KMeans as a method of asserting that this dataset is noisy, thus proving that our classifier working as well as can be reasonably expected.

在网上搜索解决方案后,我找不到任何提及此方法的信息。如何才能做到这一点?如何调整此通用 KMeans 代码以断言此数据集包含噪声?

here 中提取的代码

print(__doc__)


# Code source: Gael Varoqueux
# Modified for Documentation merge by Jaques Grobler
# License: BSD 3 clause

import numpy as np
import pylab as pl
from mpl_toolkits.mplot3d import Axes3D


from sklearn.cluster import KMeans
from sklearn import datasets

np.random.seed(5)

centers = [[1, 1], [-1, -1], [1, -1]]
iris = datasets.load_iris()
X = iris.data
y = iris.target

estimators = {'k_means_iris_3': KMeans(n_clusters=3),
'k_means_iris_8': KMeans(n_clusters=8),
'k_means_iris_bad_init': KMeans(n_clusters=3, n_init=1,
init='random')}


fignum = 1
for name, est in estimators.iteritems():
fig = pl.figure(fignum, figsize=(4, 3))
pl.clf()
ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)

pl.cla()
est.fit(X)
labels = est.labels_

ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=labels.astype(np.float))

ax.w_xaxis.set_ticklabels([])
ax.w_yaxis.set_ticklabels([])
ax.w_zaxis.set_ticklabels([])
ax.set_xlabel('Petal width')
ax.set_ylabel('Sepal length')
ax.set_zlabel('Petal length')
fignum = fignum + 1

# Plot the ground truth
fig = pl.figure(fignum, figsize=(4, 3))
pl.clf()
ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)

pl.cla()

for name, label in [('Setosa', 0),
('Versicolour', 1),
('Virginica', 2)]:
ax.text3D(X[y == label, 3].mean(),
X[y == label, 0].mean() + 1.5,
X[y == label, 2].mean(), name,
horizontalalignment='center',
bbox=dict(alpha=.5, edgecolor='w', facecolor='w'))
# Reorder the labels to have colors matching the cluster results
y = np.choose(y, [1, 2, 0]).astype(np.float)
ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=y)

ax.w_xaxis.set_ticklabels([])
ax.w_yaxis.set_ticklabels([])
ax.w_zaxis.set_ticklabels([])
ax.set_xlabel('Petal width')
ax.set_ylabel('Sepal length')
ax.set_zlabel('Petal length')
pl.show()

最佳答案

K 均值聚类的本质是将一组多维向量划分为紧密分组的分区,然后用单个向量(也称为质心)表示每个分区(也称为聚类)。执行此操作后,您可以计算拟合优度,即获得的质心代表原始向量集的程度。这种拟合优度将取决于所选择的簇/质心的数量、使用的训练算法(例如 LBG 算法)、选择初始质心的方法、用于计算向量之间距离的度量……当然,还有统计数据的属性(多维向量)。

执行聚类后,您可以使用拟合优度(或量化失真)对您的数据做出一些判断。例如,如果您有两个不同的数据集,给出两个显着不同的拟合优度值(同时保持所有其他因素,尤其是聚类的数量相同),您可以说拟合优度较差的数据集是更“复杂”,也许更“嘈杂”。我将这些判断放在引号中是因为它们是主观的(例如,你如何定义噪音?)并且受到你的训练算法和其他因素等的强烈影响。

另一个例子可能是使用“干净”的数据集训练聚类模型。然后,使用相同的模型(即相同的质心)对新数据集进行聚类。根据新数据集的拟合优度与原始干净训练数据集的拟合优度的不同,您可以对新数据集中的“噪声”做出一些判断。

关于python - KMeans 如何用于断言数据集有噪声?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22334987/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com