- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我偶然发现了一篇旧论文的摘录,其中不经意地提到,
If required, we could use KMeans as a method of asserting that this dataset is noisy, thus proving that our classifier working as well as can be reasonably expected.
在网上搜索解决方案后,我找不到任何提及此方法的信息。如何才能做到这一点?如何调整此通用 KMeans
代码以断言此数据集包含噪声?
从 here 中提取的代码
print(__doc__)
# Code source: Gael Varoqueux
# Modified for Documentation merge by Jaques Grobler
# License: BSD 3 clause
import numpy as np
import pylab as pl
from mpl_toolkits.mplot3d import Axes3D
from sklearn.cluster import KMeans
from sklearn import datasets
np.random.seed(5)
centers = [[1, 1], [-1, -1], [1, -1]]
iris = datasets.load_iris()
X = iris.data
y = iris.target
estimators = {'k_means_iris_3': KMeans(n_clusters=3),
'k_means_iris_8': KMeans(n_clusters=8),
'k_means_iris_bad_init': KMeans(n_clusters=3, n_init=1,
init='random')}
fignum = 1
for name, est in estimators.iteritems():
fig = pl.figure(fignum, figsize=(4, 3))
pl.clf()
ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)
pl.cla()
est.fit(X)
labels = est.labels_
ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=labels.astype(np.float))
ax.w_xaxis.set_ticklabels([])
ax.w_yaxis.set_ticklabels([])
ax.w_zaxis.set_ticklabels([])
ax.set_xlabel('Petal width')
ax.set_ylabel('Sepal length')
ax.set_zlabel('Petal length')
fignum = fignum + 1
# Plot the ground truth
fig = pl.figure(fignum, figsize=(4, 3))
pl.clf()
ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)
pl.cla()
for name, label in [('Setosa', 0),
('Versicolour', 1),
('Virginica', 2)]:
ax.text3D(X[y == label, 3].mean(),
X[y == label, 0].mean() + 1.5,
X[y == label, 2].mean(), name,
horizontalalignment='center',
bbox=dict(alpha=.5, edgecolor='w', facecolor='w'))
# Reorder the labels to have colors matching the cluster results
y = np.choose(y, [1, 2, 0]).astype(np.float)
ax.scatter(X[:, 3], X[:, 0], X[:, 2], c=y)
ax.w_xaxis.set_ticklabels([])
ax.w_yaxis.set_ticklabels([])
ax.w_zaxis.set_ticklabels([])
ax.set_xlabel('Petal width')
ax.set_ylabel('Sepal length')
ax.set_zlabel('Petal length')
pl.show()
最佳答案
K 均值聚类的本质是将一组多维向量划分为紧密分组的分区,然后用单个向量(也称为质心)表示每个分区(也称为聚类)。执行此操作后,您可以计算拟合优度,即获得的质心代表原始向量集的程度。这种拟合优度将取决于所选择的簇/质心的数量、使用的训练算法(例如 LBG 算法)、选择初始质心的方法、用于计算向量之间距离的度量……当然,还有统计数据的属性(多维向量)。
执行聚类后,您可以使用拟合优度(或量化失真)对您的数据做出一些判断。例如,如果您有两个不同的数据集,给出两个显着不同的拟合优度值(同时保持所有其他因素,尤其是聚类的数量相同),您可以说拟合优度较差的数据集是更“复杂”,也许更“嘈杂”。我将这些判断放在引号中是因为它们是主观的(例如,你如何定义噪音?)并且受到你的训练算法和其他因素等的强烈影响。
另一个例子可能是使用“干净”的数据集训练聚类模型。然后,使用相同的模型(即相同的质心)对新数据集进行聚类。根据新数据集的拟合优度与原始干净训练数据集的拟合优度的不同,您可以对新数据集中的“噪声”做出一些判断。
关于python - KMeans 如何用于断言数据集有噪声?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22334987/
我正在研究我的论文,以构建乐谱(乐谱)识别系统。这是我的输入文件: 这是一些预处理和去除五线谱后的结果: 我在这里遇到的问题是,在五线谱删除步骤之后出现了一些超小的、不需要的“点”。这些点/噪声与实际
这可能是一个愚蠢的问题(当然),但对于我已阅读/发现的所有内容,没有一个与我想做的相匹配......这是 GIT 的基本情况。 为了使我的情况更简单,我有两个分支: - master(主要分支) -
我的项目: 我正在开发一辆带有 3 轴加速度计和陀螺仪的槽车,试图估计汽车姿态(x、y、z、偏航、俯仰),但我的振动噪音有一个大问题(而汽车在例如,加速度计的噪声值在 ±4[g](其中 g = 9.8
我正在尝试实现 2D Perlin 噪声来创建类似 Minecraft 的地形(Minecraft 实际上并不使用 2D Perlin 噪声)而没有悬垂或洞穴之类的东西。 我这样做的方式是创建一个 [
我有一个代表图像的二维数组。我必须向图像添加 RMS 2 单位的背景高斯噪声。我不熟悉噪声的 RMS 测量以及如何添加它。您能否告诉我如何执行此操作? 最佳答案 按照我的理解,您想要在每个像素处添加遵
更新:正式问题列表: 2D 噪声实现的浮点值(输入参数和输出)代表什么? - 部分回答,输入是坐标。输出怎么样?另外,我可以使用我的整数作为坐标的 float 吗? 1.0、122.0 等? 在 2D
我正在尝试使用 Perlin 噪声生成地形。我了解如何使用笛卡尔坐标生成它,但无法完全理解它在球体上的工作方式。我知道您可以将 2D 表面投影到球体上,但失真不会扰乱噪声分布吗?要在球体表面生成均匀噪
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我正在尝试将 fBm 实现到行星的球体上。为了创建我的球体,我将其从立方体转换为此类。不幸的是,生成的 fBm 显示为镜像补丁。此外,它只在 2 个面上执行(包装其他面的值)。当呈现为 sphere
我想知道为什么在 Simplex 推出后,Perlin 噪声至今仍然如此流行。单纯形噪声是由 Ken Perlin 自己制作的,它应该取代他的旧算法,该算法对于更高的维度来说速度较慢,但质量更好(
我终于设法为 Love 2D 编写了 Perlin 改进噪音的工作 Lua 版本。但是,当我运行它时,我得到了这个: 我想这很好。但我想要看起来更像这样的东西: 我怎样才能做到这一点? 最佳答案 第一
我终于设法为 Love 2D 编写了 Perlin 改进噪音的工作 Lua 版本。但是,当我运行它时,我得到了这个: 我想这很好。但我想要看起来更像这样的东西: 我怎样才能做到这一点? 最佳答案 第一
我正在尝试处理我从采样源数据行(Java Sound API)获得的字节数组。如果我将字节数组与小数相乘,播放流时会产生噪音。 在播放声音之前,我将立体声 wav 文件分成左右声道。这很好用。但是,如
对于我正在进行的元胞自动机项目,我需要使用不同的算法和技术随机生成二维 boolean 数组。目前,我在应用程序中只有一种随机化类型——循环遍历数组中的每个单元格并生成一个随机 double 变量,然
我叫 Chris,正在开发我的第一个 Java 游戏。到目前为止,我已经创建了一个基于图 block 的 2D 游戏,但是我的关卡是以这样一种方式完成的,如果我创建一个图像并且它全是绿色,那么绿色就代
block 之间的平滑 所以我一直在开发一个统一的游戏,想将我的世界从 150x150 的 map 扩展到一个看似无限的程序世界。我的计划是以Perlin Noise为基础,使用0-1的不同值来判断地
(此程序的依赖项:vector --any 和 JuicyPixels >= 2 。代码可用作 Gist。) {-# LANGUAGE Haskell2010 #-} {-# LANGUAGE Ban
我最近用 C# 编写了 Diamond-Square 过程生成算法的实现。但是,生成的噪声在所处理的“正方形”之间具有非常明显的边界。伪代码看起来像这样 gen() { This takes
我已经尝试了所有方法并阅读了我在互联网上看到的关于 Perlin Noise 或 Simplex Noise 的每一个链接,甚至剖析了一些我认为工作正常的 Javascript 示例。 但我仍然得到看
我在任何方面都不精通视频压缩,但目前正在从事一个使用 H.264 压缩残差图像的项目 我的问题更多是关于视频编码器的一般性问题。据我了解(正如维基百科所解释的那样), block 运动补偿编码器将当前
我是一名优秀的程序员,十分优秀!