- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在使用元启发式算法的聚类分析论文中,许多都优化了均方量化误差 (MSE)。例如在 [1]和 [2] .
我对结果感到困惑。他们告诉他们已经使用 MSE 作为目标函数。但是他们已经报告了欧几里德距离的簇内总和的结果值。
K-Means 最小化簇内平方和 (WCSS)(来自 wiki)[3] .当计算 MSE 时,在差异度量的情况下使用欧氏距离时,我找不到 WCSS 和 MSE 之间的区别。
在 K-Means 的情况下,WCSS 被最小化,如果我们将相同的 MSE 函数与元启发式算法一起使用,它们也会将其最小化。在这种情况下,K 均值和其他均值的欧氏距离之和如何变化?
如果我优化欧氏距离的簇内和,我可以重现论文中显示的结果。
我想我在这里做错了什么。谁能帮我解决这个问题。
最佳答案
K-means 优化(集群内的总和)平方和,也就是方差,也就是欧氏距离平方和。
如果你研究收敛性证明就很容易看出这一点。
我无法研究您引用的两篇论文。他们与蹩脚的 Elsevier 合作并且有付费专区,我不会支付 36 美元 + 32 美元来回答你的问题。
更新:我设法获得了其中一个的免费副本。他们称之为“MSE,均方量化误差”,但他们的方程是通常的簇内平方和,不涉及均值;这句话附有一个可疑的自引,一半的引用文献是自引……似乎是这个作者更喜欢称它为与其他人不同的东西。对我来说,这有点像“用不同的名字重新发明轮子”。我会仔细检查他们的结果。我并不是说它们是假的,我还没有更详细地检查过。但是“均方误差”肯定不涉及均值;它是误差平方和。
更新:如果“簇内总和”是指任意两个对象的成对距离之和,请考虑以下内容:
在不失一般性的情况下,移动数据,使均值为 0。(平移不会改变欧氏距离或平方欧氏距离)。
sum_x sum_y sum_i (x_i-y_i)^2
= sum_x sum_y [ sum_i (x_i)^2 + sum_i (y_i)^2 - 2 sum_i (x_i*y_i) ]
= n * sum_x sum_i (x_i)^2 + n * sum_y sum_i (y_i)
- 2 * sum_i [sum_x x_i * sum_y y_i]
前两个加数是相同的。所以我们有 2n
倍的 WCSS。但是由于 mu_i = 0
,sum_x x_i = sum_y y_i = 0
,第三项消失了。
如果我没有搞砸这个计算,那么簇内的均值、非对称成对平方欧氏距离与 WCSS 相同。
关于optimization - 哪个目标是优化的簇内距离总和或 MSE?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28785458/
我正在寻找 GradientBoostingClassifier在 sklearn .然后,我发现有 3 种标准。弗里德曼 mse,mse,mae。sklearn提供的描述是: The functio
我正在训练一个在最后一层具有连续输出的卷积网络。最后一层有 4 个节点。我使用均方误差作为损失函数。作为检查,我使用了 Tensorflow 的均方误差。对于第一个纪元的第一批,这只给出了相同的结果。
起因 我有个网站A【蓝色服务】,要对网站A进行改版【绿色服务】,其中用户中心已经改完了,希望当用户访问时,如果http请求头中包含isGroup,并且isGroup=1时,去新的绿色服务,反之就还是
我有 2 个张量 .size的 torch.Size([2272, 161]) .我想得到它们之间的均方误差。但是,我希望它沿着 161 个 channel 中的每一个,以便我的误差张量具有 .siz
在使用元启发式算法的聚类分析论文中,许多都优化了均方量化误差 (MSE)。例如在 [1]和 [2] . 我对结果感到困惑。他们告诉他们已经使用 MSE 作为目标函数。但是他们已经报告了欧几里德距离的簇
假设有两个张量列表: r1 = K.variable(1) r2 = K.variable(2) v1 = K.variable(3) v2 = K.variable(4) l1 = [r1,r2]
我是随机森林新手,我有一个关于回归的问题。我正在使用 R 包 randomForests 来计算 RF 模型。 我的最终目标是选择对预测连续性状很重要的变量集,因此我正在计算一个模型,然后删除准确度平
有人能指出这个项目 ( Managed Service Engine ) 是否已被放弃吗? 我需要决定是否将其用作我的企业服务虚拟化计划的一部分。我目前看到来自 Microsoft 的许多竞争解决方案
我正在训练一个 keras 模型,它的最后一层是单个 sigmoid单元: output = Dense(units=1, activation='sigmoid') 我正在用一些训练数据训练这个模型
我试图从我抓取的数据集中预测一些价格。我从未为此使用过 Python(我通常使用 tidyverse ,但这次我想探索 pipeline 。 所以这是代码片段: import pandas as pd
我正在使用 scikit learn 创建回归模型。现在我想知道如何评估均方误差是否合理或不好? 例如,当我进行交叉验证时,训练数据模型的测试数据的 MSE 为 0.70。分数合理还是不好? 计算模型
我试图显示使用getUserMedia从网络摄像头获取的MediaStream,并使用可能的播放机制将其中继到远程对等设备(作为实验)。我不是直接使用webRTC,因为我想控制原始数据。 我遇到的问题
我正在使用 scikit learn 创建回归模型。现在我想知道如何评估均方误差是否合理或不好? 例如,当我进行交叉验证时,训练数据模型的测试数据的 MSE 为 0.70。分数合理还是不好? 计算模型
我不确定这是否是问这个问题的正确地方,但是在哪里可以找到有关如何计算两个图像的 MSE 的分步指南? 我知道公式是什么,但不知道如何付诸实践。 最佳答案 在 C 语言中你可能会这样做: int sum
我正在构建一个使用 MSE 作为误差函数的卷积自动编码器。图像的 MSE 是如何定义的?如果图像以简单矩阵形式呈现,MSE 是否只是各个行列式之差的平方?或者是矩阵之差的行列式的平方? 最佳答案 计算
我得到了不同的 mse 结果。在训练过程中,我在最后一个训练周期后得到 0.296,当我评估我的模型时,我得到 0.112。有谁知道为什么会这样吗? 这是代码: model = Sequential(
假设您有一个代表自动编码器 (AE) 的网络。假设它有 90 个输入/输出。我想用大小为 100 的批处理对其进行批量训练。我将用 x 表示我的输入,用 y 表示我的输出。 现在,我想使用 MSE 来
我正在使用 Scikit-learn 库进行线性回归。一切都简单明了。只需 6 行代码,我就可以完成这项工作。不过,我想知道到底发生了什么。 由于我是机器学习的初学者,也许我的问题是错误的,但我想知道
训练期间 MSE 是否有可能增加? 我目前正在计算每个时期验证集的 MSE,在某个点,MSE 开始增加而不是减少。有人对这种行为有解释吗? 最佳答案 回答您的问题:是的,有可能。 如果您使用正则化或随
我的特征向量大小为 1x4098。每个特征向量对应一个 float (温度)。在训练中,我有 10,000 个样本。因此,我的训练集大小为 10000x4098,标签为 10000x1。我想使用线性回
我是一名优秀的程序员,十分优秀!