gpt4 book ai didi

python - k-means 聚类中 holdout 集的目的是什么?

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:39:52 25 4
gpt4 key购买 nike

Link to the MIT problem set

这是我目前的想法——请指出我错的地方:)

我相信:阻止集的目的是挫败,对比,对于训练集 - 证明k-means 消除每一轮的错误。

为此,holdout 集在一开始就显示错误 -宁,即它不重新计算每个集群的质心位于每个集群的中心,在每个集群之后点已分配。它只是停止,错误是计算。

训练集,对于最初的 80% 的点——使用 randomPartition() 进行分区——只需通过整个 k-means 函数,并在之后返回错误那个。)

我可能错的地方:问题可能只是请求另一次 k-means 运行,但使用较小的集合。此外,计算训练集与保留集的误差的方法set 对我来说似乎是一样的。他们可能不是。另外,我听说了一些涉及特征选择的事情。

基于当前的信念,我正在考虑的当前方法:复制 k-means 函数,并修改副本以便它返回集群,初始后的 maxDistance运行。将此函数用于保留集。

最佳答案

聚类的目标是将相似的数据点分组。但是你怎么知道你分组的相似数据点是否正确分组?你如何判断你的结果?因此,您将可用数据分为 2 组:训练和坚持。

以此打个比方。

将训练集视为某些考试的练习题。您完成练习题,尽力做到最好并提高您的技能。

您可以将 holdout 设置视为实际检查。如果您在练习题(训练集)上表现出色,那么您可能会在考试(坚持集)中表现出色。

现在你知道你在练习和考试中的表现如何(当然是在尝试之后),你可以根据这些来推断你的整体表现并判断什么是好的(多少集群是好的或者数据集群有多好) ).

因此,您将对训练数据应用聚类算法,而不是对保持数据应用聚类算法,并找出聚类中心(聚类的代表)。对于 holdout 数据,您只需使用从算法中找到的聚类中心,并将数据点分配给中心最近的聚类。根据某些性能指标(您的案例中的平方距离误差)计算您在训练和坚持数据上的表现。最后在不同的 k 值上比较这些指标以获得良好的判断。还有更多内容,但为了作业的缘故,这似乎已经足够了。

在实践中,还有很多其他的方法。但其中大多数的关键思想是相同的。有一个统计社区,您可以在其中找到更多类似的问题:https://stats.stackexchange.com/

引用资料:

https://en.wikipedia.org/wiki/Cross-validation_(statistics)#Holdout_method

关于python - k-means 聚类中 holdout 集的目的是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44875369/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com