flutter - GridSearchCV如何用于群集(MeanShift或DBSCAN)？-6ren

flutter - GridSearchCV如何用于群集(MeanShift或DBSCAN)？

转载作者：行者123 更新时间：2023-12-02 03:32:52

26

4

我正在尝试使用scikit-learn将一些文本文档聚类。我正在尝试DBSCAN和MeanShift并想确定哪种超参数(例如MeanShift的bandwidth和DBSCAN的eps)最适合我正在使用的数据类型(新闻文章)。

我有一些测试数据，其中包含预先标记的簇。我一直在尝试使用scikit-learn的GridSearchCV，但不了解在这种情况下如何应用(或是否可以应用)，因为它需要拆分测试数据，但是我想在整个数据集上运行评估，并且将结果与预先标记的数据进行比较。

我一直在尝试指定一个评分函数，该函数将估算器的标签与真实标签进行比较，但是当然这是行不通的，因为仅对数据的一个样本进行了聚类，而不是所有的聚类。

这里合适的方法是什么？

最佳答案

您是否考虑过自己实现搜索？

实现for循环并不是特别困难。即使您要优化两个参数，它也仍然相当简单。

但是对于DBSCAN和MeanShift，我还是建议先了解您的相似性度量。基于对测量的理解来选择参数，而不是优化参数以匹配某些标签(具有过度拟合的高风险)，这更有意义。

换句话说，应该将两个文章聚集在哪个距离上？

如果从一个数据点到另一个数据点的距离变化太大，这些算法将严重失败。并且您可能需要查找归一化的距离函数，以使实际相似度值再次有意义。 TF-IDF是文本的标准配置，但主要是在检索上下文中。在群集环境中，它们的工作可能会更糟。

还要注意，MeanShift(类似于k均值)需要重新计算坐标-在文本数据上，这可能会产生不良结果；实际上，更新后的坐标变差了，而不是变好了。

关于flutter - GridSearchCV如何用于群集(MeanShift或DBSCAN)？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25633383/

26

4

0

文章推荐： Vagrant Chef solo 无法访问 Recipe

文章推荐： spring-batch - JSR 352 Spring Batch 与 Java EE

文章推荐： document - UIDocumentPickerViewController NewBox 应用挂起

文章推荐： svn - pycharm 不记得我的 SVN 凭据

Python MeanShift 内存错误
我在 sklearn.cluster 模块 ( here are the docs ) 中运行一个名为 MeanShift() 的聚类算法。我正在处理的对象有 310,057 个点分布在 3 维空间中
c++ - cv::meanShift 函数应包括哪些内容？
我已经包含了以下内容，但它不起作用: #include #include #include cv::meanShift 函数要包含什么？最佳答案它在 video 中模块，所以: #inclu
c++ - opencv MeanShift : which is the area interested?
关于opencv和c++中的meanShift算法的一个非常基本的问题!我不清楚在哪个区域进行搜索和相应的转换。我的意思是:我实现了一个非常基本的例子我为 meanShift 函数提供了以下 3 个参
python - 如何将我们自己的文本数据加载到 scikit 中进行 MeanShift 聚类？
我计划加载我自己的一组非结构化文本数据，如下所示: 64.242.88.10 - - [07/Mar/2004:16:05:49 -0800] "GET /twiki/bin/edit/Main/Do
c++ - OpenCV、C++:如何使用 cv::Meanshift
我有一个二维点 vector ，我正在尝试使用 meanshift 算法来检测数据中的多种模式，但我对方法签名有点困惑。 2) 如何提取多种模式，从我所看到的函数只返回一个 int 谢谢最佳答案 O
python - scikit learn (python) 中的 Meanshift 不理解数据类型
我有一个包含7265 个样本和132 个特征的数据集。我想使用 scikit learn 的meanshift 算法，但遇到了这个错误: Traceback (most recent call las

首页

博学

6Ren·AI

商城

flutter - GridSearchCV如何用于群集(MeanShift或DBSCAN)？