- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用scikit-learn
将一些文本文档聚类。我正在尝试DBSCAN和MeanShift并想确定哪种超参数(例如MeanShift的bandwidth
和DBSCAN的eps
)最适合我正在使用的数据类型(新闻文章)。
我有一些测试数据,其中包含预先标记的簇。我一直在尝试使用scikit-learn
的GridSearchCV
,但不了解在这种情况下如何应用(或是否可以应用),因为它需要拆分测试数据,但是我想在整个数据集上运行评估,并且将结果与预先标记的数据进行比较。
我一直在尝试指定一个评分函数,该函数将估算器的标签与真实标签进行比较,但是当然这是行不通的,因为仅对数据的一个样本进行了聚类,而不是所有的聚类。
这里合适的方法是什么?
最佳答案
您是否考虑过自己实现搜索?
实现for循环并不是特别困难。即使您要优化两个参数,它也仍然相当简单。
但是对于DBSCAN和MeanShift,我还是建议先了解您的相似性度量。基于对测量的理解来选择参数,而不是优化参数以匹配某些标签(具有过度拟合的高风险),这更有意义。
换句话说,应该将两个文章聚集在哪个距离上?
如果从一个数据点到另一个数据点的距离变化太大,这些算法将严重失败。并且您可能需要查找归一化的距离函数,以使实际相似度值再次有意义。 TF-IDF是文本的标准配置,但主要是在检索上下文中。在群集环境中,它们的工作可能会更糟。
还要注意,MeanShift(类似于k均值)需要重新计算坐标-在文本数据上,这可能会产生不良结果;实际上,更新后的坐标变差了,而不是变好了。
关于flutter - GridSearchCV如何用于群集(MeanShift或DBSCAN)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25633383/
我在 sklearn.cluster 模块 ( here are the docs ) 中运行一个名为 MeanShift() 的聚类算法。我正在处理的对象有 310,057 个点分布在 3 维空间中
我已经包含了以下内容,但它不起作用: #include #include #include cv::meanShift 函数要包含什么? 最佳答案 它在 video 中模块,所以: #inclu
关于opencv和c++中的meanShift算法的一个非常基本的问题!我不清楚在哪个区域进行搜索和相应的转换。我的意思是:我实现了一个非常基本的例子我为 meanShift 函数提供了以下 3 个参
我计划加载我自己的一组非结构化文本数据,如下所示: 64.242.88.10 - - [07/Mar/2004:16:05:49 -0800] "GET /twiki/bin/edit/Main/Do
我有一个二维点 vector ,我正在尝试使用 meanshift 算法来检测数据中的多种模式,但我对方法签名有点困惑。 2) 如何提取多种模式,从我所看到的函数只返回一个 int 谢谢 最佳答案 O
我有一个包含7265 个样本和132 个特征的数据集。我想使用 scikit learn 的meanshift 算法,但遇到了这个错误: Traceback (most recent call las
我是一名优秀的程序员,十分优秀!