cluster-analysis - 解释 OPTICSxi 聚类的结果-6ren

cluster-analysis - 解释 OPTICSxi 聚类的结果

转载作者：行者123 更新时间：2023-12-04 08:35:22

我对检测密度变化区域中的集群感兴趣，例如城市中的用户生成数据，为此我采用了 OPTICS算法。

不像 DBSCAN ，OPTICS 算法不会产生严格的集群分区，而是产生数据库的增广排序。为了生成集群分区，我使用 OPTICSxi，这是另一种基于 OPTICS 输出生成分类的算法。很少有库能够从 OPTICS 的输出中提取集群分区，ELKI的 OPTICSxi 实现就是其中之一。

对我来说很清楚，如何解释 DBSCAN 的结果(虽然不是那么容易，设置“有意义”的全局参数)； DBSCAN 检测集群的“原型(prototype)”，以密度为特征，表示为每个区域的点数 (minpts/epsilon)。 OPTICSxi 的结果似乎更难以解释。

我有时会在 OPTICSxi 的输出中检测到两种现象，但我无法解释。一个是连接 map 部分的“尖峰”集群的出现 .我无法解释它们，因为它们似乎由很少的点组成，而且我不明白算法如何决定将它们分组在同一个集群中。它们真的代表了密度变化的“走廊”吗？查看底层数据，它看起来不像那样。您可以在下图中看到这些“尖峰”。

epsilon=1000; xi=0.05; minpts=100;

我无法解释的另一个现象是 有时会有相同层级的“重叠”集群 . OPTICSxi 基于数据库的 OPTICS 排序(例如树状图)，并且该图中没有重复的点。

由于这是一个层次聚类，我们认为较低级别的群集包含较高级别的群集，并且在构建凸包时强制执行该想法。但是，我认为没有任何理由让集群与同一层次上的其他集群相交，这在实践中意味着某些点将具有双集群“成员资格”。在下图中，我们可以看到一些具有相同层次级别 (0) 的交叉簇。

"Intersecting" clusters

最后，我想留给您的最重要的想法/问题是:我们期望在 OPTICSxi 聚类分类中看到什么？ 这个问题与参数化 OPTICSxi 的任务密切相关。

由于我几乎没有看到针对特定集群问题运行 OPTICSxi 的任何研究，因此我很难找到最佳的聚类分类是什么；即:可以提供一些有意义/有用的结果，并为 DBSCAN 聚类增加一些值(value)。为了帮助我回答这个问题，我使用不同的参数组合执行了多次 OPTICSxi，我选择了三个，我将在下面讨论。

epsilon=2000; xi=0.025; minpts=100;

在这次运行中，我使用了很大的 epsilon (2Km) 值；该值的含义是我们接受大型集群(最多 2 公里)；由于算法“合并”了集群，我们最终会得到一些非常大的集群，这些集群几乎肯定是低密度的。我喜欢这个输出，因为它暴露了分类的层次结构，它实际上让我想起了几次运行 DBSCAN 使用不同的参数组合(针对不同的密度)，这就是 OPTICS 所宣传的“强度”。正如前面提到的，较小的集群对应于层次尺度中的更高级别和更高的密度。

epsilon=250; xi=0.035; minpts=10

在这次运行中，我们看到大量集群，即使“对比度”参数与上一次运行相同。这主要是因为我选择了少量的 minpt，这表明我们接受点数较少的集群。由于这种情况下的 epsilon 较短，我们没有看到这些大集群占据了 map 的很大一部分。我发现这个输出没有前一个有趣，主要是因为，即使我们有一个层次结构，在同一级别上也有许多集群，而且其中许多是相交的。在解释上，我可以看到一个与前一个相似的整体“形状”，但它实际上被离散为许多容易被忽略为“噪声”的小簇。

epsilon=250; xi=0.035; minpts=100

这次运行的参数选择与上一次类似，只是 minpts 更大；结果是，我们不仅发现了更少的集群，它们的重叠也更少，而且它们大多处于同一级别。

从为 DBSCAN 增加值(value)的角度来看，我会选择参数的第一种组合，因为它提供了数据的分层图片，清楚地展示了哪些区域更密集。恕我直言，最后一个参数组合无法提供密度的全局分布的概念，因为它在整个研究区域都发现了类似的集群。我有兴趣阅读其他意见。

最佳答案

从 OPTICS 图中提取集群的问题是集群的第一个和最后一个元素。仅从情节来看，您无法(以我的理解)决定最后一个元素是否应该属于前一个集群。

考虑这样的情节

*
*        *
*        *
*       **
**************
A B C D EF G H

这可以是一个簇，其中 A 就在中间，B-E 在附近，而 F 是完全不同的簇中最近的元素。例如，数据集可能如下所示:

  *   D           *
B   A     E     F   G 
  *   C           H   *

或者，A 位于第一个簇的边缘，B-D 是簇的一部分，而 E 是一个离群元素，将间隙连接到簇 F-H。
导致这种影响的数据集可能如下所示:

  D   *                 *
*   C   B  A    E     F   G 
  E   *                 H   *

OpticsXi 以视觉方式运行。 F 是要拆分的“陡峭”点，因此 E 在每种情况下都将成为第一个集群的一部分。从字面上看，这是 OpticsXi 在不查看数据点的情况下所能做出的最佳猜测。

这很可能是导致您一直观察到的尖峰的效应。

我看到四个选项:

自己改进 OpticsXi。如果您有兴趣，我们可以讨论一些可能区分上述两种情况的启发式方法。

实现其他提取方法之一，例如拐点(但它们可能会受到相同的影响，因为它们在情节 AFAICT 中)

使用 HDBSCAN(抱歉，尚未包含在 ELKI 中，尽管我们有一个似乎可以运行的版本)- 可能在 0.7.0

对集群应用后处理。特别是按簇顺序测试前几个和最后几个点，如果要将它们包含在簇中，则将它们移至下一个，或将它们移至父簇。也许只是通过与集群的平均距离...

关于cluster-analysis - 解释 OPTICSxi 聚类的结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24369309/

文章推荐： ruby-on-rails - Rails has_one build_association 在保存前删除记录

文章推荐： XMLStarlet:MARC21 的未定义命名空间前缀

文章推荐： arrays - 如何从集合中排除草稿？液体/10

文章推荐： nested-set-model - 在嵌套集中查找最低公共(public)祖先

sentiment-analysis - Sentiment Analysis 中文 - 字典
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 9 年前。 Improve this
azure - 用于区分 Azure Analysis Services 和 SQL Server Analysis Services 的查询
查询 Analysis Services 的服务器版本信息，是否有任何明确的方法可以确定您访问的服务器是 Azure Analysis Services 托管服务还是您访问的是在 Azure 中的 V
maven - Travis CI SonarCloud错误 "Project was never analyzed. A regular analysis is required before a branch analysis"
嗨，我正在使用Travis CI for Maven应用程序在SonarCloud上自动执行代码覆盖。现在，在本地运行sonar:sonar命令在SoundCloud上提交报告，我可以通过Branc
javascript - 插件 :vite:import-analysis - Failed to parse source for import analysis because the content contains invalid JS syntax. - Vue 3
我已经将我的项目从 Vite 2.x 更新到 Vite 3.0.2，突然出现这个错误: [plugin:vite:import-analysis] Failed to parse source for
analysis - 检测过度分析
我怎么知道我是否过度分析了？过去 3 天我一直在追寻一个问题。我经历过许多设计并使用大约 3 个类得出了一个复杂的解决方案。与同事讨论后，我意识到我只需要一个方法和一个struct。我怎样才能避免成
analysis - 从不同来源识别和关联城市
我有不同的供应商，它们通过不同城市向我传递了一个 Excel，在每个城市，他们使用一些特殊的代码进行他们的操作和更多对我的业务有用的数据。问题是我对所有这些城市都一团糟: 我的数据库中有自己的城市，
analysis - 关于大O和大欧米茄的问题
我认为这可能是一个关于大 O 符号的初学者问题。举例来说，我有一个算法，它递归地分解整个列表(O(n))，然后将其重新组合在一起(O(n))。我假设这意味着效率是 O(n) + O(n)。这是否简化为
analysis - 维基百科页面浏览量分析
我一直在挑战维基百科 pageviews分析。对我来说，这是第一个拥有如此大量数据的项目，我有点迷茫。当我从链接下载文件并将其解压缩时，我可以看到它具有类似表格的结构，其中的行如下所示: 1 |
analysis - 学习如何分析项目
我刚刚偶然发现了一份为我公司的一位客户(SMB)分析项目的工作。我是一名 .Net 开发人员(5 年)，在分析软件方面经验很少(来自学校的 UML)。我们刚刚结束了与用户两周的交谈，并得到了一份很好
analysis - Web服务器日志分析工具
对于准确的 Web 日志分析工具来生成 IIS 日志报告有什么建议吗？我们使用了 WebTrends，但我认为它不准确。最佳答案要分析博客，我认为使用模拟不会出错:http://www.analo
analysis - 证明卡诺图的非最优性
在寻找专门针对 K-map 最优性的文献时，我将不胜感激。例如，我了解如何在 SOP(乘积和)表达式和 K-map 之间进行映射，以及为什么通常您希望 K-map 优化表达式更简单，因为找到了 1
analysis - 快速排序与合并排序的比较
首先，我在发布这个问题之前已经进行了搜索。我已经看过这个问题 Why is quicksort better than mergesort?但它有一些相互矛盾的答案。根据我的观察，人们说快速排序比合
analysis - 调试和分析木马
我有兴趣使用像 OllyDbg 这样的东西来检查一个可能具有类似木马特征的程序。有谁知道关于如何安全地做到这一点的任何好的教程？基本上该程序是一个视频游戏的“机器人”，但我怀疑它有后门和/或将它收
cluster-analysis - 什么时候使用k均值聚类算法？
我可以对单个属性使用 k-means 算法吗？属性和簇数有关系吗？我有一个属性的性能，我想将数据分为 3 个集群:差、中和好。是否可以用一个属性创建 3 个集群？最佳答案 K-Means 在您
static-analysis - 可达性和符号执行
现在我对符号执行(SE)和可达性分析(RA)感到困惑。据我所知，SE使用符号来执行一些代码以到达具有分支条件的每个分支。而RA可以用来求每个分支的可达性，对吧？当使用 RA 时，我们可以提取每个分支的
analysis - ActivePivot 叶级聚合和分析维度
假设我有一个 ActivePivot 多维数据集，其中的事实仅包含值和货币。假设我的多维数据集将货币作为常规维度。我们用具有多种货币的事实填充立方体。我们有一个外汇服务，它使用货币和引用货币来计算
cluster-analysis - 在Weka中以编程方式获取Xmeans集群器输出
在Weka中使用Kmeans时，可以在模型的结果输出上调用getAssignments()以获取每个给定实例的集群分配。这是一个(截断的)Jython示例: >>>import weka.cluste
cluster-analysis - 马尔可夫聚类
确切地说，我有两个问题。首先，我想知道是否有一种简单的方法来适应马尔可夫聚类算法，以便我可以提前指定最后我想要有多少个聚类。如果没有，您会推荐哪种类似的算法？其次应该如何处理马尔可夫世界中的重叠集群
sentiment-analysis - 情绪分析
在进行情感分析时，如何让机器理解我指的是苹果(iphone)，而不是苹果(水果)？谢谢你的建议! 最佳答案嗯，有几种方法，我会从检查大写字母开始，通常，当提到一个名字时，第一个字母是大写的。在
cluster-analysis - 哪种算法和超参数的哪种组合最适合对这些数据进行聚类？
我在学习非线性聚类算法时遇到了这个二维图。我想知道哪种聚类算法和超参数的组合可以很好地聚类这些数据。就像人类将这 5 个尖峰聚集在一起一样。我希望我的算法能够做到这一点。我尝试了 KMeans，但

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

cluster-analysis - 解释 OPTICSxi 聚类的结果