r - 用于 R 的 HDBSCAN 因大型数据集而崩溃-6ren

r - 用于 R 的 HDBSCAN 因大型数据集而崩溃

转载作者：行者123 更新时间：2023-12-04 17:37:07

24

4

我尝试将 HDBSCAN 算法应用于我的数据集(50000 个 GPS 点)。但是，每次我运行代码时，R session 都会崩溃。

这是基本信息。关于我的电脑:

processor: Intel i7 7820x 3.6 GHz
memory: 120 GB
System: 64-bit Operating system, x64-based processor

这是我的数据框 (df) 的子集:

 Hour      lon    lat
   19:49:19 -73.97868 40.76272
   03:07:49 -74.00217 40.73429
   00:53:36 -74.00869 40.73819
   16:51:35 -73.94724 40.77943
   20:12:39 -73.86382 40.76952
   13:20:07 -74.00842 40.74652
   21:52:18 -74.00845 40.72110
   02:08:07 -73.93993 40.70765
   19:47:01 -73.98917 40.72040
   18:55:11 -74.00297 40.76039
   22:30:02 -73.97443 40.74751
   15:29:26 -73.96956 40.76112
   22:44:05 -73.97282 40.75642
   07:57:17 -73.99771 40.73627
   19:33:36 -73.95992 40.77361

这是我的 HDBSCAN 代码:

cl <- hdbscan(df[,2:3], minPts = 0.01 * 50000) # I want to keep the minpt = 1% of my total number of points


plot(df[,2:3], col=cl$cluster+1, pch=20) # plot the results

我试图减少原始数据集中的点数:


df1 <- sample_n(df,45000)
cl <- hdbscan(df1[,2:3], minPts = 0.01 * 45000) 


plot(df1[,2:3], col=cl$cluster+1, pch=20)

这很好用。

我发现一旦总点数超过 50000，R 就开始崩溃。有什么解决办法吗？谢谢

最佳答案

这可能不是使用失败，而是模块中的编程失败。

看到这种大小的 32 位整数溢出是相当常见的，因为 50000² 不能存储在带符号的 32 位中。典型的截止值在 46341 左右。46342 是否有可能是第一个失败的大小？所以您可能需要重写该模块以使用 64 位计数器。当然，需要正确检测溢出。因此，您应该正确地提交错误报告，而不是在这样的问答论坛中提问。

作为解决方法，您可以尝试 Python 和 ELKI 的 HDBSCAN* 实现(如果它们的扩展性更好)。不必使用 32 位 mateixes。尽管如此，还是去报告错误吧!

关于r - 用于 R 的 HDBSCAN 因大型数据集而崩溃，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56208383/

24

4

0

文章推荐： c# - 如何在不使用 ASP.NET 的情况下在 C# 中创建 REST 服务

文章推荐： r - 将 SPSS 数据文件导入 R

文章推荐： ruby-on-rails - 如何在实际作业中引用事件的延迟作业

python - HDBSCAN 和近似预测的问题
我想使用 HDBSCAN 聚类技术来预测异常值。我已经训练了我的模型来优化参数，但是，当我对新数据应用近似预测时，我得到了原始模型中不同的集群和标签。我将在这里解释过程流程。我有一个看起来像这样的数
python - HDBSCAN Python 选择簇数
是否可以在python中选择HDBSCAN算法中的簇数？或者唯一的方法是使用输入参数，例如 alpha、min_cluster_size？谢谢更新: 这是使用 fcluster 和 hdbscan
python - 将 HDBSCAN 标签与软聚类结果进行比较
我使用 HDBSCAN 从数据集中获取软集群，如下所示: clusterer = hdbscan.HDBSCAN(min_cluster_size=10, prediction_data=True)
python - 导入后运行 hdbscan 并行错误
我正在数据上构建和拟合 hdbscan 模型，当我从文件内运行脚本时，它运行良好且快速，但是当我导入文件并从“外部”运行它时，它会进入一个奇怪的循环我不明白它是怎么开始的。我收到以下错误: Impor
r - R 中的 HDBSCAN 可视化应用文本标签而不是数字
我正在尝试通过largeVis包在R中运行HDBSCAN算法。用于集群的可视化。我在largeVis中使用gplot函数。是否可以将图中数据点的标签从整数更改为字符串？我使用的 Iris 数据集在“c
r - 用于 R 的 HDBSCAN 因大型数据集而崩溃
我尝试将 HDBSCAN 算法应用于我的数据集(50000 个 GPS 点)。但是，每次我运行代码时，R session 都会崩溃。这是基本信息。关于我的电脑: processor: Intel i
python - 我如何解决 "Failed building wheel for hdbscan "？
我尝试使用 pip install hdbscan 下载 Hdbscan ，我明白了: 错误 : hdbscan 的构建轮失败错误 : 无法为使用 PEP 517 且无法直接安装的 hdbscan
python - 如何在 Jupyter Python 3 上导入 hdbscan？
我在 Linux 操作系统中使用 conda install -c conda-forge hdbscan 安装了 hdbscan。 import hdbscan 从 python 命令行运行，但不适
python - 如何解决安装基于 pyproject.toml 的项目所需的错误 : Could not build wheels for hdbscan,
我正在尝试安装 bertopic，但出现此错误: pip install bertopic Collecting bertopic > Using cached ber
python - 错误: You must give at least one requirement to install -- when running: pip install --upgrade --no-binary hdbscan
我正在尝试在运行 Windows 10 并安装了 Python 3.6 的电脑上安装 hdbscan。我的第一次尝试失败了: (base) C:\WINDOWS\system32>pip insta
python - hdbscan 问题(ValueError : numpy. ndarray 大小已更改，可能表示二进制不兼容。预计来自 C header 的 88，来自 PyObject 的 80)
我知道以前有很多人发布过关于此的信息，但我仍然无法解决我的错误。我正在尝试导入 hdbscan 但它一直返回以下错误 -----------------------------------------

首页

博学

6Ren·AI

商城

r - 用于 R 的 HDBSCAN 因大型数据集而崩溃