scikit-learn - DBSCAN sklearn 内存问题-6ren

scikit-learn - DBSCAN sklearn 内存问题

转载作者：行者123 更新时间：2023-12-04 13:04:25

26

4

我正在尝试使用 DBSCAN sklearn 实现进行异常检测。它适用于小型数据集 (500 x 6)。但是，当我尝试使用大型数据集 (180000 x 24) 时，它会遇到内存问题。我能做些什么来克服这个问题吗？

from sklearn.cluster import DBSCAN
import pandas as pd
from sklearn.preprocessing import StandardScaler
import numpy as np

data = pd.read_csv("dataset.csv")
# Drop non-continuous variables
data.drop(["x1", "x2"], axis = 1, inplace = True)
df = data

data = df.as_matrix().astype("float32", copy = False)

stscaler = StandardScaler().fit(data)
data = stscaler.transform(data)

print "Dataset size:", df.shape

dbsc = DBSCAN(eps = 3, min_samples = 30).fit(data)

labels = dbsc.labels_
core_samples = np.zeros_like(labels, dtype = bool)
core_samples[dbsc.core_sample_indices_] = True

# Number of clusters in labels, ignoring noise if present.
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)

print('Estimated number of clusters: %d' % n_clusters_)

df['Labels'] = labels.tolist()

#print df.head(10)

print "Number of anomalies:", -1 * (df[df.Labels < 0]['Labels'].sum())

最佳答案

根据您要解决的问题类型，可以在 DBSCAN 构造函数中使用此参数:
leaf_size :int，可选(默认 = 30)
叶大小传递给 BallTree 或 cKDTree。这会影响构建和查询的速度，以及存储树所需的内存。最佳值取决于问题的性质。

如果这不适合您的需求，这个问题已经得到解决 here ，可以尝试使用ELKI的DBSCAN实现。

关于scikit-learn - DBSCAN sklearn 内存问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39340949/

26

4

0

文章推荐： sql - 如何在具有大量记录的表中优化分组依据

文章推荐： .net - 自定义注释 Asp.Net MVC 4 的客户端验证

文章推荐： sql - 如何将一行扩展为多行结果集？

文章推荐： shell - 在嵌套的for循环中的shell脚本中运行shell脚本

python - DBSCAN 中的预计算距离矩阵
环顾四周，我发现可以将预先计算的距离矩阵传递给 SKLearn DBSCAN .不幸的是，我不知道如何通过它进行计算。假设我有一个包含 100 个元素的一维数组，其中只有节点的名称。然后我有一个 2
python - 如何通过特征重要性来解释文本聚类结果？ (DBSCAN)
有类似的questions和图书馆，如 ELI5和 LIME .但是我找不到解决我的问题的方法。我有一组文档，我正在尝试使用 scikit-learn 的 DBSCAN 对它们进行聚类。 .首先，我正
java - DBSCAN 及其索引是否应该具有相同的距离函数
是否要求DBSCAN及其索引具有相同的距离函数？如果不是，什么情况下需要使用不同的距离函数？ Scala 代码如何创建 DBSCAN 和索引: import de.lmu.ifi.dbs.elki.a
python - DBSCAN 中的替代相似性度量？
我在scikit-learn中的DBSCAN算法上测试了我的图像集 python 模块。相似度计算还有其他选择: # Compute similarities D = distance.squaref
python - 异常值检测 DBSCAN
我正在研究学校关于异常值检测的项目。我想我会创建自己的小数据集并使用 DBSCAN 来处理它。我想我会尝试创建一个关于网站上广告点击是否作弊的数据集。以下是我要创建的数据集的详细信息。数据集名称:作
r - DBSCAN 用于按位置和密度对数据进行聚类
我使用方法 dbscan::dbscan 来按位置和密度对数据进行聚类。我的数据如下所示: str(data) 'data.frame': 4872 obs. of 3 variables: $
python - DBSCAN 从图中去除噪声
使用 DBSCAN， (DBSCAN(eps=epsilon, min_samples=10, algorithm='ball_tree', metric='haversine') 我已经聚集了一个纬
python - 在轨迹上运行 DBSCAN
我正在尝试在轨迹数据集上运行 DBSCAN (sklearn.cluster)。数据集是数组(点)的数组(轨迹)的数组数据集_测试= array([[[46.37017059, 30.954216
python - DBSCAN 返回部分簇
我正在尝试在这里实现 DBSCAN 的代码:http://en.wikipedia.org/wiki/DBSCAN 我感到困惑的部分是 expandCluster(P, NeighborPts, C,
python - 具有自定义指标的 DBSCAN
我有以下内容: 一个数以千计的数据集一种计算相似度的方法，但数据点本身我无法在欧几里德空间中绘制它们我知道 DBSCAN 应该支持自定义距离度量，但我不知道如何使用它。假设我有一个函数 def
python - dbscan - 设置最大集群跨度限制
根据我对 DBSCAN 的理解，您可以指定 epsilon，例如 100 米，并且 — 因为 DBSCAN 考虑了密度可达性而不 direct density-reachability 寻找簇时——
python - DBSCAN 用于地理位置数据的聚类
我有一个包含纬度和经度对的数据框。这是我的数据框的样子。 order_lat order_long 0 19.111841 72.910729 1 19.111342 72
python - 如何找到 DBSCAN 的最佳参数？
有没有什么工具可以计算出 DBSCAN 算法的 minpts 和 eps 的最优值？目前我使用sklearn库来应用DBSCAN算法 from sklearn.cluster import DBSC
r - 集群分配有时在两个 DBSCAN 实现中有所不同
我已经在 R 中实现了 DBSCAN 算法，并且我正在将集群分配与 fpc library 的 DBSCAN 实现相匹配。 .测试是在 fpc 库 dbscan 示例中给出的合成数据上完成的: n <
python - Sklearn 中的高维 DBSCAN
这个问题已经有答案了: how to do clustering when the shape of data is (x,y,z)? (1 个回答) 已关闭 4 年前。 sklearn 中是否允许通
python - 使用 DBSCAN 聚类过程的奇怪结果
我正在从事与聚类任务相关的任务。 DBSCAN 拟合程序产生奇怪的结果，我不明白我的错误在哪里。我简化了代码，只留下了重要的部分: clusters = pd.read_csv('cl.csv') d
machine-learning - DBSCAN 的距离函数
我想使用聚类算法来找到大有向图的聚类，并且我也想从该图中消除噪声。因此，我正在考虑使用DBSCAN方法，因为我发现我们可以为算法提供一个距离函数来确定两个不同节点之间的距离/相似度。我的问题是，如何
machine-learning - DBSCAN 和边界点
据说 DBSCAN 在边界点上不一致，取决于它首先将点分配给哪个簇。当 DBSCAN 想要将边界点分配给其中一个簇时，是否有一种变体会考虑每个簇中边界点接近的点数(eps)？最佳答案在这种情况下，
python - DBSCAN sklearn 非常慢
我正在尝试对包含超过 100 万个数据点的数据集进行聚类。一列包含文本，另一列包含与其对应的数值。我面临的问题是它被卡住并且永远不会完成。我尝试过处理大约 100,000 个较小的数据集，它运行得相当
python - 在 DBSCAN 中打开并行处理
我正在尝试将多个核心与sklearn的DBSCAN一起使用，但是当我更改 n_jobs = -1 时，运行时间似乎没有变化(按照文档的建议，使用所有处理器来运行并行作业)。我错过了什么？ import

首页

博学

6Ren·AI

商城

scikit-learn - DBSCAN sklearn 内存问题