gpt4 book ai didi

python - DBSCAN eps 和 min_samples

转载 作者:行者123 更新时间:2023-12-01 11:11:02 25 4
gpt4 key购买 nike

我一直在尝试使用 DBSCAN 来检测异常值,据我了解 DBSCAN 输出 -1 作为异常值,1 作为内联值,但是在我运行代码之后,我得到的数字不是 -1 或 1,有人可以解释为什么吗?通过反复试验找到最佳 eps 值是否正常,因为我无法找到找到最佳 eps 值的方法。

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

%matplotlib inline

from sklearn.cluster import DBSCAN



df = pd.read_csv('Final After Simple Filtering.csv',index_col=None,low_memory=True)


# Dropping columns with low feature importance
del df['AmbTemp_DegC']
del df['NacelleOrientation_Deg']
del df['MeasuredYawError']



#applying DBSCAN


DBSCAN = DBSCAN(eps = 1.8, min_samples =10,n_jobs=-1)

df['anomaly'] = DBSCAN.fit_predict(df)


np.unique(df['anomaly'],return_counts=True)

(array([  -1,    0,    1, ..., 8462, 8463, 8464]),
array([1737565, 3539278, 4455734, ..., 13, 8, 8]))

谢谢。

最佳答案

好吧,您实际上并没有真正了解 DBSCAN。

这是来自维基百科的副本:

A point p is a core point if at least minPts points are within distance ε of it (including p).

A point q is directly reachable from p if point q is within distance ε from core point p. Points are only said to be directly reachable from core points.

A point q is reachable from p if there is a path p1, ..., pn with p1 = p and pn = q, where each pi+1 is directly reachable from pi. Note that this implies that all points on the path must be core points, with the possible exception of q.

All points not reachable from any other point are outliers or noise points.

所以用更简单的话来说,这个想法是:

  • 任何在 epsilon 距离上具有 min_samples 个邻居的样本都是核心样本。

  • 任何不是核心但至少有一个核心邻居(距离小于 eps)的数据样本都是可直接到达的样本,可以添加到集群中。

  • 任何不是直接可达也不是核心,但至少有一个直接可达邻居(距离小于 eps)的数据样本是可达样本,将被添加到集群中。

  • 任何其他示例都被认为是噪声、异常值或任何您想命名的示例。(这些将被标记为 -1)

根据聚类的参数(eps 和 min_samples),您很可能拥有两个以上的聚类。您看,这就是您在聚类结果中看到 0 和 -1 以外的其他值的原因。

回答你的第二个问题

Also is it normal to find the best value of eps using trial and error,

如果你的意思是做交叉验证(在你知道集群标签的集合上,或者你可以近似正确的集群),是的,我认为这是正常的方法

PS:paper很好很全面。我强烈建议你看看。祝你好运。

关于python - DBSCAN eps 和 min_samples,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60499358/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com