gpt4 book ai didi

python - 异常值检测 DBSCAN

转载 作者:行者123 更新时间:2023-11-30 09:40:15 25 4
gpt4 key购买 nike

我正在研究学校关于异常值检测的项目。我想我会创建自己的小数据集并使用 DBSCAN 来处理它。我想我会尝试创建一个关于网站上广告点击是否作弊的数据集。以下是我要创建的数据集的详细信息。

数据集名称:作弊广告点击检测。

:值

来源:                               (分类)网址:0,重定向:1,搜索:2
之前访问过:                    (分类)编号:1,次数:1,粉丝:2
time_on_site(秒):      (数字)用户在离开网站之前的工作时间(以秒为单位)。
active_type:                         (分类) fake_active: 0 (就像他们只是打开网站但除了点击广告什么都不做), normal_active: 1, real_acive: 2 (也许我会让它成为活跃分数:浮点值从 0 到 10。)
作弊(标签):                       (分类)否:0,是:1

也许我还会有更多其他列,例如用户点击广告的次数,...

我的问题是你认为 DBSCAN 可以在这个数据集上很好地工作吗?如果是,您能给我一些制作出色数据集或更快创建数据集的技巧吗?如果没有,请向我推荐一些 DBSCAN 可以与主题很好地配合的其他数据集。

非常感谢。

最佳答案

DBSCAN 具有检测异常值的固有能力。因为异常点将不属于任何簇。 Wiki状态:

it groups together points that are closely packed together (points with many nearby neighbors), marking as outliers points that lie alone in low-density regions (whose nearest neighbors are too far away)

这可以使用 sklearn 的合成数据集(例如 make_moonsmake_blobs)轻松演示。 Sklearn 有一个相当不错的 demo关于这一点。

from sklearn.datasets import make_moons
x, label = make_moons(n_samples=200, noise=0.1, random_state=19)
plt.plot(x[:,0], x[:,1],'ro')

implemented前段时间学习的dbscan算法。 (该仓库已被移动)但是,正如 Anony-Mousse 所说

noise (low density) is not the same as outlier

从合成数据集中学到的直觉并不一定适用于实际的现实生活数据。因此,上述建议的数据集和实现仅用于学习目的。

关于python - 异常值检测 DBSCAN,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59257864/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com