gpt4 book ai didi

python - 对于DBSCAN python,是否必须同时进行标准化和标准化?

转载 作者:行者123 更新时间:2023-12-02 17:17:37 25 4
gpt4 key购买 nike

对于DBSCAN实现,是否有必要将所有功能列标准化并标准化?
例如

[[ 664.      ,  703.      , 2901.069079],  
[ 632. , 717. , 2901.069079],
[ 606. , 740. , 4386.449399],
[ 635. , 751. , 4386.449399],
[ 672. , 525. , 4760.874001]]
如果我必须对此进行DBSCAN,是否必须先对其进行标准化然后再对其进行标准化?只是规范化?
此外,这些值如何决定eps的选择?

最佳答案

标准化或标准化数据可能会破坏数据集的重要属性。
一些例子:

  • 您的数据是地理坐标。纬度和经度绝对不能标准化或标准化
  • 您的数据是直方图。唯一有意义的归一化是使直方图的总和为1。切勿变换单个变量!
  • 您的数据有一个有意义的零。例如,它是一个货币值。不过,在某些域中,使用sgn(x)* sqrt(abs(x))进行转换可能会有所帮助。
  • 您的数据稀疏。永远不要标准化。 (如果没有负值,则归一化可能是“好的”。)

  • 不应该选择缩放比例,因为“总是缩放比例”;但是由于您有实际数据!选择它是因为它是对的,而不是因为它是“默认”或在某些教程中。
    如果您求助于标准化或标准化,则很可能您不了解自己的数据,也不了解如何测量距离或相似性。然后人们喜欢使用 规范化作为最后的手段来获得“某些”结果;但您永远不知道结果是否有意义。

    关于python - 对于DBSCAN python,是否必须同时进行标准化和标准化?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63929598/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com