gpt4 book ai didi

statistics - 如何选择合适的距离函数

转载 作者:行者123 更新时间:2023-11-30 08:44:35 24 4
gpt4 key购买 nike

这可能是一个微不足道的问题。对于特殊的高维数据集,如何选择一个好的距离函数?我读到一些距离函数(例如欧几里得距离)在高维数据中效果不佳。如果这不能为我们提供良好的距离测量,那么什么函数可以?

最佳答案

它来自维度的诅咒,基本上是随着维度的增加,空间呈指数级地变得更加空虚。

最佳距离测量高度依赖于数据,但我建议使用较低的 p 值进行 minkowsky 距离的交叉验证

mikowsky_distance = sum_i(|u_i-v_i|^p)^(1/p)

p=1,即曼哈顿距离 (L1),在大多数高维情况下比使用欧几里得距离 (L2) 更好,而且非常容易测试。还可以尝试采用较小的值,例如 1/4,看看会发生什么。您还可以尝试使用限制 p-> -inf,即最小距离 min(|u_i-v_i|)。 p 上的较低值使得最相似的维度与不太匹配的维度相比具有更大的权重。

我建议阅读这篇论文

http://www-users.cs.umn.edu/~kumar/papers/siam_hd_snn_cluster.pdf

触及主题。

关于statistics - 如何选择合适的距离函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12157848/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com