algorithm - 无意义 “Nearest Neighbor” 的数据集？-6ren

algorithm - 无意义 “Nearest Neighbor” 的数据集？

转载作者：塔克拉玛干更新时间：2023-11-03 03:56:45

24

4

在论文“When Is 'Nearest Neighbor' Meaningful?”中我们读到，“我们表明，在某些广泛的条件下(在数据和查询分布或工作负载方面)，随着维度的增加，到最近的距离neighbor 接近最远邻居的距离。换句话说，到不同数据点的距离对比变得不存在。条件我们已经确定发生这种情况的范围比其他工作的独立同分布 (IID) 维度假设要广泛得多假设。”

我的问题是我应该如何生成类似于这种效果的数据集？我创建了三个点，每个点有 1000 个维度，每个维度的随机数在 0-255 之间，但是点创建不同的距离并且不会重现上面提到的内容。似乎改变维度(例如 10 或 100 或 1000 维度)和范围(例如 [0,1])不会改变任何东西。我仍然有不同的距离，这应该不是任何问题，例如。聚类算法!

最佳答案

我之前也没有听说过这个，所以我有点防御，因为我 have seen that real and synthetic datasets in high dimensions真的不支持相关论文的说法。

因此，作为第一个肮脏、笨拙且可能不好的尝试，我建议在您选择的维度 (I do it like like this) 中生成一个球体，然后在中心放置一个查询球体的。

在这种情况下，每个点与查询点的距离相同，因此最近邻点的距离等于最远邻点的距离。

当然，这与维度无关，但这是在查看论文的数字后想到的。这应该足以让您大开眼界，但可以肯定的是，如果有的话，可能会生成更好的数据集。

编辑关于:

distances for each point got bigger with more dimensions!!!!

这是预料之中的，因为维度空间越高，空间越稀疏，因此距离越大。此外，这是意料之中的，例如，如果您考虑欧几里德距离，它会随着维度的增长而变大。

关于algorithm - 无意义 “Nearest Neighbor” 的数据集？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41341431/

24

4

0

文章推荐： java - 具有相互依赖变量的组合优化

文章推荐： algorithm - 复发的复杂性

文章推荐： java - JPA:AttributeConverter 的参数化实例

文章推荐： java - 考虑以下算法的更优解决方案

Python 中的函数设置全局变量(无意)
我不知道这是否是其他人遇到的问题，但我在 python 中有这样的代码: def makemove(board,move,val): new=board new[move[0]][mo
java - 如何从应用程序内使用用户的电子邮件 ID 发送电子邮件(无意)
不是重复的我想在不使用任何默认电子邮件应用程序的情况下发送电子邮件，所以我进行了一些搜索，然后偶然发现了这个使用 JavaMail API 的解决方案 - Sending Email in Andr
javascript - 使用 javascript 打开移动应用程序(如果已安装)(无意)
在网络浏览器中，我希望能够使用 java 脚本打开任何已安装的应用程序(例如 facebook、twitter 等)。我无法更新 Intent 文件，只想从 java 脚本中进行更新。有没有办法从 j

首页

博学

6Ren·AI

商城

algorithm - 无意义 “Nearest Neighbor” 的数据集？