gpt4 book ai didi

machine-learning - 距离测量度量对 K 最近邻维数灾难的影响?

转载 作者:行者123 更新时间:2023-11-30 09:38:15 31 4
gpt4 key购买 nike

我知道 Knn 在处理高维数据时存在一个问题,知道“维数诅咒”,其理由是它在计算距离时包含所有特征,即欧几里德距离,其中不重要的特征充当噪声并使结果产生偏差。我不明白一些事情

1)余弦距离度量将如何受到维数灾难问题的影响,即我们将余弦距离定义为 cosDistance = 1- cosSimilarity,其中 cosSimilarity 有利于高维数据,那么余弦距离如何受到维数灾难问题的影响?

2)我们可以为 weka 中的特征分配任何权重,或者我可以将特征选择本地应用于 KNN 吗?本地到 knn 意味着我编写自己的 K-NN 类,在分类中我首先将训练实例转换为较低维度,然后计算测试实例邻居?

最佳答案

余弦与欧几里得距离没有本质区别。

事实上,证明在欧几里德长度为 1 的归一化数据上,余弦和欧几里德距离相同是微不足道的。换句话说,Cosine 正在计算 L2 归一化向量上的欧几里得距离...

因此,余弦对于维数灾难的鲁棒性并不比欧几里得距离更强。然而,余弦很受欢迎,例如具有高表观维度(通常为数千维)的文本数据,但内在维度必须低得多。另外,它主要用于排名;实际距离值将被忽略。

关于machine-learning - 距离测量度量对 K 最近邻维数灾难的影响?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21598927/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com