python-2.7 - 为什么 scikit-learn 的最近邻似乎没有返回正确的余弦相似距离？-6ren

python-2.7 - 为什么 scikit-learn 的最近邻似乎没有返回正确的余弦相似距离？

转载作者：行者123 更新时间：2023-12-03 16:51:05

25

4

我正在尝试使用 scikit 的 Nearest Neighbor 实现从随机值矩阵中找到最接近给定列向量的列向量。

此代码应该找到第 21 列的最近邻居，然后检查这些邻居与第 21 列的实际余弦相似度。

from sklearn.neighbors import NearestNeighbors
import sklearn.metrics.pairwise as smp
import numpy as np

test=np.random.randint(0,5,(50,50))
nbrs = NearestNeighbors(n_neighbors=5, algorithm='auto', metric=smp.cosine_similarity).fit(test)
distances, indices = nbrs.kneighbors(test)

x=21   

for idx,d in enumerate(indices[x]):

    sim2 = smp.cosine_similarity(test[:,x],test[:,d])


    print "sklearns cosine similarity would be ", sim2
    print 'sklearns reported distance is', distances[x][idx]
    print 'sklearns if that distance was cosine, the similarity would be: ' ,1- distances[x][idx]

输出看起来像

sklearns cosine similarity would be  [[ 0.66190748]]
sklearns reported distance is 0.616586738214
sklearns if that distance was cosine, the similarity would be:  0.383413261786

所以kneighbors的输出既不是余弦距离也不是余弦相似度。是什么赋予了？

另外，顺便说一句，我认为 sklearn 的最近邻实现不是近似最近邻方法，但与我在矩阵上迭代并检查得到的结果相比，它似乎没有检测到我数据集中的实际最佳邻居第 211 列与所有其他列的相似之处。我在这里误解了一些基本的东西吗？

最佳答案

好的，问题是 NearestNeighbors 的 .fit() 方法，默认情况下假定行是样本，列是特征。在传递矩阵之前，我必须转置矩阵。

编辑:另外，另一个问题是作为度量传递的可调用对象应该是距离可调用对象，而不是相似性可调用对象。否则你会得到 K 最远的邻居:/

关于python-2.7 - 为什么 scikit-learn 的最近邻似乎没有返回正确的余弦相似距离？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23032628/

25

4

0

文章推荐： tensorflow - 将 tensorflow Defun 视为闭包

文章推荐： url-routing - 来自路由的 Symfony2 全局和可选区域设置检测

文章推荐： regex - 使用正则表达式标志修饰符搜索 Visual Studio Code？

java - 似乎 Hibernate 超出了连接限制
谁能帮我解决这个问题？我有一个 Tomcat 和简单的 JSF 应用程序:https://github.com/gooamoko/jsfbilling/ .当我在 Tomcat 上运行应用程序时，它运
testing - 似乎 Groovy 在这两种情况下的行为不同？
我有两个这样的域类，第一个是 Manager : package com.mnm class Manager { String name; static hasMany = [ pro
c - 似乎 pthread_create 无法获得正确的参数
当我运行以下代码时，打印输出似乎不正确。 void thread_Calc(int *pos) { printf("recieved %d\n", *pos); sig = -1; man
c - 似乎 printf 使我的程序出现错误
这个问题在这里已经有了答案: How to access a local variable from a different function using pointers? (10 个答案) 关闭
c# - 似乎 ConcurrentBag 不是线程安全的
我编写了一个程序，其中列表构建器方法返回 IEnumerable of string，其中包括大量字符串(100 万个项目)，我将其存储在 List of string 中，然后它将所有项目附加到中
c - 似乎 pthread_create 正在覆盖以前的线程
我正在尝试编写一个 IRC 类型的聊天客户端，它具有可以连接到服务器的客户端。我试图让它在本地 atm 上工作(使用 FIFOS 而不是套接字)。我遇到了以下我似乎无法解决的问题: 接受新的客户端连
php - 似乎 Cron 工作在停止后仍在工作
我的一个 cronjobs 每天发送一封电子邮件 35 6 * * * cd $EZPUBLISHROOT && $PHP runcronjobs.php -q 2>&1 我停止使用 cron sud
wpf - 通过分页器保存和打印 XPSDocument(似乎)会导致内容光栅化
我使用 WPF 打印路径来处理在我们的应用程序中创建的大型图表。整个图表由视觉效果组成。所谓的“DesignerPaginator”对图表进行分页(非常简单)。从这一点来说，我做了以下三件事: -
android - 似乎 ApplicationInfo.FLAG_UPDATED_SYSTEM_APP 无法正常工作
我尝试在更新之前跟踪系统应用程序并使用: public static boolean isSystemApplication(Context ctx, IContent content) {
sql - 似乎 NOT IN 降低了 Postgresql 查询的性能
我在这里附上了一个查询分析结果，https://explain.depesz.com/s/x9BN 这是查询 EXPLAIN ANALYZE SELECT branche
tomcat - 似乎 CXF 不是每次都生成 wsdl
我正在做一个 CXF(spring) 项目 (HUB)。部署后，我可以看到肥皂和休息服务列表，我通过两个地址打开它。一种是使用本地主机，第二种是使用我电脑的 ip。所以我得到了这些输出。使用本地主机
swift - 似乎 Swfit.AnyHashable 不适合使用枚举 (as!, as?, as)
这是一个 AnyHashable 不支持枚举转换的简单案例。 enum testEnum: String { case Test } let myObject: AnyHashable = t
c# - 为什么列表比较失败，如果列表(似乎)相同
我的主要目标是比较存储在数据库和 XLSX 文件中的数据。为此，我按以下方式创建了两个列表: private class ProductList { public string produc
c++ - 更新 CMake(似乎)破坏了我的程序
我从 CMake 3.6 更新到任何最新版本 (3.12.0-rc2)，现在我的一个程序无法编译。奇怪的是，错误消息显示了标准库本身中的 undefined symbol 。这是错误消息: Unde
android - 似乎 windowAnimationStyle 被忽略了，如何为自定义对话框设置动画？
我希望将我的自定义对话框动画化为从特定点出现，但我无法为对话框设置动画。该对话框是一个基本的 RelativeLayout，设置为 extends Dialog 类中的布局。正如这里的一些答案所建
php - 即使具有(似乎)正确的文件权限，上传目标文件夹似乎也不可写
我已经在这个论坛上调查过很多类似的问题，但似乎没有一个能解决我的问题。我会在底部列出我在这个论坛上看到的一些问题页面，但让我先谈谈我对这个问题的看法。我正在使用 codeigniter v 2.x
docker-compose - systemd:似乎 ExecStop 脚本在启动命令运行后立即执行
我正在尝试在 RHEL 7 上启动一个 docker-compose 项目作为 systemd 服务。这是我的 systemd 脚本 (/etc/systemd/system/wp.service):
java - 似乎

这个问题已经有答案了: "Notice: Undefined variable", "Notice: Undefined index", "Warning: Undefined array key",

docker-compose - systemd:似乎 ExecStop 脚本在启动命令运行后立即执行
我正在尝试在 RHEL 7 上启动一个 docker-compose 项目作为 systemd 服务。这是我的 systemd 脚本 (/etc/systemd/system/wp.service):
java - 似乎 JPanel 背景未在 FocusListener 中读取
此问题出现在my last question here之后。我想将每个按钮聚焦和失去焦点背景设置为主菜单(ContentPane 即 JPanel)下方的背景颜色，因此按钮看起来像选项卡。它在不同的环

首页

博学

6Ren·AI

商城

python-2.7 - 为什么 scikit-learn 的最近邻似乎没有返回正确的余弦相似距离？