gpt4 book ai didi

python - 机器学习 : find the closest results to a queried vector

转载 作者:太空狗 更新时间:2023-10-30 02:43:34 27 4
gpt4 key购买 nike

我有数千个向量,每个向量大约有 20 个特征。

给定一个查询向量和一组潜在匹配项,我希望能够选择最佳的 N 匹配项。

我花了几天时间尝试回归(使用支持向量机),用我自己创建的数据集训练我的模型:每个向量都是查询向量和结果向量的串联,我给出一个分数(主观评价)在 0 和 1 之间,0 表示完美匹配,1 表示最差匹配。

我没有取得很好的成绩,我相信一个原因可能是很难主观地分配这些分数。另一方面,更容易的是对结果进行主观排名(score 是一个未知函数):

score(query, resultA) > score(query, resultB) > score(query, resultC)

所以我认为这更多是 Learning to rank 的问题我找到了 Python 的各种链接:

但我一直无法理解它是如何工作的。我真的对所有术语感到困惑,成对排名,等等……(请注意,我对机器学习一无所知,因此我感觉有点迷茫),等等……所以我不不明白如何将其应用于我的问题。

有人可以帮我澄清一下,指出我要解决的问题的确切类别,甚至更好地说明我如何在 Python (scikit-learn) 中实现它吗?

最佳答案

在我看来,您要做的是简单地计算查询与其余数据之间的距离,然后将最接近的 N 个向量返回到您的查询。这是一个搜索问题。没有排序,您只需测量查询与“数千个向量”之间的距离。最后,您对距离进行排序并取最小的 N 个值。这些对应于与您的查询最相似的 N 个向量。

为了提高比较效率,您可以使用 KD 树或其他高效搜索结构:http://scikit-learn.org/stable/modules/neighbors.html#kd-tree

然后,看看关于 Lp 空间的维基百科页面。在选择合适的指标之前,您需要考虑数据及其表示形式:

  1. 您使用的数据类型是什么?它来自哪里,代表什么?特征空间是仅由实数组成,还是包含二进制值、分类值或所有这些值?同类数据与异构数据的 Wiki。

对于实值特征空间,欧几里德距离 (L2) 通常是使用的选择指标,20 个特征应该没问题。从这个开始。否则,您可能需要考虑城市街区距离 (L1) 或其他指标,例如 Pearson 相关性、余弦距离等。在执行其他任何操作之前,您可能必须对数据进行一些工程设计。

  1. 特征是否在同一尺度上?例如x1 = [0,1], x2 = [0, 100]

如果不是,请尝试缩放您的功能。这通常是一个反复试验的问题,因为某些特征可能有噪声,在这种情况下缩放可能无济于事。为了解释这一点,请考虑一个具有两个特征的数据集:高度和体重。如果高度以厘米 (10^3)​​ 为单位,体重以千克 (10^1) 为单位,那么您应该将厘米转换为米,以便两个特征的重量相等。对于具有广泛值的特征空间来说,这通常是个好主意,这意味着您有两个特征的大量值样本。理想情况下,您希望所有特征都呈正态分布,只有一点点噪声 - 请参阅中心极限定理。

  1. 所有功能都相关吗?

如果您使用的是真正有值(value)的数据,您可以使用主成分分析 (PCA) 对特征进行排序并仅保留相关的特征。否则,您可以尝试特征选择 http://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_selection减少空间的维度可以提高性能,尽管这对您的情况并不重要。


如果您的数据由连续的、分类的和二进制的值组成,则旨在缩放或标准化数据。使用您对数据的了解来提出适当的表示。这是大部分工作,或多或少是一种魔法。反复试验。

附带说明一下,基于度量的方法(例如 knn 和 kmeans)只是存储数据。学习从内存结束的地方开始。

关于python - 机器学习 : find the closest results to a queried vector,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32934119/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com