gpt4 book ai didi

python - 使用 Science-Kit 对文档(i.n.,文本)执行欧氏距离测量

转载 作者:太空宇宙 更新时间:2023-11-04 03:59:01 25 4
gpt4 key购买 nike

我是机器学习的新手。经过大量研究,我决定尽可能多地使用 Sci-Kit Learn。但我仍然处于第一位。

我想做的是对我的文档执行欧氏距离测量。我正在使用 NLTK 准备文本和 Sci-Kit 到 extract document features .我现在想做的是测量文档的欧氏距离。

这里是 Sci-Kit's documentation for euclidean distance measurement .我(新手)不清楚我应该将哪些功能传递给函数(即 euclidean_distances())。谁能告诉我传递 Sci-Kit 的欧氏距离函数需要什么??

感谢您的帮助。

最佳答案

只需将矢量化器的 fit_transform 方法的输出提供给它。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import euclidean_distances

v = TfidfVectorizer()
X = v.fit_transform(your_documents)
D = euclidean_distances(X)

现在 D[i, j] 是文档向量 X[i]X[j] 之间的欧氏距离。

关于python - 使用 Science-Kit 对文档(i.n.,文本)执行欧氏距离测量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16704590/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com