gpt4 book ai didi

data-mining - 为什么将余弦相似度和 TF-IDF 一起使用?

转载 作者:行者123 更新时间:2023-12-04 02:52:17 25 4
gpt4 key购买 nike

TF-IDF and Cosine Similarity is a commonly used combination for text clustering. Each document is represented by vectors of TF-IDF weights.



这是我的课本上说的。

使用余弦相似度,您可以计算这些文档之间的相似度。

但为什么这些技术会一起使用呢?
优势是什么?

例如,也可以使用 Jaccard Similarity 吗?

我知道它是如何工作的,但我想知道,为什么要使用这些技术。

最佳答案

TF-IDF 是使用的权重。

余弦是使用的度量。

您可以使用不加权的余弦,但结果通常更糟。 Jaccard 适用于集合 - 如何使用权重而不将其转换为其他东西而不使其与余弦相同并不明显。

关于data-mining - 为什么将余弦相似度和 TF-IDF 一起使用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35301534/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com