gpt4 book ai didi

python - (文本分类)处理来自不同文档的相同单词 [TFIDF]

转载 作者:行者123 更新时间:2023-11-30 09:38:13 25 4
gpt4 key购买 nike

所以我正在创建一个 python 类来计算文档中每个单词的 tfidf 权重。现在我的数据集中有 50 个文档。在这些文档中,许多单词相交,因此具有多个相同的单词特征但具有不同的 tfidf 权重。所以问题是如何将所有权重汇总为一个单独的权重?

最佳答案

首先,让我们弄清楚一些术语。术语是语料库中类似单词的单元。标记是特定文档中特定位置的术语。可以有多个标记使用同一术语。例如,在我的回答中,有许多标记使用术语“the”。但“the”只有一个术语。

我觉得你有点困惑。 TF-IDF 样式加权函数指定如何根据文档中术语的标记频率和文档中每个术语的语料库中的背景标记文档频率来计算每个术语的分数。 TF-IDF 将文档转换为术语到权重的映射。因此,文档中共享同一术语的更多标记将增加该术语的相应权重,但每个术语只有一个权重。对于在文档内共享术语的标记,没有单独的分数。

关于python - (文本分类)处理来自不同文档的相同单词 [TFIDF],我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22159351/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com