gpt4 book ai didi

python - 从 Pandas DataFrame 计算 IDF

转载 作者:行者123 更新时间:2023-11-30 09:19:33 29 4
gpt4 key购买 nike

我有一个带有术语频率 (tf) 的 DataFrame。列是单词,行是文档。这些行的总和为 1。

|   A   |   B   |  C   |
------------------------
| 0.12 | 0.18 | 0.7 |
| 0.1 | 0.8 | 0.1 |
| 0.6 | 0.4 | 0. |

使用idf(逆文档频率)对这些值进行加权的最佳/最简单方法是什么?

问题是,sklearntfidf 并不期望术语频率,而是字数统计......

最佳答案

如果将 idf 定义为:

IDF(term, Documents)= |Documents|/(1 +|documents where tf(term)>0|)

您可以使用以下方法轻松计算术语的 IDF 值:

df[df['term'] > 0] / (1 + len(df['term'])

关于python - 从 Pandas DataFrame 计算 IDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45030177/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com