gpt4 book ai didi

python - 如何使用 Scikit Learn 获取语料库中的单词/术语频率?

转载 作者:行者123 更新时间:2023-12-05 04:48:51 25 4
gpt4 key购买 nike

我有一个文档语料库,我想提取每个文档中的词频。我可以使用 CountVectorizer() 来获取每个文档的词条数,我可以使用 TfidfVectorizer() 来获取词条频率与文档频率的倒数,但似乎都没有给我词条单独的频率。我如何获得术语频率?

related question似乎问我的问题,但那里的问题和答案涉及术语计数,而不是术语频率。也许我误解了这些术语,但我的理解是术语计数是每个术语在文档中出现的整数次数,而术语频率是术语计数除以文档长度。

最佳答案

TfidfTransformer以此目的。来自文档:

Transform a count matrix to a normalized tf or tf-idf representation

因为它只转换计数矩阵,所以您需要将它与已经矢量化的矩阵结合使用,或者在之前使用 CountVectorizer:

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer


X_count = CountVectorizer().fit_transform(X_train) # use first if X_train is not vectorized
X_tf = TfidfTransformer(use_idf=False).fit_transform(X_count)

请注意,通过设置 use_idf=False,您将仅获得词频。

关于python - 如何使用 Scikit Learn 获取语料库中的单词/术语频率?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67881662/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com