gpt4 book ai didi

python - 如何计算字典列表的 tf-idf?

转载 作者:太空宇宙 更新时间:2023-11-04 03:33:42 26 4
gpt4 key购买 nike

我有一个文本列表,其中每个文本都存储为字典,其 id 作为键,文本数据作为其值。我如何计算 tf-idf对于这个数据。例如:

{1: 'This is cat', 2: 'Is this the first document?', 3: 'And the third one.'}

最佳答案

首先通过以下方式将您的字典转换为字符串列表:

    X_all = list(d.values())

将 tfIDFVectoriser 函数构建为:

    from sklearn.feature_extraction.text import TfidfVectorizer

tfv = TfidfVectorizer(min_df=3, max_features=None,
strip_accents='unicode', analyzer='word',token_pattern=r'\w{1,}',
ngram_range=(1,2), use_idf=1,smooth_idf=1,sublinear_tf=1,
stop_words = 'english')

然后您可以将模型构建为:

    X_all = tfv.transform(X_all)

其中 X_all 是文本文档列表。

关于python - 如何计算字典列表的 tf-idf?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30013097/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com