python - HashingVectorizer 与 TfidfVectorizer 导出文件大小-6ren

python - HashingVectorizer 与 TfidfVectorizer 导出文件大小

转载作者：行者123 更新时间：2023-11-30 09:32:12

24

4

我正在使用以下内容生成模型:

from sklearn.linear_model import SGDClassifier
text_clf = OnlinePipeline([('vect', HashingVectorizer()),
 ('clf-svm', SGDClassifier(loss='log', penalty='l2', alpha=1e-3, max_iter=5, random_state=None)),
])

当我使用以下命令导出此模型时:

from sklearn.externals import joblib
joblib.dump(text_clf, 'text_clf.joblib')

我的text_clf.joblib是45MB。当我用 TfidfVectorizer() 替换 HashingVectorizer() 并重新导出时，我的模型为 9kb。

为什么会有这样的文件差异，是否有办法减少 HashingVectorizer 导出的大小。

最佳答案

HashingVectorizer 是无状态的，因此不会在内存中保留任何内容。它是从 HashingVectorizer 传递到 SGDClassifier 的特征数量。

默认情况下 number of features calculated from the data is

n_features=1048576

因此，SGDClassifier 必须为所有这些功能保存 coef_、intercept_ 等变量。如果你的问题是多类别的，这个数字还会增加。对于大于 2 的类，存储空间将按类数倍增加。

需要有关 TfidfVectorizer 功能的更多详细信息。在大小仅为 9kb 的情况下，TfidfVectorizer.vocabulary_ 的大小是多少？您可以通过以下方式访问它:

len(text_clf.named_steps['vect'].vocabulary_)

关于python - HashingVectorizer 与 TfidfVectorizer 导出文件大小，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53520686/

24

4

0

文章推荐： javascript - 在 KendoUI MVC ComboBox 上覆盖 'Request Start'

文章推荐： javascript - 执行异步/等待时出现意外标识符(节点 : 8. 1.4)

文章推荐： python - 我无法使用 fastai.text 中的 pretrained_model=URLs.WT103

python - 使用来自 sklearn.feature_extraction.text.TfidfVectorizer 的 TfidfVectorizer 计算 IDF
我认为函数 TfidfVectorizer 没有正确计算 IDF 因子。例如，从 tf-idf feature weights using sklearn.feature_extraction.tex
python - 带有生成器的大型语料库上的 TfidfVectorizer
我将大型语料库拆分为 5K 个文件，我正在尝试使用 TF-IDF 转换生成基于 IDF 的词汇表。这是代码:基本上我有一个迭代器，它循环遍历 .tsv 文件的目录，读取每个文件并产生。 import
python - Tfidfvectorizer - 从变换中获取具有权重的特征
假设我用于单个文档 text="bla agao haa" singleTFIDF = TfidfVectorizer(analyzer='char_wb', ngram_range= (4,6),p
python - TfidfVectorizer 数据类型不匹配
我尝试在语料库上使用 TfidfVectorizer，但每次都会出现此错误 File "sparsefuncs.pyx", line 117, in sklearn.utils.sparsefuncs
python - tfidfvectorizer 根据所有单词打印结果
虽然有六个不同的词。结果只打印了5个字。如何根据所有单词(6列向量)获得结果？ from sklearn.feature_extraction.text import TfidfVectorizer
python - TfidfVectorizer 是否隐式地对大型数据集的拟合输出进行阈值处理？
我正在尝试使用 sklearn 的 TfidfVectorizer 输出由两个一元组组成的输入列表的 tf-idf 分数和二元组。这是我正在做的事情的本质: comprehensive_ngrams
python - 将提取的向量加载到 TfidfVectorizer
我正在寻找一种方法来加载我之前使用 scikit-learn 的 TfidfVectorizer 生成的向量。总的来说，我希望更好地了解 TfidfVectorizer 的数据持久性。例如，到目前为
python - TfIdfVectorizer 未正确标记
就我而言，不存在这样的问题。我正在 Kaggle 中从事 NLP 和情感分析项目，首先我正在准备我的数据。数据框是一个文本列，后跟 0 到 9 之间的数字，用于对行(文档)所属的簇进行分类。我在 sk
python - tfidfvectorizer 在保存的分类器中预测
我使用 TfIdfVectorizer 和 MultinomialNB 训练了我的模型，并将其保存到 pickle 文件中。现在我正尝试使用另一个文件中的分类器来预测看不见的数据，我不能这样做，因为
python - 在列表字典上使用 TfidfVectorizer
我有一个大型语料库，存储为 25 个列表的字典，我想使用 SKLearn 的 TfidfVectorizer 进行分析。每个列表包含许多字符串。现在，我既关心整个语料库中的总体词频 (tf)，也关心
python - `TfidfVectorizer` 以何种方式处理个位数？
我对 skelearn 的 TfidfVectorizer 在我不知道的情况下到底做了什么感到有点困惑。我有这样的句子: sentence_1 = 'Sum: 1 Mean: 1 Min:1' 但是
python - TfidfVectorizer 赋予停用词较高的权重
给出以下代码: import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer import urlli
python - TfidfVectorizer NotFittedError
我正在使用 sklearn Pipeline 和 FeatureUnion 从文本文件创建特征，我想打印出特征名称。首先，我将所有转换收集到一个列表中。 In [225]:components Ou
python - TfidfVectorizer - 归一化偏差
我想确保我了解属性 use_idf 和 sublinear_tf 在 TfidfVectorizer 对象中的作用。这几天我一直在研究这个。我正在尝试对不同长度的文档进行分类，目前使用 tf-idf
python - 了解 TfidfVectorizer 输出
我正在测试 TfidfVectorizer举个简单的例子，我想不出结果。 corpus = ["I'd like an apple", "An apple a day keeps
scikit-learn - TfidfVectorizer 如何计算测试数据的分数
在 scikit-learn TfidfVectorizer允许我们拟合训练数据，然后使用相同的向量化器来转换我们的测试数据。训练数据转换的输出是一个矩阵，表示给定文档的每个单词的 tf-idf 分
python - 在 TfidfVectorizer 中删除法语和英语中的停用词
我正在尝试删除 TfidfVectorizer 中法语和英语的停用词。到目前为止，我只成功地从英语中删除了停用词。当我尝试为 stop_words 输入法语时，收到一条错误消息，指出它不是内置的。事
python - 如何检查经过训练的词汇和 TfidfVectorizer 是否正确应用于另一个语料库？
我正在尝试在一组上训练 NLP 模型，保存词汇和模型，然后将其应用于单独的验证集。代码正在运行，但我如何确定它按我的预期工作？换句话说，我从训练集中保存了词汇和 nmodel，然后使用保存的词汇创建
python - 如何在新数据上使用 sklearn TfidfVectorizer
我有一个相当简单的 NLTK 和 sklearn 分类器(我对此完全是菜鸟)。我进行通常的导入 import pandas as pd import matplotlib.pyplot as plt
python - 从 TfidfVectorizer 获取全文
我正在绘制一组二维文本文档，我注意到一些异常值，我希望能够找出这些异常值是什么。我使用原始文本，然后使用 SKLearn 内置的 TfidfVectorizer。 vectorizer = Tfi

首页

博学

6Ren·AI

商城

python - HashingVectorizer 与 TfidfVectorizer 导出文件大小