gpt4 book ai didi

python-2.7 - 带有 HashingVectorizer 和 TfidfTransformer 的 SGDClassifier

转载 作者:行者123 更新时间:2023-12-03 09:46:41 26 4
gpt4 key购买 nike

我想了解是否可以使用 HashingVectorizer 和 TfidfTransformer 训练在线 SGDClassifier(使用 partial_fit)。简单地将它们加入管道是行不通的,因为 TfidfTransformer 是有状态的,因此会破坏在线学习过程。 This post说不可能以在线方式使用 tf-idf 但评论 this post表明它可能以某种方式成为可能:“特别是如果您使用有状态转换器作为 TfidfTransformer,您将需要对您的数据进行多次传递”。如果不将整个训练集加载到内存中,这可能吗?如果是这样,如何?如果没有,是否有其他解决方案可以在大型数据集上将 HashingVectorizer 与 tf-idf 结合使用?

最佳答案

Is that possible without loading the whole training set into memory?



TfidfTransformer需要有整个 X内存中的矩阵。您需要推出自己的 tf-idf 估计器,使用它来计算数据一次传递中的每项文档频率,然后再进行一次传递以生成 tf-idf 特征并为它们拟合分类器。

关于python-2.7 - 带有 HashingVectorizer 和 TfidfTransformer 的 SGDClassifier,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25326801/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com