gpt4 book ai didi

python - 如何减少 Scikit-Learn Vectorizers 的内存使用量?

转载 作者:太空宇宙 更新时间:2023-11-03 12:49:03 25 4
gpt4 key购买 nike

TFIDFVectorizer 占用大量内存,矢量化 470 MB 的 100k 文档占用超过 6 GB,如果我们使用 2100 万个文档,它将无法容纳我们现有的 60 GB RAM。

所以我们选择了 HashingVectorizer,但仍然需要知道如何分布哈希向量化器。Fit 和部分拟合什么都不做,那么如何使用 Huge Corpus?

最佳答案

我强烈建议您使用 HashingVectorizer在大型数据集上拟合模型时。

HashingVectorizer 与数据无关,只有来自 vectorizer.get_params() 的参数很重要。因此(取消)pickling `HashingVectorizer 实例应该非常快。

基于词汇表的向量化器更适合对小型数据集进行探索性分析。

关于python - 如何减少 Scikit-Learn Vectorizers 的内存使用量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17536394/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com