gpt4 book ai didi

python - 具有大数据集的 DictVectorizer

转载 作者:太空宇宙 更新时间:2023-11-03 16:05:53 27 4
gpt4 key购买 nike

我有一个包含分类值的大型数据集,并尝试使用 DictVectorizer 对它们进行编码。以下是我尝试过的代码片段。

dv = DictVectorizer(sparse=True)
_dicts = []
for line in fp:
_dict = create_dict_feature(line)
_dicts.append(_dict)
dv.fit_transform(_dicts)

但是,MemoryError发生在_dicts.append(_dict)中。我想知道解决这个问题的有效方法是什么。

最佳答案

根据文档,fit_transform 可以采用迭代。如果内存问题来自列表的大小,请考虑使用生成器而不是 list,这将在迭代时一次生成一个 dict

_dicts = (create_dict_feature(line) for line in fp)
dv = DictVectorizer(sparse=True)
dv.fit_transform(_dicts)

如果 fit_transform 像以前一样累积 dictMapping ,这不会有太大帮助。

关于python - 具有大数据集的 DictVectorizer,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39803650/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com