gpt4 book ai didi

python - 训练文本语料库太大而无法加载到内存中

转载 作者:行者123 更新时间:2023-11-28 19:02:30 25 4
gpt4 key购买 nike

我创建了一个 2-stacked LSTM 模型,我想在最近转储的英语维基百科文章(15.1 GB 文本)上进行训练。我无法将语料库加载到文本变量中以进行词嵌入。 Keras RNN 模型通常如何在如此庞大的文本语料库上进行训练以避免内存错误?

尝试打开 15.1 GB 的文件后:

text = open('/home/connor/Desktop/wiki_en.txt').read().lower()

我收到此错误消息:

(result, consumed) = self._buffer_decode(data, self.errors, final) MemoryError

最佳答案

我在为我的深度学习项目处理同样的问题。我可以建议 2 个选项:

  1. 编辑:您应该考虑通过使用一些序列化程序库将数据转换成小的二进制片段来对数据进行批处理 (这 blog 可以帮助选择库)。由于您正在处理文本数据,因此您可以将数据拆分成有意义的小块(例如,假设数据包含不同类型的新闻,它可以作为政治、体育、健康等不同的文本文件 - 批处理)。然后您可以逐批读取创建的文本文件并适合您的模型进行训练。由于我对您的文本数据一无所知,只是想照亮道路!我刚刚删除了二进制大小写,因为这是一种错误的解决方法。

  2. Keras 有它自己的fit_generator 方法,查看here .简单地说,该方法采用一个参数,该参数是一个生成批处理并使用生成的批处理训练模型的函数。这允许在 GPU 并行处理训练过程的同时使用 CPU 生成批处理

顺便说一下,我用的是第二个,速度更快;)希望对您有所帮助。

问候

关于python - 训练文本语料库太大而无法加载到内存中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51025335/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com