python - Keras fit_generator 与 pandas 迭代器对象-6ren

python - Keras fit_generator 与 pandas 迭代器对象

转载作者：太空宇宙更新时间：2023-11-03 11:19:00

25

4

我的 csv 太大而无法一次读入内存，所以我想将它分块并用它一 block 一 block 地拟合 keras 模型。我想我误解了 fit_generator 函数是如何工作的，因为我不断收到 StopIteration 错误，即使 chunksize 和 steps_per_epoch 正确说明了多少行在我的 csv 中。

代码:

import pandas as pd
import numpy as np
from keras.models import Sequential
from keras.layers import Dense, Dropout

np.random.seed(26)
x_train_generator = pd.read_csv('X_train.csv', header=None, chunksize=150000)
y_train_generator = pd.read_csv('Y_train.csv', header=None, chunksize=150000)
x_test_generator = pd.read_csv('X_test.csv', header=None, chunksize=50000)
y_test_generator = pd.read_csv('Y_test.csv', header=None, chunksize=50000)

model = Sequential()
model.add(Dense(500, input_dim=1132, activation='tanh'))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', metrics=['accuracy'],
              optimizer='adam')

model.fit_generator((x_train_generator.get_chunk().as_matrix(),
                     y_train_generator.get_chunk().as_matrix()),
          steps_per_epoch=37,
          epochs=1,
          verbose=2,
          validation_data=(x_test_generator.get_chunk().as_matrix(),
                           y_test_generator.get_chunk().as_matrix()),
          validation_steps=37
            )

错误输出:

Exception in thread Thread-107:                                                                                                                                                                             
Traceback (most recent call last):                                                                                                                                                                          
  File "/usr/lib/python2.7/threading.py", line 801, in __bootstrap_inner                                                                                                                                    
    self.run()                                                                                                                                                                                              
  File "/usr/lib/python2.7/threading.py", line 754, in run                                                                                                                                                  
    self.__target(*self.__args, **self.__kwargs)
  File "/home/user/myenv/local/lib/python2.7/site-packages/keras/utils/data_utils.py", line 568, in data_generator_task
    generator_output = next(self._generator)
TypeError: tuple object is not an iterator

---------------------------------------------------------------------------
StopIteration                             Traceback (most recent call last)
/home/user/tmp_keras.py in <module>()
     22           verbose=2,
     23           validation_data=(x_test_generator.get_chunk().as_matrix(), y_test_generator.get_chunk().as_matrix()),
---> 24           validation_steps=37
     25                 )
     26

/home/user/myenv/local/lib/python2.7/site-packages/keras/legacy/interfaces.pyc in wrapper(*args, **kwargs)
     85                 warnings.warn('Update your `' + object_name +
     86                               '` call to the Keras 2 API: ' + signature, stacklevel=2)
---> 87             return func(*args, **kwargs)
     88         wrapper._original_function = func
     89         return wrapper

/home/user/myenv/local/lib/python2.7/site-packages/keras/models.pyc in fit_generator(self, generator, steps_per_epoch, epochs, verbose, callbacks, validation_data, validation_steps, class_weight, max_$ueue_size, workers, use_multiprocessing, initial_epoch)
   1119                                         workers=workers,
   1120                                         use_multiprocessing=use_multiprocessing,
-> 1121                                         initial_epoch=initial_epoch)
   1122
   1123     @interfaces.legacy_generator_methods_support

/home/user/myenv/local/lib/python2.7/site-packages/keras/legacy/interfaces.pyc in wrapper(*args, **kwargs)
     85                 warnings.warn('Update your `' + object_name +
     86                               '` call to the Keras 2 API: ' + signature, stacklevel=2)
---> 87             return func(*args, **kwargs)
     88         wrapper._original_function = func
     89         return wrapper

/home/user/myenv/local/lib/python2.7/site-packages/keras/engine/training.pyc in fit_generator(self, generator, steps_per_epoch, epochs, verbose, callbacks, validation_data, validation_steps, class_weig
ht, max_queue_size, workers, use_multiprocessing, shuffle, initial_epoch)
   2009                 batch_index = 0
   2010                 while steps_done < steps_per_epoch:
-> 2011                     generator_output = next(output_generator)
   2012
   2013                     if not hasattr(generator_output, '__len__'):

StopIteration:

奇怪的是，如果我将 fit_generator() 包装在 while 1: try: ... except StopIteration: 中，它会成功运行。

我试过在没有 get_chunk().as_matrix() 函数的 fit_generator 参数中使用 x/y_train_generator 但它失败了，因为我没有传递 keras a numpy 数组。

最佳答案

如评论中所述，您的问题是 Pandas .get_chunk() 返回一个迭代器，这是调用 .as_matrix() 方法的对象(并且这不是您想要发生的事情 - 您希望 .get_chunk() 返回的迭代器首先转换为 DataFrame，然后是 .as_matrix() 被调用)。

要重构您的代码，您需要一个循环，并且您需要在循环内更新您的模型。我有两个建议给你:

(最简单) 重新构造上面的程序:在调用 .as_matrix() 之前，将 Pandas 中的每个 block 作为 DataFrame 进行循环它。这样，您实际上是为您的 X_train、y_train、X_test、y_test 数据获取一个具体的 DataFrame，而不是一个IO迭代器。然后，您可以使用新的数据 block 更新经过训练的模型。 (如果您已经有一个经过训练的模型，并且您再次调用 .fit()，它将更新现有模型。)

(使用 Keras 功能而不是 Pandas 功能)利用内置的 Keras 实用程序读取大型数据集 - 具体来说，一个名为 HDF5Matrix (link to Keras documentation) 的 Keras 实用程序以 block 的形式从 HDF5 文件中读取数据，并且该数据将被透明地视为 Numpy 数组。像这样:

def load_data(path_todata, start_ix, n_samples):
    """
    This works for loading testing or training data.
    This assumes input data have been named "inputs",
    output data have been named "outputs" in HDF5 file,
    and that you are grabbing n_samples from the file.
    """
    X = HDF5Matrix(path_to_training_data, 'inputs', start_ix, start_ix + n_samples)
    y = HDF5Matrix(path_to_training_data, 'outputs', start_ix, start_ix + n_samples)
    return (X,y)

X_train, y_train = load_data(path_to_training_h5, train_start_ix, n_training_samples)
X_test,  y_test  = load_data(path_to_testing_h5, testing_start_ix, n_testing_samples)

与解决方案 #1 一样，这将在一个总体 for 循环中构建，该循环在每次迭代中更新 start_ix 和 n_samples每次迭代中的模型。有关如何使用 HDF5Matrix 的另一个说明，请参阅 this example来自 Github 用户@jfsantos。

关于python - Keras fit_generator 与 pandas 迭代器对象，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46638219/

25

4

0

文章推荐： Android 将 textColor 值设置为全局

文章推荐： c# - Telerik RadGrid - 以编程方式修改 FilterMenu 中的文本

文章推荐： php - INSERT INTO 表不起作用？

文章推荐： c# - 像 Wireshark Diagnostics 这样的窗口的 XAML？

java - 对象 a = 对象 b；对象 a 会发生什么？
我的一位教授给了我们一些考试练习题，其中一个问题类似于下面(伪代码): a.setColor(blue); b.setColor(red); a = b; b.setColor(purple); b
JavaScript 测试(对象 && 对象 !== "null"&& 对象 !== "undefined")
我似乎经常使用这个测试 if( object && object !== "null" && object !== "undefined" ){ doSomething(); } 在对象上，我
C#对象/对象
C# Object/object 是值类型还是引用类型？我检查过它们可以保留引用，但是这个引用不能用于更改对象。 using System; class MyClass { public s
javascript - 通过ajax发送json - 对象 - 对象
我在通过 AJAX 发送 json 时遇到问题。 var data = [{"name": "Will", "surname": "Smith", "age": "40"},{"name": "Wil
javascript - 如何获取值[对象][对象]
当我尝试访问我的 View 中的对象 {{result}} 时(我从 Express js 服务器发送该对象)，它只显示 [object][object]有谁知道如何获取 JSON 格式的值吗？这是
java - 对象...对象[] 和格式
我有不同类型的数据(可能是字符串、整数......)。这是一个简单的例子: public static void main(String[] args) { before("one"); }
javascript - 如何修复[对象，对象]
嗨，我是 json 和 javascript 的新手。我在这个网站找到了使用json数据作为表格的方法。我很好奇为什么当我尝试使用 json 数据作为表时，我得到 [Object,Object]
JavaScript [对象][对象] 调试
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
java - 对象==空或空==对象？
我听别人说 null == object 比 object == null check 例如: void m1(Object obj ) { if(null == obj) // Is thi
VBS教程：对象-Match 对象
Match 对象提供了对正则表达式匹配的只读属性的访问。说明 Match 对象只能通过 RegExp 对象的 Execute 方法来创建，该方法实际上返回了 Match 对象的集合。所有的
VBS教程：对象-Class 对象
Class 对象使用 Class 语句创建的对象。提供了对类的各种事件的访问。说明不允许显式地将一个变量声明为 Class 类型。在 VBScript 的上下文中，“类对象”一词指的是用
VBS教程：对象-Folder 对象
Folder 对象提供对文件夹所有属性的访问。说明以下代码举例说明如何获得 Folder 对象并查看它的属性： Function ShowDateCreated(f
VBS教程：对象-File 对象
File 对象提供对文件的所有属性的访问。说明以下代码举例说明如何获得一个 File 对象并查看它的属性： Function ShowDateCreated(fil
VBS教程：对象-Drive 对象
Drive 对象提供对磁盘驱动器或网络共享的属性的访问。说明以下代码举例说明如何使用 Drive 对象访问驱动器的属性： Function ShowFreeSpac
VBS教程：对象-FileSystemObject 对象
FileSystemObject 对象提供对计算机文件系统的访问。说明以下代码举例说明如何使用 FileSystemObject 对象返回一个 TextStream 对象，此对象可以被读
对象
我是 javascript OOP 的新手，我认为这是一个相对基本的问题，但我无法通过搜索网络找到任何帮助。我是否遗漏了什么，或者我只是以错误的方式解决了这个问题？这是我的示例代码: functio
对象
我可以很容易地创造出很多不同的对象。例如像这样: var myObject = { myFunction: function () { return ""; } };
对象
function Person(fname, lname) { this.fname = fname, this.lname = lname, this.getName = function()
javascript - JSON 返回(对象，对象)
任何人都可以向我解释为什么下面的代码给出 (object, Object) 吗？ (console.log(dope) 给出了它应该的内容，但在 JSON.stringify 和 JSON.parse
javascript - 返回 [对象，对象] 的工具提示
我正在尝试完成散点图 exercise来自免费代码营。然而，我现在只自己学习了 d3 几个小时，在遵循 lynda.com 的教程后，我一直在尝试确定如何在工具提示中显示特定数据。 This code

首页

博学

6Ren·AI

商城

python - Keras fit_generator 与 pandas 迭代器对象