python - 使用多个 Excel 工作表加速 Pandas 迭代-6ren

python - 使用多个 Excel 工作表加速 Pandas 迭代

转载作者：行者123 更新时间：2023-12-04 14:46:59

26

4

我有一个包含 1000 张纸的 excel 文件，每张纸都包含一个数据框。为了向我的模型提供这些数据，我尝试将其转换为 1000 批张量，这是我的代码:

df = pd.read_excel('file.xlsx', sheet_name=None)
file_names = list(df.keys())

columns = ['A','B','C']
features = []
labels = []
for n in file_names:
  df = pd.read_excel('file.xlsx', sheet_name=n)
  features.append(df[columns].to_numpy())
  labels.append(df['D'].to_numpy())
  
Y = tf.convert_to_tensor(np.stack(labels), dtype=tf.float32)
X = tf.convert_to_tensor(np.stack(features), dtype=tf.float32)
dataset = tf.data.Dataset.from_tensor_slices((X, Y))

我的代码工作正常，但迭代它需要一个多小时。
将来我将拥有 1000 多个批次的数据，因此拥有数千个 csv 文件似乎不是一个好主意。
我怎样才能加快这个过程？

最佳答案

您可以找回您的 file.xlsx一次，它将所有工作表读入数据框字典，然后您可以从该字典中获取工作表:

import tensorflow as tf
import pandas as pd
import numpy as np
from random import sample

### Create data
writer = pd.ExcelWriter('file.xlsx', engine='xlsxwriter')
for i in range(1000):
  df = pd.DataFrame({'A': [1, i, 1, 2, 9], 'B': [3, 4, i, 1, 4], 'C': [3, 4, 3, i, 4], 'D': [1, 2, 6, 1, 4], 'E': [0, 1, 1, 0, 1]})
  df.to_excel(writer, sheet_name='Sheet'+ str(i))

writer.save()

df = pd.read_excel('file.xlsx', sheet_name=None)
file_names = list(df.keys())

columns = ['A','B','C']
features = []
labels = []
for n in file_names:
  temp_df = df[n]
  features.append(temp_df[columns].to_numpy())
  labels.append(temp_df['D'].to_numpy())
  
Y = tf.convert_to_tensor(np.stack(labels), dtype=tf.float32)
X = tf.convert_to_tensor(np.stack(features), dtype=tf.float32)
dataset = tf.data.Dataset.from_tensor_slices((X, Y))

此外，您可以尝试创建自己的自定义数据生成器并从 Excel 文件中检索随机样本，这也应该会加快速度:

df = pd.read_excel('file.xlsx', sheet_name=None)
file_names = list(df.keys())
columns = ['A','B','C']

def generator_function(samples = 64):
    def generator():
        for n in sample(file_names, samples):
            temp_df = df[n]
            x = temp_df[columns].to_numpy()
            y = temp_df['D'].to_numpy()
            yield x, y
    return generator

gen = generator_function()
dataset = tf.data.Dataset.from_generator(
    generator=gen,
    output_types=(np.float32, np.int32), 
    output_shapes=((5, 3), (5))
)
batch_size = 16
dataset = dataset.batch(batch_size, drop_remainder=True)
dataset = dataset.prefetch(tf.data.AUTOTUNE)

关于python - 使用多个 Excel 工作表加速 Pandas 迭代，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/69839212/

26

4

0

文章推荐： liferay - 我无法在网页内容中选择类别。 (Liferay 7.4.2)

文章推荐： android - 为什么 Android 应用程序在一次启动时启动 3 次？

Clojure 工作表
我最近一直在学习 Clojure。 Clojure 世界中是否有类似 Scala 的工作表这样的东西，我可以在其中放入任何代码并在保存后立即对其进行评估？或者也许 Clojure 有类似的解决方案？
excel - 如何过滤谷歌工作表中的多个标签/工作表
有人可以帮我吗？我想知道如何过滤工作表中的多个选项卡(C1-C19)。这是我所做的: 我创建了一张表格，将所有回复存储在我的谷歌表单(事件注册表单)中。每个参与者将收到一个坦克编号，每个坦克编号根据其
macos - NSOpenPanel 工作表
这就是我将打开的面板显示为 float 窗口的方式。有人可以帮我将面板作为工作表运行吗？窗口对象是mWindow。我使用的许多标准代码都已被折旧。 NSOpenPanel *openPanel =
excel - 工作表、单元格和范围的默认范围是什么？
当您仅键入 worksheets() 时，默认范围 ActiveWorkbook 或 ThisWorkbook 是什么？对于那些不了解这些区别的人来说，它们非常重要，尤其是在 Excel 2013 中
Javascript Excel 工作表
我有一个带有一些图表的 HTML 页面。我想要做的是编写一个加载 javascript 函数，它将从 excel 表中读取值，将它们存储在变量中并在 html 页面上使用它们。我的问题是是否有任何 j
swift - 将参数传递给 SwiftUI 工作表
我需要将参数 callFrom 传递给 SwiftUI 中的工作表。奇怪的是，该参数在第一次调用时没有使用，但对以下调用有效。 import SwiftUI struct ContentView:
c# - 当工作表名称以编程方式包含空格时如何从工作表中获取 Excel 工作表
我试着 var tempSheet = wrksheets[sheetName] as Worksheet; 在哪里 wrksheets是类型表 sheetName 是“带空格的工作表名称” 如果
arrays - 将二维数组发布到 Excel 工作表
该函数用作“ Assets 类别分配”引擎(在参数范围内具有约束)并在数组的每一行上模拟投资组合模型。我尝试使用四种方法将数组发布到工作表上，但每种方法都失败了。对于 Assets A、B、C、D
c# - 更改 protected 工作表
目前，我的 excel 文件有两张表，一张名为“English”，一张名为“French”。我以编程方式打开我的工作簿并编辑我的英文表，没有任何问题。当我打开第二张工作表时，出现以下错误: The
VBA 用户窗体和模块已附加到我打开的每个 Excel 工作表
我添加了一个 VBA 表单 userform和一个模块 Module1在 Excel 中打开 Microsoft VBA 编辑器 (Alt+F11)。现在，每当我打开任何其他 Excel 时，按 A
vba - 循环浏览选定的 Excel 工作表
在单个 Excel 工作簿中，我想选择各种工作表来运行 VBA 子例程。我找到了显示如何遍历选定工作表的代码，它使用“MsgBox sh.Name”；但是，当我将代码放入其中时，它只会影响选择的最后一
python - 如何加载特定的 Excel 工作表？
我想知道是否有一个函数可以在 Excel 中加载特定于 Python 的工作表，例如，如果我有 34 张工作表只加载前 25 张工作表。通过以下行，我加载了所有工作表。 xlsx=pd.ExcelFi
excel - 如何动态选择要在公式中引用的 Excel 工作表？
我有一个名为“A”、“B”、“C”等的工作表的 xlsx。我需要形成一个名称为“A”、“B”、“C”的表作为第一列，以及来自的一些数据每个工作表中与第二列相同的单元格。例如，这可能看起来像: S
vba - 无法修改未 protected 工作表
我有一张用密码保护的工作表。当我使用 VBA 更改该表上的任何内容时，我会像这样取消保护: Private Sub Worksheet_Change(ByVal target As Range)
excel - 将对象插入 Excel 工作表
我想将 Excel 文档插入 Excel 工作表。我可以通过以下步骤手动执行此操作；插入/文本/对象/从文件创建(勾选显示为图标)/浏览。然后我选择文件并插入文档。我想通过宏来做到这一点。 (录
excel - 使用批处理文件重命名和格式化 Excel 工作表
是否可以创建批处理文件那将执行以下操作？重命名 Excel 文件中的单个工作表(不是 Excel 工作簿/文件本身) 将简单格式应用于 Excel 文件 - 例如，将字体和字体大小应用于整个工作簿
vba - 复制和粘贴 Excel 工作表
Private Sub CommandButton1_Click() Dim ws As Worksheet With Application.FileDialog(msoFileDialog
vba - 在不复制工作表的情况下引用另一个工作簿中的 Excel 工作表
我想知道是否可以在不复制该工作表的情况下引用另一本工作簿中的 Excel 工作表？情况:我有一些非常大的工作表，其中充满了各种数据，但我不想在我的工作簿中保留它们的副本，因为虽然每个工作簿都使用相同
python - 将结构化的条目字典解析为美化的 Excel 工作表
我有这个 Python 字典，我想将这个数据写入 Excel 文件。注意:有很多类别，每个类别有很多汽车(为简单起见，我使用了 2 个类别) data = {"Category": {"Diesel
vba - 自动刷新 Excel 工作表
我有一个 excel 工作簿，在工作簿中我有 2 张名为 Front Page 和 Drafting 的工作表。起草工作表引用了首页工作表中的一些值。这只是一个基本的引用我有像这样的公式:='Fro

首页

博学

6Ren·AI

商城

python - 使用多个 Excel 工作表加速 Pandas 迭代