python - 如何加快导入大型 xlsx 文件的速度？-6ren

python - 如何加快导入大型 xlsx 文件的速度？

转载作者：太空宇宙更新时间：2023-11-04 04:14:08

24

4

我想处理一个 200MB 的大型 Excel (xlsx) 文件，其中包含 15 个工作表和 100 万行，每行 5 列)并根据数据创建一个 pandas 数据框。 Excel 文件的导入速度极慢(最多 10 分钟)。不幸的是，Excel 导入文件格式是强制性的(我知道 csv 更快......)。

如何加快将大型 Excel 文件导入 pandas 数据框的过程？如果可能的话，将时间缩短到 1-2 分钟左右会很棒，这样会更容易忍受。

到目前为止我尝试了什么:

选项 1 - Pandas I/O read_excel

%%timeit -r 1
import pandas as pd
import datetime

xlsx_file = pd.ExcelFile("Data.xlsx")
list_sheets = []

for sheet in xlsx_file.sheet_names:
    list_sheets.append(xlsx_file.parse(sheet, header = 0, dtype={
        "Sales": float,
        "Client": str, 
        "Location": str, 
        "Country": str, 
        "Date": datetime.datetime
        }).fillna(0))

output_dataframe = pd.concat(list_sheets)

10min 44s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)

选项 2 - Dask

%%timeit -r 1
import pandas as pd
import dask
import dask.dataframe as dd
from dask.delayed import delayed

excel_file = "Data.xlsx"

parts = dask.delayed(pd.read_excel)(excel_file, sheet_name=0)
output_dataframe = dd.from_delayed(parts)

10min 12s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)

选项 3 - openpyxl 和 csv

在通过 read_csv

将 csv 文件导入 pandas 数据框之前，仅从 Excel 工作簿创建单独的 csv 文件就需要大约 10 分钟

%%timeit -r 1
import openpyxl
import csv

from openpyxl import load_workbook
wb = load_workbook(filename = "Data.xlsx", read_only=True)

list_ws = wb.sheetnames
nws = len(wb.sheetnames) #number of worksheets in workbook

# create seperate csv files from each worksheet (15 in total)
for i in range(0, nws):
    ws = wb[list_ws[i]]
    with open("output/%s.csv" %(list_ws[i].replace(" ","")), "w", newline="") as f:
        c = csv.writer(f)
        for r in ws.rows:
            c.writerow([cell.value for cell in r])

9min 31s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)

我在单机 (Windows 10)、16GB RAM、8 核 (i7-8650U CPU @ 1.90GHz) 上使用 Python 3.7.3(64 位)。我在我的 IDE (Visual Studio Code) 中运行代码。

最佳答案

压缩不是瓶颈，问题是在 Python 中解析 XML 和创建新的数据结构。从您引用的速度来看，我假设这些文件非常大:有关更多详细信息，请参阅文档中有关性能的说明。 xlrd 和 openpyxl 的运行都接近底层 Python 和 C 库的极限。

从 openpyxl 2.6 开始，您在读取单元格时确实有 values_only 选项，这会加快速度。您还可以使用具有只读模式的多个进程来并行读取工作表，如果您有多个处理器，这应该会加快速度。

关于python - 如何加快导入大型 xlsx 文件的速度？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55778303/

24

4

0

文章推荐： linux - LInux 中的 SOAP(简单对象访问协议(protocol))

文章推荐：子进程在重定向的标准输出上打印，父进程从不接收

文章推荐： linux - Linux 上多节点 hadoop 设置的 MCR 权限问题

javascript - 如何为(导出到 .xlsx)SheetJS js-xlsx : https://github. com/SheetJS/js-xlsx 的单元格数据设置公式
引用这个例子https://github.com/SheetJS/js-xlsx/blob/master/tests/write.js ，它在 xlsx 电子表格中没有任何单元格公式的实现我尝试使用
javascript - 使用模块 xlsx 样式时无法找到命名空间 XLSX
我在我的 angular2 应用程序中使用 xlsx-style npm 模块来动态创建 Excel。使用 xlsx-style 而不是 xlsx 模块的原因是因为我需要设置单元格的样式，而使用 xl
javascript - 使用 xlsx npm 包将表格数据下载为 xlsx
我正在尝试将类似 json 的数据下载为 xlsx。我用过xlsx npm 包并在线遵循了一些示例代码，但是当我尝试在 Excel 中打开该文件时，出现此错误: /* original data */
r - 从 .xlsx 中读取 .xlsx，张数未知
假设我有一个 excel 文件，我想使用 read.xlsx 函数将其读取到 R 中。文件由电子表格组成，我不知道电子表格的数量(大约有 200 个这样的文件，因此手动检查表格数量会很痛苦)。每个电子
python - 将具有多个工作表的 xlsx 文件转换为多个 xlsx 文件
我有一个包含多个工作表的 .xlsx 文件，我想将所有工作表拆分为不同的 .xlsx 文件。例如，我有一个文件 matt.xlsx，它有 5 个工作表，名称分别为 A、B、C、D、E。我想将它们分成
js-xlsx - 如何在 webpack 之后减小 xlsx 的大小
在我的 angular 5 应用程序中，我使用 xlsx 从 microsoft excel 文件中读取内容(老师的联系信息，如电子邮件和姓名)，在 webpack 应用程序用于生产后，我发现 xls
r - 在 xlsx 包的 write.xlsx 中格式化日期
我正在尝试使用 xlsx 将带有日期列的数据框导出到 Excel包裹。 write.xlsx() 的帮助文件说明了格式化日期列的方法。我尝试按照下面的方法进行操作，但生成的 Excel 文件没有显示正
java - 在 write.xlsx 中使用 xlsx 包时出错
我正在尝试使用 write.xslx 保存文件(使用 write.csv 保存时，某些行在更多列中移动，因此我正在尝试保存文件直接作为xlsx)。如果我输入这个命令: write.xlsx (
javascript - 使用 XLSX.js 编辑 xlsx 文件而不丢失格式和公式
我需要在 nodejs 应用程序中编辑 XLSX 文件以创建订单表。我需要编辑的文件有特定的格式和一些公式。我尝试使用多个库，但我发现唯一一个能够读写 xlsx 文件的库是 XLSX.js . 但是当
javascript - 使用 js-xlsx 导出 .xlsx 文件时如何设置单元格宽度
我正在尝试使用 js-xlsx 为导出的 excel 文件设置固定的列/单元格宽度。编辑: 这里是js-xlsx的来源:https://github.com/SheetJS/js-xlsx 最佳答案
xlsx - 哪些 Perl 6 模块可以读/写 XLSX 文件？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 8 个月前关闭。 Improve this
python - 使用 Python 根据第一列将 xlsx 文件拆分为其他 xlsx 文件
我有一个大的 .xlsx 文件，我想根据第一列将其拆分为多个文件。数据结构有点不确定，这使它复杂化了很多，而且我是 python 的新手。基本上我需要为以“Brand1”(见下文)开头的每一行创建一
javascript - 无法从巨大的 xlsx 文件中获取正确的表格 - 使用 NodeJS XLSX 库
我正在尝试从一个大文件(800k 行)中获取数据并通过 lambda (AWS) 将其放入数据库中。为此，我从 S3 获取 xlsx 文件作为缓冲区并读取它。 module.exports.getSa
r - write.xlsx 函数在使用文件名定义路径时出错，但 read.xlsx 没问题
我对 xlsx R 包的 write.xlsx2 函数有问题。例如，请参阅下面的代码。 main_path<-"~/mydir/" read.xlsx2(paste0(main_path,"my_in
r - 如何使用 R 的 xlsx 包对齐 XLSX 文件的单元格？
使用 R 的 xlsx 包创建 XLSX 文件时，默认情况下，带有字符串的列默认向左对齐，带有整数的列向右对齐(混合了整数和字符串的列也向左对齐)。最终，我想通过将所有列都向左对齐来标准化所有列，但是
javascript - 设置单个单元格样式 js-xlsx, xlsx-style node.js
在写入文件时找不到设置单个单元格样式的方法。不过看书没问题。尝试过 js-xlsx、xlsx-style，似乎都不行？还是我读错了 API？如果我没看错的话，将 cell.s 设置为这样的对象就足够
java - 使用 write.xlsx 将现有工作表替换为 R 包 xlsx
我正在使用包 xlsx 版本:0.5.7 日期:2014-08-01。在 R 版本 3.0.1 (2013-05-16) 中——“Good Sport”平台:i386-w64-mingw32/i386
javascript - 在 SELECT * INTO XLSX ('cities.xlsx' ,{headers :true}) FROM ? 中动态更改文件名
我正在使用此函数对数据进行排序并将数据导出到 Excel window.exportData = function () { data.sort(function(a, b){
javascript - 如何使用 Node js 中的 xlsx/sheetjs 包在现有 xlsx 文件中创建新工作表？
如何使用 Node js 中的 sheetjs 的 xlsx 包在已有的 xlsx 文件中创建/添加新的工作表文件？这是我迄今为止针对现有“todo-list.xlsx”文件的代码。 const x
python - 如何让 pandas 将 xlsx 文件(包括其工作表)复制到新的 xlsx 文件中
我正在尝试复制 Excel 文档，但它似乎只复制第一个工作表，而不复制原始文件中的工作表名称。我尝试复制它，当失败时，我查找了如何执行此操作，但是，问题是我不知道使用前的工作表名称是什么，也不知道有

首页

博学

6Ren·AI

商城

python - 如何加快导入大型 xlsx 文件的速度？