- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我想处理一个 200MB 的大型 Excel (xlsx) 文件,其中包含 15 个工作表和 100 万行,每行 5 列)并根据数据创建一个 pandas 数据框。 Excel 文件的导入速度极慢(最多 10 分钟)。不幸的是,Excel 导入文件格式是强制性的(我知道 csv 更快......)。
如何加快将大型 Excel 文件导入 pandas 数据框的过程?如果可能的话,将时间缩短到 1-2 分钟左右会很棒,这样会更容易忍受。
到目前为止我尝试了什么:
选项 1 - Pandas I/O read_excel
%%timeit -r 1
import pandas as pd
import datetime
xlsx_file = pd.ExcelFile("Data.xlsx")
list_sheets = []
for sheet in xlsx_file.sheet_names:
list_sheets.append(xlsx_file.parse(sheet, header = 0, dtype={
"Sales": float,
"Client": str,
"Location": str,
"Country": str,
"Date": datetime.datetime
}).fillna(0))
output_dataframe = pd.concat(list_sheets)
10min 44s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)
选项 2 - Dask
%%timeit -r 1
import pandas as pd
import dask
import dask.dataframe as dd
from dask.delayed import delayed
excel_file = "Data.xlsx"
parts = dask.delayed(pd.read_excel)(excel_file, sheet_name=0)
output_dataframe = dd.from_delayed(parts)
10min 12s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)
选项 3 - openpyxl 和 csv
在通过 read_csv
%%timeit -r 1
import openpyxl
import csv
from openpyxl import load_workbook
wb = load_workbook(filename = "Data.xlsx", read_only=True)
list_ws = wb.sheetnames
nws = len(wb.sheetnames) #number of worksheets in workbook
# create seperate csv files from each worksheet (15 in total)
for i in range(0, nws):
ws = wb[list_ws[i]]
with open("output/%s.csv" %(list_ws[i].replace(" ","")), "w", newline="") as f:
c = csv.writer(f)
for r in ws.rows:
c.writerow([cell.value for cell in r])
9min 31s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)
我在单机 (Windows 10)、16GB RAM、8 核 (i7-8650U CPU @ 1.90GHz) 上使用 Python 3.7.3(64 位)。我在我的 IDE (Visual Studio Code) 中运行代码。
最佳答案
压缩不是瓶颈,问题是在 Python 中解析 XML 和创建新的数据结构。从您引用的速度来看,我假设这些文件非常大:有关更多详细信息,请参阅文档中有关性能的说明。 xlrd 和 openpyxl 的运行都接近底层 Python 和 C 库的极限。
从 openpyxl 2.6 开始,您在读取单元格时确实有 values_only
选项,这会加快速度。您还可以使用具有只读模式的多个进程来并行读取工作表,如果您有多个处理器,这应该会加快速度。
关于python - 如何加快导入大型 xlsx 文件的速度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55778303/
引用这个例子https://github.com/SheetJS/js-xlsx/blob/master/tests/write.js ,它在 xlsx 电子表格中没有任何单元格公式的实现我尝试使用
我在我的 angular2 应用程序中使用 xlsx-style npm 模块来动态创建 Excel。使用 xlsx-style 而不是 xlsx 模块的原因是因为我需要设置单元格的样式,而使用 xl
我正在尝试将类似 json 的数据下载为 xlsx。我用过xlsx npm 包并在线遵循了一些示例代码,但是当我尝试在 Excel 中打开该文件时,出现此错误: /* original data */
假设我有一个 excel 文件,我想使用 read.xlsx 函数将其读取到 R 中。文件由电子表格组成,我不知道电子表格的数量(大约有 200 个这样的文件,因此手动检查表格数量会很痛苦)。每个电子
我有一个包含多个工作表的 .xlsx 文件,我想将所有工作表拆分为不同的 .xlsx 文件。例如,我有一个文件 matt.xlsx,它有 5 个工作表,名称分别为 A、B、C、D、E。我想将它们分成
在我的 angular 5 应用程序中,我使用 xlsx 从 microsoft excel 文件中读取内容(老师的联系信息,如电子邮件和姓名),在 webpack 应用程序用于生产后,我发现 xls
我正在尝试使用 xlsx 将带有日期列的数据框导出到 Excel包裹。 write.xlsx() 的帮助文件说明了格式化日期列的方法。我尝试按照下面的方法进行操作,但生成的 Excel 文件没有显示正
我正在尝试使用 write.xslx 保存文件(使用 write.csv 保存时,某些行在更多列中移动,因此我正在尝试保存文件直接作为xlsx)。如果我输入这个命令: write.xlsx (
我需要在 nodejs 应用程序中编辑 XLSX 文件以创建订单表。我需要编辑的文件有特定的格式和一些公式。我尝试使用多个库,但我发现唯一一个能够读写 xlsx 文件的库是 XLSX.js . 但是当
我正在尝试使用 js-xlsx 为导出的 excel 文件设置固定的列/单元格宽度。 编辑: 这里是js-xlsx的来源:https://github.com/SheetJS/js-xlsx 最佳答案
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 想改进这个问题?将问题更新为 on-topic对于堆栈溢出。 8 个月前关闭。 Improve this
我有一个大的 .xlsx 文件,我想根据第一列将其拆分为多个文件。数据结构有点不确定,这使它复杂化了很多,而且我是 python 的新手。 基本上我需要为以“Brand1”(见下文)开头的每一行创建一
我正在尝试从一个大文件(800k 行)中获取数据并通过 lambda (AWS) 将其放入数据库中。为此,我从 S3 获取 xlsx 文件作为缓冲区并读取它。 module.exports.getSa
我对 xlsx R 包的 write.xlsx2 函数有问题。例如,请参阅下面的代码。 main_path<-"~/mydir/" read.xlsx2(paste0(main_path,"my_in
使用 R 的 xlsx 包创建 XLSX 文件时,默认情况下,带有字符串的列默认向左对齐,带有整数的列向右对齐(混合了整数和字符串的列也向左对齐)。最终,我想通过将所有列都向左对齐来标准化所有列,但是
在写入文件时找不到设置单个单元格样式的方法。不过看书没问题。尝试过 js-xlsx、xlsx-style,似乎都不行?还是我读错了 API? 如果我没看错的话,将 cell.s 设置为这样的对象就足够
我正在使用包 xlsx 版本:0.5.7 日期:2014-08-01。在 R 版本 3.0.1 (2013-05-16) 中——“Good Sport”平台:i386-w64-mingw32/i386
我正在使用此函数对数据进行排序并将数据导出到 Excel window.exportData = function () { data.sort(function(a, b){
如何使用 Node js 中的 sheetjs 的 xlsx 包在已有的 xlsx 文件中创建/添加新的工作表文件? 这是我迄今为止针对现有“todo-list.xlsx”文件的代码。 const x
我正在尝试复制 Excel 文档,但它似乎只复制第一个工作表,而不复制原始文件中的工作表名称。 我尝试复制它,当失败时,我查找了如何执行此操作,但是,问题是我不知道使用前的工作表名称是什么,也不知道有
我是一名优秀的程序员,十分优秀!