python - 加载前 100 行 excel-6ren

python - 加载前 100 行 excel

转载作者：太空宇宙更新时间：2023-11-03 14:40:13

25

4

我有一个非常大的 excel 文件，我只想加载前 100 行。 pandas 似乎做得不好，因为在以下命令中加载大约需要 10 秒:

pd.read_excel('excel/BigFile.xlsx', nrows=100)

它似乎花费了与根本不传递 nrows 参数相同的时间。有没有办法“快速”读取 excel 文件的前 100 行？如果不是在 pandas 中，是否有其他工具可以更好地做到这一点？

最佳答案

原因

pandas 使用 xlrd引擎盖下的包，用于读取 excel 文件。 xlrd 的默认行为似乎是将整个 excel 工作簿加载到内存中，而不管最后读出的是什么数据。这可以解释为什么您在使用 pd.read_excel() 的 nrows 参数时没有注意到加载时间的减少。 .

xlrd 确实提供了 load worksheets on demand 的可能性相反，但不幸的是，如果您的所有数据都在一个非常大的 excel 工作表中(此外，此选项似乎不支持 .xlsx 文件)，这将无济于事。

解决方案

excel解析包openpyxl确实提供了 load individual excel rows on demand 的可能性(即只有需要的 excel 行被加载到内存中)。通过一些自定义代码，可以利用 openpyxl 将您的 excel 数据检索为 pandas 数据框:

import openpyxl
import pandas as pd


def read_excel(filename, nrows):
    """Read out a subset of rows from the first worksheet of an excel workbook.

    This function will not load more excel rows than necessary into memory, and is 
    therefore well suited for very large excel files.

    Parameters
    ----------
    filename : str or file-like object
        Path to excel file.
    nrows : int
        Number of rows to parse (starting at the top).

    Returns
    -------
    pd.DataFrame
        Column labels are constructed from the first row of the excel worksheet.

    """
    # Parameter `read_only=True` leads to excel rows only being loaded as-needed
    book = openpyxl.load_workbook(filename=filename, read_only=True, data_only=True)
    first_sheet = book.worksheets[0]
    rows_generator = first_sheet.values

    header_row = next(rows_generator)
    data_rows = [row for (_, row) in zip(range(nrows - 1), rows_generator)]
    return pd.DataFrame(data_rows, columns=header_row)


# USAGE EXAMPLE
dframe = read_excel('very_large_workbook.xlsx', nrows=100)

使用此代码加载 >100MB 单页 excel 工作簿的前 100 行在我的机器上仅需 <1 秒，而使用 pd.read_excel(nrows=100) 执行相同操作则需要>2 分钟。

关于python - 加载前 100 行 excel，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54012750/

25

4

0

前、后端通用的可视化逻辑编排
前一段时间写过一篇文章《实战，一个高扩展、可视化低代码前端，详实、完整》，得到了很多朋友的关注。其中的逻辑编排部分过于简略，不少朋友希望能写一些关于逻辑编排的内容，本文就详细讲述一下逻辑
java - 前/后增量运算符和数组
我正在尝试以下 Java 片段: int[] testArray={10,20,30,40}; int i= 0; testArray[i++]= testArray[i++]+1; System.o
c++ - 前/后函数调用实现
我想知道我是否可以通过某种方式在 C++ 中进行前/后函数调用。我有一个包含很多函数的包装器类，在每次调用包装器函数后，我应该调用另一个始终相同的函数。所以我不想像这样对每个函数调用 postFun
c++ - 缺少语法错误；前 *
我有一个像这样的头文件: #pragma once #include "gamestate.h" #include "ExitListener.h" class InitialGameState :
c++ - 前/后增量的左值和右值
学习左值和右值。定义是任何可以是“地址”的东西都是左值，否则就是右值。我检查了运算符的优先级，前缀和后缀增量都比“地址”运算符具有更高的优先级。对于下面的两个例子，谁能解释一下为什么第一个“&++
c++ - 前/后插入器就位
在我的学习过程中，我遇到了前后迭代器，我想知道是否有办法让它们就地创建容器元素。从文档来看，容器似乎需要实现 push_back 函数才能与 back_iterator 一起使用。但是有没有一种方法可
Java:前、后缀运算符优先级
我有两个关于 Java 中运算符优先级的类似问题。第一个: int X = 10; System.out.println(X++ * ++X * X++); //it prints 1440 根据
c++ - 前/后增量说明
请放轻松，不要对我开枪，因为我还是新手。当我运行这段代码时，我完全糊涂了，终生无法弄清楚为什么: int y = 9; cout << "++y = " << ++y << "\n--y = " <
c - 前/后增量指针
两种表达方式有区别吗: (*x)++ 和 ++(*x) 我可以看到这两个语句都替换了 *x 中 (*x+1) 的内容。但是它们之间有什么区别吗？最佳答案 (*x)++ 计算为*x的值；作为副作用，*
excel - 前 n 个值的动态可视化
我有一个如下所示的数据集: Date CONSUMER DISCR CONSUMER STAPLES ENERGY FINANCIALS HEALTH CARE
javascript - 如何验证输入的*前*两个字符是字母？
我希望检查名称字段中输入的前两个字符是否为字母 - 除此之外没有什么区别(空格、'、- 等都是公平的游戏)。这是我到目前为止所拥有的，但它不起作用。想法？谢谢! if (document.form01
javascript - 前 3 次执行中的脚本速度较慢
我制作了一个简单的脚本，为像素和所有附近的像素着色为相同的颜色 Click foto
php - 前 30 天通过一个循环
我需要编写一个循环，以下列格式输出从昨天算起的最近 30 天: 2014-02-02 2014-02-03 2014-02-04 ... 2014-03-04 我想我需要像这样使用循环: for ($
java - 前/后递增/递减和运算符顺序混淆
我正在做一些练习，但我对这个感到困惑: public static int f (int x, int y) { int b=y--; while (b>0) { if (x%2!=0
regex - 前 4 个字符的正则表达式
我需要一个 4 个字符的正则表达式。前 3 个字符必须是数字，最后 1 个字符必须是字母或数字。我形成了这个，但它不起作用 ^([0-9]{3}+(([a-zA-Z]*)|([0-9]*)))?$
php - 前 30 天通过一个循环
我需要编写一个循环，以下列格式输出从昨天算起的最近 30 天: 2014-02-02 2014-02-03 2014-02-04 ... 2014-03-04 我想我需要像这样使用循环: for ($
java - 前 1000 个质数之和
我有下面的程序，我试图找到前 1000 个素数的总和。在代码中，解决方案1和2有什么区别？为什么我不应该将 count 变量放在 if 条件之外？如果我把变量放在 if 之外，我显然没有得到我需要的答
javascript - 前 n 个匹配项的正则表达式
这个问题在这里已经有了答案: Replace First N Occurrences in the String (7 个答案) 关闭 4 年前。我有一个如下的字符串 const str = '_
c - 前 6 次迭代后出现段错误
我正在尝试测量以纳秒为单位的平均访问延迟，但在第一次迭代后我收到“段错误(核心转储)”。我错过了什么吗？我是否滥用了指针。这是导致错误的函数: #include #include #include
MySQL 前 6 个月累计总和
我有一个 SQL 问题 (MySQL)。我如何从下表创建一个新表(表名称:“well_master_prod_inj”)。我需要按井名和日期聚合数据。我希望每个井名只有一行数据以及显示以下数据的列:

首页

博学

6Ren·AI

商城

python - 加载前 100 行 excel

原因

解决方案