- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有几个 Excel 文件,我想从中生成单独的数据框,这些数据框将是每个文件中工作表的任意子集的串联。
重要的是我能够对工作表进行子集化(在这里我通过索引到 sheet_names
列表来做到这一点),并且还以某种方式跟踪出处(就像我在这里使用 assign
方法)。
此代码目前有效,但我担心我缺少一些使其更高效的基本方法(当我最终得到一个包含 20 张纸的文件时)。
我已经回顾了其他几个与连接多个 CSV 或 Excel 文件有关的问题1,但是很难将这些问题归纳为一个<中的解析工作表的问题/em> 文件,关于效率。
这个问题的部分原因是我之前使用生成器连接 Excel 文件,但我很难将这些情况推广到这个情况。
import pandas as pd
import xlrd
import xlwt
def file_parser(file):
df_list = []
for x in file.sheet_names[1::]:
df = file.parse(x).assign(Source=x)
df_list.append(df)
return df_list
1 How to parse dataframes from an excel sheet with many tables (using Python, possibly Pandas)
Import multiple csv files into pandas and concatenate into one DataFrame
Pands ExcelFile.parse() reading file in as dict instead of dataframe
最佳答案
“高效”可以有不同的解释。根据您的描述(尤其是提到生成器),我猜您的意思是内存和计算效率(使用尽可能少的内存并避免对相同数据重复循环)。有了这个想法,就开始吧:
def df_gen(filename, sheet_names):
with xlrd.open_workbook(filename, on_demand=True) as xl_file:
for sheet in sheet_names:
yield pd.read_excel(
xl_file, sheetname=sheet, engine='xlrd').assign(source=sheet)
# tell xlrd to let the sheet leave memory
xl_file.unload_sheet(sheet)
这利用了 xlrd 的 "worksheets on demand"功能以避免将整个 Excel 文档加载到内存中。在构造 DataFrame 后,工作表会从内存中显式卸载。因为它使用 yield
它是一个生成器,同时创建多少数据帧取决于您的使用情况。下面是将此生成器传递给 pandas.concat
的示例用法:
df = pd.concat(df_gen('file_name.xlsx', ['sheet1', 'sheet2']), ignore_index=True)
不过请注意,concat
materializes在进行串联之前生成器中的所有内容,所以这并不一定比你建立列表的例子更有效,除了我的函数有意管理 xlrd 工作簿的资源使用。在这种情况下,我认为您最终会在内存中一次获得 1 或 2 个数据副本,具体取决于 concat
的内部结构。
如果您真的担心内存问题,您可以使用生成器一次一张地迭代构建数据框:
# create a generator
gen = df_gen(str(filename), sheet_names)
# get starting point
df = next(gen)
# iterate over the rest of the generator
for next_df in gen:
df = df.append(next_df, ignore_index=True)
我预计这在计算效率上会低于同时调用整个所需数据帧集的 concat
,但我还没有研究这是否真的如此。在这种情况下,我认为您最终一次只会得到内存中所有数据的 1 个副本,再加上生成器每次循环的工作表数据的一个额外副本。
您最了解自己的情况,但除非这些是一些真正令人印象深刻的 Excel 文件,否则我不会投入大量精力来优化内存和计算,而不仅仅是看似明显的胜利。考虑到这一点,这里有一个利用 pandas.read_excel
能力的简短函数。一次阅读多张纸:
def sheets_to_df(filename, sheet_names):
df_dict = pd.read_excel(filename, sheetname=sheet_names)
return pd.concat(
(df.assign(source=sheet) for sheet, df in dfs.items()), ignore_index=True)
需要注意的一点是,当传入文件名 read_excel
时,将 load the entire Excel document (例如,不使用 xlrd 的“按需”功能)。因此,虽然这在代码行方面是高效的,但在内存方面绝对不是高效的。我认为这会短暂地以内存中的所有数据结束 2-3 次:一次在 df_dict
中,一次在最终连接的数据帧中(可能再次取决于 concat
的内部结构) >).但是一旦这个函数返回,你在最终数据框中只剩下一个副本。如果您无论如何都打算阅读大部分工作表,这不会是一个巨大的浪费(假设它们都至少两次适合内存),但如果您打算只阅读工作表的一小部分,这可能有点浪费浪费。
希望对您有所帮助!您可以在此处将其作为 Jupyter 笔记本获取:https://gist.github.com/jiffyclub/9ab668f63c3d0f9adf3e730dc37cd419
关于python - 如何使此功能更有效地连接来自单个文件的 Excel 工作表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45113070/
我正在构建一个 RCP 应用程序,其中每个季度都会更新功能/插件。因此,如果用户选择自动更新功能/插件,则会下载更新插件的新 jar,但旧插件仍在使用我不再使用的磁盘空间。 我厌倦了删除包含旧 jar
我如何从外部 Controller 功能中调用 Controller 内部的功能,例如电话间隙回调功能 这是 Controller 外部定义的功能 function onDeviceReady()
如果某个功能(例如 MediaSource)可用,我如何使用 Google Dart 检查。 new MediaSource() 抛出一个错误。如何以编程方式检查此类或功能是否存在?有任何想法吗?是否
我正在尝试运行 Azure Orchestrations,突然我开始从 statusQueryGetUri 收到错误: 协调器函数“UploadDocumentOrchestrator”失败:函数“U
我见过 iPhone 上的应用程序,如果在 3.0 上运行,将使用 3.0 功能/API,例如应用内电子邮件编辑器,如果在 2.x 上运行,则不使用这些功能,并退出应用程序以启动邮件相反。 这是怎么做
这是 DB 规范化理论中的一个概念: Third normal form is violated when a non-key field is a fact about another non-ke
如果我定义 #if SOMETHING #endif 而且我还没有在任何地方定义 SOMETHING。 #if 中的代码会编译吗? 最佳答案 当#if的参数表达式中使用的名称未定义为宏时(在所有其他宏
我刚刚澄清了 A* 路径查找应该如何在两条路径具有相等值的 [情况] 下运行,无论是在计算期间还是在结束时,如果有两条相等的短路径。 例如,我在我的起始节点,我可以扩展到两个可能的节点,但它们都具有相
Java有没有类似下面的东西 宏 一种遍历所有私有(private)字段的方法 类似于 smalltalk symbols 的东西——即用于快速比较静态字符串的东西? 请注意,我正在尝试为 black
这个程序应该将华氏度转换为摄氏度: #include int main() { float fahrenheit, celsius; int max, min, step;
当打开PC缓存功能后, 软件将采用先进先出的原则排队对示波器采集的每一帧数据, 进行帧缓存。 当发现屏幕中有感兴趣的波形掠过时, 鼠标点击软件的(暂停)按钮, 可以选择回看某一帧的波形
我有一个特殊的(虚拟)函数,我想在沙盒环境中使用它: disable.system.call eval(parse(text = 'model.frame("1 ~ 1")'), envir = e
使用新的 Service 实现,我是否必须为我的所有服务提供一个 Options 方法? 使用我的所有服务当前使用的旧 ServiceBase 方法,OPTIONS 返回 OK,但没有 Access-
我正在阅读 Fogus 的关于 Clojure 的喜悦的书,在并行编程章节中,我看到了一个函数定义,它肯定想说明一些重要的事情,但我不知道是什么。此外,我看不到这个函数有什么用 - 当我执行时,它什么
我有大量的 C 代码,大部分代码被注释掉和/或 #if 0。当我使用 % 键匹配 if-else 的左括号和右括号时,它也匹配注释掉的代码。 有没有办法或vim插件在匹配括号时不考虑注释掉或#if 0
我有这个功能: map(map(fn x =>[x])) [[],[1],[2,3,4]]; 产生: val it = [[],[[1]],[[2],[3],[4]]] 我不明白这个功能是如何工作的。
我使用 Visual Studio 代码创建了一个函数应用程序,然后发布了它。功能应用程序运行良好。我现在在功能门户中使用代码部署功能(KUDU)并跳过构建。下面是日志 9:55:46 AM
我有一个数据框df: userID Score Task_Alpha Task_Beta Task_Charlie Task_Delta 3108 -8.00 Easy Easy
我真的无法解决这个问题: 我有一个返回数据框的函数。但是,数据框仅打印在我的控制台中,尽管我希望将其存储在工作空间中。我怎样才能做到这一点? 样本数据: n <- 32640 t <- seq(3*p
有没有办法找出所有可能的激活器命令行选项? activator -help仅提供最低限度的可用选项/功能列表,但所有好的东西都隐藏起来,即使在 typesafe 网站在线文档中也不可用。 到目前为止,
我是一名优秀的程序员,十分优秀!