python - 使用 Pandas 在excel文件中搜索column

python - 使用 Pandas 在excel文件中搜索column_names的起始列和行

转载作者：行者123 更新时间：2023-12-04 19:50:25

26

4

我正在分析一个以 Excel 文件形式发布年度报告的组织生成的 excel 文件。每年，列名(Year、A1、B1、C1 等)都保持不变。但是每年该组织都会发布那些以不同行号和列号开头的列名。

每年我都会手动搜索起始行和列，但考虑到要浏览的报告年数，这是一项乏味的工作。

所以我想要这样的东西:

...

  df = pd.read_excel('test.xlsx')

  start_row,start_col = df.find_columns('Year','A1','B1')

...

谢谢。

最佳答案

假设您的桌面上有三个前缀为 Yearly_Report 的 .xlsx 文件，当它们在 python 中组合时，在读入一个数据帧后看起来像这样: df = pd.concat([pd.read_excel(f, header=None) for f in yearly_files]):

    0   1   2   3   4   5   6   7   8   9   10
0   A   B   C   NaN NaN NaN NaN NaN NaN NaN NaN
1   1   2   3   NaN NaN NaN NaN NaN NaN NaN NaN
0   NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1   NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
2   NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
3   NaN NaN A   B   C   NaN NaN NaN NaN NaN NaN
4   NaN NaN 4   5   6   NaN NaN NaN NaN NaN NaN
0   NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1   NaN NaN NaN NaN NaN NaN NaN NaN A   B   C
2   NaN NaN NaN NaN NaN NaN NaN NaN 4   5   6

如您所见，列和值分散在各个列和行中。以下步骤将为您提供所需的结果。首先，您需要pd.concat 文件和.dropna 行。然后，在删除所有具有 NaN 值的单元格之前，使用 .T 转置数据帧。接下来，使用另一个转置 .T 恢复数据帧。最后，简单地命名列并删除与列标题相同的行。

import glob, os
import pandas as pd
main_folder = 'Desktop/'
yearly_files = glob.glob(f'{main_folder}Yearly_Report*.xlsx')
df = pd.concat([pd.read_excel(f, header=None) for f in yearly_files]) \
                    .dropna(how='all').T \
                    .apply(lambda x: pd.Series(x.dropna().values)).T
df.columns = ['A','B','C']
df = df[df['A'] != 'A']
df

输出:

    A   B   C
1   1   2   3
4   4   5   6
2   4   5   6

关于python - 使用 Pandas 在excel文件中搜索column_names的起始列和行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62785556/

26

4

0

文章推荐： r - R 能否执行与嵌套在 VLOOKUP 中的 HLOOKUP 等效的操作？

文章推荐： excel - 多平台Windows和MAC电脑识别

文章推荐： excel - 当 Target 在验证列表中时，Application.Intersect 失败

mysql - 为什么 column_name = (select column_name) 起作用而不是 column_name=null
我正在为我的模型获取一些行，但是 View 有太多的标准，我厌倦了编写许多模型。为了让工作更轻松，我不想为每个选择的标准编写新的选择语句，所以一开始我尝试了尝试并仍然从选择中返回某些内容，即使用户提供
sql - SELECT Column_Name Column_Name from Table_Name(无逗号)
所以我想知道为什么: SELECT Colunm_Name Column_Name from Table_Name WITHOUT 列名之间的逗号不会返回语法错误，而是仅返回包含第一列的记录。起初我以
sql - 从 column_name = all_values 的表中选择 column_name
我有一个这样的 REST 端点: www.icecreamstore.com/stock?brand=hershey&flavour=vanilla 现在， brand 和flavour 都是可选的。
pandas - 数据 ['column_name' ] 与 data.column_name 之间是否存在显着差异
这个问题在这里已经有了答案: What is the difference between using squared brackets or dot to access a column? (5 个
mysql - SQL "Table_Name.Column_name"VS "Column_name"性能和语法
我是 SQL 新手，目前正在阅读“自学 SQL 书籍” 书中提到有时您需要用列名指定表名(紧接在 SELECT 行之后)以获得您想要的结果。还提到无论如何这样做通常是很好的做法。这是一个具体的例子:
php - GROUP BY table1.column_name ORDER BY table2.column_name
我有一个帖子表和一个用户表，我还有一个介于两者之间的表，其中包含两者之间的关系。一个用户可以有很多帖子等。可以通过在帖子表的加星标列中添加 0 或 1 来对帖子进行“加星标”。每个用户只能为一个帖子
mysql - 使用 MySQL 将 column_name 移至 Column_name 之后
我需要在column_name之后移动column_name；我已完成以下操作: 更改表表名在 columns_name 之后修改列 columns_name; 任何建议，最佳答案这应该适合你:
sql - LTRIM(RTRIM(column_name)) 和 RTRIM(LTRIM(column_name)) 之间的性能有区别吗
在 SQL Server 中修剪字符串的两端时，是否存在性能差异，或者在构建where 子句？例如: WHERE RTRIM(LTRIM(SalesPerson)) <> '' 最佳答案您的查询可
MySQL:在列列表中使用 COUNT(column_name)，并在 HAVING 子句中再次使用。这是否会导致 COUNT(column_name) 操作运行两次？
我对在单个查询中使用 COUNT(column_name) 两次的性能感到好奇。这是有问题的查询: SELECT employee_name, COUNT(employee_name)
sql - SQL Server 2008 中的 COUNT (DISTINCT column_name) 与 COUNT (column_name) 之间存在差异吗？
我遇到了一个让我抓狂的问题。运行下面的查询时，我得到的计数为 233,769 SELECT COUNT(distinct Member_List_Link.UserID) FROM Memb
mysql - 使用 column_name IN ('one' ,'two' ) 进行查询，按 pk 分组且 count (distinct column_name) = 2 返回空
使用IN选择计算机必须匹配的软件名称动态列表，并且数据库中存在已知值的数据，使用时的结果: GROUP BY id HAVING COUNT(DISTINCT column_name) = count
MySQL 选择对给定行具有特定值的表的 column_names
我有一个包含以下列的“表单”表:id, name, desc, exporter1, exporter2,exporter3 我的目的是在这些列的值等于特定值时获取列名。考虑“表单”表中的以下行，
sql - 如何在不指定 column_name 的情况下更改所有列？
有没有一种方法可以将 alter 语句应用于表中的所有列而无需指定列名？这只会用在我需要清理报告中重复数据的临时表中。这是我想知道是否可行的示例: select T1.Column1, T1.Col
python - 如何将数据框的 column_name 用作行上的值？
我有这个框架，2 列(蓝色和红色)和值 (0,1) **Blue Red** 0 1 1 1 我想要这样的 Dataframe 结果，如果列 Red 的值为 1，则
mysql - Table.column_names 在迁移中返回旧值
我正在进行迁移，其中重命名了列:货币变为legacy_currency等。问题是，当我尝试获取表的列名称时，它返回旧值。尝试使用reset_column_information，但没有成功。还尝试了
php - WHERE column_name IN Array() 返回空数组
所以我试图查询一个有接近 1000 条记录的数据库表，并且我试图根据某个列(主题)值是否在以下值中从表($subject)中获取行一个特定的数组($topics)。所以我的函数看起来像这样。 pub
mysql - 选择 *FROM 表二并从表一计数(column_name)
如何从表二中选择*并从表一中选择计数(t_type)，其中表一和表二中的物种相等表一 = 树 id | t_type ~~~~~~~~~~~~ 1 | Tree one 2 | Tree two
mysql - Liquibase变更日志不包含列位置或 'AFTER column_name'
为了生成表更改的数据库更改日志，我使用 Liquibase。但liquibase变更日志不携带列名的具体位置。以下更改集是通过 liquibase 生成的
sql - column_name/value 对的过滤表
我有一个非常大的表，我想过滤列和值的黑名单组合。黑名单是一个表(小得多)，其中一列是列名(称为“键”)，另一列是要过滤掉的值。我不想对任何列名或值进行硬编码，因为黑名单将用于多个表。我正在使用 po
mysql - WHERE 子句中的 "Column_name"不明确
我有这个问题: SELECT EquipmentNumber, EquipmentType, P.AreaCode AS Location, EquipDsc FROM MajorEquipment

首页

博学

6Ren·AI

商城

python - 使用 Pandas 在excel文件中搜索column_names的起始列和行