- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在分析一个以 Excel 文件形式发布年度报告的组织生成的 excel 文件。每年,列名(Year、A1、B1、C1 等)都保持不变。但是每年该组织都会发布那些以不同行号和列号开头的列名。
每年我都会手动搜索起始行和列,但考虑到要浏览的报告年数,这是一项乏味的工作。
所以我想要这样的东西:
...
df = pd.read_excel('test.xlsx')
start_row,start_col = df.find_columns('Year','A1','B1')
...
谢谢。
最佳答案
假设您的桌面上有三个前缀为 Yearly_Report
的 .xlsx
文件,当它们在 python 中组合时,在读入一个数据帧后看起来像这样: df = pd.concat([pd.read_excel(f, header=None) for f in yearly_files])
:
0 1 2 3 4 5 6 7 8 9 10
0 A B C NaN NaN NaN NaN NaN NaN NaN NaN
1 1 2 3 NaN NaN NaN NaN NaN NaN NaN NaN
0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
2 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
3 NaN NaN A B C NaN NaN NaN NaN NaN NaN
4 NaN NaN 4 5 6 NaN NaN NaN NaN NaN NaN
0 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1 NaN NaN NaN NaN NaN NaN NaN NaN A B C
2 NaN NaN NaN NaN NaN NaN NaN NaN 4 5 6
如您所见,列和值分散在各个列和行中。以下步骤将为您提供所需的结果。首先,您需要pd.concat
文件和.dropna
行。然后,在删除所有具有 NaN 值的单元格之前,使用 .T
转置数据帧。接下来,使用另一个转置 .T
恢复数据帧。最后,简单地命名列并删除与列标题相同的行。
import glob, os
import pandas as pd
main_folder = 'Desktop/'
yearly_files = glob.glob(f'{main_folder}Yearly_Report*.xlsx')
df = pd.concat([pd.read_excel(f, header=None) for f in yearly_files]) \
.dropna(how='all').T \
.apply(lambda x: pd.Series(x.dropna().values)).T
df.columns = ['A','B','C']
df = df[df['A'] != 'A']
df
输出:
A B C
1 1 2 3
4 4 5 6
2 4 5 6
关于python - 使用 Pandas 在excel文件中搜索column_names的起始列和行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62785556/
我正在为我的模型获取一些行,但是 View 有太多的标准,我厌倦了编写许多模型。为了让工作更轻松,我不想为每个选择的标准编写新的选择语句,所以一开始我尝试了尝试并仍然从选择中返回某些内容,即使用户提供
所以我想知道为什么: SELECT Colunm_Name Column_Name from Table_Name WITHOUT 列名之间的逗号不会返回语法错误,而是仅返回包含第一列的记录。起初我以
我有一个这样的 REST 端点: www.icecreamstore.com/stock?brand=hershey&flavour=vanilla 现在, brand 和flavour 都是可选的。
这个问题在这里已经有了答案: What is the difference between using squared brackets or dot to access a column? (5 个
我是 SQL 新手,目前正在阅读“自学 SQL 书籍” 书中提到有时您需要用列名指定表名(紧接在 SELECT 行之后)以获得您想要的结果。还提到无论如何这样做通常是很好的做法。这是一个具体的例子:
我有一个帖子表和一个用户表,我还有一个介于两者之间的表,其中包含两者之间的关系。一个用户可以有很多帖子等。 可以通过在帖子表的加星标列中添加 0 或 1 来对帖子进行“加星标”。每个用户只能为一个帖子
我需要在column_name之后移动column_name; 我已完成以下操作: 更改表表名在 columns_name 之后修改列 columns_name; 任何建议, 最佳答案 这应该适合你:
在 SQL Server 中修剪字符串的两端时,是否存在性能差异,或者在构建where 子句? 例如: WHERE RTRIM(LTRIM(SalesPerson)) <> '' 最佳答案 您的查询可
我对在单个查询中使用 COUNT(column_name) 两次的性能感到好奇。这是有问题的查询: SELECT employee_name, COUNT(employee_name)
我遇到了一个让我抓狂的问题。 运行下面的查询时,我得到的计数为 233,769 SELECT COUNT(distinct Member_List_Link.UserID) FROM Memb
使用IN选择计算机必须匹配的软件名称动态列表,并且数据库中存在已知值的数据,使用时的结果: GROUP BY id HAVING COUNT(DISTINCT column_name) = count
我有一个包含以下列的“表单”表:id, name, desc, exporter1, exporter2,exporter3 我的目的是在这些列的值等于特定值时获取列名。 考虑“表单”表中的以下行,
有没有一种方法可以将 alter 语句应用于表中的所有列而无需指定列名?这只会用在我需要清理报告中重复数据的临时表中。 这是我想知道是否可行的示例: select T1.Column1, T1.Col
我有这个框架,2 列(蓝色和红色)和值 (0,1) **Blue Red** 0 1 1 1 我想要这样的 Dataframe 结果,如果列 Red 的值为 1,则
我正在进行迁移,其中重命名了列:货币变为legacy_currency等。问题是,当我尝试获取表的列名称时,它返回旧值。 尝试使用reset_column_information,但没有成功。还尝试了
所以我试图查询一个有接近 1000 条记录的数据库表,并且我试图根据某个列(主题)值是否在以下值中从表($subject)中获取行一个特定的数组($topics)。 所以我的函数看起来像这样。 pub
如何从表二中选择*并从表一中选择计数(t_type),其中表一和表二中的物种相等 表一 = 树 id | t_type ~~~~~~~~~~~~ 1 | Tree one 2 | Tree two
为了生成表更改的数据库更改日志,我使用 Liquibase。但liquibase变更日志不携带列名的具体位置。 以下更改集是通过 liquibase 生成的
我有一个非常大的表,我想过滤列和值的黑名单组合。黑名单是一个表(小得多),其中一列是列名(称为“键”),另一列是要过滤掉的值。我不想对任何列名或值进行硬编码,因为黑名单将用于多个表。 我正在使用 po
我有这个问题: SELECT EquipmentNumber, EquipmentType, P.AreaCode AS Location, EquipDsc FROM MajorEquipment
我是一名优秀的程序员,十分优秀!