gpt4 book ai didi

python - 解析不一致的数据时,标题行 "discover"的最佳方法是什么?

转载 作者:行者123 更新时间:2023-12-01 00:16:48 25 4
gpt4 key购买 nike

我有一个非常糟糕的客户,它似乎无法一致地格式化他们发送过来用于输入的 Excel 文件。

不幸的是,他们的薪水也很高,所以我拒绝接受这些数据的请求被置若罔闻。

问题:

每周,我们都会收到一份 Excel 文件。其中一张床单就是我们想要的。在某些行,它开始成为可用的表。根据客户的感受,这可能是第 2 行或第 920 行。我已经编写了后格式化 pandas 代码。这是我要做的工作,但我非常讨厌它:

IDENTIFER = 'nunya_business'
SHEETNAME = 'nunya_business_2'
CSVNAME = 'nunya_business_3'
FILENAME = 'nunya_business_4'

df = pd.read_excel(FILENAME, SHEETNAME)
df.to_csv(CSVNAME, index=False)

list_of_data = []

with open(CSVNAME) as openfile:
reader = csv.reader(openfile)
good_to_go = False
for row in reader:
if row[0] == IDENTIFIER:
good_to_go = True
if not good_to_go:
continue
list_of_data.append(row)

df = pd.DataFrame(list_of_data)
my_actual_func(df)

我不介意编写冗长的代码,但只是感觉很烦人。有什么聪明的方法可以做到这一点吗?

最佳答案

使用itertools.dropwhile,构建list_of_data的代码可以简化为(未经测试):

from itertools import dropwhile

...

with open(CSVNAME) as openfile:
list_of_data = list(dropwhile(lambda row: row[0] != IDENTIFIER, csv.reader(openfile)))

关于python - 解析不一致的数据时,标题行 "discover"的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59278415/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com