gpt4 book ai didi

python - 对多个 csv 文件重复相同的过程

转载 作者:行者123 更新时间:2023-12-01 08:31:19 28 4
gpt4 key购买 nike

我是Python的初学者。我有大约 1000 个 CSV 文件(1.csv、2.csv....1000.csv)。每个 CSV 文件大约有 3,000,000,000 行和 14 个变量。我想首先对每个 CSV 文件使用相同的过程来清理每个 CSV 文件中的数据:

  1. 对变量 A 和变量 B 求和,
  2. 按日期排序统计C,如果C中一天的记录数大于50条,则丢弃。

接下来,将清理后的数据保存到新的 CSV 文件中。最后,将所有 1000 个新 CSV 文件附加到一个 CSV 文件中。

我有一些代码如下,但它首先导入所有CSV文件,然后处理以清理数据,效率非常低。我想首先清理每个 CSV 文件中的数据,然后附加新的 CSV 文件。谁可以帮我这个事?任何帮助将不胜感激。

enter image description here

最佳答案

这是我从你的问题中了解到的。我阅读了所有文件,并添加了一个新列用于求和。然后我对日期进行排序并删除任何大于 50 的 C 值。之后,我保存更新。在执行此操作之前,您必须复制原始文件,或者可以使用不同的文件名保存它们。

import glob
import os
import pandas as pd

path = "./data/"
all_files = glob.glob(os.path.join(path, "*.csv")) #make list of paths

for file in all_files:
# Getting the file name without extension
file_name = os.path.splitext(os.path.basename(file))[0]
df = pd.read_csv(file_name)
df['new_column'] = df['A']+ df['B']
df.sort_values(by='C')
df.drop(df.loc[df['C']>50].index, inplace=True)
df.to_csv(file_name)

关于python - 对多个 csv 文件重复相同的过程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53901230/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com