gpt4 book ai didi

python - 如何从多个 .csv 文件中的命名列中选择唯一值?

转载 作者:太空宇宙 更新时间:2023-11-04 02:00:52 25 4
gpt4 key购买 nike

我正在尝试从多个 csvs 创建一个唯一 ID 列表。

我有大约 80 个包含数据的 csvs,所有这些都采用相同的格式并位于同一目录中。这些文件包含来自大约 1500 个站点的时间序列数据,但并非所有站点都在所有文件中。包含我需要的数据的列称为 'Site Id'。我可以通过创建 dataframe 从第一个 csv 中获取唯一值,但我看不到如何遍历所有剩余文件。

如果现在还不是很明显,我是一个完全的初学者,我的导师正在休假!

我试过为单个文件创建一个df,但我想不出下一步。

df = pd.read_csv(r'C:filepathhere.csv')
ids = df['Site Id'].unique().tolist()

最佳答案

你可以这样做。我用了os.listdir函数获取所有文件,然后是 list.extend将我遇到的站点 ID 合并到我的 siteIDs 列表中。最后,将列表转换为集合,然后再转换回列表将删除所有重复条目。

siteIDs = []
directoryToCSVs = r'c:\...'

for filename in os.listdir(directoryToCSVs):
if filename.lower().endswith('.csv'):
df = pd.read_csv(r'C:filepathhere.csv')
siteIDs.extend( df['Site Id'].tolist() )

#remove duplicate site IDs
siteIDs = list(set(siteIds))


#siteIDs will now contain a list of the unique site IDs across all of your CSV files.

关于python - 如何从多个 .csv 文件中的命名列中选择唯一值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55749689/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com