gpt4 book ai didi

python - 使用 Pandas 操作多列

转载 作者:行者123 更新时间:2023-12-01 03:48:28 26 4
gpt4 key购买 nike

我有一个超过 3000 万行的数据集,我需要对其应用一整套数据转换规则。对于此任务,我尝试探索 Pandas 作为可能的解决方案,因为我当前的解决方案不是很快。

目前,我正在对数据集执行逐行操作,然后将其导出到磁盘上的新表(CSV 文件)。

用户可以对给定列中的数据执行 5 种功能:

  1. 删除空格
  2. 所有文本大写
  3. 格式化日期
  4. 替换字母/数字
  5. 替换单词

我的第一个想法是使用数据框的 apply 或 applmap,但这只能在单个列上使用。

有没有一种方法可以将 apply 或 applymap 应用于多个列而不是仅一个?我应该考虑是否有更好的工作流程,因为我可以对数据集中的 1:n 列进行操作,其中最大列数目前约为 30。

谢谢

最佳答案

您可以使用 concat 的列表理解如果需要应用一些仅适用于Series的功能:

import pandas as pd

data = pd.DataFrame({'A':[' ff ','2','3'],
'B':[' 77','s gg','d'],
'C':['s',' 44','f']})

print (data)
A B C
0 ff 77 s
1 2 s gg 44
2 3 d f

print (pd.concat([data[col].str.strip().str.capitalize() for col in data], axis=1))
A B C
0 Ff 77 S
1 2 S gg 44
2 3 D F

关于python - 使用 Pandas 操作多列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38563999/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com