gpt4 book ai didi

python - 清理 pandas Dataframe 中的单列

转载 作者:太空宇宙 更新时间:2023-11-04 02:05:32 27 4
gpt4 key购买 nike

将 CSV 导入为 pandas 数据框并删除所有完全空的列:

import pandas as pd 

df1 = pd.read_csv("name.csv")
df1 = df1.dropna(axis=1,how='all')

唉,一个专栏看起来像:

'Background\r\n * find it: IDE-3: Some Name\r\n * Dokument: SomeName.pptx\r\n * Field: TEG-33\r\n  * happy: Done\r\n\r\nh3. Definition\r\n\r\n\xa0tbd.\r\nh3. exists\r\n\r\ncsv\r\nh3. Source\r\n\r\ncsv?\r\n\r\npotentiell?\r\n\r\ntbd\r\nh3. task\r\n\r\ntbd\r\n\r\n\xa0'

问题 1:我想删除所有\r\n 和\r\n\r\和\r\n\r\n\和\r\n\r\n\xa0 等。任何人都可以帮助使用正则表达式吗?我找不到清晰的模式。

问题 2:首先如何防止在将 CSV 导入 pandas 数据框时写入所有这些不同形式的\r\n\r\(参见问题 2)?

清除数据框中提到的列的所有行后,最终结果应该是 enter image description here

(Windows 10 上的 Python 3、Anaconda3 发行版)

最佳答案

对于问题 1:

(df1['Column 3']
.str.replace('\r','')
.str.replace('\n','')
.str.replace('\xa0', ''))

对于问题 2:您可以在数据进入 csv 时对其进行清理 - 但如果不知道数据的来源就很难说!

关于python - 清理 pandas Dataframe 中的单列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54828852/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com