gpt4 book ai didi

python - 如何使用 Python 清理 Excel 文件中的文本?

转载 作者:行者123 更新时间:2023-12-04 21:44:05 25 4
gpt4 key购买 nike

我有一个 Excel 文件,其中第一列 (A) 的某些行中包含数字(整数),第二列 (B) 的所有行中包含文本:
enter image description here
我想清理此文本,即我想删除
之类的标签(不带空格)。我目前的方法似乎不起作用:

file_name = "F:\Project\comments_all_sorted.xlsx"
import pandas as pd
df = pd.read_excel(file_name, header=None, index_col=None, usecols='B') # specify that there's no header and no column for row labels, use only column B (which includes the text)
clean_df = df.replace('<br>', '')
clean_df.to_excel('output.xlsx')
这段代码的作用(我不希望它这样做)是它在第一列 (A) 中添加运行数字,同时替换已经存在的少数数字,并在第二列中添加第一行和“1”该行的列(单元格 1B):
enter image description here
我确信有一种简单的方法可以解决我的问题,而我只是没有受过足够的训练来看到它。
谢谢!

最佳答案

尝试这个:

df['column_name'] = df['column_name'].str.replace(r'<br>', '')

关于python - 如何使用 Python 清理 Excel 文件中的文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69929547/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com