gpt4 book ai didi

python - 替换 pandas 列中的 html 语法/ascii 代码

转载 作者:太空宇宙 更新时间:2023-11-04 05:23:11 26 4
gpt4 key购买 nike

<分区>

我正在尝试寻找一种方法来替换字符串中的 html 语法。我有很多 csv 文件,所以我发现 pandas 是处理 csv 的绝佳工具。

有时我收到的数据在字符串中嵌入了 html 语法,例如在地址列中,我看到 125끈 downing st ,即 125-128 downing st。不仅是1,我还得到了'&,分别是'&

我尝试编写这段代码,但我知道它没有提供正确的格式

df = df.replace(r'[&#45]','-', regex=True)

我有几个列,例如公司名称、地址、城市、州 - 所以我想定位所有列以确保删除/替换所有 html 语法

数据框格式

    Address 1                   Company
0 1st&#452st Avenue N johnson &amp johnson
1 243&#454800 Kingsway Ave cold &amp brew
2 300 Hwy 7 coder&#39s club

需要的格式

    Address 1                   Company
0 1st-2st Avenue N johnson and johnson
1 243-4800 Kingsway Ave cold and brew
2 300 Hwy 7 coder's club

我是 pandas 的新手,但到目前为止我很喜欢这个工具。感谢您的帮助。

更新:

好的,我发现我使用的代码有误,这个 df = df.replace(r'[-]','-', regex=True) 应该是 df = df.replace(r'-','-', regex=True);这将取代那个 html 语法。但是我仍然想找到一个 pythonic 的解决方案来解决这个问题。

我很想执行此代码以删除其他 html 语法。

df = df.replace(r'&#45','-', regex=True).replace(r'&#39','', regex=True).replace(r'&amp','and', regex=True)

这行代码有一个干净的解决方案吗?

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com