gpt4 book ai didi

python - 拆分列正则表达式数据框 python

转载 作者:行者123 更新时间:2023-12-04 03:45:22 25 4
gpt4 key购买 nike

我在数据框中有一列,在某些行中我有州,有时只有城市。例如,在某些行中我只有:'Los Angeles',但在其他行中我可能有'CA Los Angeles'。

我想将该列拆分为两个新列:州和城市,如果未指定州,则可以留空。像这样:

<表类="s-表"><头>列状态城市<正文>佛罗里达迈阿密FL迈阿密休斯顿空休斯顿

我在想也许可以使用像'[A-Z][A-Z]\s' 之类的正则表达式来拆分,但我无法让它工作。有什么想法吗?

最佳答案

你可以使用

^(?:([A-Z]{2})\s+)?(.*)

参见 regex demo .详情:

  • ^ - 字符串的开始
  • (?:([A-Z]{2})\s+)? - 可选出现
    • ([A-Z]{2}) - 第 1 组:两个大写 ASCII 字母
    • \s+ - 一个或多个空格
  • (.*) - 第 2 组:除换行符以外的任何零个或多个字符,尽可能多。

如果您使用的是 Pandas,请使用

df[['STATE','CITY']] = df['COLUMN'].str.extract(r'^(?:([A-Z]{2})\s+)?(.*)', expand=False)

关于python - 拆分列正则表达式数据框 python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65265291/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com