gpt4 book ai didi

python - 删除 Pandas 中的部分字符串 : not working + errors

转载 作者:行者123 更新时间:2023-12-04 07:13:22 24 4
gpt4 key购买 nike

我有一个名为 full_list 的 Pandas DataFrame带有名为 domains 的字符串变量列.此处显示的剪辑的一部分

  domains
0 naturalhealth365.com
1 truththeory.com
2 themillenniumreport.com
3 https://www.cernovich.com
4 https://www.christianpost.com
5 http://evolutionnews.org
6 http://www.greenmedinfo.com
7 http://www.magapill.com8
8 https://needtoknow.news
我需要从网站名称中删除 https://或 http://。
我检查了 SO 上的多个 Pandas 帖子处理模糊相似的问题,我已经尝试了所有这些方法:
  • full_list['domains'] = full_list['domains'].apply(lambda x: x.lstrip('http://'))但这也错误地删除了字母 t、h 和 p,即“truththeory.com”(索引 1)变为“uththeory.com”
  • full_list['domains'] = full_list['domains'].replace(('http://', ''))这根本不会对字符串进行任何更改。与线路运行前后一样,domains 中的值保持原样
  • full_list['domains'] = full_list['domains'].str.replace(('http://', ''))给出错误 replace() missing 1 required positional argument: 'repl'
  • full_list['domains'] = full_list['domains'].str.lsplit('//', n=1).str.get(1)使前 3 行(索引 0、1、2)nan

  • 对于我这个世界,我看不出我做错了什么。任何帮助表示赞赏。

    最佳答案

    使用 Series.str.replace 使用正则表达式 ^用于字符串的开头和 [s]*用于可选 s :

    df['domains'] = df['domains'].str.replace(r'^http[s]*://', '', regex=True)
    print (df)
    domains
    0 naturalhealth365.com
    1 truththeory.com
    2 themillenniumreport.com
    3 www.cernovich.com
    4 www.christianpost.com
    5 evolutionnews.org
    6 www.greenmedinfo.com
    7 www.magapill.com8
    8 needtoknow.news

    关于python - 删除 Pandas 中的部分字符串 : not working + errors,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68933993/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com