gpt4 book ai didi

Python正则表达式删除字符串中的url和域名

转载 作者:行者123 更新时间:2023-12-01 01:10:44 27 4
gpt4 key购买 nike

我正在寻找一个正则表达式来删除字符串中的每个网址或域名,以便:

string='this is my content domain.com more content http://domain2.org/content and more content domain.net/page'

变成了

'this is my content more content and more content'

删除最常见的顶级域名对我来说就足够了,所以我尝试了

string = re.sub(r'\w+(.net|.com|.org|.info|.edu|.gov|.uk|.de|.ca|.jp|.fr|.au|.us|.ru|.ch|.it|.nel|.se|.no|.es|.mil)\s?','',string)

但这删除了太多的东西,而不仅仅是网址。正确的语法是什么?

最佳答案

你应该转义所有这些点,或者更好的是,将点移到组之外并转义一次,你也可以从非空间捕获直到非空间,如下所示:

re.sub(r'[\S]+\.(net|com|org|info|edu|gov|uk|de|ca|jp|fr|au|us|ru|ch|it|nel|se|no|es|mil)[\S]*\s?','',string)

以下内容:
“这是我的内容domain.com更多内容http://domain2.org/content和更多内容domain.net/page thingynet stuffocom”
变成:

'this is my content more content and more content thingynet stuffocom'

关于Python正则表达式删除字符串中的url和域名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54887282/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com