gpt4 book ai didi

python - 删除最后一个正斜杠之前的部分字符串

转载 作者:太空狗 更新时间:2023-10-29 20:33:10 28 4
gpt4 key购买 nike

我目前正在开发的程序从网站检索 URL 并将它们放入列表中。我要获取的是 URL 的最后一部分。

因此,如果我的 URL 列表中的第一个元素是 "https://docs.python.org/3.4/tutorial/interpreter.html" 我想删除 之前的所有内容>“解释器.html”

是否有函数、库或正则表达式可用于实现此目的?我查看了其他 Stack Overflow 帖子,但解决方案似乎不起作用。

这是我多次尝试中的两个:

for link in link_list:
file_names.append(link.replace('/[^/]*$',''))
print(file_names)

&

for link in link_list:
file_names.append(link.rpartition('//')[-1])
print(file_names)

最佳答案

看看str.rsplit .

>>> s = 'https://docs.python.org/3.4/tutorial/interpreter.html'
>>> s.rsplit('/',1)
['https://docs.python.org/3.4/tutorial', 'interpreter.html']
>>> s.rsplit('/',1)[1]
'interpreter.html'

并使用正则表达式

>>> re.search(r'(.*)/(.*)',s).group(2)
'interpreter.html'

然后匹配位于最后一个 / 和 String 末尾之间的第二组。这是 RegEx 中贪婪技术的贪婪用法。

Regular expression visualization

Debuggex Demo

小提示 - 您的代码中 link.rpartition('//')[-1] 的问题是您试图匹配 // 而不是 /。因此,删除多余的 /,如 link.rpartition('/')[-1] 中所示。

关于python - 删除最后一个正斜杠之前的部分字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29657384/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com