gpt4 book ai didi

python - 使用 python 从 XML 文件中提取链接

转载 作者:行者123 更新时间:2023-12-01 09:26:18 24 4
gpt4 key购买 nike

我有一个站点地图 XML 文件,我想运行一个脚本来提取所有网址并打印它。我尝试过 re.findall(r'(https?://\S+)', url)

但这会打印结束标签,例如:“https://www.tutorialspoint.com/python/python_reg_expressions.htm/liv”

我不想打印后缀“/liv”,如何使用正则表达式实现它?

最佳答案

所有 URL 是否都用引号括起来或用空格包围?如果是这样,你可以这样做:

re.findall(r'(?P<quote>.)(https?://\S+?)(?P=quote)', url)

如果您要获取所有匹配项的字符串表示形式,而不仅仅是第二组,则必须使用 ...[1:-1] 对其进行修剪。

关于python - 使用 python 从 XML 文件中提取链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50363674/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com