gpt4 book ai didi

python - 使用正则表达式重新字符串匹配提取 URL 链接 - Python

转载 作者:行者123 更新时间:2023-11-28 20:51:15 25 4
gpt4 key购买 nike

我一直在尝试使用 re api 从文本文件中提取 URL。任何以 http://、 https://和 www 开头的链接。

该文件包含文本以及 html 源代码,html 部分很简单,因为我可以使用 BeautifulSoup 提取它们,但普通文本似乎更具挑战性。我在网上发现这似乎是 URL 提取的最佳实现,但是它在某些标签上失败了,特别是它无法处理标签并将它们包含在 URL 中。任何帮助表示赞赏,因为我自己根本不熟悉字符串匹配

这是签名

sp1=re.findall("http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", str(STRING))
sp2=re.findall('www.(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', str(STRING))

例子:

http://www.website.com/science/</span></a><o:p></o:p></span></div><div
www.website.com/library/</span></a></span></i><span
http://awebsite.com/Groups</a><div>

最佳答案

re.findall(r'https?://[^\s<>"]+|www\.[^\s<>"]+', str(STRING))

[^\s<>"]+部分匹配任何非空白、非引号、非尖括号字符以避免匹配如下字符串:

<a href="http://www.example.com/stuff">
http://www.example.com/stuff</br>

关于python - 使用正则表达式重新字符串匹配提取 URL 链接 - Python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10475027/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com