gpt4 book ai didi

regex - 如何使用正则表达式提取 HTML img 源?

转载 作者:行者123 更新时间:2023-12-01 06:54:12 25 4
gpt4 key购买 nike

我需要从 HTML 文档中的所有图像标签中提取 src 元素。

因此,输入是一个 HTML 页面,输出将是一个指向图像的 URL 列表:
例如... http://www.google.com/intl/en_ALL/images/logo.gif

以下是我到目前为止的想法:

<img\s+src=""(http://.*?)

这不适用于 src 不在 img 标签之后的标签,例如:
<img height="1px" src="spacer.gif">

有人可以帮助完成这个正则表达式吗?这很容易,但我认为这可能是获得答案的更快方法。

最佳答案

以下正则表达式片段应该可以工作。

<img[^>]+src="([^">]+)"

它查找以 <img 开头的文本, 后跟一个或多个不是 > 的字符,然后 src=" .然后它会抓取该点和下一个 " 之间的所有内容。或 > .

但如果可能,请使用真正的 HTML 解析器。它更可靠,并且可以更好地处理边缘情况。

关于regex - 如何使用正则表达式提取 HTML img 源?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1028362/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com