gpt4 book ai didi

html - 提取所有 html 图像标签,Rails

转载 作者:数据小太阳 更新时间:2023-10-29 08:17:38 24 4
gpt4 key购买 nike

大家下午好

我正在尝试编写一个脚本,通过其 <img src=""/> 从一篇文章中提取第一张图片标签。所以如果一篇文章有​​:

<p>Lorem ipsum dolor sit amet, labore et dolore magna aliqua.<img src="example.jpg"/> Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur.</p>

我想提取整个图像标签,<img src="example.jpg"/>.

我找到了这个只提取图像位置的正则表达式:

content_to_extract_from[/img.*?src="(.*?)"/i,1]

生成“example.jpg”。

有谁知道可以同时捕获标签的正则表达式吗?

提前致谢,安迪

最佳答案

使用正则表达式解析标记是自找麻烦。您可能会编写一些大部分有效但在您没有预见到的情况下会中断的内容。例如,您可以用单引号而不是双引号将属性括起来,这是您的正则表达式无法处理的

更可靠的是使用真正的解析器,比如nokogiri

html = Nokogiri::HTML.fragment('<p>Lorem ipsum dolor sit amet, labore et dolore magna aliqua.<img src="example.jpg"/> Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur.</p>')
html.css('img').collect(&:to_s) #=> ["<img src=\"example.jpg\">"]

关于html - 提取所有 html 图像标签,Rails,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12528382/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com