gpt4 book ai didi

ruby-on-rails - 抓取图像路径后构建 URL

转载 作者:太空宇宙 更新时间:2023-11-03 18:29:50 25 4
gpt4 key购买 nike

我正在尝试抓取用户输入的网址,然后输出一组有效且未损坏的图像元素,这些元素具有 HTML 中的绝对路径。我正在使用 Nokogiri 进行抓取,我想知道是否有任何东西可以用来轻松处理用户提供的不可预测的 URL 和抓取的图像路径,以弄清楚如何从头开始编写内容。

例子:

http://domain.com/ and /system/images/image.png
=> http://domain.com/system/images/image.png

http://sub.domain.com and images/common/image.png
=> http://sub.domain.com/images/common/image.png

http://domain.com/dir/ and images/image.png
=> http://domain.com/dir/images/image.png

http://domain.com/dir and /images/small/image.png
=> http://domain.com/images/small/image.png

http://domain.com and http://s3.amazon-aws.com/bucket/image.png
=> http://s3.amazon-aws.com/bucket/image.png

最佳答案

与其下载页面和使用 Nokogiri,我建议使用 Mechanize .它建立在 Nokogiri 之上,因此您可以使用 Nokogiri 做的所有事情都可以使用 Mechanize 做,但它增加了许多有用的功能来进行抓取/导航。它将处理您上面描述的相对 URL 问题。

require 'rubygems'
require 'mechanize'
url='http://stackoverflow.com/questions/5903218/construct-urls-after-scraping-for-image-paths/5903417'
Mechanize.new.get(url) {|page| puts page.image_urls.join "\n"}

关于ruby-on-rails - 抓取图像路径后构建 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5903218/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com