gpt4 book ai didi

ruby-on-rails - Rails中的网络爬虫从网页中提取链接和下载文件

转载 作者:数据小太阳 更新时间:2023-10-29 08:17:51 26 4
gpt4 key购买 nike

我正在使用 RoR,我将在我的应用程序中指定一个网页链接,这是我想要做的事情

(1)我要提取网页中的所有链接

(2) 判断是否是pdf文件的链接(基本上是模式匹配)

(3)我想下载链接中的文件(例如pdf)并将它们存储在我的系统上。

我尝试使用 Anemone,但它会抓取整个网站,这超出了我的需求,而且我该如何下载相应链接中的文件?

干杯

最佳答案

看看Nokogiri还有。

require 'nokogiri'
require 'open-uri'
doc = Nokogiri::HTML(open('http://www.thatwebsite.com/downloads'))

doc.css('a').each do |link|
if link['href'] =~ /\b.+.pdf/
begin
File.open('filename_to_save_to.pdf', 'wb') do |file|
downloaded_file = open(link['href'])
file.write(downloaded_file.read())
end
rescue => ex
puts "Something went wrong...."
end
end
end

你可能想做一些更好的异常捕获,但我想你明白了:)

关于ruby-on-rails - Rails中的网络爬虫从网页中提取链接和下载文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4896845/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com