gpt4 book ai didi

mechanize - 如何避免 Mechanize 解析文件或图像的 url?

转载 作者:行者123 更新时间:2023-12-04 16:18:37 26 4
gpt4 key购买 nike

我在我的 rails 应用程序中使用 gem mechanize 来抓取网页数据。
我这样使用它:

agent = Mechanize.new
document = agent.get("http://www.google.com")

这工作得很好,响应很快。但是,当 url 返回文件或图像时,它会下载文件并且可能需要一段时间。但我什至对文件的内容不感兴趣,我只是想避免获取它们。
agent = Mechanize.new
document = agent.get("https://speakerd.s3.amazonaws.com/presentations/42e9703056c60131ff9556cea4acc4c2/Buildlightsaber_preso.pdf")

Mechanize 有某种配置吗?或者我应该在验证 URl 之前创建一些正则表达式(但这听起来不可扩展)?

谢谢!

最佳答案

通过使用 RestClient 进行快速查找解决了这个问题

url = "https://speakerd.s3.amazonaws.com/presentations/42e9703056c60131ff9556cea4acc4c2/Buildlightsaber_preso.pdf" 
(RestClient.head(url).headers[:content_type] =~ /text\/html/).nil?

关于mechanize - 如何避免 Mechanize 解析文件或图像的 url?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24662717/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com