gpt4 book ai didi

javascript - 在服务器上抓取一系列 url 来获取图像

转载 作者:太空宇宙 更新时间:2023-11-04 02:29:04 25 4
gpt4 key购买 nike

我正在尝试抓取一个网站,其中包含位于 url http://my.aup.edu/files/pictures/picture-35933.jpg 的图像的大文件夹。将nodejs与cheerio和request一起使用。从页面中提取一张图像看起来像这样

<小时/>

var request = require("request"),
cheerio = require("cheerio"),
urls = [];
request('', function(err, resp, body){
if (!err && resp.statusCode == 200 ) {
var $ = cheerio.load(body);
$('body.img').each(function(){
var url = $(this).attr("src");
urls.push(url);

});

console.log(urls)
}

});

该程序完成将 url 记录到控制台,但不会保存图片。然而,该网站上的文件扩展名有点奇怪,因为即使链接是 http://my.aup.edu/files/pictures/picture-35933.jpg并非所有扩展名 1-99999 都有图像。有些只是重定向到不同的页面。我可以在 url 末尾使用带有 math.random() 的 if 语句来检查它是否包含 img,然后下载它。请告诉我这是否可行。谢谢!

最佳答案

如果您执行 http HEAD 请求而不是 http GET,那么您可以查看内容类型并(希望)找出您是否有图像。

关于javascript - 在服务器上抓取一系列 url 来获取图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28407372/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com