gpt4 book ai didi

javascript - 使用 Node.js 从网页中抓取 URL

转载 作者:行者123 更新时间:2023-11-30 15:26:07 33 4
gpt4 key购买 nike

我试图从一个网站上抓取所有 URL 并将它们放入一个数组中。我有一个关于数组索引的问题。如果我将像 2 这样的索引号添加到数组 [2] 中,命令行会回复“未定义”。如果我删除索引并打印整个数组,它会逐行打印所有 URL。我希望每个 URL 都是它自己的索引,例如:

  • array[0] = 找到的第一个 URL
  • array[1] = 找到第二个 URL
  • array[2] = Thirs URL found etc.

谁能指出我正确的方向?谢谢。

  var request = require('request');
var cheerio = require('cheerio');

var url = 'http://www.hobo-web.co.uk/';

request(url, function(err, resp, body){
$ = cheerio.load(body);
links = $('a'); //use your CSS selector here
$(links).each(function(i, link){
var array = $(link).attr('href');
console.log(array[2]);

});
});``

最佳答案

您需要首先将数组创建为可在 .each 循环中访问的变量,然后继续将 href 值推送给它。

var request = require('request');
var cheerio = require('cheerio');

var url = 'http://www.hobo-web.co.uk/';

var array = [];

request(url, function(err, resp, body){
$ = cheerio.load(body);
links = $('a');
$(links).each(function(i, link){
var href = $(link).attr('href');
array.push(href);
});
});

关于javascript - 使用 Node.js 从网页中抓取 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42940845/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com