node.js - 使用 Node.js 和请求进行网页抓取

转载作者：太空宇宙更新时间：2023-11-04 01:50:53

我想做 this site 的网页抓取。我已经看到 API 可用，但是正如 duraid 在我的 previous question 中所建议的那样，不建议使用它们。

所以我尝试使用 Node.js 和 Phantom.js与 Phantom 。但用户Vaviloff pointed out to me headless 浏览器不是必需的，因为使用搜索请求的 URL 就足够了。

因此我改变了策略，尝试不使用 Phantom 而是使用正常的请求:

var cheerio = require('cheerio');
var request = require('request-promise');

var options = {
    uri: 'http://data.un.org/Handlers/DataHandler.ashx?Service=query&Anchor=variableID%3a12&Applied=crID%3a8&crID%3a40;timeID%3a79&DataMartId=PopDiv&UserQuery=population&c=2,4,6,7&s=_crEngNameOrderBy:asc,_timeEngNameOrderBy:desc,_varEngNameOrderBy:asc&RequestId=302',
    transform: function(body) {
        return cheerio.load(body);
    }
};

methods.download = async function(req, res) {
    request(options)
    .then(function($) {
        console.log('\n\nTHEN: ', $);
    })
    .catch(function(err) {
        console.log('Error', err.stack());
    });
}

如果我运行这段代码，我会得到:

THEN:  function (selector, context, r, opts) {
    if (!(this instanceof initialize)) {
      return new initialize(selector, context, r, opts);
    }
    opts = _.defaults(opts || {}, options);
    return Cheerio.call(this, selector, context, r || root, opts);
  }

在这种情况下，我还有其他问题。

我不知道如何构建网址。在上面的示例中，我选择阿尔巴尼亚 (crID% 3a8) 和奥地利 (crID% 3a40) 以及 2015 年作为年份 (timeID% 3a79)。然而，如果我访问刚刚建立的链接，我会得到 2100 年至 2095 年阿尔巴尼亚的数据。
我不知道如何选择年份、如何选择变体或如何更改页面。

我对以下信息感兴趣:

var countries = {
    'Albania': 'crID%3a8',
    'Austria': 'crID%3a40',
    'Belgium': 'crID%3a56',
    'Bulgaria': 'crID%3a100',
    'Croatia': 'crID%3a191',
    'Cyprus': 'crID%3a196',
    'Denmark': 'crID%3a208',
    'Estonia': 'crID%3a233',
    'Finland': 'crID%3a246',
    'France': 'crID%3a250',
    'Germany': 'crID%3a276',
    'Greece': 'crID%3a300',
    'Iceland': 'crID%3a352',
    'Ireland': 'crID%3a372',
    'Italy': 'crID%3a380',
    'Latvia': 'crID%3a428',
    'Netherlands': 'crID%3a528',
    'Norway': 'crID%3a578',
    'Poland': 'crID%3a616',
    'Portugal': 'crID%3a620',
    'Romania': 'crID%3a642',
    'Slovakia': 'crID%3a703',
    'Slovenia': 'crID%3a705',
    'Spain': 'crID%3a724',
    'Sweden': 'crID%3a752',
    'Switzerland': 'crID%3a756',
    'United Kingdom': 'crID%3a826'
};
// 2018 - 1980
var years = ['timeID%3a83', 'timeID%3a82', 'timeID%3a81', 'timeID%3a79', 'timeID%3a78', 'timeID%3a77', 'timeID%3a76', 'timeID%3a75', 'timeID%3a73', 'timeID%3a72', 'timeID%3a71', 'timeID%3a70', 'timeID%3a69', 'timeID%3a67', 'timeID%3a66', 'timeID%3a65', 'timeID%3a64', 'timeID%3a63', 'timeID%3a61', 'timeID%3a60', 'timeID%3a59', 'timeID%3a58', 'timeID%3a57', 'timeID%3a55', 'timeID%3a54', 'timeID%3a53', 'timeID%3a52', 'timeID%3a51', 'timeID%3a49', 'timeID%3a48', 'timeID%3a47', 'timeID%3a46', 'timeID%3a45', 'timeID%3a43', 'timeID%3a42', 'timeID%3a41', 'timeID%3a40', 'timeID%3a39', 'timeID%3a37']; 
// medium
var variants = 'varID%3a2';

仅为了完整性:选择数据后，我需要创建一个如下所示的对象:

var date = [{year: 2018,country:'阿尔巴尼亚',population:2934.363},{year:2017,country:'Albania',population:2930.187},...,{year:1980,country:'United Kingdom',population:56265.475}]

所以我创建了一个这样的函数:

methods.createJsonObjectPop = function(year, country, population) {
    return {
        year: year, 
        country: country, 
        population: population
    };
}

任何建议都会对我有很大帮助!

<小时/>

编辑1

内容分为多个页面。我们怎样才能得到所有的数据呢？也许可以通过打开所有页面并合并数据来实现？这是显而易见的。如果X是页数，我想我必须执行不同的X请求。

网站如何知道请求的是哪个页面？我认为这要归功于网址，但我不确定(例如 http://...Page=3...)。

我想象这个伪代码:

var basicUrl = 'http://data.un.org/Handlers/DataHandler.ashx?Service=query&Anchor=variableID%3a12&Applied=crID%3a8;crID%3a40;crID%3a56;crID%3a100;crID%3a191;crID%3a196;crID%3a208;crID%3a233;crID%3a246;crID%3a250;crID%3a276;crID%3a300;crID%3a352;crID%3a372;crID%3a380;crID%3a428;crID%3a528;crID%3a578;crID%3a616;crID%3a620;crID%3a642;crID%3a703;crID%3a705;crID%3a724;crID%3a752;crID%3a756;crID%3a826;timeID%3a83;timeID%3a82;timeID%3a81;timeID%3a79;timeID%3a78;timeID%3a77;timeID%3a76;timeID%3a75;timeID%3a73;timeID%3a72;timeID%3a71;timeID%3a70;timeID%3a69;timeID%3a67;timeID%3a66;timeID%3a65;timeID%3a64;timeID%3a63;timeID%3a61;timeID%3a60;timeID%3a59;timeID%3a58;timeID%3a57;timeID%3a55;timeID%3a54;timeID%3a53;timeID%3a52;timeID%3a51;timeID%3a49;timeID%3a48;timeID%3a47;timeID%3a46;timeID%3a45;timeID%3a43;timeID%3a42;timeID%3a41;timeID%3a40;timeID%3a39;timeID%3a37;varID%3a2&DataMartId=PopDiv&UserQuery=population&c=2,4,6,7&s=_crEngNameOrderBy:asc,_timeEngNameOrderBy:desc,_varEngNameOrderBy:asc&RequestId=531';
let promises = [];
let allData = [];

var options = {
    uri: url,
    transform: function(body) {
        return cheerio.load(body);
    }
};

methods.download = async function(req, res) {
    for(var i = 0; i < X; i++) {
        var url = basicUrl + '&Page=' + i;
        let res = await request(options, url);
        let data = elaborateData(res);
        allData.push(data);
    }
    return Promise.all(promises);
}

function elaborateData(res) {
    var el = document.createElement('html');
    // use javascript or jQuery to get data like:
    // var year = getElementByTag(...);
    // var country = getElementByTag(...);
    // var population = getElementByTag(...);
    return createJsonObjectPop(year, country, population);
}

<小时/>

编辑2

var basicUrl = 'http://data.un.org/Handlers/DataHandler.ashx?Service=query&Anchor=variableID%3a12&Applied=crID%3a8;crID%3a40;crID%3a56;crID%3a100;crID%3a191;crID%3a196;crID%3a208;crID%3a233;crID%3a246;crID%3a250;crID%3a276;crID%3a300;crID%3a352;crID%3a372;crID%3a380;crID%3a428;crID%3a528;crID%3a578;crID%3a616;crID%3a620;crID%3a642;crID%3a703;crID%3a705;crID%3a724;crID%3a752;crID%3a756;crID%3a826;timeID%3a83;timeID%3a82;timeID%3a81;timeID%3a79;timeID%3a78;timeID%3a77;timeID%3a76;timeID%3a75;timeID%3a73;timeID%3a72;timeID%3a71;timeID%3a70;timeID%3a69;timeID%3a67;timeID%3a66;timeID%3a65;timeID%3a64;timeID%3a63;timeID%3a61;timeID%3a60;timeID%3a59;timeID%3a58;timeID%3a57;timeID%3a55;timeID%3a54;timeID%3a53;timeID%3a52;timeID%3a51;timeID%3a49;timeID%3a48;timeID%3a47;timeID%3a46;timeID%3a45;timeID%3a43;timeID%3a42;timeID%3a41;timeID%3a40;timeID%3a39;timeID%3a37;varID%3a2&DataMartId=PopDiv&UserQuery=population&c=2,4,6,7&s=_crEngNameOrderBy:asc,_timeEngNameOrderBy:desc,_varEngNameOrderBy:asc&RequestId=531';
let promises = [];
let allData = [];
var pages = 22; // data are splitting in 22 pages

methods.download = async function(req, res) {
    for(var i = 0; i < pages; i++) {
        var url = basicUrl + '&Page=' + i;

        var options = {
            uri: url,
            transform: function(html) {
                return cheerio.load(html);
            }
        };

        let res = await request(options)
        .then(function($) {
            return $;
        })
        .catch(function(err) {
            console.log('Error', err.stack());
        });

        console.log('\n\nRES:', res);
        let data = elaborateData(res);
        allData.push(data);
    }
    return Promise.all(promises);
}

function elaborateData($) {
    $('.td').each(function() {
        console.log($(this).text());
    });
    // use javascript or jQuery to get data like:
    // var year = getElementByTag(...);
    // var country = getElementByTag(...);
    // var population = getElementByTag(...);
    //return createJsonObjectPop(year, country, population);
}

如果我运行这段代码，我会得到:

RES: function (selector, context, r, opts) {
    if (!(this instanceof initialize)) {
      return new initialize(selector, context, r, opts);
    }
    opts = _.defaults(opts || {}, options);
    return Cheerio.call(this, selector, context, r || root, opts);
  }

编辑3

var cheerioTableparser = require('cheerio-tableparser');

methods.download = async function(req, res) {
    for(var i = 0; i < 22; i++) {
        var url = basicUrl + '&Page=' + i; // DOESN'T WORK

        var options = {
            uri: url,
            transform: function(html) {
                return cheerio.load(html);
            }
        };

        let res = await request(options)
        .then(function($) {
            return $;
        })
        .catch(function(err) {
            console.log('Error', err.stack());
        });

        //console.log('\n\nRES:', res);
        let data = elaborateData(res);
        allData.push(data);
    }
    return Promise.all(promises);
}

function elaborateData($) {
    cheerioTableparser($);
    var data = $('table').parsetable(true, true, true);

    var countries = data[0];
    var years = data[1];
    var variants = data[2];
    var values = data[3];
    console.log('\ncountries:', countries);
    console.log('\nyears:', years);
    console.log('\nvariants:', variants);
    console.log('\nvalues:', values);

    // use javascript or jQuery to get data like:
    // var year = getElementByTag(...);
    // var country = getElementByTag(...);
    // var population = getElementByTag(...);
    //return createJsonObjectPop(year, country, population);
}

我得到:

countries: [ 'Country or Area',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Albania',
  'Austria',
  'Austria',
  'Austria',
  'Austria',
  'Austria',
  'Austria',
  'Austria',
  'Austria',
  'Austria',
  'Austria',
  'Austria' ]

years: [ 'Year(s)',
  '2018',
  '2017',
  '2016',
  '2015',
  '2014',
  '2013',
  '2012',
  '2011',
  '2010',
  '2009',
  '2008',
  '2007',
  '2006',
  '2005',
  '2004',
  '2003',
  '2002',
  '2001',
  '2000',
  '1999',
  '1998',
  '1997',
  '1996',
  '1995',
  '1994',
  '1993',
  '1992',
  '1991',
  '1990',
  '1989',
  '1988',
  '1987',
  '1986',
  '1985',
  '1984',
  '1983',
  '1982',
  '1981',
  '1980',
  '2018',
  '2017',
  '2016',
  '2015',
  '2014',
  '2013',
  '2012',
  '2011',
  '2010',
  '2009',
  '2008' ]

variants: [ 'Variant',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium',
  'Medium' ]

values: [ 'Value',
  '2934.363',
  '2930.187',
  '2926.348',
  '2923.352',
  '2920.775',
  '2918.978',
  '2920.039',
  '2926.659',
  '2940.525',
  '2962.635',
  '2991.651',
  '3023.907',
  '3054.331',
  '3079.179',
  '3097.747',
  '3111.005',
  '3119.029',
  '3122.408',
  '3121.970',
  '3115.576',
  '3103.759',
  '3093.041',
  '3092.228',
  '3106.736',
  '3140.595',
  '3189.583',
  '3240.587',
  '3275.431',
  '3281.454',
  '3253.656',
  '3197.067',
  '3121.336',
  '3041.007',
  '2966.798',
  '2901.592',
  '2842.624',
  '2788.314',
  '2735.329',
  '2681.239',
  '8751.820',
  '8735.453',
  '8712.137',
  '8678.657',
  '8633.220',
  '8577.782',
  '8517.548',
  '8459.864',
  '8409.949',
  '8370.038',
  '8338.453' ]

可以，只是我只能从第一页获取数据。

最佳答案

密切关注被抓取网站提出的所有请求。

如果您将 ajax 请求的目标站点设置为 1 以外的页面，您将看到初始 URL

http://data.un.org/Handlers/DataHandler.ashx?Service=query&Anchor=variableID%3a12&Applied=crID%3a8&crID%3a40;timeID%3a79&DataMartId=PopDiv&UserQuery=population&c=2,4,6,7&s=_crEngNameOrderBy:asc,_timeEngNameOrderBy:desc,_varEngNameOrderBy:asc&RequestId=302

被替换为另一个:

http://data.un.org/Handlers/DataHandler.ashx?Service=page&Page=2&DataFilter=variableID%3a12%3btimeID%3a178%2c179&DataMartId=PopDiv&UserQuery=population&c=2,4,6,7&s=_crEngNameOrderBy:asc,_timeEngNameOrderBy:desc,_varEngNameOrderBy:asc&RequestId=361

即Service=query 替换为 Service=page，它也接受页码 Page=N。

您可以在所有现代浏览器中监控此类请求，尽管目前我更喜欢 Google Chrome，因为根据我的经验，它的开发工具是最快的。

因此，在 Google Chrome 中按 F12 或 CTRL +，然后单击“网络”选项卡，然后单击“XHR”过滤器。这将向您显示该站点发出的所有新的 ajax 请求。

关于node.js - 使用 Node.js 和请求进行网页抓取，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49727577/

文章推荐： c - 函数中的变量初始化

文章推荐： html - 无法将侧边栏设置为高度 : 100%

文章推荐： java - 在 Android JNI/NDK 代码中从 C++ 函数调用 C 函数

python - Python 请求(AJAX 请求)数据丢失
我正在尝试从该网站抓取历史天气数据: http://www.hko.gov.hk/cis/dailyExtract_uc.htm?y=2016&m=1 在阅读了 AJAX 调用后，我发现请求数据的正确
rest - 链接 postman 请求 - 从另一个请求调用 postman 请求？
我有两个 postman 请求 x,y，它们命中了两个不同的休息 api X,Y 中的端点。 x 会给我一个身份验证 token ，这是发出 y 请求所必需的。如何在请求 y 中发出请求 x ？也就是
javascript - Node.js 请求 - 处理多个 POST 请求
我使用请求库通过 API 与其他服务器进行通信。但现在我需要同时发送多个(10 个或更多)POST 请求，并且只有在所有响应都正确的情况下才能进一步前进。通常语法看起来有点像这样: var optio
javascript - 如果提交了新的 AJAX 请求，则取消 AJAX 请求
背景:当用户单击按钮时，其类会在class1和class2之间切换，并且此数据是通过 AJAX 提交。为了确认此数据已保存，服务器使用 js 进行响应(更新按钮 HTML)。问题:如果用户点击按钮的
Node.js 请求 - 打印帖子的整个 http 请求(原始)
我正在将 Node.js 中的请求库用于 Google 的文本转语音 API。我想打印出正在发送的请求，如 python example . 这是我的代码: const request = requi
python - 请求、请求 2 和请求 3 之间有什么区别？
我经常使用requests。最近我发现还有一个 requests2 和即将到来的 requests3 虽然有一个 page其中简要提到了 requests3 中的内容，我一直无法确定 requests
python - 在 POST 请求(python 请求)后获取响应/返回值
我正在尝试将图像发送到我的 API，然后从中获取结果。例如，我使用发送一个 bmp 图像文件 file = {"img": open("img.bmp)} r = requests.post(url,
azure - Azure 中两个虚拟机之间的内部 HTTP 请求 - 默认情况下安全还是需要发送 HTTPS 请求？
我发现 Google Cloud 确保移出其物理环境的任何请求都经过强制加密，请参阅(虚拟机到虚拟机标题下的第 6 页)this link Azure(和 AWS)是否遵循类似的程序？如果有人能给我指
javascript - jQuery:执行同步 AJAX 请求，然后执行一系列其他 ajax 请求
我有一个 ASP.NET MVC 应用程序，我正在尝试在 javascript 函数中使用 jQuery 来创建一系列操作。该函数由三部分组成。我想做的是:如果满足某些条件，那么我想执行同步 jQu
javascript - Http 请求 - 外部 url 请求 ember js
我找不到如何执行 get http 请求，所以我希望你们能帮助我。这个想法是从外部url(例如 https://api.twitter.com/1.1/search/tweets.json?q=tw
android - 请求 READ_SMS 请求 "send and view SMS messages"
我的应用只需要使用“READ_SMS”权限。我的问题是，在 Android 6.0 上，当我需要使用新的权限系统时，它会要求用户“发送和查看短信”。这是我的代码: ActivityCompat.re
node.js - 为什么即使我的前端代码只是发出 POST 请求，浏览器也会发送 OPTIONS 请求？
我的前端代码: { this.searchInput = input; }}/> 搜索 // search method: const baseUrl = 'http://localho
c# - 将 HTTP 请求 header 添加到 WCF 请求
我有一个由 AJAX 和 C# 应用程序使用的 WCF 服务，我需要通过 HTTP 请求 header 发送一个参数。在我的 AJAX 上，我添加了以下内容并且它有效: $.ajax({
javascript - node.js + 请求 => node.js + bluebird + 请求
我正在尝试了解如何使用 promises 编写代码。请检查我的代码。这样对吗？ Node.js + 请求: request(url, function (error, response, body)
gwt - 如果失败，如何重新发送 GWT RPC 请求(或如何创建持久的 RPC 请求)？
如果失败(除 HTTP 200 之外的任何响应代码)，我需要重试发送 GWT RPC 请求。原因很复杂，所以我不会详细说明。到目前为止，我在同一个地方处理所有请求响应，如下所示: // We
php - 发起 POST 请求，执行操作，然后完成 POST 请求 - 如何？
当用户单击提交按钮时，我希望提交表单。然而，就在这种情况发生之前，我希望弹出一个窗口并让他们填写一些数据。一旦他们执行此操作并关闭该子窗口，我希望发出 POST 请求。这可能吗？如果可能的话如何？我
javascript - 什么更好？更多 HTTP 请求 = 更少的数据传输或更少的 HTTP 请求 = 更多的数据传输？
像 Facebook 这样的网站使用“延迟”加载 js。当你必须考虑到我有一台服务器，流量很大时。我很感兴趣 - 哪一个更好？当我一次执行更多 HTTP 请求时 - 页面加载速度较慢(由于限制(一
java - Servlet 容器创建 Servlet 请求/响应对象还是 HttpServlet 请求/响应对象？
Servlet 容器是否创建 ServletRequest 和 Response 对象或 Http 对象？如果是ServletRequest，谁在调用服务方法之前将其转换为HttpServletReq
php - HTTP 请求 URL 不是 HTTP 请求 header 的一部分吗？
这是维基百科文章的摘录: In contrast to the GET request method where only a URL and headers are sent to the serv
node.js - 首先完成一个 HTTP post 请求，然后再循环执行下一个 HTTP post 请求
我有一个循环，每次循环时都会发出 HTTP post 请求。 for(let i = 1; i console.log("succes at " + i), error => con

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

node.js - 使用 Node.js 和请求进行网页抓取

编辑1

编辑2

编辑3