javascript - puppeteer : Scrape sometimes works, sometimes fails with TypeError-6ren

javascript - puppeteer : Scrape sometimes works, sometimes fails with TypeError

转载作者：行者123 更新时间：2023-12-03 07:40:43

作为个人挑战，我正在尝试创建一个工具，该工具将使用Puppeteer抓取网站(本实验所使用的购物平台AliBaba)的搜索结果，并将输出保存到JSON对象中，以便以后用于创建前端的可视化。
我的第一步是访问搜索结果的第一页，并将列表从那里刮到一个数组中:

const puppeteer = require('puppeteer');
const fs = require('fs');

/* First page search URL */
const url = (keyword) => `https://www.alibaba.com/trade/search?fsb=y&IndexArea=product_en&CatId=&SearchText=${keyword}`

/* keyword to search for */
const keyword = `future`;

(async () => {
    try {
        const browser = await puppeteer.launch({
            headless: true
        });

        const page = await browser.newPage();

        await page.goto(url(keyword), {
            waitUntil: 'networkidle2'
        });

        await page.waitForSelector('.m-gallery-product-item-v2');

        let urls = await page.evaluate(() => {
            let results = [];
            let items = document.querySelectorAll('.m-gallery-product-item-v2');

            // This console.log never gets printed to either the browser window or the terminal?
            console.log(items)

            items.forEach( item => {
                let CurrentTime = Date.now();
                let title = item.querySelector('h4.organic-gallery-title__outter').getAttribute("title");
                let link = item.querySelector('.organic-list-offer__img-section').getAttribute("href");
                let img = item.querySelector('.seb-img-switcher__imgs').getAttribute("data-image");

                results.push({
                    'scrapeTime': CurrentTime,
                    'title': title,
                    'link': `https:${link}`,
                    'img': `https:${img}`,
                })
            });
            return results;
            
        })
        console.log(urls)
        browser.close();

    } catch (e) {
        console.log(e);
        browser.close();
    }
})();

当我使用Node在终端中运行文件(test-2.js)时，它有时会返回 results数组，但有时会抛出错误。大约一半时间抛出的终端错误是:

Error: Evaluation failed: TypeError: Cannot read property 'getAttribute' of null
    at __puppeteer_evaluation_script__:11:82
    at NodeList.forEach (<anonymous>)
    at __puppeteer_evaluation_script__:8:19
    at ExecutionContext._evaluateInternal (/Users/dmnk/scraper/node_modules/puppeteer/lib/ExecutionContext.js:102:19)
    at processTicksAndRejections (internal/process/task_queues.js:97:5)
    at async ExecutionContext.evaluate (/Users/dmnk/scraper/node_modules/puppeteer/lib/ExecutionContext.js:33:16)
    at async /Users/dmnk/scraper/test-2.js:24:20
  -- ASYNC --
    at ExecutionContext.<anonymous> (/Users/dmnk/scraper/node_modules/puppeteer/lib/helper.js:94:19)
    at DOMWorld.evaluate (/Users/dmnk/scraper/node_modules/puppeteer/lib/DOMWorld.js:89:24)
    at processTicksAndRejections (internal/process/task_queues.js:97:5)
  -- ASYNC --
    at Frame.<anonymous> (/Users/dmnk/scraper/node_modules/puppeteer/lib/helper.js:94:19)
    at Page.evaluate (/Users/dmnk/scraper/node_modules/puppeteer/lib/Page.js:612:14)
    at Page.<anonymous> (/Users/dmnk/scraper/node_modules/puppeteer/lib/helper.js:95:27)
    at /Users/dmnk/scraper/test-2.js:24:31
    at processTicksAndRejections (internal/process/task_queues.js:97:5)
(node:53159) UnhandledPromiseRejectionWarning: ReferenceError: browser is not defined
    at /Users/dmnk/scraper/test-2.js:52:9
    at processTicksAndRejections (internal/process/task_queues.js:97:5)
(node:53159) UnhandledPromiseRejectionWarning: Unhandled promise rejection. This error originated either by throwing inside of an async function without a catch block, or by rejecting a promise which was not handled with .catch(). To terminate the node process on unhandled promise rejection, use the CLI flag `--unhandled-rejections=strict` (see https://nodejs.org/api/cli.html#cli_unhandled_rejections_mode). (rejection id: 1)
(node:53159) [DEP0018] DeprecationWarning: Unhandled promise rejections are deprecated. In the future, promise rejections that are not handled will terminate the Node.js process with a non-zero exit code.

我对掌握和学习异步JavaScript相对较新。
我已经尝试了几天，以了解为什么会发生此错误，但无济于事。非常感谢您对了解原因/故障排除的任何帮助。

最佳答案

实际上，您确实滥用了异步JavaScript，这会导致脚本失败。对于互联网连接速度稍慢的我来说，Evaluation failed: TypeError: Cannot read property 'getAttribute' of null错误始终存在。通过将 networkidle2 中的domcontentloaded替换为page.goto waitUntil设置，您可以稍微提高稳定性(请确保阅读文档之间有什么区别)。
主要问题是异步事件(与chrome api的通信)未等待。您可以考虑以下几点开始重构脚本:
更有效地选择元素

我建议使用const以避免意外覆盖已选择的元素。

使用page上下文标识元素。 Puppeteer(chrome)还为$$提供了querySelectorAll别名； $:querySelector。 (docs)

总是await异步事件，一切都被认为是异步的，需要与chrome api进行通信!

之前:

let items = document.querySelectorAll('.m-gallery-product-item-v2');

之后:

const items = await page.$$('.m-gallery-product-item-v2');

评估DOM内容
结合使用elementHandles和 page.evaluate来检索内容(在极少数情况下需要 .getAttribute):
之前:

let title = item.querySelector('h4.organic-gallery-title__outter').getAttribute("title");

之后:

const title = await page.evaluate(el => el.title, (await page.$$('h4.organic-gallery-title__outter'))[i])

不要使用 forEach遍历异步事件
幸运的是，您没有在 forEach循环中使用async/await。但是，实际上，缺少异步是如果未及时加载页面导致脚本失败的原因。您确实需要异步，只是不需要在 forEach内(不，也不需要在 Array.map内!)。我宁愿建议 使用 for...of 或常规的for循环，如果您希望使用伪造者 Action 进行可预测的行为。 (在当前示例中，数组索引具有关键部分，因此为了简单起见，我使用了for循环)
注意:可以使用 forEach，但是您需要使用 Promise.all对其进行包装。

使用try ... catch捕获较小的代码片段
例如:在每次迭代的循环内，因此如果只有一个数组元素有问题，您的脚本不会崩溃。如果您运行刮板几个小时，并且快要失效了，那可能会非常令人沮丧。

重构“URL”功能 page.evaluate部分使代码保持异步，但是您也可以通过使用上面的建议并等待每个步骤来解决此问题。您最终都不会返回 results对象，但是可以在循环的每次迭代中填充它。
重构的例子
它不会再失败，而且 console.log(items);也将被记录到控制台。

const puppeteer = require('puppeteer');

/* first page search URL */
const url = keyword => `https://www.alibaba.com/trade/search?fsb=y&IndexArea=product_en&CatId=&SearchText=${keyword}`;

/* keyword to search for */
const keyword = 'future';

const results = [];

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();

  try {
    await page.goto(url(keyword), { waitUntil: 'domcontentloaded' });
    await page.waitForSelector('.m-gallery-product-item-v2');
    const items = await page.$$('.m-gallery-product-item-v2');

    // this console.log never gets printed to either the browser window or the terminal?
    console.log(items);

    for (let i = 0; i < items.length; i++) {
      try {
        let CurrentTime = Date.now();
        const title = await page.evaluate(el => el.title, (await page.$$('h4.organic-gallery-title__outter'))[i]);
        const link = await page.evaluate(el => el.href, (await page.$$('.organic-list-offer__img-section, .list-no-v2-left__img-container'))[i]);
        const img = await page.evaluate(el => el.getAttribute('data-image'), (await page.$$('.seb-img-switcher__imgs'))[i]);

        results.push({
          scrapeTime: CurrentTime,
          title: title,
          link: `https:${link}`,
          img: `https:${img}`
        });

      } catch (e) {
        console.error(e);
      }
    }

    console.log(results);
    await browser.close();
  } catch (e) {
    console.log(e);
    await browser.close();
  }
})();

编辑:该脚本有时会失败，因为在阿里巴巴的网站上 .organic-list-offer__img-section CSS类已更改为 .list-no-v2-left__img-container。他们要么AB用不同的选择器测试两个布局，要么经常更改CSS类。

编辑2:如果一个元素在每个用户 session 中可以有多个选择器(可能由于产品AB测试)，则可以使用两个可能的选择器，并用逗号分隔，例如:

const link = await page.evaluate(el => el.href, (await page.$$('.organic-list-offer__img-section, .list-no-v2-left__img-container'))[i]);

这将确保在两种情况下都可以选择该元素， comma的作用类似于 OR运算符。

关于javascript - puppeteer : Scrape sometimes works, sometimes fails with TypeError，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62516119/

文章推荐： javascript - catch 没有处理 promise 的拒绝

文章推荐： json - HAProxy 1.5-在504错误时提供静态json文件

文章推荐： javascript - 在 javascript 中捕获多种类型的错误

文章推荐： r - 如何使用lm()修复此无效的类型错误？

C++ 线程池 : should work be able to add more work to the work-queue
我想避免创建 std::thread 的开销，因此我要实现一个线程池。我正在为一个设计决策而苦苦挣扎: 工作队列中的工作是否应该能够将工作添加到工作队列中？如果是，如何？问题出现了，因为我想让我添加
html - 为什么伪类:visited doesn't work properly like font-size or text-shadow doesn't work at all but color works
color 属性正常工作，但其他两个属性(font-size 和 text-shadow)不起作用。当链接被访问时，它的字体大小应该减小到 20 px 并且应用 text-shadow 属性，但它没有
laravel - Php工匠队列:work doesn't work with supervisor
我已经安装并配置了 supervisor。 ps -ax 显示 10 个进程，例如:php/home/vagrant/Sites/mysite/artisan queue:work --tries=1
mongodb - Php工匠队列:work not working but job are inserted
我对 php artisan queue::work 命令感到不安。我的命令不起作用，但我的作业已插入作业表但从未执行。我正在为队列使用 mongodb 驱动程序。我做错了什么，请给我建议。最
terminology - "Work stealing"与 "Work shrugging"?
为什么我可以找到很多关于“工作窃取”的信息而没有关于“工作耸肩”作为动态负载平衡策略的信息？通过“工作耸肩”，我的意思是将多余的工作从繁忙的处理器转移到负载较低的邻居上，而不是让空闲的处理器从忙碌的
PHP 和 MYSQL : Why does A work and B not work?
首先，我正在为 MySQL 使用 DATE_ADD 函数。当试图在 php 中使用 $sqlA 时，由于某种原因它说语法错误(主要是 WHERE 之后的区域)。为什么？ $sqlA = "SELECT
html - :active is not working while a:hover is working well
a:hover { color: #237ca8 !important; font-weight: bold; } a:active { color: #cccccc !imp
html - 什么时候 margin : auto; work and not work?
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 7 年前。 Improve this q
html - :focus isn't working but :hover works fine
我试图让只能使用 Tab 键的用户可以访问我的网站。我遇到的问题是，当我尝试使用 tab 键选择 float 的 div 时，不会触发 :focus in css；我不知道为什么它没有被触发。鼠标悬停
html - 显示 :inline doesn't work work with border
我在尝试将 2 个 div 并排放置时遇到了问题。 display: inline 它会删除我的边框并且不会将两个 div 放在同一行上。请指教: .gig { outline: 1px s
css - 高度 :100%; works, 但最小高度 :100%; doesn't work?
这是 fiddle :http://jsfiddle.net/j9Gmx/ 我怎样才能得到最小高度:100%；上类？最佳答案它正在工作，但由于 div 的父级(正文)没有高度，100% 基本上是
flutter - WebRTC : not working on WIFI/works on Mobile Data
我正在使用 Flutter WebRTC 来创建 P2P 视频通话。我遇到了一个与网络相关的问题:我已经完成了应用程序，但它只适用于移动数据。将网络更改为WiFi时，它不起作用并且连接状态挂起Ch
javascript - 按钮点击平滑滚动 : Not working for me but works great in the Code Snippet
我是 JavaScript 和 jQuery 的初学者。我的 css 和 JavaScript 代码位于 html 文件外部。这个问题已经有了答案，我尝试了所有代码，但滚动不起作用。我不知道我错过了什
rabbitmq - Spring AMQP : Message Priority not working working
我正在使用 Sprin AMQP 的rabbittemplate 通过 RabbitMQ 发送和接收消息。我能够发送和接收消息，但是，我想优先处理消息。例如，如果我推送 1000 条消息，假设奇数消
java - 观察 WorkManager Work 以获得完成的 Work 输出
我已经在 WorkManager 中加入了一个PeriodicWork，并希望每次完成时都获取它的 Worker 的输出数据，但以下代码似乎不起作用，因为 Log 消息没有出现在 Logcat 中:
javascript - AngularJS 指令 : "templateUrl" doesn't work while "template" works
我有一个名为 areaOne 的 AngularJS 指令。当我使用 template 时，会显示模板，但当我在 area1.js 中使用 templateUrl 时，不会呈现模板 HTML。我在这
javascript - 是:after working supposed to work when applied to an input?
“:after”选择器在应用于带有 FF 和 IE 的输入时不起作用 input:after { content: "title"; } 而它正在处理 p、a 等。这是一个错
sql - Count(*) with order by not working on PostgreSQL which works on Oracle
下面是适用于 oracle 但不适用于 PostgreSQL 的 Sql 查询。 select count(*) from users where id>1 order by username; 我知
html - 位置 :fixed not working on chrome but works in firefox
position?:fixed 在 chrome 浏览器上不工作，但在 firefox 中工作正常。我有一个侧边栏可以停止滚动并固定在顶部。它在 firefox 中运行完美，但在 chrome 中，
html - 跨度 :hover isn't working in Firefox but works in Chrome
我有一段代码无法在 Firefox 中运行。当按钮悬停时，.icon 图像不会改变。它在 Chrome 中完美运行。 button.add-to-cart-button .button-left .i

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

javascript - puppeteer : Scrape sometimes works, sometimes fails with TypeError