- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
作为个人挑战,我正在尝试创建一个工具,该工具将使用Puppeteer抓取网站(本实验所使用的购物平台AliBaba)的搜索结果,并将输出保存到JSON对象中,以便以后用于创建前端的可视化。
我的第一步是访问搜索结果的第一页,并将列表从那里刮到一个数组中:
const puppeteer = require('puppeteer');
const fs = require('fs');
/* First page search URL */
const url = (keyword) => `https://www.alibaba.com/trade/search?fsb=y&IndexArea=product_en&CatId=&SearchText=${keyword}`
/* keyword to search for */
const keyword = `future`;
(async () => {
try {
const browser = await puppeteer.launch({
headless: true
});
const page = await browser.newPage();
await page.goto(url(keyword), {
waitUntil: 'networkidle2'
});
await page.waitForSelector('.m-gallery-product-item-v2');
let urls = await page.evaluate(() => {
let results = [];
let items = document.querySelectorAll('.m-gallery-product-item-v2');
// This console.log never gets printed to either the browser window or the terminal?
console.log(items)
items.forEach( item => {
let CurrentTime = Date.now();
let title = item.querySelector('h4.organic-gallery-title__outter').getAttribute("title");
let link = item.querySelector('.organic-list-offer__img-section').getAttribute("href");
let img = item.querySelector('.seb-img-switcher__imgs').getAttribute("data-image");
results.push({
'scrapeTime': CurrentTime,
'title': title,
'link': `https:${link}`,
'img': `https:${img}`,
})
});
return results;
})
console.log(urls)
browser.close();
} catch (e) {
console.log(e);
browser.close();
}
})();
当我使用Node在终端中运行文件(test-2.js)时,它有时会返回
results
数组,但有时会抛出错误。大约一半时间抛出的终端错误是:
Error: Evaluation failed: TypeError: Cannot read property 'getAttribute' of null
at __puppeteer_evaluation_script__:11:82
at NodeList.forEach (<anonymous>)
at __puppeteer_evaluation_script__:8:19
at ExecutionContext._evaluateInternal (/Users/dmnk/scraper/node_modules/puppeteer/lib/ExecutionContext.js:102:19)
at processTicksAndRejections (internal/process/task_queues.js:97:5)
at async ExecutionContext.evaluate (/Users/dmnk/scraper/node_modules/puppeteer/lib/ExecutionContext.js:33:16)
at async /Users/dmnk/scraper/test-2.js:24:20
-- ASYNC --
at ExecutionContext.<anonymous> (/Users/dmnk/scraper/node_modules/puppeteer/lib/helper.js:94:19)
at DOMWorld.evaluate (/Users/dmnk/scraper/node_modules/puppeteer/lib/DOMWorld.js:89:24)
at processTicksAndRejections (internal/process/task_queues.js:97:5)
-- ASYNC --
at Frame.<anonymous> (/Users/dmnk/scraper/node_modules/puppeteer/lib/helper.js:94:19)
at Page.evaluate (/Users/dmnk/scraper/node_modules/puppeteer/lib/Page.js:612:14)
at Page.<anonymous> (/Users/dmnk/scraper/node_modules/puppeteer/lib/helper.js:95:27)
at /Users/dmnk/scraper/test-2.js:24:31
at processTicksAndRejections (internal/process/task_queues.js:97:5)
(node:53159) UnhandledPromiseRejectionWarning: ReferenceError: browser is not defined
at /Users/dmnk/scraper/test-2.js:52:9
at processTicksAndRejections (internal/process/task_queues.js:97:5)
(node:53159) UnhandledPromiseRejectionWarning: Unhandled promise rejection. This error originated either by throwing inside of an async function without a catch block, or by rejecting a promise which was not handled with .catch(). To terminate the node process on unhandled promise rejection, use the CLI flag `--unhandled-rejections=strict` (see https://nodejs.org/api/cli.html#cli_unhandled_rejections_mode). (rejection id: 1)
(node:53159) [DEP0018] DeprecationWarning: Unhandled promise rejections are deprecated. In the future, promise rejections that are not handled will terminate the Node.js process with a non-zero exit code.
我对掌握和学习异步JavaScript相对较新。
最佳答案
实际上,您确实滥用了异步JavaScript,这会导致脚本失败。对于互联网连接速度稍慢的我来说,Evaluation failed: TypeError: Cannot read property 'getAttribute' of null
错误始终存在。通过将 networkidle2
中的domcontentloaded
替换为page.goto
waitUntil设置,您可以稍微提高稳定性(请确保阅读文档之间有什么区别)。
主要问题是异步事件(与chrome api的通信)未等待。您可以考虑以下几点开始重构脚本:
更有效地选择元素
const
以避免意外覆盖已选择的元素。 page
上下文标识元素。 Puppeteer(chrome)还为$$
提供了querySelectorAll
别名; $
:querySelector
。 (docs) await
异步事件,一切都被认为是异步的,需要与chrome api进行通信! let items = document.querySelectorAll('.m-gallery-product-item-v2');
之后:
const items = await page.$$('.m-gallery-product-item-v2');
.getAttribute
):
let title = item.querySelector('h4.organic-gallery-title__outter').getAttribute("title");
之后:
const title = await page.evaluate(el => el.title, (await page.$$('h4.organic-gallery-title__outter'))[i])
forEach
遍历异步事件
forEach
循环中使用async/await。但是,实际上,缺少异步是如果未及时加载页面导致脚本失败的原因。您确实需要异步,只是不需要在
forEach
内(不,也不需要在
Array.map
内!)。我宁愿建议
使用 for...of
或常规的for循环,如果您希望使用伪造者 Action 进行可预测的行为。 (在当前示例中,数组索引具有关键部分,因此为了简单起见,我使用了for循环)
forEach
,但是您需要使用
Promise.all
对其进行包装。
page.evaluate
部分使代码保持异步,但是您也可以通过使用上面的建议并等待每个步骤来解决此问题。您最终都不会返回
results
对象,但是可以在循环的每次迭代中填充它。
console.log(items);
也将被记录到控制台。
const puppeteer = require('puppeteer');
/* first page search URL */
const url = keyword => `https://www.alibaba.com/trade/search?fsb=y&IndexArea=product_en&CatId=&SearchText=${keyword}`;
/* keyword to search for */
const keyword = 'future';
const results = [];
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
try {
await page.goto(url(keyword), { waitUntil: 'domcontentloaded' });
await page.waitForSelector('.m-gallery-product-item-v2');
const items = await page.$$('.m-gallery-product-item-v2');
// this console.log never gets printed to either the browser window or the terminal?
console.log(items);
for (let i = 0; i < items.length; i++) {
try {
let CurrentTime = Date.now();
const title = await page.evaluate(el => el.title, (await page.$$('h4.organic-gallery-title__outter'))[i]);
const link = await page.evaluate(el => el.href, (await page.$$('.organic-list-offer__img-section, .list-no-v2-left__img-container'))[i]);
const img = await page.evaluate(el => el.getAttribute('data-image'), (await page.$$('.seb-img-switcher__imgs'))[i]);
results.push({
scrapeTime: CurrentTime,
title: title,
link: `https:${link}`,
img: `https:${img}`
});
} catch (e) {
console.error(e);
}
}
console.log(results);
await browser.close();
} catch (e) {
console.log(e);
await browser.close();
}
})();
编辑:该脚本有时会失败,因为在阿里巴巴的网站上
.organic-list-offer__img-section
CSS类已更改为
.list-no-v2-left__img-container
。他们要么AB用不同的选择器测试两个布局,要么经常更改CSS类。
const link = await page.evaluate(el => el.href, (await page.$$('.organic-list-offer__img-section, .list-no-v2-left__img-container'))[i]);
这将确保在两种情况下都可以选择该元素,
comma的作用类似于
OR
运算符。
关于javascript - puppeteer : Scrape sometimes works, sometimes fails with TypeError,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62516119/
我想避免创建 std::thread 的开销,因此我要实现一个线程池。我正在为一个设计决策而苦苦挣扎: 工作队列中的工作是否应该能够将工作添加到工作队列中?如果是,如何? 问题出现了,因为我想让我添加
color 属性正常工作,但其他两个属性(font-size 和 text-shadow)不起作用。当链接被访问时,它的字体大小应该减小到 20 px 并且应用 text-shadow 属性,但它没有
我已经安装并配置了 supervisor。 ps -ax 显示 10 个进程,例如:php/home/vagrant/Sites/mysite/artisan queue:work --tries=1
我对 php artisan queue::work 命令感到不安。 我的命令不起作用,但我的作业已插入作业表但从未执行。 我正在为队列使用 mongodb 驱动程序。 我做错了什么,请给我建议。 最
为什么我可以找到很多关于“工作窃取”的信息而没有关于“工作耸肩”作为动态负载平衡策略的信息? 通过“工作耸肩”,我的意思是将多余的工作从繁忙的处理器转移到负载较低的邻居上,而不是让空闲的处理器从忙碌的
首先,我正在为 MySQL 使用 DATE_ADD 函数。当试图在 php 中使用 $sqlA 时,由于某种原因它说语法错误(主要是 WHERE 之后的区域)。为什么? $sqlA = "SELECT
a:hover { color: #237ca8 !important; font-weight: bold; } a:active { color: #cccccc !imp
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 7 年前。 Improve this q
我试图让只能使用 Tab 键的用户可以访问我的网站。我遇到的问题是,当我尝试使用 tab 键选择 float 的 div 时,不会触发 :focus in css;我不知道为什么它没有被触发。鼠标悬停
我在尝试将 2 个 div 并排放置时遇到了问题。 display: inline 它会删除我的边框并且不会将两个 div 放在同一行上。 请指教: .gig { outline: 1px s
这是 fiddle :http://jsfiddle.net/j9Gmx/ 我怎样才能得到最小高度:100%;上类? 最佳答案 它正在 工作,但由于 div 的父级(正文)没有高度,100% 基本上是
我正在使用 Flutter WebRTC 来创建 P2P 视频通话。 我遇到了一个与网络相关的问题:我已经完成了应用程序,但它只适用于移动数据。 将网络更改为WiFi时,它不起作用并且连接状态挂起Ch
我是 JavaScript 和 jQuery 的初学者。我的 css 和 JavaScript 代码位于 html 文件外部。这个问题已经有了答案,我尝试了所有代码,但滚动不起作用。我不知道我错过了什
我正在使用 Sprin AMQP 的rabbittemplate 通过 RabbitMQ 发送和接收消息。我能够发送和接收消息,但是,我想优先处理消息。 例如,如果我推送 1000 条消息,假设奇数消
我已经在 WorkManager 中加入了一个PeriodicWork,并希望每次完成时都获取它的 Worker 的输出数据,但以下代码似乎不起作用,因为 Log 消息没有出现在 Logcat 中:
我有一个名为 areaOne 的 AngularJS 指令。当我使用 template 时,会显示模板,但当我在 area1.js 中使用 templateUrl 时,不会呈现模板 HTML。 我在这
“:after”选择器在应用于带有 FF 和 IE 的输入时不起作用 input:after { content: "title"; } 而它正在处理 p、a 等。 这是一个错
下面是适用于 oracle 但不适用于 PostgreSQL 的 Sql 查询。 select count(*) from users where id>1 order by username; 我知
position?:fixed 在 chrome 浏览器上不工作,但在 firefox 中工作正常。 我有一个侧边栏可以停止滚动并固定在顶部。它在 firefox 中运行完美,但在 chrome 中,
我有一段代码无法在 Firefox 中运行。当按钮悬停时,.icon 图像不会改变。它在 Chrome 中完美运行。 button.add-to-cart-button .button-left .i
我是一名优秀的程序员,十分优秀!