javascript - pjscrape 延迟 btw 抓取 : how?-6ren

javascript - pjscrape 延迟 btw 抓取 : how?

转载作者：行者123 更新时间：2023-11-30 10:35:30

27

4

我正在使用 pjscrape 抓取大量页面。

我面临的问题是服务器通常会在短时间内建立一定数量的迭代连接后将您拒之门外。

我发现在页面抓取和后续页面之间创建一些延迟的唯一方法是使用就绪函数，即

pjs.addSuite({
    // single URL or array
    url: urls,
    ready: function() {
        return $('#MY_LAST_DIV').length > 0;
    },
    // single function or array, evaluated in the client
    scraper: function() {
        //...SCRAPING CODE...
    }
});

pjscrape 超时函数似乎可以处理其他问题(我引用以下)

pjs.config({ 
    ...
    timeoutInterval: 20000,
    timeoutLimit: 20000
});

有没有办法在抓取之间创建间隔？

最佳答案

查看源代码，目前没有机制在抓取它们之前等待一段时间但是加一个应该不难。这是一个原型(prototype)补丁(未经测试，仅供引用)

38a39
>             delayBetweenRuns: 0,
639c640,642
<                             s.scrape(url, scrapers, complete);
---
>                             window.setTimeout(function() {
>                                 s.scrape(url, scrapers, complete);
>                             },config.delayBetweenRuns);

它只是放置一个 setTimout 来包装 scrape 调用，默认情况下定义为 0 的超时。第一行是添加的配置键

关于javascript - pjscrape 延迟 btw 抓取 : how?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14237647/

27

4

0

文章推荐： javascript - Codemirror 中的垂直(或 block )选择

文章推荐： javascript - 使用javascript解析文本文件

windows - 一些实现命名管道通信的来源 btw 服务应用程序或帮助
我正在实现我自己的命名管道客户端/服务器类，但我遇到了太多麻烦，而且在 Internet 上没有太多相关信息。我已经找到了很多使用管道但使用 vlc 应用程序的实现，但我正在使用服务应用程序。我也接
javascript - 这些交互 btw var 和具有相同名称的函数声明如何工作？
谁能告诉我它是如何工作的，为什么会出现不同的结果: 为什么第一种情况没有SyntaxError: 第一: var a = 'foo'; function a() { }; console.log(a)
javascript - pjscrape 延迟 btw 抓取 : how?
我正在使用 pjscrape 抓取大量页面。我面临的问题是服务器通常会在短时间内建立一定数量的迭代连接后将您拒之门外。我发现在页面抓取和后续页面之间创建一些延迟的唯一方法是使用就绪函数，即 pjs
python - 我如何过滤 pandas 数据框中的连续数据行 btw NaN 行？
我有一个如下所示的数据框。有 >=1 个连续行，其中填充了 y_l 并且 y_h 为 NaN，反之亦然。当我们在 NaN 之间有超过 1 个连续填充行时，我们只想保留具有最低 y_l 或最高 y_h
dart - btw `BehaviorSubject` 和 `Sink` 有什么关系吗？和 `StreamController` ？
通过阅读@abin 在 What is the difference between Sink and Stream in Flutter? 中的回答，我已经理解了 btw Sink 和 Stream
JavaScript:使用 Join 使数组成为字符串，使用输入参数作为分隔符 Btw Words --> Replace Error
我有以下代码: function myJoin(array, separator) { let newStr = array.join(separator).replace("\", "")
css - 缓存差异 btw "/image.png"和 "/image.png?xyz"？
我们需要推送在 .css 文件中多次引用的 Sprite 的新版本，所以我想我会在文件名后附加一个模拟查询字符串。然而，一位同事声称，只要“？”之前的所有内容，您只需要更改第一个引用即可。保持不变。我
c++ - Qt widget 推广 : whats difference btw these two codes?
我尝试重新实现 mouseClickEvent，因为我需要区分右键单击和左键单击。我将我的QListView提升为WavList，并编写了以下代码，但出现了错误。 wavlist.h #ifndef
ios - Swift - 每 50 次后使用 sleep 者运行 1000 个异步任务 - 如何通信 btw DispatchGroups
我必须运行 1000 次异步计算。由于 API 有 50 个请求/分钟的限制，我必须将其分成 50 个 block ，并在处理一次 block 后等待一分钟。最终我想打印结果。 resultsArra

首页

博学

6Ren·AI

商城

javascript - pjscrape 延迟 btw 抓取 : how?