python/scrapy 问题 : How to avoid endless loops-6ren

python/scrapy 问题 : How to avoid endless loops

转载作者：行者123 更新时间：2023-11-28 19:58:56

25

4

我正在使用网络抓取框架 scrapy 来挖掘一些网站的数据。我正在尝试使用 CrawlSpider，并且页面有一个“后退”和“下一步”按钮。 URL 的格式为

www.qwerty.com/###

其中 ### 是一个数字，每次按下下一个按钮时都会递增。如何格式化规则，以免出现无限循环。

这是我的规则:

rules = (
        Rule(SgmlLinkExtractor(allow='http://not-a-real-site.com/trunk-framework/791'),follow=True,callback='parse_item',
    ),
)

最佳答案

死循环不应该发生。 Scrapy 会过滤掉重复的 url。

关于python/scrapy 问题 : How to avoid endless loops，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6684129/

25

4

0

文章推荐： javascript - 使用带有新 id 的 javascript 克隆 html 中的 div

文章推荐： ios - 验证来自 SQL 注入(inject) objective-c 的输入

JavaFX "endless" Pane
所以我试图在 JavaFX 中创建一种带有 Canvas 和工具栏的类似绘画/Photoshop 的应用程序。如果可能的话，我想要的是 Canvas 相当大，甚至是无穷无尽的。我希望用户能够在 Can
c - 无限循环: why is this sooo endless
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
C语言编程: stopping endless loops
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 9 年前。 Improve th
javascript - 如何创建 "endless"滚动幻灯片？
我对 JS 很了解，我也熟悉 jQuery，我正在尝试创建一个“无休止的”幻灯片(就像 http://thisismedium.com/ 上的那个)，其中图像滚动——一个就在其他 - 当它到达终点时它
c++ - Code Endless 写入文本文件的第一行
下面是我正在使用的代码，它应该从薪资数据中读取包含姓名和当前薪资以及增长百分比的信息，然后将新信息写入 NewData 文件。好吧，它读取第一行并无休止地一遍又一遍地重写到新文件中。它需要能够读取和写
安卓问题 : View with endless scrolling
我有一个实现了滚动的自定义 View ，但它似乎在图像上无休止地滚动。即使我找到图像的边缘，它也会一直滚动到空白背景。我不能使用 WebView，因为我还有一些 Canvas sutff。有谁知
java - "Endless"来自套接字的 AudioInputStream
我在从 Socket 创建 AudioInputStream 时遇到问题。以下是重要部分: public class SoundStream extends Thread { private
Android Endless list 内存管理
我通过在 onScrollStateChanged(...) 方法中将更多项目加载到 arraylist 来实现无限 ListView 。如果我正在实现这个方案来获取超过 100 万个条目，我将在 a
Endless BufferReader reading(无休止的BufferReader阅读)
I wrote some program that has to receive and send messages. But I have some troubles with streams
django-endless-pagination 似乎没有使用 AJAX
我试图在我的项目中使用 django-endless-pagination，但结果似乎没有使用 AJAX。我的目标是类似 twitter 的分页，向下滚动并在不刷新页面的情况下列出更多元素。这是我的
SQL Server : Endless WHILE EXISTS loop
我对以下 WHILE EXISTS 循环有问题。您能考虑一下为什么它是无限循环以及为什么它不更新值的原因是什么吗？ declare @part varchar(20) while exists ((s
jQuery - 尝试创建 'endless slideshow' 的图像
我正在尝试创建一个无休止的图像幻灯片，其功能如下: 在窗口上滑动图像到达最后一个图像时，将从图像的开头开始这是我当前的代码: var direction = '-'; function doScr
android - Android Endless Listview 的屏幕旋转
我正在试用 CommonsWare 的 android endlist 适配器。 https://github.com/commonsguy/cwac-endless 加载几个页面后，我旋转了屏幕，
android - Endless Scroll RecyclerView 总是返回顶部
我对无限滚动有疑问。每次加载更多数据时，它都会返回顶部 View 。我想要的是 RecyclerView 在加载新数据时保持在最后一个位置。我正在尝试实现此代码 https://github.com/
android - Endless RecyclerView Loading 不停加载不滚动
我有这种情况。我实现了 endless scrolling with RecyclerView .通常，当当前滚动位置下方只有 5 个项目时，应该加载新项目，但事实并非如此。而是从 API 加载第一
android - 如何将自定义适配器与 cwac-endless 适配器一起使用？
我想将无尽的适配器功能添加到我的自定义适配器中。我该如何使用这个组合？谢谢。最佳答案您按照 GitHub repo for the project 中的说明进行操作. EndlessAdapter
java - 使用 Endless 适配器的 ListView
我有一个包含 10,000 行的数据库表，我想将其显示在 ListView 中。我想显示前 20 个，当用户向下滚动到最后一个项目时，应该加载下一个 20 个(依此类推)。加载 ListView 中的
html - jscroller up 和 jscroller endless
请帮我找到这个编码的解决方案 Coming Soon.. Your Own Classifieds Section Coming Soon..
java - 使用 Endless RecyclerView 作为日历
我目前是 Android 开发新手，正在构建我的第一个应用程序。我陷入了一个特别棘手的问题，我正在尝试实现无尽的回收器 View 。我(当前)使用回收器 View 只是为了获取当前日期并将其显示在日
python - 监视文件夹和打印 - 不使用 "endless"while 循环的替代方法？
所以，我写这个是为了监视文件夹中的新图片并打印找到的任何图片。它有效，但我假设有一种更强大/更有效的方法来解决这个问题，因为我希望它一次运行 5-6 小时。我的主要问题是我不喜欢使用像这样的“ope

首页

博学

6Ren·AI

商城

python/scrapy 问题 : How to avoid endless loops