python - scrapy蜘蛛绕过拒绝我的规则-6ren

python - scrapy蜘蛛绕过拒绝我的规则

转载作者：行者123 更新时间：2023-12-01 05:37:47

25

4

嗨，我正在尝试使用crawlspider，并且我创建了自己的拒绝规则

class MySpider(CrawlSpider): 
    name = "craigs" 
    allowed_domains = ["careers-cooperhealth.icims.com"] 
    start_urls = ["careers-cooperhealth.icims.com"] 
    d= [0-9] 
    path_deny_base = [ '.(login)', '.(intro)', '(candidate)', '(referral)', '(reminder)', '(/search)',] 
    rules = (Rule (SgmlLinkExtractor(deny = path_deny_base, 
                                     allow=('careers-cooperhealth.icims.com/jobs/…;*')), 
                                     callback="parse_items", 
                                     follow= True), )

我的蜘蛛仍然爬行类似 https://careers-cooperhealth.icims.com/jobs/22660/registered-nurse-prn/login 的页面登录名不应被抓取的地方有什么问题？

最佳答案

就这样改变它(没有点和括号):

deny = ['login', 'intro', 'candidate', 'referral', 'reminder', 'search']
allow = ['jobs']

rules = (Rule (SgmlLinkExtractor(deny = deny, 
                                 allow=allow, 
                                 restrict_xpaths=('*')), 
                                 callback="parse_items", 
                                 follow= True),)

这意味着提取的链接中没有login或intro等，仅提取其中包含jobs的链接。

这是抓取链接https://careers-cooperhealth.icims.com/jobs/intro?hashed=0并打印“YAHOO!”的完整蜘蛛代码:

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import CrawlSpider, Rule


class MySpider(CrawlSpider):
    name = "craigs" 
    allowed_domains = ["careers-cooperhealth.icims.com"] 
    start_urls = ["https://careers-cooperhealth.icims.com"]

    deny = ['login', 'intro', 'candidate', 'referral', 'reminder', 'search']
    allow = ['jobs']

    rules = (Rule (SgmlLinkExtractor(deny = deny,
                                     allow=allow,
                                     restrict_xpaths=('*')),
                                     callback="parse_items",
                                     follow= True),)

    def parse_items(self, response):
        print "YAHOO!"

希望有帮助。

关于python - scrapy蜘蛛绕过拒绝我的规则，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18482813/

25

4

0

文章推荐： php - 使用 AJAX 调用发送数据后 Symfony 表单未提交？

文章推荐： python - 识别方程中的变量

文章推荐： python - Python 中替换特定字符的优雅方法

Lua __metatable 绕过？
我想知道是否有任何方法可以逃避 __metatable 元方法。我知道没有，但我正在尝试做这样的事情，但显然 __metatable 阻止了这种情况的发生: -- pretend that t
java - 绕过 do while 循环
我想知道如果满足某些条件，是否可以跳过 do while 循环，甚至中途退出方法？这是我的意思的一个例子(一切正常) public void loanBook() { Sc
javascript - 绕过 stopPropagation()
曾几何时，一位前端开发人员有一些菜单，当有人在页面上的任何位置单击菜单之外时，他想要关闭一些菜单，因此他使用了一些 if 和提到的方法来处理他的工作。当然，后来这又让他痛不欲生，因为在上述菜单中进行的
c - 绕过 softlockup_threshold
我开发了一个内核模块，它完成了繁重的工作，当然需要时间。问题是模块使用 CPU 超过 20 秒，并且结果引发了softlockup_threshold的BUG。我的问题是，有什么办法可以绕过这个吗？
java - 绕过 if 语句中的相似变量重复
我相信我对避免代码重复这个长期存在的问题提出了一个略有不同的看法。设置相当标准——一堆 if 语句执行类似的操作。下面是一个简短示例。我正在尝试从代码效率、紧凑性和程序员易用性方面找出解决此类情况的
php - 绕过 max_execution_time？
我的服务器上有 10 秒，这对我想要做的事情来说还不够。它也被网络托管商禁用了。如果在执行了一定时间后，我执行了一个单独的 PHP 页面，这算在同一时间还是在该页面上重新开始？还有别的办法吗？最
c++ - 绕过 DrawText
我已经下载并编译了 Microsoft 迂回库。在我的项目中，我包含了头文件并添加了 .lib 文件作为依赖项。一切都编译无误。现在我一直在尝试绕过 DrawText，但由于某种原因根本没有调用绕过的
java - 绕过 Mockito 中的静态方法
我正在使用 Mockito 编写一个 JUnit 测试用例，我试图绕过我的测试方法中的静态方法调用。运行测试用例时出现 NullPointerException。是否有任何方法可以在不使用 Powe
vba - 绕过 Workbook_SheetChange 事件
我不知道为什么，这很奇怪，但是我的代码在循环。实际上，在第一张表 (ws1) 中，我正在 Worksheet_Change 上执行此操作事件 : Application.EnableEvents =
ubuntu - 绕过 dockerfile 中的安装配置
我正在尝试在 Ubuntu Docker 容器上安装 icinga2-ido-pgsql。我的数据库在一个单独的容器中。要安装它，我运行 RUN apt-get install -q -y ici
axapta - 绕过 AOT 查询中的有效时间状态
我在 Dynamics AX 2012 中有一个 AOT 查询，它由 HcmWorker 和 HcmEmployment 表(等等)组成。我的问题是，当我创建报告(不是 SSRS)或以其他方式使用此查
reactjs - 绕过 Flow 中的几行
我需要通过cdn将SDK集成到我的next.js项目中所以我需要把 ' />进入我的代码。然后运行 window.sdk = new PrivateSDK()和 window.sdk.someFu
java - 绕过 Java 错误
有没有办法可以绕过 Java 中的错误消息？如果我得到一个错误，但没有可行的方法来改变我的程序怎么办？如果我怀疑我可能会从代码块中得到错误，但我不知道它何时或是否会发生，该怎么办？有很多次我不得不让
javascript - 绕过 Safari 中的弹出窗口拦截器
我有以下 HTML Facebook 我有一个 onclick 事件处理程序，当单击上面的链接时，会调用 window.open。这在 Chrome 中有效，但在 Safari 中无效。如何让它在 S
javascript - 绕过 Javascript 表单处理程序
我们正在编写一个 ASP.NET MVC 应用程序。默认情况下，如果客户端浏览器具有 Javascript，页面上每个表单的处理程序都会由 Javascript 设置为将提交内容发送到 Ajax“管道
cloudflare - 绕过 Cloudflare 的上传最大值
我正在使用 Cloudflare 来加速我的网站，它非常适合。不幸的是，我的一些用户需要将大于 Cloudflare 允许的最大值(即 300MB 大小)的视频上传到我的网站。有什么方法可以告诉 Cl
clojure - 绕过 Compojure 中的链的自定义中间件
我正在尝试编写一个自定义中间件，通过检查请求中是否存在 :user key 来检查用户是否经过身份验证。 (defn wrap-authenticated [handler] (fn [{user
c++ - 无需源代码即可调试/绕过 BSOD
你好，祝你有美好的一天。这里需要一些帮助: 情况: 我有一个不起眼的 DirectX 9 应用程序(名称和应用程序详细信息与问题无关)，自某些驱动程序版本以来，它会导致所有 nvidia 卡(GeF
.net - 绕过 WPF 渲染瓶颈
我喜欢制作高效的应用程序，并且经常寻求并发和多线程来提高应用程序响应能力等，但最近我的尝试似乎总是被 WPF 的单线程性所阻碍。无论我的代码多么高效和并行，WPF 似乎都会不断地拖延我的 UI，并使我
cloudflare - 绕过 Cloudflare 的上传最大值
我正在使用 Cloudflare 来加速我的网站，它非常适合。不幸的是，我的一些用户需要将大于 Cloudflare 允许的最大值(即 300MB 大小)的视频上传到我的网站。有什么方法可以告诉 Cl

首页

博学

6Ren·AI

商城

python - scrapy蜘蛛绕过拒绝我的规则