python - 为什么我的 linkExtractor 在 scrapy spider 中无法抓取允许的链接？-6ren

python - 为什么我的 linkExtractor 在 scrapy spider 中无法抓取允许的链接？

转载作者：太空宇宙更新时间：2023-11-04 03:32:07

27

4

我创建了一个简单的蜘蛛来抓取 disneyfoodblog.com 帖子并返回帖子标题和帖子永久链接。

我的项目没有显示任何错误。调试输出(见下文)显示所有起始链接都已访问，但这些页面上的链接没有被抓取。起始页是存放每天帖子的页面。从那里，我试图抓取实际的帖子。

这是一个起始链接的例子:http://www.disneyfoodblog.com/2014/12/31/
这是一个帖子:http://www.disneyfoodblog.com/2014/12/31/photo-tour-and-review-new-polynesian-village-resort-lobby-and-tiramisu-cupcake-at-captain-cooks-in-disneys-polynesian-village-resort/

我的爬虫代码:

import datetime

import scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy import log

from dfbScrape.items import *


class dfbSpider(CrawlSpider):
    name="dfb"
    base="http://disneyfoodblog.com/"
    allowed_domains=[base]

    start_urls=[]
    startDate=datetime.date(2014,6,1)
    endDate=datetime.date.today()
    while startDate<endDate:
        start_urls.append(base+str(startDate.year)+"/"+startDate.strftime("%m")+"/"+startDate.strftime("%d")+"/")
        startDate+=datetime.timedelta(days=1)

    rules = [Rule(SgmlLinkExtractor(allow=["\d+/\d+/\d+/.+/"]), callback='parse_item')]

    def parse_item(self, response):
        self.log('Hi, this is an item page! %s' % response.url)
        item =DfbscrapeItem()
        item['title']=response.xpath('/html/body/div[3]/div[3]/div/div/main/article/header/h1').extract()
        item['link']=response.url
        print "t: %s l: %s" % (item['title'],item['link'])
        return item

可以在 pastebin 上查看调试输出.

让我知道我是否应该在此处包含实际输出。我没有，因为它差不多有 800 行长。

我唯一的想法是恕我直言，这不是一个很好的想法。这可能是已弃用的链接提取器的问题。我在 lxml 上选择了这个，因为我没有发现使用 lxml 的示例，而且有很多使用旧的示例。即使您无法回答我的问题，也非常感谢 lxml 的优势和示例。一如既往地欢迎建设性的批评和编辑。请询问您需要的任何其他信息。

最佳答案

如果您更仔细地查看输出，您会看到“已过滤的异地请求”消息:

2015-06-07 10:00:01-0500 [dfb] DEBUG: Filtered offsite request to 'www.disneyfoodblog.com': http://www.disneyfoodblog.com/2013/03/26/best-disney-world-restaurants-for-first-time-disney-visitors/>

这意味着“链接提取器”完成了它的工作。

但是，您的allowed_domains 设置未正确定义，应定义为:

allowed_domains = ["www.disneyfoodblog.com"]

(为我工作)。

关于python - 为什么我的 linkExtractor 在 scrapy spider 中无法抓取允许的链接？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30697468/

27

4

0

文章推荐： python - LoadModule wsgi_module modules/mod_wsgi.so for Apache with Django

文章推荐： c - 防止 getdate_r 填写它不知道的数据

文章推荐： c - OpenSSL 中的 ECDH

文章推荐： python - 如何通过python沿已知长度的3D向量进行循环

asp.net - 允许允许 AD 组访问
我有一个 ASP.NET 网站，我希望只允许 AD 组中的用户访问该网站。我正在使用如下的 web.config 片段，但这似乎不起作用:
javascript - 即使有一个框未选中，如何禁用“允许”按钮？仅当选中所有复选框时才应启用“允许”按钮？
仅当选中所有框时才应禁用“允许”按钮。我该怎么做？我已经完成了 HTML 部分，如下所示。如何执行其中的逻辑部分？即使未选中一个复选框，也应禁用“允许”按钮
flutter - 允许 'context'移至不同的Dart文件
当前有一个Navigator.push(context，route)，但是上下文部分返回了错误，在尝试调试后，我发现问题是因为我在调用一个函数而不是直接将home设置为widget树。但是现在我不确定
java - 邮政编码的正则表达式 - 允许
这是我的邮政编码正则表达式 ^[a-zA-Z0-9]{1,9}$ 但不允许 A-12345。如何更改 - 也将被允许的正则表达式？最佳答案在字符集的开头或结尾添加-([...]): ^[-a-zA
javascript - 允许/激活浏览器中的混合内容
我目前正在建立我的网站，但遇到了一个问题 JavaScript 中的混合内容阻止当我尝试加载和显示来自的图像和页面时，Chrome、Mozilla 和 Explorer 会发生这种情况http 我
mysql - 远程连接mysql，允许 *
我见过使用: [mysqld] bind-address = 255.112.324.12 允许远程访问单个 IP。我如何允许从 mysql 远程访问所有 IP？最佳答案如果你想允许它用于所
c++ - 允许/禁用模板的特定复制构造函数和赋值操作
我想知道是否可以使用模板实现某些功能。我想要做的是允许特定的“复制构造函数和赋值运算符”从一个模板到另一个模板并禁用其他模板。我想我只完成了一件我想要的事情，所以我提供了下面的类(class)。对于
php - 允许 + 在正则表达式电子邮件中验证电子邮件
这个问题在这里已经有了答案: How to validate an email address in PHP (15 个答案) 关闭 2 年前。正则表达式让我大吃一惊。我如何更改此设置以验证带有加
允许 -/或 .作为日期内的分隔符
解析可以采用以下格式之一的日期的最佳方法是什么 "dd-MM-yyyy HH:mm" "dd/MM/yyyy HH:mm" "dd.MM.yyyy HH:mm" 无需创建 3 个 SimpleD
c++ - 允许 `this->` 访问依赖基类的成员的规则是什么？
我们知道，下面的代码格式不正确，因为成员 x 在依赖的基类中。但是，将指定行上的 x 更改为 this->x 将修复错误。 template struct B { int x; }; tem
java - 允许 this 引用转义
如果能帮助我理解“Java 并发实践”中的以下内容，我将不胜感激: Calling an overrideable instance method(one that is neither privat
允许 WordPress 上传任意文件的方法
此时如果上传一个不在预定义的安全扩展名列表，如.lrc，会报错： File type does not meet security guidelines. Try another. 解决此问题有
passwords - 允许 XMPP 用户根据韵律更改密码
我有一个运行韵律，可以为我的几个域和一个 friend 域处理 XMPP。我 friend 域中的一位用户(他的妻子)想更改她的密码(实际上她忘记了她，所以我会用 prosodyctl 设置一个，然后
nginx 允许|拒绝 $realip_remote_addr
使用 nginx，您可以允许和拒绝范围和 ips (https://www.nginx.com/resources/admin-guide/restricting-access/)。使用realip模
r - 允许 map 上权重重的点压倒其他权重低的点的选项
什么是一些好的克里金法/插值想法/选项，可以让重度权重的点在绘制的 R map 上的轻权重点上流血？康涅狄格州有八个县。我找到了质心并想绘制这八个县中每个县的贫困率。其中三个县人口稠密(约 100
virtualbox - 允许 Vagrant 访问主机互联网
我正在使用 virtualbox + ubuntu + vagrant . 但是我不能ping或 wget任何网址。请指导我如何允许虚拟机访问我的主机的互联网？最佳答案这对我有用。使用此配置 V
swift - 允许 inout 参数的默认值
标题可能有点令人困惑，所以让我向您解释一下。在 Swift 中，我们可以拥有带有默认参数值的函数，例如: func foo(value: Int = 32) { } 我们也可以有 In-Out 参数
android - 允许 TextView 增长到约束布局中的某个点
有TextView1 和TextView2。 TextView2 应该 float 在 TextView1 的右侧。只要两个 TextView 的总宽度不使 TextView2 与右侧的框重叠，Tex
Magento addFieldToFilter 允许 NULL
使用 Magento 收集方法 addFieldToFilter 时是否可以允许按 NULL 值进行过滤？我想选择集合中具有自定义属性的所有产品，即使没有为该属性分配任何值。最佳答案您不需要使用
.htaccess - 允许 .htaccess 文件中的文件夹的规则
我正试图从 .htaccess 文件中的规则中“排除”一个目录(及其所有文件夹)... 不确定这是否可能？ .htaccess 文件是这样的: Order Allow,Deny Deny from a

首页

博学

6Ren·AI

商城

python - 为什么我的 linkExtractor 在 scrapy spider 中无法抓取允许的链接？