python - Scrapy SgmlLinkExtractor 问题-6ren

python - Scrapy SgmlLinkExtractor 问题

转载作者：太空狗更新时间：2023-10-29 20:13:15

24

4

我正在尝试让 SgmlLinkExtractor 工作。

这是签名:

SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None)

我只是在使用 allow=()

所以，我输入

rules = (Rule(SgmlLinkExtractor(allow=("/aadler/", )), callback='parse'),)

所以，初始 url 是 'http://www.whitecase.com/jacevedo/' 我正在输入 allow=('/aadler',)并期望'/aadler/' 也会被扫描。但是，蜘蛛会扫描初始 url，然后关闭:

[wcase] INFO: Domain opened
[wcase] DEBUG: Crawled </jacevedo/> (referer: <None>)
[wcase] INFO: Passed NuItem(school=[u'JD, ', u'Columbia Law School, Harlan Fiske Stone Scholar, Parker School Recognition of Achievement in International and Foreign Law, ', u'2005'])
[wcase] INFO: Closing domain (finished)

我在这里做错了什么？

这里有成功使用过Scrapy的人可以帮我完成这个蜘蛛吗？

谢谢你的帮助。

我在下面包含了蜘蛛代码:

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from Nu.items import NuItem
from urls import u

class NuSpider(CrawlSpider):
    domain_name = "wcase"
    start_urls = ['xxxxxx/jacevedo/']

    rules = (Rule(SgmlLinkExtractor(allow=("/aadler/", )), callback='parse'),)

    def parse(self, response):
        hxs = HtmlXPathSelector(response)

        item = NuItem()
        item['school'] = hxs.select('//td[@class="mainColumnTDa"]').re('(?<=(JD,\s))(.*?)(\d+)')
        return item

SPIDER = NuSpider()

注意:所以不会让我发布超过 1 个网址，因此请根据需要替换初始网址。对此感到抱歉。

最佳答案

您正在覆盖它出现的“解析”方法。 “parse”，是 CrawlSpider 中用于跟踪链接的私有(private)方法。

关于python - Scrapy SgmlLinkExtractor 问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1809817/

24

4

0

文章推荐： python - 如何在 Python 中进行 Obj-C 分类？

文章推荐： python - 在 python (matplotlib) 中绘制矢量场

文章推荐： python - 编码细菌 : evolving mathematical behavior

python - Scrapy SgmlLinkExtractor
我正在尝试让 scrapy 蜘蛛正常工作，但 SgmlLinkExtractor 似乎有问题。这是签名: SgmlLinkExtractor(allow=(), deny=(), allow_dom
python - 在哪里可以了解 scrapy SgmlLinkExtractor？
抱歉，我对 python 和 scrapy 非常陌生，试图通过反复试验来学习它们。关于SgmlLinkExtractor，我看到每个人(至少在这个网站上)都非常擅长找到正确的代码来表示正确的路径，我
python - Scrapy SgmlLinkExtractor - 递归抓取时遇到问题
更新:显然我无法在 8 小时内回答我自己的问题，但我让它工作了。谢谢大家! 我在让 scrapy 抓取 start_url 上的链接时遇到问题。以下是我的代码: from scrapy.select
python - Scrapy SgmlLinkExtractor 问题
我正在尝试让 SgmlLinkExtractor 工作。这是签名: SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domai
python - Scrapy SgmlLinkExtractor 忽略允许的链接
请看this spider example在 Scrapy 文档中。解释是: This spider would start crawling example.com’s home page, col
python - Scrapy SgmlLinkExtractor 引用者无
我正在努力让我的蜘蛛正常工作。这是我在蜘蛛中的代码: start_urls = ["http://www.khmer24.com/"] rules = ( Rule(SgmlLinkExtract
python - LinkExtractor 和 SgmlLinkExtractor 的区别
我是 scrapy 框架的新手，我看过一些使用 LinkExtractors 的教程和一些使用 SgmlLinkExtractor 的教程。我曾尝试寻找两者的差异/利弊，但结果并不令人满意。谁能告诉
python-2.7 - SgmlLinkExtractor 停止在第 3 页
继续my question与 SgmlLinkExtractor 问题。我正在尝试关注 the pages from here虽然它似乎可以工作并提取所有必需的项目，但爬虫程序在解析第三页后停止，没
python-2.7 - SgmlLinkExtractor 停止在第 3 页
继续my question与 SgmlLinkExtractor 问题。我正在尝试关注 the pages from here虽然它似乎可以工作并提取所有必需的项目，但爬虫程序在解析第三页后停止，没
scrapy - 广泛的 Scrapy 爬行 : sgmlLinkextractor rule does not work
我花了很多时间玩弄和使用谷歌，但我无法解决我的问题。我是 Scrapy 的新手，希望你能帮助我。部分有效的爬虫:我从 MySQL 数据库中定义我的 start_requests url。使用“par

首页

博学

6Ren·AI

商城

python - Scrapy SgmlLinkExtractor 问题