python - Scrapy不会越过页面-6ren

python - Scrapy不会越过页面

转载作者：太空宇宙更新时间：2023-11-03 16:54:29

25

4

Ні!为什么蜘蛛不浏览页面？我使用规则...我做错了什么？它仅适用于一页。这是代码:

# -*- encoding: -*-

class JobSpider(CrawlSpider):
    name = 'superjob'
    allowed_domains = ['superjob.ru']
    start_urls = [
        'http://www.superjob.ru/vacancy/search/?t%5B0%5D=4&sbmit=1&period=7'
    ]

    rules = [
        Rule(SgmlLinkExtractor(allow='/vacancy/search/?',
                               restrict_xpaths=(
                                   u'//a[@class="h_border_none"]/<span>следующая</span>')),
             callback='parse',
             follow=True),
    ]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        titles = hxs.select(
                '//*[@id="ng-app"]/div[2]/div/div[2]/div/div[1]/div[2]/div/div/h2/a')
        items = []
        for title in titles:
            item = JobItem()
            item['title'] = title.select('//h2/a/text()').extract()
            items.append(item)
        # return items

最佳答案

需要解决的 5 件事:

restrict_xpaths 应指向分页 block
回调应该调用parse()
使用 LinkExtractor，SgmlLinkExtractor 已弃用
使用 xpath() 而不是 select() 一个 response.xpath() 快捷方式
修复内部 XPath 表达式 - 只需获取 text()

修复版本:

# -*- coding: utf-8 -*-
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class JobSpider(CrawlSpider):
    name = 'superjob'
    allowed_domains = ['superjob.ru']
    start_urls = [
        'http://www.superjob.ru/vacancy/search/?t%5B0%5D=4&sbmit=1&period=7'
    ]

    rules = [
        Rule(LinkExtractor(allow='/vacancy/search/\?', restrict_xpaths=u'//div[@class="Paginator_navnums"]'),
             callback='parse_item',
             follow=True),
    ]

    def parse_item(self, response):
        titles = response.xpath('//*[@id="ng-app"]/div[2]/div/div[2]/div/div[1]/div[2]/div/div/h2/a')
        for title in titles:
            item = JobItem()
            item['title'] = title.xpath('text()').extract()
            yield item

关于python - Scrapy不会越过页面，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35539379/

25

4

0

文章推荐： c# - 调整 Silverlight 数据网格行的单元格高度？

文章推荐： ruby - 使用紫菜和 Prawn

文章推荐： Python Selenium通过导入text/csv文件运行多个测试实例

facebook - 越过 Facebook 的 iframe block
在 Facebook 上，他们似乎有一个阻止您加载他们网站的 iframe 的 block 。当您这样做时，他们会锁定其网站的全部功能 example . 我只是想知道是否有人知道如何绕过它？最佳
html - border-bottom 越过 border-left
我只想在已经具有顶部和底部边框(1px 纯灰色)的 div 上添加一个左边框(5px 纯蓝色)。我希望 border-left 位于 border-top 和 border-bottom 之上，但浏览
javascript - 滚动页面时如何更快地移动 1 div/越过 div
我看到了这个效果here .滚动页面时，页面的主要内容部分会移动到 div 之上。我尝试使用视差效果重新创建此效果，但徒劳无功。问题是使用视差，我只能更改同一 div 中的 2 个对象的速度。除此之
javascript - 越过 ios7 safari 的底部和顶部触摸区域 - 风景
我正在为 iOS7 优化网站。我发现，在 safari mobile 上将方向更改为横向时，网站会全屏显示，但浏览器会阻止 View 顶部和底部的一些高度和宽度像素。该区域中的任何触摸或点击事件都不会
ruby - session 越过。 Rails 上的 Ruby
我有一个使用 devise 进行身份验证的应用程序。 ruby 1.9.2 上的 Rails 3，passenger 位于 nginx 之上。这是我的问题:我注意到有时我的 session 会交叉。

首页

博学

6Ren·AI

商城

python - Scrapy不会越过页面