python - 在 Scrapy 中使用经过身份验证的 session 进行爬网-6ren

python - 在 Scrapy 中使用经过身份验证的 session 进行爬网

转载作者：IT老高更新时间：2023-10-28 22:02:33

24

4

在我的previous question ，我对我的问题不是很具体(使用经过身份验证的 Scrapy session 进行抓取)，希望能够从更一般的答案中推断出解决方案。我可能宁愿使用 crawling 这个词。

所以，到目前为止，这是我的代码:

class MySpider(CrawlSpider):
    name = 'myspider'
    allowed_domains = ['domain.com']
    start_urls = ['http://www.domain.com/login/']

    rules = (
        Rule(SgmlLinkExtractor(allow=r'-\w+.html$'), callback='parse_item', follow=True),
    )

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        if not "Hi Herman" in response.body:
            return self.login(response)
        else:
            return self.parse_item(response)

    def login(self, response):
        return [FormRequest.from_response(response,
                    formdata={'name': 'herman', 'password': 'password'},
                    callback=self.parse)]


    def parse_item(self, response):
        i['url'] = response.url

        # ... do more things

        return i

如您所见，我访问的第一个页面是登录页面。如果我还没有通过身份验证(在 parse 函数中)，我会调用我的自定义 login 函数，该函数会发布到登录表单。然后，如果我通过了身份验证，我想继续爬取。

问题是我为了登录而尝试覆盖的 parse 函数，现在不再进行必要的调用来抓取任何其他页面(我假设)。而且我不确定如何保存我创建的项目。

以前有人做过类似的事情吗？ (使用 CrawlSpider 进行身份验证，然后抓取)任何帮助将不胜感激。

最佳答案

不要覆盖 CrawlSpider 中的 parse 函数:

当您使用 CrawlSpider 时，不应覆盖 parse 函数。 CrawlSpider 文档中有一个警告:http://doc.scrapy.org/en/0.14/topics/spiders.html#scrapy.contrib.spiders.Rule

这是因为使用 CrawlSpider，parse(任何请求的默认回调)发送要由 Rule 处理的响应.

在抓取前登录:

为了在蜘蛛开始爬行之前进行某种初始化，您可以使用 InitSpider(继承自 CrawlSpider)，并覆盖 init_request 函数。该函数将在蜘蛛初始化时和开始爬行之前调用。

为了让蜘蛛开始爬行，你需要调用self.initialized。

您可以阅读负责此 here 的代码(它有有用的文档字符串)。

一个例子:

from scrapy.contrib.spiders.init import InitSpider
from scrapy.http import Request, FormRequest
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import Rule

class MySpider(InitSpider):
    name = 'myspider'
    allowed_domains = ['example.com']
    login_page = 'http://www.example.com/login'
    start_urls = ['http://www.example.com/useful_page/',
                  'http://www.example.com/another_useful_page/']

    rules = (
        Rule(SgmlLinkExtractor(allow=r'-\w+.html$'),
             callback='parse_item', follow=True),
    )

    def init_request(self):
        """This function is called before crawling starts."""
        return Request(url=self.login_page, callback=self.login)

    def login(self, response):
        """Generate a login request."""
        return FormRequest.from_response(response,
                    formdata={'name': 'herman', 'password': 'password'},
                    callback=self.check_login_response)

    def check_login_response(self, response):
        """Check the response returned by a login request to see if we are
        successfully logged in.
        """
        if "Hi Herman" in response.body:
            self.log("Successfully logged in. Let's start crawling!")
            # Now the crawling can begin..
            return self.initialized()
        else:
            self.log("Bad times :(")
            # Something went wrong, we couldn't log in, so nothing happens.

    def parse_item(self, response):

        # Scrape data from page

保存项目:

您的 Spider 返回的项目被传递到管道，该管道负责对数据执行您想要执行的任何操作。我建议您阅读文档:http://doc.scrapy.org/en/0.14/topics/item-pipeline.html

如果您对 Item 有任何问题/疑问，请随时提出新问题，我会尽力提供帮助。

关于python - 在 Scrapy 中使用经过身份验证的 session 进行爬网，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5851213/

24

4

0

文章推荐： c++ - 为什么 C++ 中的宽文件流默认会缩小写入数据的范围？

文章推荐： python - 基于子数组的第二个元素对多维数组进行排序

文章推荐： python - Pycharm的代码风格检查: ignore/switch off specific rules

session - 是否为每个shinyR session 分配了唯一的 session id/ session key ？
是否为每个 Shiny session 分配了 session ID/ session key (如果部署在 Shiny 服务器上)？如果是，我如何访问该信息？我已阅读文档here然而上网查了一下，并
session - koajs session - session 存储在哪里？
我正在使用 this koajs session 模块。我检查了源代码，但我真的无法理解。我想知道它保存 session 数据的位置，因为我没有看到创建的文件，并且当服务器重新启动时， sessi
session - 粘性 session / session 亲和性负载平衡策略的优缺点？
实现高可扩展性的一种方法是使用网络负载平衡在多个服务器之间分配处理负载。这种方法提出的一个挑战是服务器是否具有状态意识 - 将用户状态存储在“ session ”中。此问题的一个解决方案是“粘性
session - session 亲和性和粘性 session 之间的区别？
在负载平衡服务器的上下文中， session 亲和性和粘性 session 之间有什么区别？最佳答案我见过这些术语可以互换使用，但有不同的实现方式: 在第一个响应中发送 cookie，然后在后续响
session - 设计Web应用程序: Session or session-less
我希望其他人向我解释哪种方法更好:使用 session 或设计无 session 。我们正在开始开发一个新的 Web 应用程序，但尚未决定要遵循什么路径。无 session 设计在我看来更可取: 优
session - 如何在tomcat中创建新 session 并保留旧 session ？
现在用户在他的权限中有很多角色，我将允许他点击 href 并在新窗口中扮演另一个角色。每个角色都有自己的 session 。既然浏览器打开窗口不能用新 session 打开，我必须在服务器端想办法。
session - Node 、 session 存储删除过期 session
我正在尝试为express.js Node 应用程序实现 session 存储我的问题是: 如何删除具有浏览器 session 生命周期的 cookie(根据连接文档标记有 expires = fal
session - session 的最佳实践( gorilla / session )
在开始在 golang 中使用 session 之前，我需要回答一些问题 session 示例 import "github.com/gorilla/sessions" var store = ses
php - 检测到服务 "session"的循环引用，路径 : "session -> session.flash_bag -> session"
我读过 Namespaced Attributes . 我尝试使用此功能: #src/Controller/CartController.php public function addProduct(
session - 修改 CakePHP session 的 session cookie 到期和 session 超时
我正在努力完成以下工作: 根据用户的类型更改用户的 session cookie 到期日期。我有一个 CakePHP Web 应用程序，其中我使用 CakePHP session 创建了我的身份验证
session - 使用有状态 session Bean 跟踪用户的 session
这是我在这里的第一个问题，我希望我做对了。我需要处理一个 Java EE 项目，所以在开始之前，我会尝试做一些简单的事情，看看我是否能做到。我坚持使用有状态 session Bean。这是问题:
session - ColdFusion session 与 J2EE session
ColdFusion session 与 J2EE session 相比有什么优势吗？ ColdFusion session documentation提到了 J2EE session 的优点，但没有
session - 创建 session 时在Grails中创建 session 变量
在执行任何任务之前，我需要准确地在创建 session 时创建一个 session 范围变量(因为我的所有任务都需要一个初始 session 范围变量才能运行)。因为，创建 session 时，gra
session - JWT 和每个用户一个(!) session /无并发 session
我们当前的应用使用 HTTP session ，我们希望将其替换为 JWT。该设置仅允许每个用户进行一次 session 。这意味着: 用户在设备 1 上登录用户已在设备 1 上登录(已创建新 s
session - 文件中的 session 和数据库中的 session 之间的区别
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
session - 如何关闭除当前 session 之外的用户打开的所有( Plone ) session ？
假设我在两个或更多设备上打开了两个或更多用户 session (同一用户没有管理员权限)。在当前 session 中，如果我注销，是否意味着所有其他 session 也会关闭？如果没有，有没有办法通
session - 粘性 session 和 session 复制
我正在评估在 tomcat 中使用带有 session 复制的粘性 session 的情况。根据我的初步评估，我认为如果我们启用 session 复制，那么在一个 tomcat 节点中启动的 sess
session - Gorilla session 文件系统存储找不到 session 文件
我开始使用 golang 和 Angular2 构建一个常规的网络应用程序，最重要的是我试图在 auth0.com 的帮助下保护我的登录.我从 here 下载快速入门代码并尝试运行代码，它运行了一段时
java - spring Controller 方法中相同类型的两个对象( session 和非 session )非 session 正在替换 session
我在 Spring Controller 中有一个方法，它接受两个相同类型的参数其中一个来自 session ，另一个来自表单提交(UI)。问题是在 Controller 方法中我的非 sessio
session - 身份验证为匿名的用户已尝试访问拥有的 session
在我登录之前，我可以点击我的安全约束目录之外的任何内容。如果我尝试转到安全约束目录内的某个位置，它会将我重定向到表单登录页面。如您所料。登录后，我可以继续我的业务，并访问我的安全约束内外的资源。

首页

博学

6Ren·AI

商城

python - 在 Scrapy 中使用经过身份验证的 session 进行爬网