gpt4 book ai didi

http - Nutch:通过在 header 中放置 cookie 进行身份验证

转载 作者:可可西里 更新时间:2023-11-01 16:30:38 25 4
gpt4 key购买 nike

让 Nutch 能够抓取需要身份验证的网站部分的支持或信息如此之少,我感到很惊讶。

我知道 Apache Nutch 目前可能无法 ( but apparently hopes to ) 支持 Http POST 身份验证。

然而,我们真正想要做的是能够向我们的 Nutch 机器人 header 添加一个 cookie,这将允许它以这种方式访问​​网站的那些部分(而不是将用户名和密码发布到表单然后接收 cookies )。

所以我花了很多时间进行搜索,令我惊讶的是大多数关于此的讨论都可以追溯到 2005 年或 2008 年:here , there , everywhere .

这么多年过去了,是否有办法绕过这个限制,或者仍然没有办法通过给 Nutch 一个“预制”cookie 来进行身份验证,以便它可以访问我们网站的仅限成员(member)的部分?

最佳答案

我已经在 nutch protocol-httpclient 插件中添加了自定义代码来解决这个问题。

在下面的链接中分享了更改

http://www.gingercart.com/Home/search-and-crawl/nutch-custom-authentication-cookies-session-management-to-crawl-secure-enterprise-websites

关于http - Nutch:通过在 header 中放置 cookie 进行身份验证,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17581298/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com