java - Crawler4j 警告 "invalid cookie header"导致爬网程序无法获取该页面-6ren

java - Crawler4j 警告 "invalid cookie header"导致爬网程序无法获取该页面

转载作者：太空宇宙更新时间：2023-11-04 12:56:38

25

4

我在非常业余的设置中使用crawler4j从网站上抓取文章(以及用于内容抓取的boilerpipe)。在某些网站中，爬虫运行得非常流畅。但在其他情况下，它只是无法获取网站(尽管我仍然可以使用 jsoup 获取数据)。

碰巧从同一个站点中，某些页面正在被获取，而其他页面则没有。它发出此警告，然后完全跳过该页面:

Feb 11, 2016 5:05:31 PM org.apache.http.client.protocol.ResponseProcessCookies processCookies
WARNING: Invalid cookie header: "Set-Cookie: visid_incap_688991=7KCcJ/TxTWSEzP9k6OFX2eZqvFYAAAAAQUIPAAAAAAAHVw5Tx4mHCf3VQHK63tAN; expires=Fri, 09 Feb 2018 15:00:14 GMT; path=/; Domain=.banglatribune.com". Invalid 'expires' attribute: Fri, 09 Feb 2018 15:00:14 GMT

I can understand from this warning that crawler4j is doing something regarding the cookie (it's using CookieSpecs.DEFAULT and I can't change it in any way).

有没有其他方法可以在不使用crawler4j的情况下管理httpclient？

有什么办法可以改变crawler4j中的cookie选项吗？

PageFetcher.java in crawler4j creates the httpclient and handles all the cookie options.

或者我应该使用另一个可以为在 cookie 中使用错误格式的网站定制的爬虫吗？

任何帮助将不胜感激。

最佳答案

HTTPClient 是从 crawler4j 源内部处理的，因此在使用此库时无法更改或操作有关 httpclient(包括 cookie 规范)的任何配置。

关于java - Crawler4j 警告 "invalid cookie header"导致爬网程序无法获取该页面，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35337920/

25

4

0

文章推荐： java - Jenkins 的 Slack Slash 命令插件

文章推荐： c++ - C++中的重复构造函数和方法功能

文章推荐： linux - 带有 CAM8200-U 的两个 RIoT 板之间通过 UDP 的 Gstreamer

文章推荐： css - 如何禁用主题

header - 在ANTLR中使用@header
我在让“@header”或任何其他@规则在ANTLR中工作时遇到麻烦。具有非常基本的语法，如下所示: grammar test; options { language = CSharp2;
header - header 来源与主机
我对来源和寄宿有疑问我有一个ajax页面“Page A”，它将称为ajax提要“Page B” 我看到来自ajax调用的“页面B”的请求 header 具有源“http://mydomain.com
python - 用带有两个 header 信息的单个 header 替换多个数据帧 header
我在 pandas 中使用了数据透视表并获得了所需的数据框格式，但现在我有两行标题。数据透视表后的结果数据框如下: scenario Actual Plan
python - 用带有两个 header 信息的单个 header 替换多个数据帧 header
我在 pandas 中使用了数据透视表并获得了所需的数据框格式，但现在我有两行标题。数据透视表后的结果数据框如下: scenario Actual Plan
c - 如何在主机将它们发送到网络之前修改数据包 header (IP header ，TCP header )
我想在主机将它们发送到网络之前修改数据包头(IP 头、TCP 头)。例如，如果我使用 firefox 进行浏览，那么我想拦截所有来自 firefox 的数据包并修改 IP/TCP header ，然
html - header 内容包装到#header 但#header 显示为空
我的 header 内容被包装到#header 中，但是当我设置边框显示结构时，它显示我的#header 的内容出现在#header 本身之后。可能是什么问题？这是我的代码: #header { bo
browser-cache - 浏览器如何处理过期 header 、缓存控制 header 、最后修改 header ？
我是一名 Web 开发人员，使用过 PHP 和 .NET。有一年多的 Web 工作经验，我一直无法彻底了解浏览器缓存功能，希望这里的 Web Gurus 可以帮助我。我心中的问题是: 浏览器实际上是如
C++ 将多个 header 连接到一个 header 并使用这些 header 函数
伙计们，我有一个问题，我不知道如何在一个 header 中连接多个 header ，我们称它为“主 header ”并使用该 header 中的函数，例如 // A.h #include class
c# - 我应该使用哪个 header ？ XMLHTTPRequest header 还是 SOAP header ？
我有一个包含 SOAP 消息的 XMLHTTPRequest。我想添加用于标识消息并将由 C# Web 服务使用的 guid。 GUID 的目标是识别特定用户，并应护送所有用户请求以在服务器上进行身
javascript - 当到达当前卡住的 header 时，用第二个 header 替换粘性 header
我一直在阅读粘性标题，这是我目前所发现的。第一个粘性 header 效果很好，但是当它遇到第一个 header 时，我如何向上滚动第一个 header 并使第二个 header 卡住？ http://
objective-c - UICollectionView:自定义UICollectionViewFlowLayout header (多个 header 和 header 位置)
我想将当前基于 TableView 的数据网格转换为新的 UICollectionView 类。这就是我当前的网格的样子: 我的网格有两个标题: 年份(2006a、2007a 等)和类型(“收入”
header - Apollo 服务器设置响应 header
我目前正在使用 Apollo 服务器。我正在尝试在响应 header 中设置一个属性。并且此属性是从客户端 graphQL 请求 header 中检索的。我在网上查了一下。并看到了诸如使用插件或扩展
http-headers - 如何为转发的请求设置 header
我的 Controller 的方法需要设置一个标题，例如X-Authorization .创建新对象( store Action )后，我执行转发以显示新创建的对象( show Action ): $
header - 对以太网帧的 header 大小感到困惑
我正在研究一些关于 VLAN 的事情，发现了 VLAN 标签和 header 。如果我们有标准 802.3 以太网帧的 MTU(1518 字节)， header 802.3 中包含什么？另外，
http-headers - 我们如何放心地传递多个 header ？
我是放心和 Java 的新手，我正在尝试做一个非常基本的测试来检查 API 的响应是否为 200 ok。谁能告诉我我需要在下面的脚本中更改什么才能传递多个 header Id、Key 和 ConId
header - zlib header 是什么样的？
在我的项目中，我需要知道 zlib header 是什么样的。我听说它相当简单，但我找不到 zlib header 的任何描述。例如，它是否包含魔数(Magic Number)？最佳答案 zlib
http-headers - 根据条件发送不同的HTTP header
我正在使用 JMeter 测试 HTTP 服务器，该服务器接受并验证 APIKey 并在成功时返回一个有时限的 token 。如果我有 token ，我想发送一个 token ；如果没有，我想发送一个
header - 以太网 header 是什么样的？
以太网 header 是什么样的？是吗: 1|2|3|4|5|6|7|8|9|10|11|12|13|14|15|16|17|18|19|20|21|22|23|24|25|26|27|28|29|
header - 如何测试 CORS header
我们的应用程序支持 CORS 配置 header 。我在两个不同的主机上分别配置了 testApp。两种设置都相互独立工作。host1 上的应用程序配置有 CORS header Access-Con
c++ header 本身不包含依赖 header
tlhelp32.h 不包含 windows.h 本身是有原因的吗？我一直在与大量的编译器错误作斗争，因为我在包含 tlhelp32.h 之后包含了 windows.h。这是设计决定还是出于什么原因？

首页

博学

6Ren·AI

商城

java - Crawler4j 警告 "invalid cookie header"导致爬网程序无法获取该页面