gpt4 book ai didi

http - 使用 HEAD 请求检查网页状态的可靠性

转载 作者:可可西里 更新时间:2023-11-01 16:27:15 27 4
gpt4 key购买 nike

我一直在测试我编写的一个小应用程序,它基本上执行 http HEAD 请求以检查页面是否存在、重定向等。我注意到有些页面对 HEAD 请求的响应与 GET 请求不同。例如:

curl -I http://www.youtube.com/bbcpersian

返回 404。它肯定存在。一些(非常重要的)网站甚至会返回 500 个错误以响应 HEAD - 我猜这不是故意的。

所以我的问题是:

  • 除了配置问题或网站管理员想要阻止机器人之外,某些网站(或网站内的页面)会出现这种行为是否有任何充分的理由?
  • 如果我不能依赖 HEAD 请求,我是否只是执行 GET 并在获得 header 后中止请求。感觉有点“不对”……

虽然出现这种行为的页面数量很少(按百分比计算),但每个误报最终都需要人工调查,这会导致大量工作白费。

最佳答案

经过一段时间并进行更多调查后,我可以回答我自己的问题:

  • 许多“在野”的网站错误地响应了 HEAD 请求。我曾建议一些网站管理员将他们的网站配置为响应 200 以外的任何内容,因为他们认为 HEAD 请求与不良机器人相关联。我无法验证推理,但我可以说大量网站(或网站上的页面 - 请参阅我在 youtube 上的原始观点)对 HEAD 请求的响应不正确。
  • GET 检查页面是否确实存在(或未重定向等)的唯一可靠方法。

关于http - 使用 HEAD 请求检查网页状态的可靠性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7351249/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com