gpt4 book ai didi

python - 在 Python 中检测软 404 重定向

转载 作者:可可西里 更新时间:2023-11-01 17:10:26 28 4
gpt4 key购买 nike

我正在构建一个脚本,它时不时地爬过在线故事文件并检测故事何时被删除。但是,删除故事后,我发现转到故事的 URL 不会返回 HTTP 404 响应代码。相反,它会重定向到自定义的“未找到页面”页面,并返回 200 OK 响应代码。这意味着,与我最初的想法不同,我不能只检查 404。

在不检测到任何误报的情况下检测这些重定向 404 的最佳方法是什么?

最佳答案

如果服务器没有返回 404 HTTP 代码(这很糟糕,真的,您应该给网站管理员发送邮件),没有简单的方法可以做到这一点。

  • 您可以保留一个可能只出现在错误页面中的单词/句子列表。
    例如“找不到页面”、“404 错误”等。在页面标题中搜索,<h[1-3]>标签...

  • 对于每个域/网站,您可以尝试一个不存在的 URL(放置一个随机的 512 位字符串,有 99% 的机会是 404 错误页面),并检查页面是否相同(已授权一些变化...)

例如,我很确定 https://stackoverflow.com/iapbFeq1X33hgg5Dy9zaFUbSnG7不是有效的网址。将此页面的 HTML 代码作为引用,如果您检查 stackoverflow.com 上的任何页面(例如 stackoverflow.com/page1 ),请检查代码是否不相同/几乎相同。如果是,很有可能 stackoverflow.com/page1也是一个 404 错误页面。

注意:我在这里假设即使在示例的错误页面上 SO 也返回 200 代码,这在现实中是错误的。首先检查 HTTP 错误代码,这样更容易:)

关于python - 在 Python 中检测软 404 重定向,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20814654/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com