gpt4 book ai didi

wget - wget 的 -N 选项有问题

转载 作者:行者123 更新时间:2023-12-04 15:36:42 29 4
gpt4 key购买 nike

我正在尝试使用 wget 抓取网站。这是我的命令:

wget -t 3 -N -k -r -x

-N 表示“如果服务器版本低于本地版本,则不下载文件”。但这不起作用。当我重新启动上述抓取操作时,会一遍又一遍地下载相同的文件 - 即使文件没有更改。

许多下载的页面报告:

缺少最后修改的 header - 时间戳已关闭。

我试过抓取几个网站,但到目前为止都尝试过这个问题。

这是由远程服务器控制的情况吗?他们是否选择不发送这些时间戳 header ?如果是这样,我可能对此无能为力?

我知道 -NC (no clobber) 选项,但这将防止现有文件不被覆盖,即使服务器文件较新,导致陈旧的本地数据积累。

谢谢
德鲁

最佳答案

wget -N switch 确实有效,但由于各种原因,许多 Web 服务器不发送 Last-Modified header 。例如,动态页面(PHP 或任何 CMS 等)必须主动实现该功能(找出上次修改内容的时间,并发送 header )。有些会,有些则不会。

也确实没有另一种可靠的方法来检查文件是否已更改。

关于wget - wget 的 -N 选项有问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4966464/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com