gpt4 book ai didi

wget 将查询字符串附加到结果文件中

转载 作者:行者123 更新时间:2023-12-02 09:14:50 26 4
gpt4 key购买 nike

我正在尝试使用 wget 检索工作网页,这对于使用以下命令的大多数网站来说效果很好:

wget -p -k http://www.example.com

在这些情况下,我最终会得到index.html和所需的CSS/JS等。

然而,在某些情况下,url 会有一个查询字符串,在这些情况下,我会得到一个附加了查询字符串的 index.html。

示例

www.onlinetechvision.com/?p=566

与上面的 wget 命令结合将导致:

index.html?page=566

我尝试使用 --restrict-file-names=windows 选项,但这只能让我

index.html@page=566

谁能解释一下为什么需要这个以及我如何才能得到一个常规的index.html 文件?

更新:我对采取不同的方法持观望态度。我发现我可以通过解析输出来获取 wget 保存的第一个文件名。因此,在“保存到:”之后出现的名称就是我需要的名称。

但是,这是由这个奇怪的字符 â 包裹的 - 而不是仅仅删除该硬编码 - 这是从哪里来的?

最佳答案

如果您尝试使用参数“--adjust-extension”

wget -p -k --adjust-extension  www.onlinetechvision.com/?p=566 

你再靠近一点。在 www.onlinetechvision.com 文件夹中,将有一个具有正确扩展名的文件:index.html@p=566.htmlindex.html?p=566.html * NiX 系统。现在,即使使用脚本,也可以轻松将该文件更改为index.html。

如果您使用的是 Microsoft 操作系统,请确保您拥有最新版本的 wget - 也可以在此处获取:https://eternallybored.org/misc/wget/

关于wget 将查询字符串附加到结果文件中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19864897/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com