gpt4 book ai didi

pdf - wget 仅从网站下载 PDF

转载 作者:行者123 更新时间:2023-12-04 19:36:15 25 4
gpt4 key购买 nike

我正在尝试从 http://www.fayette-pva.com/ 下载所有 PDF .

我认为问题在于,当将鼠标悬停在下载 PDF 的链接上时,chrome 会在左下角显示 URL,而没有 .pdf文件扩展名。我看到并使用了另一个与此类似的论坛答案,但 .pdf将光标悬停在 PDF 链接上时,扩展名用于 URL。我已经尝试了下面链接中的相同代码,但它没有选择 PDF 文件。

这是我一直在测试的代码:

wget --no-directories -e robots=off -A.pdf -r -l1 \
http://www.fayette-pva.com/sales-reports/salesreport03-feb-09feb2015/

我在一个页面上使用它,我知道它上面有一个 PDF。

完整的代码应该是这样的
wget --no-directories -e robots=off -A.pdf -r http://www.fayette-pva.com/

相关答案: WGET problem downloading pdfs from website

我不确定下载整个网站是否有效,以及它是否不会花很长时间。我如何解决这个问题并只下载 PDF?

最佳答案

是的,问题正是您所说的:URL 不包含常规或绝对文件名,而是对脚本/servlet/... 的调用,它分发实际文件。

解决方法是使用 --content-disposition选项,它告诉 wget以纪念 Content-Disposition HTTP 响应中的字段,其中包含实际文件名:

HTTP/1.1 200 OK
(...)
Content-Disposition: attachment; filename="SalesIndexThru09Feb2015.pdf"
(...)
Connection: close
wget 支持此选项至少从版本 1.11.4 起,已经7岁了。

因此,您将执行以下操作:
wget --no-directories --content-disposition -e robots=off -A.pdf -r \
http://www.fayette-pva.com/

关于pdf - wget 仅从网站下载 PDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28590772/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com