gpt4 book ai didi

linux - 使用 wget 下载 shtml 页面上的所有 zip 文件

转载 作者:塔克拉玛干 更新时间:2023-11-03 00:11:00 25 4
gpt4 key购买 nike

我一直在尝试将此网站上的所有 zip 文件下载到 EC2 服务器。但是,它无法识别链接,因此不会下载任何内容。我认为这是因为 shtml 文件需要启用 SSI,这在某种程度上导致了 wget 问题。但我真的不明白那些东西。

这是我一直未能成功使用的代码。

wget -r -l1 -H -t1 -nd -N -np -A.zip -erobots=off http://www.fec.gov/finance/disclosure/ftpdet.shtml#a2015_2016

感谢您提供的任何帮助!

最佳答案

源代码中没有 zip 链接,这就是为什么您无法通过 wget 下载它们的原因, 它们是通过 javascript 生成的.文件列表“位于”内部 http://fec.gov//finance/disclosure/tables/foia_files_summary.xml在节点 <fec_file status="Archive"></fec_file>

您可以编写脚本来解析 xml文件并将节点转换为实际链接,因为它们具有模式。


更新:

作为@cyrus提到,这些文件也在ftp.fec.gov/FEC/上, 你可以使用 wget -m用于镜像 ftp 和 -A zip将下载限制为 zip 文件,即:

wget -A zip -m --user=anonymous --password=test@test.com ftp://ftp.fec.gov/FEC/

wget -r

wget -A zip --ftp-user=anonymous --ftp-password=test@test.com -r ftp://ftp.fec.gov/FEC/*

关于linux - 使用 wget 下载 shtml 页面上的所有 zip 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36945291/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com