gpt4 book ai didi

linux - wget:下载目录/子目录中的所有文件

转载 作者:塔克拉玛干 更新时间:2023-11-03 01:57:13 28 4
gpt4 key购买 nike

基本上在网页上有一个目录列表,每个目录都有进一步的子目录。子目录包含许多文件,我想将每个子目录中的一个文件下载到我的 linux 机器上的一个位置,其中包含特定的序列字母“RMD”。

例如,主网页链接到目录 dir1、dir2、dir3...,每个目录都有子目录 dir1a、dir1b...、dir2a、dir2b...等。我想下载以下形式的文件:

webpage/dir1/dir1a/file321RMD210
webpage/dir1/dir1b/file951RMD339
...
webpage/dir2/dir2a/file416RMD712
webpage/dir2/dir2b/file712RMD521

目录/子目录没有像上面的例子那样按顺序编号(这只是我让它更容易阅读)所以有没有一个终端命令会递归地遍历每个目录和子目录并下载每个带有字母'的文件文件名中的RMD'?

有问题的网站是:here

我希望这些信息足够了。

最佳答案

有很多评论的答案:

In case the website supports ftp, you better use @MichaelBaldry's answer. This answer aims to give a way to do it with wget (but this is less efficient for both server and client).

只有在网站使用目录列表的情况下,您可以为此使用 -r 标志(-R 标志旨在在网页中查找链接,然后也下载这些页面)。

The following method is inefficient for both server and client and can result in a huge load if the pages are generated dynamically. The website you mention furthermore specifically asks not to fetch data that way.

wget  -e robots=off -r -k -nv -nH -l inf -R jpg,jpeg,gif,png,tif --reject-regex '(.*)\?(.*)'  --no-parent 'http://atmos.nmsu.edu/PDS/data/mslrem_1001/DATA/'

与:

  • wget你要调用的程序;
  • -e robots=off;事实上,您忽略了网站要求不要自动下载它;
  • -r:递归下载;
  • -R jpg,jpeg,gif,png,tif:拒绝下载媒体(小图片);
  • --reject-regex '(.*)\?(.*)' 不关注或下载查询页面(索引页面排序)。
  • -l inf:您可以无限下载
  • --no-parent:阻止wget 开始获取网站父级中的链接(例如.. 链接到父目录)。


wget downloads the files breadth-first so you will have to wait a long time before it eventually starts fetching the real data files.


Note that wget has no means to guess the directory structure at server-side. It only aims to find links in the fetched pages and thus with this knowledge aims to generate a dump of "visible" files. It is possible that the webserver does not list all available files, and thus wget will fail to download all files.

关于linux - wget:下载目录/子目录中的所有文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32569769/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com