unix - wget拒绝仍然下载文件-6ren

unix - wget拒绝仍然下载文件

转载作者：行者123 更新时间：2023-12-03 14:45:43

25

4

我只想要文件夹结构，但我不知道如何使用 wget。相反，我正在使用这个:

wget -R pdf,css,gif,txt,png -np -r http://example.com

应该拒绝-R之后的所有文件，但在我看来wget仍然下载文件，然后将其删除。

有没有更好的方法来获取文件夹结构？

TTP request sent, awaiting response... 200 OK Length: 136796 (134K) [application/x-download] Saving to: “example.com/file.pdf”

100%[=====================================>] 136,796 853K/s in 0.2s

2012-10-03 03:51:41 (853 KB/s) - “example.com/file.pdf” saved [136796/136796]

Removing example.com/file.pdf since it should be rejected.

如果有人想知道这是给客户的，他们可以告诉我结构，但是因为他们的 IT 人员必须这样做，所以这很麻烦，所以我想自己得到它。

最佳答案

这似乎是wget旨在工作。执行递归下载时，仍会下载与拒绝列表匹配的非叶子文件，以便收集它们作为链接，然后将其删除。

从代码内注释( recur.c ):

Either --delete-after was specified, or we loaded this otherwise rejected (e.g. by -R) HTML file just so we could harvest its hyperlinks -- in either case, delete the local file.

我们在过去的项目中遇到过这种情况，我们必须镜像一个经过身份验证的站点和 wget。即使它打算拒绝这些 URL，也会不断地点击注销页面。我们找不到任何选项来更改 wget 的行为。 .

我们最终得到的解决方案是 download ，破解并构建我们自己的 wget 版本.对此可能有更优雅的方法，但我们使用的快速修复方法是将以下规则添加到 download_child_p() routine 的末尾(修改以符合您的要求):

  /* Extra rules */
  if (match_tail(url, ".pdf", 0)) goto out;
  if (match_tail(url, ".css", 0)) goto out;
  if (match_tail(url, ".gif", 0)) goto out;
  if (match_tail(url, ".txt", 0)) goto out;
  if (match_tail(url, ".png", 0)) goto out;
  /* --- end extra rules --- */

  /* The URL has passed all the tests.  It can be placed in the
     download queue. */
  DEBUGP (("Decided to load it.\n"));

  return 1;

 out:
  DEBUGP (("Decided NOT to load it.\n"));

  return 0;
}

关于unix - wget拒绝仍然下载文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12704197/

25

4

0

文章推荐： qt - 如何在 Qt 5 中使用带有实例化的 VAO

文章推荐： delphi - SetProcessAffinityMask - 选择多个处理器？

文章推荐： Delphi 似乎正在提前销毁对象

unix - Unix 内核如何转换文件偏移量？
正如标题所暗示的那样，我无法弄清楚 Unix 内核如何将逻辑文件偏移量转换为逻辑块号，然后从 i-node 中检索它。作为引用，我要求对 Maurice J. Bach 在“UNIX 操作系统的设计
unix - Unix 内幕的好书
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
unix - UNIX 时间是否通用
我在互联网上做了一些研究，但仍然很困惑。 UNIX 时间是像 GMT/UTC 那样的通用时间还是像本地时间一样因地而异？我知道 UNIX 时间是从 1970 年 1 月 1 日格林威治标准时间 00
unix - Unix 管理员应该具备哪些编程能力？
您如何评估 Unix 系统管理员。 Unix 管理员应该具备哪些编程能力？最佳答案我用于快速过滤器的一些: 什么是 fork 炸弹，它是好是坏？给我一个单行命令，计算日志文件中有多少行从昨天的日
unix - 字典文本文件 UNIX
谁能告诉我字典文本文件在 UNIX 系统上的位置？或者我在哪里可以获得一个好的字典文本文件？我目前一直在使用来自 SUN 的文本文件，但它包含不带句点的缩写(否则我可以删除它们)。有人能指出我正确的方
unix - unix 机器上的缓存内存不断增长
在我的 Ubuntu 12 vps 上，我正在运行一个完整的比特币节点。当我第一次启动它时，它使用了大约 700mb 的内存。如果我 24 小时后回来 (free -m) 将如下所示: total
unix - unix 程序中的配置位置
我想编写一个 unix/linux 程序，它将使用一个配置文件。我的问题是，我应该把文件的位置放在哪里？我可以将位置(如 /etc )“硬编码”到程序本身中。但是，我希望它，如果没有权限的用户可
unix - UNIX:如何从2种输入中获取信息？
在UNIX脚本编程中，cat是可以将2个文件组合在一起的命令: cat file1 file2 > file3 通过合并前两个生成第三个。另外，cat可以与管道一起使用: cat file1 | t
unix - 如何将正在运行的进程移至后台 (UNIX)
我有一个通过 ssh 连接到外部机器的终端，并且有一个进程在其中运行。是否可以将执行移到后台，以便我可以关闭 ssh 连接而无需终止它？如果是这样怎么办？最佳答案按 control + Z，这将
unix - UNIX 共享库可以合并为一个库吗？
我正在试验我自己的 BSD 或 Linux 发行版。我想以对最终用户有意义的方式组织系统文件。我希望他们能够访问系统，而不会出现 *nixes 留下的所有文件困惑。有没有办法在不丢失动态链接的情况下
unix - Unix 中的信号是什么？
这条评论让我感到困惑:“kill -l 通常会列出所有信号”。我认为信号意味着量化的能量。 [已添加] 请澄清 Unix 中的(计算)信号和物理信号。它们是完全不同的概念吗？ [已添加] 范式之间是否
unix - unix 进程正在使用的文件
fuser 命令让我知道哪些进程正在使用文件或目录。我正在寻找相反的命令:让我知道进程正在使用哪些文件。更新忘了说它是针对 Solaris 系统的。最佳答案 lsof -p 来自 here
unix - 将单词拆分为字符 - Unix
如果我有一个叫做“orange”的词，我如何将它拆分成单独的字符。我的输出应该是: o r a n g e 最佳答案 echo orange | fold -w 1 输出 o r a n g e 关
unix - Unix 中的作业和进程有什么区别？
和有什么区别工作和一个流程在 Unix 中？你能举个例子吗？最佳答案作业是由 shell 启动的进程。 shell 在作业表中跟踪这些。作业命令显示事件后台进程的列表。他们得到一个 jobspe
unix - unix 如何处理带空格和参数的完整路径名？
unix 如何处理带空格和参数的完整路径名？在 Windows 中，我们引用路径并在其后添加命令行参数，在 unix 中如何？ "c:\foo folder with space\foo.exe"
unix - Unix:通过保留第一个文件的标题合并具有相同标题的多个CSV文件
我必须合并具有相同标题的多个CSV文件。我必须保留第一个文件的 header ，并删除所有其他文件的 header ，然后合并它们并创建一个主文件。文件1: Id,city,name ,locat
unix - unix 中两个文件的左外连接
我需要在两个字段上加入两个文件。但是，即使连接失败，我也应该检索文件 1 中的所有值，就像左外连接一样。文件 1: 01|a|jack|d 02|b|ron|c 03|d|tom|e 文件2: 01
unix - UNIX 上的进程大小
在 Solaris, HP-UX 上获取进程大小的正确方法是什么？和 AIX ?我们应该使用 top或 ps -o vsz或者是其他东西？最佳答案 vsize的确切定义, rss , rprvt ,
unix - UNIX 目录何时更改其时间戳
我在文件上使用了“touch”，更新了文件的时间戳，但父目录的时间戳没有改变。但是，(如预期)当我在父目录中创建新文件时，该目录的时间戳确实发生了变化。类 UNIX 操作系统(特别是 AIX)使用什
unix - UNIX 中文件追加是原子的吗？
一般来说，当我们从多个进程向 UNIX 中的文件追加内容时，我们可以认为什么是理所当然的？是否有可能丢失数据(一个进程覆盖另一个进程的更改)？数据有可能被破坏吗？ (例如，每个进程都将每个追加一行追加

首页

博学

6Ren·AI

商城

unix - wget拒绝仍然下载文件