gpt4 book ai didi

html - 抓取多帧网站

转载 作者:搜寻专家 更新时间:2023-10-31 22:24:03 27 4
gpt4 key购买 nike

我正在审核我们现有的 Web 应用程序,它大量使用了 HTML frames .我想下载每一帧中的所有 HTML,有没有一种方法可以用 wget 做到这一点?还是一些脚本?

最佳答案

作为史蒂夫回答的补充:

跨越到任何主机——‘-H’

“-H”选项打开主机跨越,从而允许 Wget 的递归运行访问链接引用的任何主机。除非应用了足够的递归限制标准,否则这些外部主机通常会链接到更多主机,依此类推,直到 Wget 最终吸收的数据比您预期的要多得多。

限制跨越某些域——'-D'

“-D”选项允许您指定将遵循的域,从而将递归限制为仅属于这些域的主机。显然,这只有与“-H”结合使用才有意义。

一个典型的例子是下载“www.server.com”的内容,但允许从“images.server.com”等下载:

      wget -rH -Dserver.com http://www.server.com/

您可以指定多个地址,用逗号分隔,

例如'-Ddomain1.com,domain2.com'。

取自:wget manual

关于html - 抓取多帧网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/116810/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com