gpt4 book ai didi

perl - 如何完全镜像网页?

转载 作者:行者123 更新时间:2023-12-02 05:25:20 24 4
gpt4 key购买 nike

我在几个不同的站点上有几个网页,我想完全镜像。这意味着我将需要图像,CSS等,并且需要转换链接。此功能类似于使用Firefox“将页面另存为”并选择“完整的网页”。我想将文件和相应的目录命名为明智的名称(例如myfavpage1.html,myfavpage1.dir)。

我无权访问这些服务器,它们也不是我的页面。这是一个示例链接:Click Me!

需要更多说明...我要镜像大约100页(许多来自慢速服务器),我将在Solaris 10上进行这项工作,并将结果每小时转储到samba挂载中,以供人们查看。而且,是的,我显然尝试过使用带有几个不同标志的wget,但是没有得到所需的结果。
因此,指向GNU wget页面并没有真正的帮助。让我从一个简单的例子开始。

wget --mirror -w 2 -p --html-extension --tries = 3 -k -P stackperl.html“https://stackoverflow.com/tags/perl”

由此,如果标志正确,我应该在stackper.html文件中看到https://stackoverflow.com/tags/perl页面。

最佳答案

如果您只是想运行命令并获得网站的副本,请使用其他人建议的工具,例如wgetcurl或某些GUI工具。我使用自己的个人工具webreaper(虽然不是Windows WebReaper。我知道一些Perl程序,包括webmirror和可以在CPAN上找到的其他一些程序。

如果您想在自己编写的Perl程序中执行此操作(因为您的答案上带有“perl”标签),那么CPAN中有很多工具可以在每个步骤帮助您:

  • 下载内容:LWP::SimpleLWP::UserAgentWWW::Mechanize
  • 链接提取:HTML::LinkExtorHTML::SimpleLinkExtor
  • 链接重写:HTML::Parser

  • 祝好运, :)

    关于perl - 如何完全镜像网页?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/400935/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com