gpt4 book ai didi

html - 如何在 Ruby 脚本中备份整个网页(包括图像等)?

转载 作者:数据小太阳 更新时间:2023-10-29 08:28:59 26 4
gpt4 key购买 nike

如果我有一个网页的 URL,如何将它下载到本地,包括所有的图像、样式表等?我是否必须手动解析 HTML 并找出所有外部资源?或者有更清洁的方法吗?

谢谢!

最佳答案

这是我去别处寻找的那些时候之一。并不是说它不能在 Ruby 中完成,而是有其他现成的工具可以很好地完成这项工作。为什么要重新发明轮子?

wget .它是用于检索 Web 资源(包括镜像站点)的标准工具,可在所有平台上使用。来自 the docs :

Retrieve only one html page, but make sure that all the elements needed for the page to be displayed, such as inline images and external style sheets, are also downloaded. Also make sure the downloaded page references the downloaded links.

wget -p --convert-links http://www.server.com/dir/page.html

The html page will be saved to www.server.com/dir/page.html, and the images, stylesheets, etc., somewhere under www.server.com/, depending on where they were on the remote server.

您可以使用反引号或 %x 在 Ruby 脚本中轻松调用 wget:

`/path/to/wget -p --convert-links http://www.server.com/dir/page.html`

%x{/path/to/wget -p --convert-links http://www.server.com/dir/page.html}

在 Ruby 中有很多其他机制可以做同样的事情,让您有更多的控制权。

关于html - 如何在 Ruby 脚本中备份整个网页(包括图像等)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6720952/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com