gpt4 book ai didi

python - 在 python 中将网页和相关资源下载到 WARC

转载 作者:可可西里 更新时间:2023-11-01 13:00:01 25 4
gpt4 key购买 nike

我有兴趣下载一堆网页以供日后分析。我想做两件事:

  • 将页面和相关资源(图像、与文章相关的多个页面等)下载到 WARC 文件。
  • 更改所有链接以指向现在的本地文件。

我想用 Python 来做。

有什么好的图书馆可以做到这一点吗? Scrapy 似乎旨在抓取网站,而不是单个页面,我不确定如何生成 WARC 文件。如果没有更多的 python native ,调用 wget 是一个可行的解决方案。 Heritrix 完全矫枉过正,而不是一个 python 解决方案。如果 wpull 有一个文档齐全的 python 库,那将是理想的选择,但它似乎主要是一个应用程序。

还有其他想法吗?

最佳答案

只需使用 wget,它是您抓取网页并保存到 warc 中的最简单、最稳定的工具。

ma​​n wget,或者只是开始:

--warc-file=FILENAME        save request/response data to a .warc.gz file
-p, --page-requisites get all images, etc. needed to display HTML page

请注意您不必更改任何链接,warc 会保留原始网页。重播软件(openwayback、pywb)的工作是让 warc 内容再次可浏览。

如果你需要使用 python: internetarchive/warc是默认库

如果您想手动制作 warc 文件,请查看此文件 ampoffcom/htmlwarc

关于python - 在 python 中将网页和相关资源下载到 WARC,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41195142/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com