gpt4 book ai didi

python - 如何使用 urllib 下载整个网站?

转载 作者:太空宇宙 更新时间:2023-11-03 13:46:29 25 4
gpt4 key购买 nike

我需要使用 python urlib 下载整个网站喜欢

import urllib

site = urllib.urlopen('http://www.mathrubumi.com/index.php')
site_data = site.read()

它只下载第一页。那就是index.php。我怎样才能使代码下载整个网站。通过循环??或者还有其他方法吗?例如在 wget 代码中不需要循环

wget \ --recursive \--no-clobber \ --page-requisites \ --html-extension \  --convert-links \
--restrict-file-names=windows \ --domains website.org \ --no-parent \ www.website.org/tutorials/html/

最佳答案

如果你想用 urllib 下载一个完整的网站,你必须解析每个页面,找到所有链接并下载它们。这是可行的,但要做到正确可能很棘手。

我建议您查看 scrapy如果你想要一个纯 python 解决方案或者只是 call wget从你的脚本。

关于python - 如何使用 urllib 下载整个网站?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19398854/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com