gpt4 book ai didi

python - urllib2 下载 HTML 文件

转载 作者:太空宇宙 更新时间:2023-11-04 10:40:50 24 4
gpt4 key购买 nike

在 Python 2.7.4 中使用 urllib2,我可以轻松下载 Excel 文件:

output_file = 'excel.xls'
url = 'http://www.nbmg.unr.edu/geothermal/GEOTHERM-30Jun11.xls'
file(output_file, 'wb').write(urllib2.urlopen(url).read())

这会生成我可以随意使用的预期文件。

但是,尝试只下载一个 HTML 文件会得到一个空文件:

output_file = 'webpage.html'
url = 'http://www.nbmg.unr.edu/geothermal/mapfiles/nvgeowel.html'
file(output_file, 'wb').write(urllib2.urlopen(url).read())

我使用 urllib 得到了相同的结果。必须有一些简单的东西我想念或不明白。如何从 URL 下载 HTML 文件?为什么我的代码不起作用?

最佳答案

如果你想下载文件或只是保存一个网页,你可以使用 urlretrieve(来自 urllib 库)而不是使用读写。

import urllib
urllib.urlretrieve("http://www.nbmg.unr.edu/geothermal/mapfiles/nvgeowel.html","doc.html")
#urllib.urlretrieve("url","save as..")

如果您需要设置超时时间,您必须将其放在文件的开头:

import socket
socket.setdefaulttimeout(25)
#seconds

关于python - urllib2 下载 HTML 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20670923/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com