gpt4 book ai didi

python - 有没有更好的方法来使用 Python 检索网页大小?

转载 作者:太空宇宙 更新时间:2023-11-04 10:23:58 25 4
gpt4 key购买 nike

我想对这个 Python 脚本进行完整性检查。我的目标是输入一个 url 列表并获得一个字节大小,让我知道 url 是好是坏。

import urllib2
import shutil

urls = (LIST OF URLS)

def getUrl(urls):
for url in urls:
file_name = url.replace('https://','').replace('.','_').replace('/','_')
try:
response = urllib2.urlopen(url)
except urllib2.HTTPError, e:
print e.code
except urllib2URLError, e:
print e.args
print urls, len(response.read())
with open(file_name,'wb') as out_file:
shutil.copyfileobj(response, out_file)
getUrl(urls)

我遇到的问题是我的输出看起来像:

(网址列表)22511
(网址列表)56472
(网址列表)8717
...

如何让字节大小只出现一个url?
有没有更好的方法来获得这些结果?

最佳答案

尝试

print url, len(response.read())

代替

print urls, len(response.read())

您每次都在打印列表。只打印当前项目。

有一些替代方法可以确定描述的页面大小 herehere我在这里复制该信息毫无意义。

编辑

也许您会考虑使用 requests 而不是 urllib2

您可以轻松地从 HEAD 请求中仅提取 content-length 并避免完整的 GET。例如

import requests

h = requests.head('http://www.google.com')

print h.headers['content-length']

使用urllib2httplib2 的HEAD 请求详解here .

关于python - 有没有更好的方法来使用 Python 检索网页大小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30597829/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com