gpt4 book ai didi

python - 检查url链接是否正确

转载 作者:太空宇宙 更新时间:2023-11-03 18:15:34 24 4
gpt4 key购买 nike

我想打开许多网址(我打开一个网址,搜索该网站上的所有链接并打开它们或从此墨水下载图像等)。所以首先我想检查 url 是否正确,所以我使用了 if 语句:

if not urlparse.urlparse(link).netloc:
return 'broken url'

但是我注意到有些值没有通过这个声明。我遇到一个网站,链接如下://b.thumbs.redditmedia.com/7pTYj4rOii6CkkEC.jpg,但我遇到了错误:ValueError: Unknown url type://b.thumbs.redditmedia.com/7pTYj4rOii6CkkEC.jpg,但我的 if 语句没有捕获到这一点。如何更准确地检查网址是否有效?

最佳答案

非常简单:

import urllib2def valid_url(url):    try:        urllib2.urlopen(url)        return True    except Exception, e:        return Falseprint valid_url('//b.thumbs.redditmedia.com/7pTYj4rOii6CkkEC.jpg') # Falseprint valid_url('http://stackoverflow.com/questions/25069947/check-if-the-url-link-is-correct') # True

您还可以通过以下方式阅读整个文档

urllib2.urlopen(url).read()

一般来说,如果你想从 HTML 文档下载所有图像,你可以这样做:

for link, img in re.findall('http.?:\/\/b\.thumbs\.redditmedia\.com\/(\w+?\.(?:jpg|png|gif))', load(url)):    if not os.path.exists(img):        with open(img, 'w') as f:            f.write(link)

关于python - 检查url链接是否正确,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25069947/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com