gpt4 book ai didi

python - 测试大量格式正确的 URL 有效性的最快方法是什么

转载 作者:可可西里 更新时间:2023-11-01 16:23:46 26 4
gpt4 key购买 nike

我的项目要求我验证大量 Web URL。这些 URL 是由我无法控制的非常不可靠的过程捕获的。所有 URL 都已经过正则表达式验证,并且已知格式正确。我也知道他们都有有效的顶级域名

我希望能够快速过滤这些 URL,以确定其中哪些是不正确的。此时我不关心页面上有什么内容 - 我只想尽快知道哪些页面无法访问(例如产生 404 错误)。

鉴于其中有很多,我不想下载整个页面,只下载 HTTP header ,然后根据 header 的内容很好地猜测该页面是否可能存在。

可以吗?

最佳答案

要真正加快速度,您还可以使用 eventlet它使用非阻塞 IO 来加快速度。

你可以像这样使用 head 请求:

from eventlet import httpc
try:
res = httpc.head(url)
except httpc.NotFound:
# handle 404

然后您可以将其放入一些简单的脚本中,例如 that example script here .有了它,您应该通过使用协程池获得相当多的并发性。

关于python - 测试大量格式正确的 URL 有效性的最快方法是什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/563384/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com