gpt4 book ai didi

python - 如何从列表中删除错误的URL?

转载 作者:行者123 更新时间:2023-12-03 09:01:39 26 4
gpt4 key购买 nike

我有一个保存在.csv文件中的超过1000个URL(这些URL用于下载报告)的列表。
一些URL具有404 error,我想找到一种从列表中删除它们的方法。

我设法编写了一个代码来识别下面哪个URL无效(对于python 3)。但是,如果有许多URL,我不知道如何自动从列表中删除这些URL。谢谢!

from urllib.request import urlopen
from urllib.error import HTTPError
try:
urlopen("url")
except HTTPError as err:
if err.code == 404:
print ('invalid')
else:
raise

最佳答案

您可以使用另一个列表来保存404网址(如果404网址少于普通网址),则获取差异集,因此:

from urllib.request import urlopen
from urllib.error import HTTPError

exclude_urls = set()
try:
urlopen("url")
except HTTPError as err:
if err.code == 404:
exclude_urls.add(url)

valid_urls = set(all_urls) - exclude_urls

关于python - 如何从列表中删除错误的URL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60849418/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com