gpt4 book ai didi

python - 如何使用 Python 从网站上抓取文本

转载 作者:太空宇宙 更新时间:2023-11-04 03:21:29 25 4
gpt4 key购买 nike

我使用“requests”和“beautifulSoup”api 在 python 中编写了一段代码,以从 google 返回的前 100 个站点中抓取文本数据。好吧,它在大多数网站上运行良好,但它会在那些稍后响应或根本不响应的网站上出错我收到这个错误

引发 MaxRetryError(_pool、url、错误或 ResponseError(原因))requests.packages.urllib3.exceptions.MaxRetryError: HTTPConnectionPool(host='www.lfpress.com', port=80): 最大重试次数超过 url:/2015/11/06/fair-with-a-flare-samosas-简单易行(由 NewConnectionError(': 建立新连接失败:[Errno 11001] getaddrinfo 失败',))

我应该更改请求 API 中编写的代码吗?或者我需要使用一些代理?我怎样才能离开该站点并转到下一个站点?由于错误正在停止我的执行。

最佳答案

在您的调用周围添加一个“try except” block 以捕获该异常并在您不关心错误时继续,例如:

import requests
try:
requests.get('http://stackoverflow.com/')
except requests.packages.urllib3.exceptions.MaxRetryError as e:
print repr(e)

关于python - 如何使用 Python 从网站上抓取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34571229/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com