gpt4 book ai didi

python - 使用 BeautifulSoup 在 python 中解析 Google App Engine 中的 HTML?

转载 作者:行者123 更新时间:2023-12-01 06:12:59 25 4
gpt4 key购买 nike

我一直在使用BeautifulSoup解析来自多个站点的 HTML,将每个站点添加到 GAE 任务队列。然而,任务队列似乎重复了 2 个任务,这些任务似乎要么在日志中生成 ApplicationError: 5 错误,要么因 'NoneType' 对象没有属性 'findAll' 而失败,当我在 IDLE 上测试它时,当 beautiful soup 未能在我通过的页面中找到任何内容时生成 None 对象。我添加了下面的代码,但这似乎并没有解决问题:

productTable = soup.find('table')

if productTable == None:
logging.error('Could not find the product table')
break

if productTable.findAll('table') == None:
logging.error('Product table was empty')
break

我想知道是否有人可以给我一些关于问题的建议,以便我可以修复它。

最佳答案

应用程序错误可能表明您检索 HTML 的 urlfetch 失败。任务队列将自动重试任务,直到成功(如果使用默认设置)。如果这个错误只是偶尔发生一次并在重试后消失,我不会太担心。如果给定的任务反复失败,那么我怀疑您尝试获取的资源存在问题。

如果您在使用之前首先检查productTable不是None,那么您不应该得到'NoneType'对象没有属性'findAll' 错误。您的检查失败似乎不会导致您的 productTable.findall 调用被绕过。

关于python - 使用 BeautifulSoup 在 python 中解析 Google App Engine 中的 HTML?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4751577/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com