gpt4 book ai didi

python-3.x - Python requests_html 渲染在某些 URL 上永远运行

转载 作者:行者123 更新时间:2023-12-04 11:44:45 26 4
gpt4 key购买 nike

我正在尝试编写一个简单的脚本,给定任意 URL 将返回该网站的标题标签。因为我要解析的许多 URL 需要启用 JavaScript,所以我需要使用诸如 requests_html 的渲染函数之类的东西来做到这一点。但是,我遇到了库的问题,其中下面的示例 URL 永远不会终止。我已经尝试了渲染调用的超时参数,但没有奏效。任何人都可以帮助我弄清楚如何正确地超时或其他一些解决方法以确保它不会卡住吗?

这是我当前不会终止的代码(它卡在渲染调用上):

from requests_html import HTMLSession

session = HTMLSession()
r = session.get('http://shan-shui-inf.lingdong.works/')
# render with JS
r.html.render(sleep = 1, keep_page=True)
# Also does not work: r.html.render(sleep = 1, keep_page=True, timeout = 3)


title = r.html.find('title', first=True).full_text

我已经尝试过类似的解决方案: Timeout on a function callPython timeout decorator这仍然没有足够奇怪地超时。

注意:我在 Windows 10 上使用 Python 3.7.4 64 位。

最佳答案

我建议最后放 r.session.close() 。这对我有用。

关于python-3.x - Python requests_html 渲染在某些 URL 上永远运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62378220/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com