python - 循环中的 Selenium-chrome driver.get() 重复几次后会中断-6ren

python - 循环中的 Selenium-chrome driver.get() 重复几次后会中断

转载作者：太空宇宙更新时间：2023-11-03 20:55:42

29

4

我想从不断变化的网页中抓取数据(每隔几秒就有新帖子)。我在 while 循环中调用 driver.get() 但经过几次重复后我没有得到新结果。它不断地一遍又一遍地返回同一个帖子。我确定页面正在更改(在浏览器中检查)

我尝试使用 time.wait() 和 driver.refresh() 但问题仍然存在

    chrome_options = Options()
    chrome_options.add_argument("--headless")
    driver = webdriver.Chrome(chrome_options=chrome_options, executable_path=self.cp.getSeleniumDriverPath())

    while True:
        driver.get(url)
        html = driver.page_source
        soup = BeautifulSoup(html, 'html.parser')
        posts = soup.find_all(some class)

        (...)
        some logic with the result
        (...)

        driver.refresh() #tried interchangably with driver.get() from the beginning of loop

据我所知，driver.get() 应该等待页面加载，然后再执行下一行代码。也许我在语言方面做了一些错误的事情(我对Python还很陌生)。我应该在每次循环运行时重置驱动程序的某些属性吗？我见过在这样的循环中使用 driver.get() 的解决方案，但它在我的情况下不起作用。如何强制驱动程序在抓取页面之前完全刷新页面？

最佳答案

当您尝试向窗口发送命令时，如果页面正在加载，

selenium 将出现错误。您应该实现一个 time.sleep() 或一些 selenium specific wait method以确保页面已准备好进行处理。类似的东西

import time

    while True:
        driver.get(url)
        html = driver.page_source
        soup = BeautifulSoup(html, 'html.parser')
        posts = soup.find_all(some class)

        (...)
        some logic with the result
        (...)

        driver.refresh()
        time.sleep(5) # probably too long, but I usually try to stay on the safe side

最好的选择可能是使用类似的东西

element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "myDynamicElement"))
    )

从我发布的上面的链接中，这将确保该元素在那里，同时不会强制等待 5 秒。如果您想要的元素在 0.0001 秒内出现，您的脚本将在那么长时间后继续。这使您可以将超时设置为任意大(例如 120 秒)，而不会影响执行速度。

关于python - 循环中的 Selenium-chrome driver.get() 重复几次后会中断，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56048653/

29

4

0

文章推荐： javascript - 如何定位特定范围内的图像？

文章推荐： python - 如何对相似的类别进行分组？

c - 如果(中断==1)中断；不管用
#include int main() { int i; for( i = 0; i< 10 ; i++ ) { printf("test1 &d", i);
c# - OracleDataAdapter，Fill 方法挂起，如何处理连接终止/中断/中断？
我有一个连接到远程服务器以查询数据的 C# 程序。数据很大，所以查询大约需要 2 分钟才能完成。在这 2 分钟的时间内，互联网中断了。这导致作业无法完成，程序卡在获取数据例程中。它建立了连接，但在选
ruby - 为什么这个声明是这样的？ (放置 ("here") && 中断) vs (放置 "here"&& 中断)
语句 1: [2,4,6,7,8].each do |i| (i % 2 == 0) || (puts "Not even" && break) puts i end 声明 2: [2
C++ 中断？
我想知道 C++ 是否有任何处理中断的方法。我希望一个程序将信息存储在文本文件中，而另一个程序根据文本文件中的内容打印一条语句。由于我希望它尽可能准确，因此我需要在更新程序更新文件时中断打印程序。最
Java线程不会停止/中断
我正在尝试终止一个线程，但它不会中断或停止。所有这些都是名为 Webots 的软件 Controller 的一部分。我用它来模拟多机器人系统。在每个机器人的 Controller 中，我启动了一个线程
video - 中断 10h
中断10h可以使用的服务有很多，我想问一下关于其中两个我很困惑的问题首先是， AH = 06H SCROLL UP WINDOW AH = 07H SCROLL DOWN WINDOW 在 D
sql - 死锁是否会导致任何事件连接超时/中断？
我有一个基本的 SQL 问题，如果有两个事件连接，"A"和 "B"到 SQL 服务器，假设两者之间发生死锁，那么为了避免死锁，SQL 服务器将回滚其中一个连接“A”或“B”的交易。假设 SQL Ser
iPhone MapView 中断
我有一个 mapkit/ View ，它工作正常 - 但我滚动并在 2 - 10 次移动后我的应用程序崩溃了......而且这只是一个“中断”。这是我的代码的一部分。我认为这是后台线程和数组释放/覆
F# 中断 while 循环
有什么办法可以做到，比如 C/C# ? 例如(C#风格) for (int i = 0; i Seq.tryFind (fun i -> printfn "%d" i i=66) 在实践中，
sockets - Haskell与操作系统进行交互(中断)
我的问题是Haskell如何与系统交互。例如，IO如何发生？我对IO monad不感兴趣。或者如何使Haskell打印字符串或读取文件。我对Haskell和底层操作系统之间的层(如果是这样的话)
R:中断 for 循环
你能确认下一个break是否取消了内部for循环吗？ for (out in 1:n_old){ id_velho <- old_table_df$id[out] for
r - 中断/退出脚本
我有一个程序可以进行一些数据分析，并且有几百行长。在程序的早期，我想做一些质量控制，如果没有足够的数据，我希望程序终止并返回到 R 控制台。否则，我希望执行其余代码。我尝试过break、brows
Java 中断/停止计时器
我有一个 if 语句，用于检查我的对象(向导)是否命中了项目。如果他这样做了，巫师的大小将会改变，他应该能够在与障碍物的 1 次碰撞中幸存。现在我陷入了“在 1 个障碍物碰撞中幸存”，因为在我的碰撞
java - 无法到达的语句 - 中断；
我正在尝试使用迭代器来显示很多内容。我不断收到“break;”错误线。它说这是一个无法访问的声明。如有任何帮助，我们将不胜感激。 public Lot getLot(int number) {
android - 中断 IntentService
我正在创建一个应用程序，我需要在其中处理可能非常庞大且可能需要一些时间的数据。现在我阅读了很多关于 IntentService 的资料，实际上我已经将它实现为处理 REST 调用的通信类，但现在我试
ios - NSLayoutConstraint 中断
我有一个自定义的 UITableViewCell。该单元具有三个标签。最左边的“金额”标签具有以下约束。在单元格的右侧，我有另一个标签，“Label Dollar Amount”。它具有以下约束:
javascript - 不和谐嵌入中的行分隔符/中断
我有以下不和谐嵌入: message.reply({ content: '', embed: { color: 11416728, author
添加此代码时 JavaScript 中断
JavaScript 不是我最擅长的技能，但我会尽力解释，所以就这样吧。我有人在我的网站上创建了一个幻灯片菜单，我也使用 jplayer 音乐播放器。现在一切正常，直到我在顶部添加此脚本。由于某种原
Android API 中断
我已经在 Ubuntu 上安装了 android studio，有一个带有损坏图像的 API，我也尝试过重新安装。我应该怎么做才能克服这个问题。删除它后，它没有在 sdk 管理器中显示提前致谢。
打包时 CSS 中断
假设我的站点上有大约 10 个 css 文件。我想把它们合二为一。但是当我组合它们时(只是“连接”文件，以便将它们包含到 html 中)，我的样式/布局中断了。这不是路径问题或其他问题，只是选择器无法

首页

博学

6Ren·AI

商城

python - 循环中的 Selenium-chrome driver.get() 重复几次后会中断