gpt4 book ai didi

java - 多线程/并发运行 selenium Windows

转载 作者:行者123 更新时间:2023-11-30 12:02:47 25 4
gpt4 key购买 nike

我目前正在开发一个使用 webparsing 并将 selenium 与 phantomJS 结合使用的项目。

我写的项目运行良好,但问题是它很慢,所以我想我可能会在其中引入多线程。

我知道 selenium 不是多线程安全的,每个线程都应该有自己的 webdriver(明确一点)。

重点是:

我有一个包含在 url 中使用的对象的数组(只有一部分)目前我为对象运行 for 循环并将驱动程序导航到给定的 xpath,获取数据并初始化对象。为了更快地完成它,我想创建 4 个线程,每个线程应该:

  1. 初始化新的网络驱动

  2. 从列表中获取尚未使用的项目。

  3. 在此对象上调用不同的函数

我不确定我应该如何开始创建多个驱动程序并将它们放在一起。我应该如何创建负责工作的线程?我已经阅读了有关运行覆盖功能的信息,并且这个地方应该有线程应该做的工作,但是它应该如何知道要使用的列表中的下一个元素?

到目前为止,我有以下内容:

public static class MyThread implements Runnable {
private Objectx object
private WebDriver driver;
public MyThread(Objectx object){
this.object = object;
}
@Override
public void run() {
driver = driverSettings(driver);
driver.navigate().to("website" + object.getNumber + ".html");
function1(object);
function2(object);
}
}

在主要方法中:

        ExecutorService executor = Executors.newFixedThreadPool(4);

现在我有了对象列表

    private static List<Objectx> listOfObjects = new ArrayList<Objectx>();

然后我可以使用:

For (Objectx object : listOfObjects){
Runnabble object.getNumber() = new MyThread(object).start()
}

或者我应该如何添加所有对象来创建可运行列表?

最佳答案

这是基本步骤。

1) 创建一个线程池。线程数不取决于要处理的对象的大小。例如。您可以创建一个包含 4 个线程的池来处理 250 个对象。

2) 创建线程时,将对象列表传递给它的构造函数。

3) 每个线程从列表中获取下一个对象并将其从列表中删除。您可以使用队列而不是列表。

4)重要:对列表(队列)的访问应该是同步的,这样一次只有一个线程可以修改它。最简单的方法之一是使用 ConcurrentLinkedQueue。

5) run() 中的每个线程从列表(从队列)中检索下一个任务,处理它,检索下一个任务。如果没有更多任务,线程将退出其 run() 方法。

更新 1:(问题更新后)

名称“MyThread”具有误导性,因为它不是线程。我建议您根据它的作用来命名它,例如“WebSiteParser”。但对于功能结果来说,这并不重要:)

当您创建可运行的实例时,您应该将它们提交给执行者。它将根据池中的线程数执行它们。

更新 2:

关于Web Driver的复用:如果你使用ExecutorService,那么我建议你提前创建Web Driver,把它们放到一个栈或者一个队列中。当一个线程开始它的任务时,它应该从这个堆栈或队列中获取一个 Web 驱动程序。当它完成它的任务时,它应该将它的 Web Driver 放回堆栈或队列中。再次确保对此堆栈或队列的访问是线程安全的。

关于java - 多线程/并发运行 selenium Windows,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58259882/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com