python - 如何控制python的ThreadPoolExecutor的吞吐速度？-6ren

python - 如何控制python的ThreadPoolExecutor的吞吐速度？

转载作者：行者123 更新时间：2023-12-01 02:00:54

27

4

我正在使用 python 的 concurrent.futures ThreadPoolExecutor 启动异步任务。正在关注this方法中，我使用 tqdm 进度条监控异步调用的进度。

我的代码如下所示:

with concurrent.futures.ThreadPoolExecutor(max_workers = n_jobs) as executor:
    future_to_url = {executor.submit(target_function, URL): URL for URL in URL_list}
    kwargs = {'total': len(future_to_url), # For tqdm
            'unit': 'URL',                 # For tqdm
            'unit_scale': True,            # For tqdm
            'leave': False,                # For tqdm
            'miniters': 50,                # For tqdm
            'desc': 'Scraping Progress'}
    for future in tqdm(concurrent.futures.as_completed(future_to_url), **kwargs):
            URL = future_to_url[future]
            try:
                data = future.result()     # Concurrent calls
            except Exception as exc:
                error_handling()           # Handle errors
            else:
                result_handling()          # Handle non-errors

控制台输出如下所示:

Scraping Progress:   9%|▉  | 3.35k/36.2k [08:18<1:21:22, 6.72URL/s] # I want < 6/s
Scraping Progress:   9%|▉  | 3.40k/36.2k [08:26<1:21:16, 6.72URL/s] # I want < 6/s
Scraping Progress:  10%|▉  | 3.45k/36.2k [08:30<1:20:40, 6.76URL/s] # I want < 6/s
Scraping Progress:  10%|▉  | 3.50k/36.2k [08:40<1:20:51, 6.73URL/s] # I want < 6/s
Scraping Progress:  10%|▉  | 3.55k/36.2k [08:46<1:20:36, 6.74URL/s] # I want < 6/s
Scraping Progress:  10%|▉  | 3.60k/36.2k [08:52<1:20:17, 6.76URL/s] # I want < 6/s

我知道我可以设置 URL 队列并控制其大小，如所述 here .

但是，我不知道如何控制吞吐速度本身。假设我想要不超过 6 个 URL/秒。除了在上面的示例中将 time.sleep(n) 放入 target_function() 中之外，还可以通过其他方式来存档吗？

如何有效控制Python中ThreadPoolExecutor吞吐速度concurrent.futures？

最佳答案

简短地回答一下，没有这样的方法。声明池后，如果不先关闭池并重新创建它，则无法更改工作人员数量。也没有办法让池向工作线程提供任务的速度低于最大速度。

您有几个(不是最佳的)选择。

一是为worker添加基于全局变量的sleep。然后，您可以使用任务完成回调来测量实际速度并相应地调整变量。但如果 sleep 不成问题，这就没用了。

更好但更麻烦的方法是自己编写任务管理器。在此版本中，您不使用池，而是编写一个管理工作进程的类。您生成“足够”的工作人员，并且工作人员监听队列中的任务。您将从您的经理处以您想要的速度送入此队列。您将队列设置为非常低的最大大小，如果您的管理器检测到队列已满，它会生成另一个工作线程。

但是没有内置功能可以做你想做的事情，这意味着需要做一些工作或者你需要重新设计你的程序，这样你就不会一次性将所有任务送入池中，而是做一些限制那里。

关于python - 如何控制python的ThreadPoolExecutor的吞吐速度？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49645478/

27

4

0

文章推荐： javascript - 使用 jQuery 和 Javascript 的 for 循环内的函数

文章推荐： javascript - jQuery 将本地文件移动到另一个目录

文章推荐： javascript - Jquery/Javascript 根据输入字段更改表单操作

文章推荐： javascript - 如何在输入文本上显示 QR 扫描结果

java - 它是否正确？ ThreadPoolExecutor threadPoolExecutor = (ThreadPoolExecutor) Executors.newFixedThreadPool(numThreads);
这是正确的吗？ ThreadPoolExecutor threadPoolExecutor = (ThreadPoolExecutor)
python - ThreadPoolExecutor().map 与 ThreadPoolExecutor().submit 有何不同？
我只是对我编写的一些代码感到非常困惑。我惊讶地发现: with concurrent.futures.ThreadPoolExecutor(max_workers=4) as executor:
java - 将 InheritableThreadLocal 与 ThreadPoolExecutor 一起使用——或者——不重用线程的 ThreadPoolExecutor
我正在尝试同时使用 InheritableThreadLocal 和 ThreadPoolExecutor。这是因为 ThreadPoolExecutor 为每个池重用线程(毕竟它是一个池)，这意味
python - 如何将线程对象传递给 ThreadPoolExecutor？
concurrent.futures.ThreadPoolExecutor 通过传递 function 到执行器 executor.submit(my_function) 像这样: def my_f
java - ThreadPoolExecutor 意外错误
将一个简单的测试程序放在一起，应该并行执行一些任务。每次我们提交6个任务，等待完成。然后，又提交了一组任务。 import java.util.concurrent.*; public class
Python ThreadPoolExecutor 终止所有线程
我正在运行一段 python 代码，其中多个线程通过线程池执行程序运行。每个线程都应该执行一项任务(例如获取网页)。我想要做的是终止所有线程，即使其中一个线程失败。例如: with ThreadPoo
java - 测量任务在执行之前在队列中等待的时间Java ThreadPoolExecutor
我有一个使用阻塞队列的ThreadPoolExecutor，并且正在尝试调试一个问题，在该问题中，我怀疑任务在ThreadPoolExecutor的队列中停留的时间太长，无法执行。我正在尝试验证这一理
python - ThreadPoolExecutor 线程数
我正在尝试使用 futures backport 包在 Python 中使用 ThreadPoolExecutor。然而，问题是所有线程都是同时执行的，所以没有实际的池化发生。更具体地说，我得到了该函
multithreading - ThreadPoolExecutor 与来自两个列表的所有参数
我有两个 list : a = [1, 2, 3, 4] b = [9, 8, 7, 6] 我希望将这两个列表的每个组合作为参数传递给我正在执行多线程处理的函数: def test(hello, wo
java - ThreadPoolExecutor 中的核心池大小与最大池大小
当我们谈论ThreadPoolExecutor时，核心池大小和最大池大小之间到底有什么区别？可以用例子来解释吗？最佳答案来自this blog post : Take this example.
python - 存储结果 ThreadPoolExecutor
我对“concurrent.futures”的并行处理相当陌生，我正在测试一些简单的实验。我编写的代码似乎可以工作，但我不确定如何存储结果。我尝试创建一个列表(“ future ”)并将结果附加到该列
java - 将参数传递给 threadpoolexecutor
我审查了多线程，并尝试实现一个创建单独线程来运行收集进程的应用程序。该过程中的主要方法需要一个变量数组列表，我正在尝试找出一种将数组列表传递给每个线程的方法。 ApplicationContext c
java - ThreadPoolExecutor 运行应用程序
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
java - ThreadPoolExecutor 创建重复线程
我需要读取一个大的 csv 文件(328 MB)并对其进行处理。每行的处理还包括调用 Web 服务。我是第一次使用ThreadPoolExecutor。我的逻辑是，我将从 csv 中每 100 行吐
Python ThreadPoolExecutor 抑制异常
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED def div_zero(x): print('I
java - threadPoolExecutor 内存溢出异常
我有一个带有 run 方法的类，该类的 main 方法中的计时器正在使用以下代码调用该类: Timer timer = new Timer(); timer.scheduleAtFixedRate(n
java - ThreadPoolExecutor 挂起
尝试调试竞争条件，其中我们的应用程序的轮询器线程之一永远不会返回，导致 future 的轮询器永远不会被调度。用抽象术语来说，在捕获问题时隐藏我们的业务逻辑，这就是我们的代码路径。我们必须更新远程服
java - ThreadPoolExecutor 拒绝错误
下面的错误是什么意思？我怎样才能恢复它？ Exception in thread "UserActionProcessor-8811" java.util.concurrent.RejectedExe
java - ThreadPoolExecutor 线程与其他线程存在争用
我正在致力于增强现有的 Java 应用程序。该应用程序是一个消息处理器，每天处理数百万条消息。它基本上是使用 Core Java 编写的，线程和队列是使用 Collection 类实现的。在此应用程
java - 能否将不可运行的任务传递给 ThreadPoolExecutor
我想更新使用用户定义线程池的旧代码。我想使用 java ThreadPoolExecutor，但问题是发送到线程池的请求不是可运行的。有什么方法可以将 ThreadPoolExecutor 与现有请求

首页

博学

6Ren·AI

商城

python - 如何控制python的ThreadPoolExecutor的吞吐速度？