python - 仅当有免费 worker 可用时如何生成 future-6ren

python - 仅当有免费 worker 可用时如何生成 future

转载作者：太空宇宙更新时间：2023-11-03 18:49:09

25

4

我正在尝试将从大文件行中提取的信息发送到某个服务器上运行的进程。

为了加快速度，我想使用一些并行线程来执行此操作。

使用 concurrent.futures 的 Python 2.7 反向移植我试过这个:

f = open("big_file")
with ThreadPoolExecutor(max_workers=4) as e:
    for line in f:
        e.submit(send_line_function, line)
f.close()

但是，这是有问题的，因为所有 future 都会立即提交，因此我的机器会耗尽内存，因为完整的文件会加载到内存中。

我的问题是，是否有一种简单的方法可以仅在有免费 worker 可用时提交新的 future。

最佳答案

您可以使用迭代文件 block

for chunk in zip(*[f]*chunksize):

(这是 grouper recipe 的一个应用程序，它将迭代器 f 中的项目收集到大小为 chunksize 的组中。注意:这不会消耗整个文件因为 zip 在 Python3 中返回一个迭代器。)

<小时/>

import concurrent.futures as CF
import itertools as IT
import logging

logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.DEBUG,
                    format='[%(asctime)s %(threadName)s] %(message)s',
                    datefmt='%H:%M:%S')

def worker(line):
    line = line.strip()
    logger.info(line)

chunksize = 1024
with CF.ThreadPoolExecutor(max_workers=4) as executor, open("big_file") as f:
    for chunk in zip(*[f]*chunksize):
        futures = [executor.submit(worker, line) for line in chunk]
        # wait for these futures to complete before processing another chunk
        CF.wait(futures)

<小时/>

现在，您在评论中正确地指出这不是最佳选择。可能有一些 worker 需要很长时间，并且占据了整个工作岗位。

通常，如果每次调用工作程序花费的时间大致相同，那么这并不是什么大问题。然而，这里有一种按需推进文件句柄的方法。它使用 threading.Condition 通知 sprinkler 推进文件句柄。

import logging
import threading
import Queue

logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.DEBUG,
                    format='[%(asctime)s %(threadName)s] %(message)s',
                    datefmt='%H:%M:%S')
SENTINEL = object()

def worker(cond, queue):
    for line in iter(queue.get, SENTINEL):
        line = line.strip()
        logger.info(line)
        with cond:
            cond.notify()
            logger.info('notify')

def sprinkler(cond, queue, num_workers):
    with open("big_file") as f:
        for line in f:
            logger.info('advancing filehandle') 
            with cond:
                queue.put(line)
                logger.info('waiting')
                cond.wait()
        for _ in range(num_workers):
            queue.put(SENTINEL)

num_workers = 4
cond = threading.Condition()
queue = Queue.Queue()
t = threading.Thread(target=sprinkler, args=[cond, queue, num_workers])
t.start()

threads = [threading.Thread(target=worker, args=[cond, queue])]
for t in threads:
    t.start()
for t in threads:
    t.join()

关于python - 仅当有免费 worker 可用时如何生成 future ，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18770534/

25

4

0

文章推荐： python - “模块”对象在coverage.py中没有属性 'RawConfigParser'

文章推荐：用于测试网络适配器是否受防火墙保护的 C# API

文章推荐： python - mongodb pymongo geonear 结果循环

delphi - 检测到机器是否已连接/可用？
如何检测当前网络中计算机是否已连接/可用。当然，它有多种用途，但我主要关心的是我的应用程序使用位于特定计算机中的资源，如果这些资源不可用，它甚至不会尝试连接，而是使用本地资源。最佳答案您可以尝试
javascript - 延迟函数直到 $ 可用
雅虎建议load scripts at the bottom of an HTML pages出于性能原因。我使用遵守规则的 HTML5 Boilerplate。这种方法的问题是 jQuery 也是
javascript - 如何使组件仅对少数用户可见/可用？
我有一个场景，我需要只向管理员而不是普通用户展示一个组件。说， // This component should be rendered for public users.
javascript - 将数组转换为具有默认值的对象的更简洁的方法？ (Lodash 可用)
我有一个数组，比方说 ["a","b","c"]，我想把它变成一个对象，它以数组值作为键和一个默认值我可以设置。因此，如果默认值为 true，我希望我的输出为 {a:true, b:true, c:t
.net - 如何使在该函数中可访问的函数中创建的 PSDrive 可用？
我假设在函数中创建一个新的 PS-Drive 会使该驱动器只能在该函数中访问。如何通过从该函数可访问的 MAIN 调用函数来创建 PS 驱动器？ $temproraryPSDriveName =
.net - 可用 .net 控件库的比较
您会推荐哪些 .net 控制库作为企业必备的？可以免费/非免费至少应该包含一个真正强大的Datagrid Ajax 功能有没有可用的比较？最佳答案我用过 Telerik ASP.NET控制之
javascript - 无法获取所选文本的容器(可用 jsfiddle)
假设我有一些像这样的 html: Hello World Javascript代码: var fooBar = document.getElementById('fooBar'); fooBar.
dart - Flutter 相机插件无法导入/可用
开始实现 camera plugin 时出现以下错误在我的 flutter 应用程序上: [VERBOSE-2:dart_error.cc(16)] Unhandled exception:
java - 我应该在哪里正确声明我的 "count"可用？
我想知道应该在哪里正确放置 countA，因为我希望将计数添加到所做的每个按钮中。开头的“count”变量用于制作新按钮，“countA”是我试图声明的计数，但它无法编译。这是我的代码片段:我的问题再
python - 可用 **kwargs 列表
在python帮助文档中我经常看到带有函数名和命名参数的签名行，然后你会看到**kwarg(关键字参数)。 list? 打印到帮助文档字符串: Init signature: list(self, /
c# - 可用 UWP 菜单控件之间的区别
我是 UWP 的新手，想知道“Flyout”、“ContextFlyout”和“Popup”之间的区别。另外，我想知道“AppBar”和“CommandBar”之间的区别。我相信这些是容纳菜单或菜单项
android - 可用 Wifi 设备列表
我想显示可用的 Wifi 设备列表。这是我的代码，我不明白这里有什么错误: wifi = (WifiManager) getSystemService(Context.WIFI_SERVICE); i
javascript - 使函数仅对其原型(prototype)可用
这是我的代码: Random = function(name) { this.name = name; this.addSomething = function(a, b) {
ios - 使按钮连续动画，可用 - Swift
我希望我的按钮持续动画直到用户触摸它，这是代码 func animate() { UIView.animateWithDuration(1, animations: { () -> Void
java - 阻塞直到 DataInputStream 可用
我正在为我正在参加的类(class)制作一个 HTTP 服务器作为项目，一周来我一直在尝试寻找解决方案。我有一个 DataInputStream，我需要等待客户端向我发送 http 请求，由于连接保持
linux - 如何仅打印特定范围内关闭(可用)的端口？
我想创建一个 bash 脚本来检查我的 Linux 服务器中的哪些端口已关闭且未在特定范围(端口范围 (3000-3010))中使用。打印输出只需1个端口，如果将输出保存为变量或保存在同一个文件中，
c - 如何让我的设备对 QEMU 可用
我写了一个我认为是最小的自定义设备来测试我对 QOM 和 QEMU 的总体理解。以下是省略注释的相关代码。不幸的是，当我启动 guest 并将我的设备名称作为命令行参数传递时，它无法找到我的设备并退出
python - opencv中有哪些常量(代码)可用
调用Opencv函数时，通常会提供一个常量给函数调用，如: im_hsv = cv2.cvtColor(im, cv2.COLOR_BGR2HSV) 虽然我找不到对所有可用常量的引用。 Opencv
c++ - 标准化之前多长时间 `string` 可用？
C++ 于 1998 年正式标准化，但我们能在多久以前找到一个名为 string 的类，它看起来像 C++2003 中的 std::string预标准 C++ 实现？我问是因为 CString 作为
git - 可用 --porcelain 选项的命令列表
是否有一个官方的(或可能没有)git 命令列表，--porcelain 选项可用？或者我应该在 the porcelain commands list 中手动查看它们中的每一个吗？？我已经设法用谷

首页

博学

6Ren·AI

商城

python - 仅当有免费 worker 可用时如何生成 future