multithreading - 多线程 HTTP GET 请求在大约 900 次下载后严重减慢-6ren

multithreading - 多线程 HTTP GET 请求在大约 900 次下载后严重减慢

转载作者：行者123 更新时间：2023-12-03 12:44:51

38

4

我正在尝试使用 requests_futures 从 Amazon S3 下载大约 3,000 个文件(每个文件的大小可能为 3 MB)。，但下载速度在大约 900 后严重减慢，实际上开始运行速度比基本的 for 循环慢。
我似乎没有耗尽内存或 CPU 带宽。然而，看起来我机器上的 Wifi 连接速度几乎没有变慢:我从几千个数据包/秒下降到只有 3-4 个。最奇怪的是，在 Python 进程退出并重新启动 wifi 适配器之前，我无法加载任何网站。
到底是什么原因导致了这种情况，我该如何调试它？
如果有帮助，这是我的 Python 代码:

import requests
from requests_futures.sessions import FuturesSession
from concurrent.futures import ThreadPoolExecutor, as_completed

# get a nice progress bar
from tqdm import tqdm

def download_threaded(urls, thread_pool, session):
    futures_session = FuturesSession(executor=thread_pool, session=session)
    futures_mapping = {}
    for i, url in enumerate(urls):
        future = futures_session.get(url)
        futures_mapping[future] = i
    
    results = [None] * len(futures_mapping)

    with tqdm(total=len(futures_mapping), desc="Downloading") as progress:
        for future in as_completed(futures_mapping):
            try:
                response = future.result()
                result = response.text
            except Exception as e:
                result = e
            i = futures_mapping[future]
            results[i] = result
            progress.update()

    return results

s3_paths = []  # some big list of file paths on Amazon S3
def make_s3_url(path):
    return "https://{}.s3.amazonaws.com/{}".format(BUCKET_NAME, path)

urls = map(make_s3_url, s3_paths)
with ThreadPoolExecutor() as thread_pool:
    with requests.session() as session:
        results = download_threaded(urls, thread_pool, session)

使用我尝试过的各种方法进行编辑:

time.sleep(0.25)每一次之后 future.result() (性能在 900 左右急剧下降)

4 个线程而不是默认的 20 个(性能逐渐下降，但仍然基本上没有下降)

1 个线程(性能在 900 左右急剧下降，但间歇性恢复)

ProcessPoolExecutor 而不是 ThreadPoolExecutor(性能在 900 左右急剧下降)

调用 raise_for_status()每当状态大于 200 时抛出异常，然后通过将其打印为警告(不出现警告)来捕获此异常

在完全不同的网络上使用以太网而不是 wifi(无变化)

在普通请求 session 中创建 future 而不是使用 FutureSession(这是我最初所做的，并在尝试解决问题时发现 requests_futures)

仅运行下载失败点附近的一小部分文件(例如文件 850 到文件 950)——这里的性能很好，print(response.status_code)一路显示200，没有捕捉到异常。

就其值(value)而言，我以前能够使用类似的方法在大约 4 秒内从 S3 下载约 1500 个文件，尽管文件要小一个数量级
今天有时间我会尝试的事情:

使用 for 循环

在 shell 中使用 Curl

在 shell 中使用 Curl + Parallel

使用 urllib2

编辑:看起来线程数是稳定的，但是当性能开始变差时，“空闲唤醒”的数量似乎从几百个飙升到几千个。这个数字是什么意思，我可以用它来解决这个问题吗？
来自 future 的编辑 2:我从来没有弄清楚这个问题。我没有在一个应用程序中完成所有工作，而是将文件列表分块，并在单独的终端窗口中使用单独的 Python 调用运行每个块。丑但有效!问题的原因永远是个谜，但我认为这是我当时工作机器网络堆栈深处的某种问题。

最佳答案

这并不意外。

当线程数多于内核数时，您不会获得任何并行性。

您可以通过将问题简化为具有多个线程的单个内核来证明这一点。

发生什么了？一次只能运行一个线程，因此操作系统上下文会切换每个线程，让每个人都可以轮流使用。一个线程工作，其他线程休眠，直到他们被唤醒依次做他们的工作。在这种情况下，你不能比单线程做得更好。

您可能会做得更糟，因为为每个线程(每个 1MB)分配的上下文切换和内存也有代价。

阅读 Amdahl's Law .

关于multithreading - 多线程 HTTP GET 请求在大约 900 次下载后严重减慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40274072/

38

4

0

文章推荐： c++ - 为什么互斥锁 (std::mutex) 很重？

文章推荐： Python - 线程同时打印弄乱了文本输出

postgresql - 以米为单位缓冲一个经纬度点(大约)
我需要围绕半径大约为 X 米的点 (lon,lat) 创建一个圆。该点是通过等效于 geomFromEwkt('SRID=1;POINT(lon lat)') 生成的。我知道 postgis 的缓
c - 堆栈溢出(大约 "evhttp_uri_parse")
代码实现了读取文件(包含大量url)的功能，每个url都通过“evhttp_uri_parse”获取主机和路径。但是有一个错误，evhttp_uri_parse解析失败，返回NULL。可能原因是堆栈溢
C - 大约 30 次读取后无法读取套接字
所以我有两个进程，一个客户端进程，一个服务器进程。用户可以向客户端发出命令，当用户输入命令时客户端会将命令长度发送给服务器，之后再发送实际的命令。服务器首先发回响应的长度，然后发送回响应。我可以执
mysql - (大约)en.wikipedia页面链接表包含多少行？
我从enwiki-latest-pagelinks.sql.gz下载了dumps.wikimedia.org/enwiki/latest/转储。我开始将表导入到mysql数据库中： mysql -D
javascript - 大约 5500 个链接可以最大程度地减少页面速度下降的有效方法是什么
我有一个带有 Jw 音频播放器的 php 页面，并且有大约 5500 个链接，在每个链接的 onclick 事件上都附加了一个 javascript 函数。 php 正在生成文件的确切相对路径和名称，
c# - 使用自定义分隔符解析一个巨大的文本文件(大约 2GB)
我有一个大约 2GB 的巨大文本文件，我试图用 C# 解析它。该文件具有行和列的自定义分隔符。我想解析文件并提取数据并通过插入列标题并将 RowDelimiter 替换为换行符并将 ColumnDel
Facebook "Like"大约 2 天前按钮不再发布到墙上
我已经建立了几个网站，出于某种原因，当我“喜欢”一篇博客文章或喜欢这个网站时，它们都不会再贴到我的墙上了。 (使用 iframe)示例: http://madhatterulti.com/ http:
大约 10000 个类的 C++ 程序
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
Android 服务在功能工作时间超过(大约)15 秒时关闭
我有一个与 LongPoll 一起工作的服务，当我收到我的数据时一切正常，但是当我没有收到数据时，我收到的是空结果(长轮询最大时间 == 25 秒)我的服务有时会关闭手动(我没有在服务列表中看到它)。
大约 2012 年的 Android 支付平台选项
对于用于 Android 和应用内购买的最佳支付 API 是否达成共识？在谷歌上搜索“Android 支付 api”，有大量来自 paypal、sms 和信用卡公司等的点击。但其中大部分文章已有多年
mysql - 查询执行时间较长，大约 120 秒
我的查询执行时间很长，大约 120 秒。任何人都可以帮我重写这个查询。请参阅下面的解释计划和表格结构。我们经常在慢日志中收到此查询。查询: select count(*) as col_
image-processing - OpenCV:大约。从轮廓图像分割
我正在尝试找到一种方法来对墓 map 像进行近似分割(在文化科学中的 CBIR 背景下 - 但这不是主题)。到目前为止，我正在使用这个策略: 模糊图像两次(实验结果) 应用 Canny 边缘检测器寻
algorithm - 搜索引擎不精确计数(大约 xxx 个结果)
当您在 Google 中搜索时(我几乎可以肯定 Altavista 做了同样的事情)，它会显示“关于 xxxx 的结果 1-10”... 这一直让我感到惊讶......“关于”是什么意思？他们怎么能
大约 700 个建立的连接后，linux 出站连接超时或失败
今天我们的一台 Linux 服务器在打开出站请求时遇到问题。我已经查看了这个答案，Increasing the maximum number of tcp/ip connections in linu
iis - SignalR 连接挂起，大约 30 秒后调用客户端
我在 MVC4 站点中使用 NuGet 的最新 SignalR。使用sample hub code (或任何代码)，我遇到一些奇怪的连接问题。一切加载正常，SignalR 进行协商调用并记录“Even
c# - GUI 处理数据的速度不够快，大约 10 秒内无法使用
有人可以帮帮我吗？我的 GUI 有问题。这会过快地接收过多数据，以至于事件处理程序会完全阻塞 GUI 以供用户输入。后台程序用于向 GUI 发送解决方案(作为文本)，但 GUI 处理数据的速度不够快
javascript - 在嵌套函数中包含代码(大约 30 行)是更快还是在没有嵌套函数的情况下调用代码更快
假设我有一段代码，例如 for (j = 0; j 180) { c.fillStyle = 'red' } c.fi
java - Libgdx - 大约 2 人游戏。我希望每个玩家都可以用一根手指触摸自己的区域
我正在创建 2 名玩家的游戏，每个玩家都有自己的区域。我希望每个玩家都可以用一根手指触摸自己的区域。所以首先我将“达阵”功能限制为“2 个指针”。 public boolean touchDown(i
c++ - pthread_create ENOMEM 大约 32000 个线程
进程运行卡在 32000 (± 5%) 左右 ~# cat/proc/sys/kernel/threads-max127862 ~# ulimit -s堆栈大小(千字节，-s)2048 可用内存:3,
android - 大约 1 小时后，Android 中的移动数据断开连接
我有一个问题。我的应用程序在某些 Android 设备(Android 版本 5 到 6)的后台运行(如前台服务)。应用程序连接到服务器(TCP 连接)并且它们至少每 45 秒交换一次数据。如果屏幕

首页

博学

6Ren·AI

商城

multithreading - 多线程 HTTP GET 请求在大约 900 次下载后严重减慢