- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 requests_futures
从 Amazon S3 下载大约 3,000 个文件(每个文件的大小可能为 3 MB)。 ,但下载速度在大约 900 后严重减慢,实际上开始运行速度比基本的 for 循环慢。
我似乎没有耗尽内存或 CPU 带宽。然而,看起来我机器上的 Wifi 连接速度几乎没有变慢:我从几千个数据包/秒下降到只有 3-4 个。最奇怪的是,在 Python 进程退出并重新启动 wifi 适配器之前,我无法加载任何网站。
到底是什么原因导致了这种情况,我该如何调试它?
如果有帮助,这是我的 Python 代码:
import requests
from requests_futures.sessions import FuturesSession
from concurrent.futures import ThreadPoolExecutor, as_completed
# get a nice progress bar
from tqdm import tqdm
def download_threaded(urls, thread_pool, session):
futures_session = FuturesSession(executor=thread_pool, session=session)
futures_mapping = {}
for i, url in enumerate(urls):
future = futures_session.get(url)
futures_mapping[future] = i
results = [None] * len(futures_mapping)
with tqdm(total=len(futures_mapping), desc="Downloading") as progress:
for future in as_completed(futures_mapping):
try:
response = future.result()
result = response.text
except Exception as e:
result = e
i = futures_mapping[future]
results[i] = result
progress.update()
return results
s3_paths = [] # some big list of file paths on Amazon S3
def make_s3_url(path):
return "https://{}.s3.amazonaws.com/{}".format(BUCKET_NAME, path)
urls = map(make_s3_url, s3_paths)
with ThreadPoolExecutor() as thread_pool:
with requests.session() as session:
results = download_threaded(urls, thread_pool, session)
使用我尝试过的各种方法进行编辑:
time.sleep(0.25)
每一次之后 future.result()
(性能在 900 左右急剧下降)raise_for_status()
每当状态大于 200 时抛出异常,然后通过将其打印为警告(不出现警告)来捕获此异常 print(response.status_code)
一路显示200,没有捕捉到异常。 最佳答案
这并不意外。
当线程数多于内核数时,您不会获得任何并行性。
您可以通过将问题简化为具有多个线程的单个内核来证明这一点。
发生什么了?一次只能运行一个线程,因此操作系统上下文会切换每个线程,让每个人都可以轮流使用。一个线程工作,其他线程休眠,直到他们被唤醒依次做他们的工作。在这种情况下,你不能比单线程做得更好。
您可能会做得更糟,因为为每个线程(每个 1MB)分配的上下文切换和内存也有代价。
阅读 Amdahl's Law .
关于multithreading - 多线程 HTTP GET 请求在大约 900 次下载后严重减慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40274072/
我需要围绕半径大约为 X 米的点 (lon,lat) 创建一个圆。 该点是通过等效于 geomFromEwkt('SRID=1;POINT(lon lat)') 生成的。 我知道 postgis 的缓
代码实现了读取文件(包含大量url)的功能,每个url都通过“evhttp_uri_parse”获取主机和路径。但是有一个错误,evhttp_uri_parse解析失败,返回NULL。可能原因是堆栈溢
所以我有两个进程,一个客户端进程,一个服务器进程。用户可以向客户端发出命令,当用户输入命令时客户端会将命令长度发送给服务器,之后再发送实际的命令。 服务器首先发回响应的长度,然后发送回响应。 我可以执
我从enwiki-latest-pagelinks.sql.gz下载了dumps.wikimedia.org/enwiki/latest/转储。 我开始将表导入到mysql数据库中: mysql -D
我有一个带有 Jw 音频播放器的 php 页面,并且有大约 5500 个链接,在每个链接的 onclick 事件上都附加了一个 javascript 函数。 php 正在生成文件的确切相对路径和名称,
我有一个大约 2GB 的巨大文本文件,我试图用 C# 解析它。该文件具有行和列的自定义分隔符。我想解析文件并提取数据并通过插入列标题并将 RowDelimiter 替换为换行符并将 ColumnDel
我已经建立了几个网站,出于某种原因,当我“喜欢”一篇博客文章或喜欢这个网站时,它们都不会再贴到我的墙上了。 (使用 iframe)示例: http://madhatterulti.com/ http:
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
我有一个与 LongPoll 一起工作的服务,当我收到我的数据时一切正常,但是当我没有收到数据时,我收到的是空结果(长轮询最大时间 == 25 秒)我的服务有时会关闭手动(我没有在服务列表中看到它)。
对于用于 Android 和应用内购买的最佳支付 API 是否达成共识? 在谷歌上搜索“Android 支付 api”,有大量来自 paypal、sms 和信用卡公司等的点击。但其中大部分文章已有多年
我的查询执行时间很长,大约 120 秒。 任何人都可以帮我重写这个查询。 请参阅下面的解释计划和表格结构。 我们经常在慢日志中收到此查询。 查询: select count(*) as col_
我正在尝试找到一种方法来对墓 map 像进行近似分割(在文化科学中的 CBIR 背景下 - 但这不是主题)。到目前为止,我正在使用这个策略: 模糊图像两次(实验结果) 应用 Canny 边缘检测器 寻
当您在 Google 中搜索时(我几乎可以肯定 Altavista 做了同样的事情),它会显示“关于 xxxx 的结果 1-10”... 这一直让我感到惊讶......“关于”是什么意思? 他们怎么能
今天我们的一台 Linux 服务器在打开出站请求时遇到问题。我已经查看了这个答案,Increasing the maximum number of tcp/ip connections in linu
我在 MVC4 站点中使用 NuGet 的最新 SignalR。使用sample hub code (或任何代码),我遇到一些奇怪的连接问题。一切加载正常,SignalR 进行协商调用并记录“Even
有人可以帮帮我吗?我的 GUI 有问题。这会过快地接收过多数据,以至于事件处理程序会完全阻塞 GUI 以供用户输入。 后台程序用于向 GUI 发送解决方案(作为文本),但 GUI 处理数据的速度不够快
假设我有一段代码,例如 for (j = 0; j 180) { c.fillStyle = 'red' } c.fi
我正在创建 2 名玩家的游戏,每个玩家都有自己的区域。我希望每个玩家都可以用一根手指触摸自己的区域。所以首先我将“达阵”功能限制为“2 个指针”。 public boolean touchDown(i
进程运行卡在 32000 (± 5%) 左右 ~# cat/proc/sys/kernel/threads-max127862 ~# ulimit -s堆栈大小(千字节,-s)2048 可用内存:3,
我有一个问题。我的应用程序在某些 Android 设备(Android 版本 5 到 6)的后台运行(如前台服务)。应用程序连接到服务器(TCP 连接)并且它们至少每 45 秒交换一次数据。 如果屏幕
我是一名优秀的程序员,十分优秀!