- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
http://ls.pwd.io/2013/06/parallel-s3-uploads-using-boto-and-threads-in-python/
我尝试了链接中提到的第二个解决方案,将多个文件上传到 s3。此链接中提到的代码不会在线程上调用方法“join”,这意味着即使线程正在运行,主程序也可能会终止。使用这种方法,整个程序的执行速度要快得多,但不能保证文件是否正确上传。真的是这样吗?我更关心主程序完成得快吗?使用这种方法会产生什么副作用?
最佳答案
只是玩了一会儿,我发现多处理
需要一段时间才能拆除池,但除此之外并没有太多
测试代码为:
from time import time, sleep
from multiprocessing.pool import Pool, ThreadPool
from threading import Thread
N_WORKER_JOBS = 10
def worker(x):
# print("working on", x)
sleep(0.1)
def mp_proc(fn, n):
start = time()
with Pool(N_WORKER_JOBS) as pool:
t1 = time() - start
pool.map(fn, range(n))
start = time()
t2 = time() - start
print(f'Pool creation took {t1*1000:.2f}ms, teardown {t2*1000:.2f}ms')
def mp_threads(fn, n):
start = time()
with ThreadPool(N_WORKER_JOBS) as pool:
t1 = time() - start
pool.map(fn, range(n))
start = time()
t2 = time() - start
print(f'ThreadPool creation took {t1*1000:.2f}ms, teardown {t2*1000:.2f}ms')
def threads(fn, n):
threads = []
for i in range(n):
t = Thread(target=fn, args=(i,))
threads.append(t)
t.start()
for t in threads:
t.join()
for test in [mp_proc, mp_threads, threads]:
times = []
for _ in range(7):
start = time()
test(worker, 10)
times.append(time() - start)
times = ', '.join(f'{t*1000:.2f}' for t in times)
print(f'{test.__name__} took {times}ms')
我得到以下计时(Python 3.7.3、Linux 5.0.8):
mp_proc
~220msmp_threads
~200ms线程
~100ms然而,拆卸时间都在 100 毫秒左右,这使得一切都基本一致。
我已经研究过日志记录和源代码,这似乎是由于 _handle_workers
仅每 100 毫秒检查一次(它执行状态检查,然后休眠 0.1 秒)。
有了这些知识,我可以将代码更改为休眠 0.095 秒,然后一切都在彼此的 10% 以内。另外,考虑到这只是在池拆卸时发生一次,很容易安排这种情况不在内部循环中发生
关于python - 使用 boto 将多个文件并行上传到 s3,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55938420/
我已经阅读了关于“describe_cluster_snapshots”的解释...... http://docs.pythonboto.org/en/latest/ref/redshift.html
根据 DynamoDB 文档,如果使用受支持的 SDK,导致数据库节流的请求会自动重试。但是,我找不到任何关于 boto 如何处理节流情况的提及。 boto 会自动重试受限请求还是我应该开始捕获 Pr
有没有办法在 SQS 队列中设置消息的消息属性?我正在尝试检查发送到 SQS 队列的消息并更改其值。下面代码的最后一行获取并打印该值。 for message in queue.receive_mes
我无法从文档/示例中确定如何使用 boto 的 dynamodb2 从 DynamoDB 存储/读取二进制数据。它是如何完成的? 我的猜测是项目值类似于 { 'B': binary-data }但这会
我想获取 dynamodb 表的唯一哈希键值列表。我目前知道的唯一方法是扫描整个表,然后迭代扫描。什么是更好的方法? 最佳答案 rs = list(table.scan(range__eq="rang
我正在使用 boto 访问 dynamodb 表。一切顺利,直到我尝试执行扫描操作。 我尝试了在互联网上反复搜索后发现的几种语法,但没有成功: def scanAssets(self, asset):
我正在使用 Boto 库与 AWS 通信。我想禁用日志记录。 (或重定向到/dev/null 或其他文件)。我找不到明显的方法来做到这一点。我试过了,但这似乎没有帮助: import boto bot
这是我尝试将文档上传到云搜索的代码 from boto.cloudsearch2.layer2 import Layer2 conn_config = { 'region': 'us-east
我已经尝试过: connection = S3Connection( aws_access_key_id=settings.AWS_ACCESS_KEY_ID, aws_secret_
我正在编写一个脚本,以确保我们所有的 EC2 实例都有 DNS 条目,并且所有 DNS 条目都指向有效的 EC2 实例。 我的方法是尝试获取我们域的所有资源记录,以便在检查实例名称时可以遍历列表。 但
查看 boto 文档,当您将消息标识符从 SQS 队列中取出时,我没有看到获取消息标识符的方法。谁能提供一些有关我如何获取这些信息的信息? 最佳答案 Message实例应该有一个名为 id 的属性其中
我的python程序的第一行是from boto.s3.connection import S3Connection . 当我执行程序时,输出是“from: can't read/var/mail/b
我在使用 DynamoDB2 API 使用 boto 2.9.5 执行任何单个或批处理查询时遇到问题 我需要做一个这样的批量查询: one_org = Table('[table-name]').ba
我的网站正在使用 Django+Gunicorn+GEvent。 有一个功能,我必须将 Boto 用于 DynamoDB。 我需要调用monkey.patch_all() 来让Boto 变成green
我不断从包含在结构任务中的 boto create_launch_configuration() cmd 返回此错误。 这是命令: if user_data != '': security_group
我想使用 boto 获取 LoadBalancer 上的所有实例,我该如何实现? 这是我到目前为止所得到的: import boto from boto.regioninfo import Regio
标题已经说明问题了。 我正在请求一个带有 boto 的 Spot 实例,如下所示(aws key 和 secret key 是 ~/.boto 中设置的环境变量): import boto conn
我有一个我注册为亚马逊开发者的账户。 (我们称其为 developer 帐户) 我有另一个账户,我将其视为卖家账户(也是亚马逊开发者账户)。 (我们称此为seller 帐户) 我希望我的开发者帐户代表
如果存储桶名称有大写字母,我将无法连接到存储桶。 我有几个桶,里面有大写字母。 >>> mybucket = conn.get_bucket('Vig_import') Traceback (most
Boto在AWS上下文中代表什么?选择api名称似乎是一个随意的单词。是缩写吗?我已尝试使用Google搜索功能,但未发现其含义。 最佳答案 Boto的名称源于对亚马逊河原生海豚类型的葡萄牙语名称。
我是一名优秀的程序员,十分优秀!