- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我需要下载站点/URL 列表(可能会随时间变化),我目前使用 multiprocessing.Manager().Queue()
来提交和更新所述列表。
我必须每秒检查每个 URL/任务:因此每个任务基本上永远不会结束(直到满足特定条件,如用户中断)。我认为 multiprocessing.Process()
结合了 asyncio
和一个很好的 async HTTP client会解决问题。不幸的是,在提交 50 个或更多 URL 后,我的 CPU 使用率仍然很高。当任务不执行任何请求 - 运行 mock_request()
- 和当它们 - 运行 do_request()
- 时,你会自己注意到差异。
这里有一个重现每个案例的例子(随时按 CTRL+C 优雅地结束它)。
import asyncio, os, sys, time, httpx
import multiprocessing
import queue as Queue
class ExitHandler(object):
def __init__(self, manager, queue, processes):
self.manager = manager
self.queue = queue
self.processes = processes
def set_exit_handler(self):
if os.name == "nt":
try:
import win32api
win32api.SetConsoleCtrlHandler(self.on_exit, True)
except ImportError:
version = ".".join(map(str, sys.version_info[:2]))
raise Exception("pywin32 not installed for Python " + version)
else:
import signal
signal.signal(signal.SIGINT, self.on_exit)
#signal.signal(signal.CTRL_C_EVENT, func)
signal.signal(signal.SIGTERM, self.on_exit)
def on_exit(self, sig, func=None):
print('[Main process]: exit triggered, terminating all workers')
STOP_WAIT_SECS= 5
for _ in range(N_WORKERS):
self.queue.put('END')
try:
end_time = time.time() + STOP_WAIT_SECS
# wait up to STOP_WAIT_SECS for all processes to complete
for proc in self.processes:
join_secs = max(0.0, min(end_time - time.time(), STOP_WAIT_SECS))
proc.join(join_secs)
# clear the procs list and _terminate_ any procs that have not yet exited
while self.processes and len(self.processes) > 0:
proc = self.processes.pop()
if proc.is_alive():
proc.terminate()
self.manager.shutdown()
# finally, kill this thread and any running
os._exit(0)
except Exception:
pass
async def mock_request(url):
# we won't do any request here, it's just an example of how much less CPU
# each process consumes when not doing requests
x = 0
while True:
try:
x += 1
print('Finished downloading {}'.format(url))
await asyncio.sleep(1)
except asyncio.CancelledError:
return
async def do_request(url):
while True:
try:
# I use httpx (https://github.com/encode/httpx/) as async client for its simplicity
# feel free to use your preferred library (e.g. aiohttp)
async with httpx.AsyncClient() as s:
await s.get(url)
print('Finished downloading {}'.format(url))
await asyncio.sleep(1)
except asyncio.CancelledError:
return
def worker(queue):
try:
event_loop = asyncio.get_event_loop()
event_loop.run_until_complete(request_worker(queue))
except KeyboardInterrupt:
pass
async def request_worker(queue):
p = multiprocessing.current_process()
loop = asyncio.get_event_loop()
while True:
try:
task = await loop.run_in_executor(None, queue.get)
if task == 'END':
break
elif task['action'] == 'DOWNLOAD':
print('Worker {}: Received new task'.format(p.name))
f = loop.create_task(do_request(task['url'])) # high CPU usage
# f = loop.create_task(mock_request(task['url'])) # low (almost none) CPU usage
except KeyboardInterrupt:
pass
except Queue.Empty:
pass
print('Task Worker {}: ending'.format(p.name))
def run_workers(queue, processes):
print('Starting workers')
for _ in range(N_WORKERS):
processes.append(multiprocessing.Process(target=worker, args=(queue,)))
task = {
'action': 'DOWNLOAD',
'url': 'https://google.com'
}
# this is just an example forcing the same URL * 100 times, while in reaility
# it will be 1 different URL per task
for _ in range(100):
queue.put(task)
for p in processes:
p.start()
for p in processes:
p.join()
return True
if __name__ == "__main__":
processes = []
N_WORKERS = 8 # processes to spawn
manager = multiprocessing.Manager()
q = manager.Queue() # main queue to send URLs to
# just a useful clean exit handler (press CTRL+C to terminate)
exit_handler = ExitHandler(manager, q, processes)
exit_handler.set_exit_handler()
# start the workers
run_workers(q, processes)
这只是一个例子,说明当同时执行请求时,每个进程消耗了多少 CPU:
任何显着降低 CPU 使用率(保持每秒相同数量的请求)的解决方案都被接受,无论它是否使用多处理。对我来说,唯一必须的是异步
模式。
最佳答案
这很突出:
while True:
try:
async with httpx.AsyncClient() as s:
这会为每个请求初始化一个新的客户端,通过查看实现,它会导入并初始化一个 SSL 上下文。在我看来,这些都是昂贵的操作,因此在循环内运行它们可能会消耗如此多的 CPU。
相反,考虑将代码重新排序为
async with httpx.AsyncClient() as s:
while True:
try:
关于python - 多处理 : optimize CPU usage for concurrent HTTP async requests,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66420899/
据我了解,HTTP POST 请求的正文大小没有限制。因此,客户端可能会在一个 HTTP 请求中发送 千兆字节 的数据。现在我想知道 HTTP 服务器应该如何处理此类请求。 Tomcat 和 Jett
在了解Web Deploy我遇到了一些讨论 http://+:80 和 http://*:80 的 netsh.exe 命令。这些是什么意思? 最佳答案 引自URLPrefix Strings (Wi
假设我有一个负载均衡器,然后是 2 个 Web 服务器,然后是一个负载均衡器,然后是 4 个应用程序服务器。 HTTP 响应是否遵循与 HTTP 请求服务相同的路径? 最佳答案 按路径,我假设您是网络
我有一个带有 uri /api/books/122 的资源,如果在客户端为此资源发送 HTTP Delete 时该资源不存在,那么相应的响应代码是什么这个 Action ?是不是404 Not Fou
是否有特定的(或约定的)HTTP 响应消息(或除断开连接之外的其他操作)来阐明服务器不接受 pipelined HTTP requests ? 我正在寻找能让客户端停止流水线化它的请求并分别发送每个请
在了解Web Deploy我遇到了一些讨论 http://+:80 和 http://*:80 的 netsh.exe 命令。这些是什么意思? 最佳答案 引自URLPrefix Strings (Wi
我有一个带有 uri /api/books/122 的资源,如果在客户端为此资源发送 HTTP Delete 时该资源不存在,那么相应的响应代码是什么这个 Action ?是不是404 Not Fou
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
我使用 Mule 作为 REST API AMQP。我必须发送自定义请求方法:“PRINT”,但我收到: Status Code: 400 Bad Request The request could
我需要针对具有不同 HTTP 响应代码的 URL 测试我的脚本。我如何获取响应代码 300、303 或 307 等的示例/示例现有 URL? 谢谢! 最佳答案 您可以使用 httpbin为此目的。 例
我正在尝试编写一个程序来匹配 HTTP 请求及其相应的响应。似乎在大多数情况下一切都运行良好(当传输完全有序时,即使不是,通过使用 TCP 序列号)。 我发现的唯一问题是当我有流水线请求时。在那之后,
RESTful Web Services鼓励使用 HTTP 303将客户端重定向到资源的规范表示。它仅在 HTTP GET 的上下文中讨论主题。 这是否也适用于其他 HTTP 方法?如果客户端尝试对非
当使用chunked HTTP传输编码时,为什么服务器需要同时写出chunk的字节大小并且后续的chunk数据以CRLF结尾? 这不会使发送二进制数据“CRLF-unclean”和方法有点多余吗? 如
这个问题在这里已经有了答案: Is it acceptable for a server to send a HTTP response before the entire request has
如果我向同一台服务器发出多个 HTTP Get 请求并收到每个请求的 HTTP 200 OK 响应,我如何使用 Wireshark 判断哪个请求映射到哪个响应? 目前看起来像是发出了一个 http 请
func main() { http.HandleFunc("/", handler) } func handler(w http.ResponseWriter, r http.Request
我找不到有值(value)的 NodeJS with Typescript 教程,所以我在无指导下潜入水中,果然我有一个问题。 我不明白这两行之间的区别: import * as http from
问一个关于Are HTTP headers case-sensitive?的问题,如果 HTTP 方法区分大小写,大多数服务器如何处理“get”或“post”与“GET”或“POST”? 例如,看起来
我正在使用ASP.NET,在其中我通过动词GET接收查询,该应用程序专用于该URL。 该代码有效,但是如果用户发送的密码使http 200无效,请回答我,并在消息的正文中显示“Fail user or
Closed. This question needs details or clarity。它当前不接受答案。 想改善这个问题吗?添加详细信息,并通过editing this post阐明问题。 9
我是一名优秀的程序员,十分优秀!