python - 使用 gevent 下载多个文件-6ren

python - 使用 gevent 下载多个文件

转载作者：太空宇宙更新时间：2023-11-03 18:22:39

25

4

我正在尝试利用 [gevent][1] 并行下载文件列表

我的代码是对建议的代码here稍作修改

monkey.patch_all()

def download_xbrl_files(download_folder, yq, list_of_xbrl_urls):
    def download_and_save_file(url, yr, qtr):
        if url is not None:
            full_url = "http://edgar.sec.gov" + url
            if not os.path.exists(full_url):
                try:
                    content = urllib2.urlopen(full_url).read()
                    filename = download_folder + "/" + str(y) + "/" + q + "/" + url.split('/')[-1]
                    print "Saving: ", filename
                    f_raw = open(filename, "w")
                    f = FileObject(f_raw, "w")
                    try:
                        f.write(content)
                    finally:
                        f.close()
                        return 'Done'
                except:
                    print "Warning: can't save or access for item:", url
                    return None
            else:
                return 'Exists'
        else:
            return None
    (y, q) = yq
    if utls.has_elements(list_of_xbrl_urls):
        filter_for_none = filter(lambda x: x is not None, list_of_xbrl_urls)
        no_duplicates = list(set(filter_for_none))
        download_files = [gevent.spawn(lambda x: download_and_save_file(x, y, q), x) for x in no_duplicates]
        gevent.joinall(download_files)
        return 'completed'
    else:
        return 'empty'

代码的作用是:

经过一些清洁
gevent.spawn 生成 download_and_save_file 其中:
检查文件是否已下载
如果没有，则使用 urllib2.urlopen(full_url).read() 下载内容
在 gevent's FileObject 的帮助下保存文件

我的印象是 download_and_save 只能按顺序工作。此外，我的应用程序处于待机状态。我可以添加超时，但我想在代码中优雅地处理失败。

想知道我是否做错了什么 - 这是我第一次用 python 编写代码。

编辑

这是使用“线程”的代码版本

def download_xbrl_files(download_folder, yq_and_url):
    (yq, url) = yq_and_url
    (yr, qtr) = yq
    if url is not None and url is not '':
        full_url = "http://edgar.sec.gov" + url
        filename = download_folder + "/" + str(yr) + "/" + qtr + "/" + url.split('/')[-1]
        if not os.path.exists(filename):
            try:
                content = urllib2.urlopen(full_url).read()
                print "Saving: ", filename
                f = open(filename, "wb")
                try:
                    f.write(content)
                    print "Writing done: ", filename
                finally:
                    f.close()
                    return 'Done'
            except:
                print "Warning: can't save or access for item:", url
                return None
        else:
            print "Exists: ", filename
            return 'Exists'
    else:
        return None


def download_filings(download_folder, yq_and_filings):
    threads = [threading.Thread(target=download_xbrl_files, args=(download_folder, x,)) for x in yq_and_filings]
    [thread.start() for thread in threads]
    [thread.join() for thread in threads]

最佳答案

我对此进行了更深入的研究，基本问题是 gevent.spawn() 创建 greenlet 而不是进程(所有 greenlet 都在单个操作系统线程中运行)。

尝试一个简单的:

import gevent
from time import sleep
g = [gevent.spawn(sleep, 1) for x in range(100)]
gevent.joinall(g)

您会看到这花费的时间是 100 秒。这就证明了上面的观点。

您确实在寻找多线程，可以在线程模块中找到它。看看这个问题:How to use threading in Python? 。了解一些如何操作。

---更新---

以下是如何执行此操作的简单示例:

threads = [threading.Thread(target=sleep, args=(1,)) for x in range(10)]
[thread.start() for thread in threads]
[thread.join() for thread in threads]

关于python - 使用 gevent 下载多个文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23823257/

25

4

0

文章推荐： python - cron作业错误: sh: 1: : not found

文章推荐： c# - 如何删除小数中的最后一个零

文章推荐： c# - Include() 不能用作 LEFT JOIN( Entity Framework 6)

文章推荐： python hist2d 未定义

gevent - 我如何测试 gevent monkey patching 是否处于事件状态？
我的图书馆是否有任何“官方”方式可以测试 gevent monkey 补丁是否已激活？最佳答案我不知道官方方法，但这是一种方法。注意 os.fork 在猴子修补时发生变化: >>> import
gevent - gevent 如何与 threading.local 数据交互？
存储在 threading.local 中的数据对于特定的协同例程来说是唯一的，还是对于 Python 线程来说仍然是唯一的？最佳答案根据 gevent.monkey 的文档 http://www
python - gevent 猴子补丁破坏了 gevent.sleep(0)？
经过一整天的黑客攻击并试图找出问题所在后，我问了这个问题。我想使用 requests 包发送请求，并以非阻塞模式进行。为此，我使用了很好的 gevent 包及其猴子修补功能，我已经使用它很长时间了
gevent - 为什么在这个例子中需要 gevent.sleep(0.1) 来防止应用程序阻塞？
我正在把我的头发拉到这个上面。我正在尝试使用 zeromq 和 gevent 获取最简单的示例。我将此脚本更改为使用 PUB/SUB 套接字，当我运行它时，“服务器”套接字将永远循环。如果我取消注释
python - Flask-SocketIO 未使用 Gevent/Gevent-websocket
我正在使用 Flask 和 Flask-SocketIO 构建 Web 接口(interface)/数据 API 以进行 websocket 通信。我想开始转向使用 Gevent/Gevent-web
python - gevent.wait 和 gevent.joinall 有什么区别？
假设 tasks 是 Greenlet 对象的列表。现在有什么区别 gevent.wait(tasks) 和 gevent.joinall(tasks) ? 最佳答案不多! joinall 实际上在
python - Bottle gevent 和线程 : gevent is only usable from a single thread
我有一个使用线程的 python bottle 应用程序。因为我正在使用 monkey.patch ，线程正在阻止应用程序执行(从线程触发的对话框阻止瓶路由响应客户端，直到被关闭。) 这里的一项小研究
Python gevent 我没有看到猴子修补默认文件打开/读/写/关闭，如何在 gevent 异步中制作文件 io
在 gevent monkey 补丁中，我没有看到任何关于默认文件对象的操作。如何在基于 gevent 的程序中使用异步文件读/写？最佳答案您可以使用 1.0b3 中可用的 gevent 的 fi
python - 使用 gevent.queue.Queue.get() : gevent. hub.LoopExit: 'This operation would block forever'
过去几天，我一直在尝试将事件流集成到我的 Flask 应用程序中，在我的本地测试中取得了不错的结果，但在我的服务器上使用 uWSGI 运行该应用程序时却有些糟糕。我的代码基本上建立在 example
gevent - 为什么gevent需要同步，因为它是单线程的
来自 gevent 文档: The greenlets all run in the same OS thread and are scheduled cooperatively. 那么是否仍然需要使
python - Gevent:重试一次greenlet
我在 Gevent 池中执行几十个 HTTP 请求。目标是在请求失败时重试一次，但仅重试一次。否则，它应该抛出异常。我如何使用 at pool 编写 gevent 代码以支持在失败时重新运行一次
python - gevent 与其他包的兼容性
简而言之，我的问题是:我怎么知道某个特定的 Python 包何时与 gevent 兼容(至少与 gevent.monkey.patch_all 兼容)？其实我想知道是否http-parser库与 g
python - Gevent:NotImplementedError
为什么 gevent 会抛出这个错误？在 ipython、ubuntu 13 中运行它 In [1]: from gevent import monkey In [2]: monkey.patch_a
python - gevent:调试旋转线程？
在我基于 gevent 的程序中，我在某处有一个线程，它陷入了一个循环，类似于: while True: gevent.sleep(0) 我怎么知道这是哪个线程？是否可以列出(并获取堆栈跟踪)
python - gevent.WSGIServer请求方法之谜
运行 gevent 的 WSGIServer 时，我遇到了一些非常奇怪的行为。似乎每个通过的请求的方法都被错误地解释了.. 如果我发送以下请求: requests.get('http://localh
python - gevent，触发新生成的任务运行的方法
我的项目正在使用 gevnet(这对我来说是新的)来实现 Thrift 服务器。我正在阅读代码并从其文档中学习。下面的代码片段在我的项目中: TSocket.socket = gevent.sock
python - Gevent 处于不受支持或无效的轮子中
我尝试在我的 osX (el capitan) 上安装 Odoo。然后我下载了这个包，当我尝试使用 pip install -r requirements.txt 安装 3rf party lib 时
python - gevent，套接字和同步
我有多个 greenlets 在一个公共(public)套接字上发送。是否保证通过 socket.sendall 发送的每个包都很好地分开，或者我是否必须在每次调用 sendall 之前获取锁。所以
python - 在虚拟环境中安装 gevent
我刚开始使用 virtualenv，但我正在尝试安装 gevent在 virtualenv 环境中(我正在运行 Windows)。当我在 virtualenv 中使用 PIP 时，出现此错误: MyE
python - 多处理与 gevent
目前我正在使用带有发布-订阅模式的 zeromq，我有一个工作人员要发布和许多 (8) 个订阅者(都将订阅)相同的模式。现在我尝试使用多处理来生成订阅者，它可以正常工作。我缺少一些消息。我使用多处

首页

博学

6Ren·AI

商城

python - 使用 gevent 下载多个文件