python-3.x - 使用 Asyncio 的 Run_In_Executor 包装 Selenium 驱动程序(和其他阻塞调用)-6ren

python-3.x - 使用 Asyncio 的 Run_In_Executor 包装 Selenium 驱动程序(和其他阻塞调用)

转载作者：行者123 更新时间：2023-12-01 00:52:40

26

4

我正在用 Python 试验我的第一个小型爬虫，我想使用 asyncio 同时获取多个网站。我已经编写了一个与 aiohttp 一起使用的函数，但是由于 aiohttp.request() 不执行 javascript，这对于抓取一些动态网页来说并不理想。因此，这促使尝试将 Selenium 与 PhantomJS 一起用作 headless 浏览器。

有几个代码片段演示了 BaseEventLoop.run_in_executor 的使用 - such as here - 但是文档很少，而且我的复制和粘贴功能不够强大。

如果有人愿意扩展使用 asyncio 来包装阻塞调用，或者解释在这种特定情况下发生了什么，我将不胜感激!以下是我到目前为止的总结:

@asyncio.coroutine
def fetch_page_pjs(self, url):
    '''
    (self, string, int) -> None
    Performs async website content retrieval
    '''
    loop = asyncio.get_event_loop()
    try:
        future = loop.run_in_executor(None, self.driver.get, url)
        print(url)
        response = yield from future
        print(response)
        if response.status == 200:
            body = BeautifulSoup(self.driver.page_source)
            self.results.append((url, body))
        else:
            self.results.append((url, ''))
    except:
        self.results.append((url, ''))

响应返回“无” - 为什么？

最佳答案

这不是 asyncio 或 run_in_executor 问题。 selenium api 根本无法以这种方式使用。第一个 driver.get 不返回任何内容。见 Docs for selenium .其次，不能直接用selenium获取状态码，见this stack overflow question

这段代码对我有用:

@asyncio.coroutine
def fetch_page_pjs(self, url):
    '''
    (self, string, int) -> None
    Performs async website content retrieval
    '''
    loop = asyncio.get_event_loop()
    try:
        future = loop.run_in_executor(None, self.driver.get, url)
        print(url)
        yield from future
        body = BeautifulSoup(self.driver.page_source)
        self.results.append((url, body))

    except:
        self.results.append((url, ''))

关于python-3.x - 使用 Asyncio 的 Run_In_Executor 包装 Selenium 驱动程序(和其他阻塞调用)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30170989/

26

4

0

文章推荐： MySQL全文问题-如何匹配同一查询中的两列？

文章推荐：具有随机但特定条目的 MYSQL 更新列

文章推荐： php - 从 PHP 数组中的 MySQL 表中的每一行返回特定列

文章推荐： jquery - 每个 TH 后的新行计数

python 包装
正在尝试创建一个 python 包。似乎有效，但我收到警告。我的 setup.py 是: #! /usr/bin/env python from distutils.core import setup
haskell - 包装/展开通用量化类型
我导入了一个数据类型 X ，定义为 data X a = X a 在本地，我定义了一个通用量化的数据类型，Y type Y = forall a. X a 现在我需要定义两个函数， toY 和 fro
rust - 包装 AsyncRead
我似乎无法让编译器让我包装 Tokio AsyncRead: use std::io::Result; use core::pin::Pin; use core::task::{Context, Po
python - 一个接一个地调用Python函数，包装？
我有两个函数“a”和“b”。当用户上传文件时，“b”被调用。 “b”重命名文件并返回新文件名。之后应该编辑该文件。像这样: def a(): edits file def b(): r
.net - 包装 IQueryable
我使用 Entity Framework 作为我的 ORM，我的每个类都实现了一个接口(interface)，该接口(interface)基本上表示表结构(每个字段一个只读属性)。这些接口(inter
java - 包装 jframe
有没有办法打开一个程序，通常会打开一个新的jframe，进入一个现有的jframe？这里是解释，我下载了一个java游戏，其中一个是反射游戏，它在一个jframe中打开，框架内有一堆子面板，我想要做
Android 包装 block ？
我想要下面的布局 | AA BBBBBBB | 除非没有足够的空间，在这种情况下 | AA | | BBBBBBB | 在这种情况下，A 是复选框，B 是复选框旁边的 Text
CSS 问题 - 包装
我正在尝试以不同的方式包装我的网站，以便将背景分为 2 部分。灰色部分是主要背景，还有白色部分，它较小并包装主要内容。基本上我想要this看起来像this . 我不太确定如何添加图像来创建阴影效果，
Java - IntBuffer 包装
我正在使用 : 读取整数文件 int len = (int)(new File(file).length()); FileInputStream fis = new FileInputStream(f
JavaFX 包装 : NoClassDefFoundError
我使用 maven 和 OpenJDK 1.8 打包了一个 JavaFX 应用程序我的 pom.xml 中的相关部分: maven-assembly-plugin
.net - 包装 ItemsControls 的内容
我正在使用两个不同的 ItemsControl 来生成一个按钮列表。
macros - 包装 TimerOutputs 宏
我有一个情况，有一个变量会很方便，to , 可以是 TimerOutput或 nothing .我有兴趣提供一个采用与 @timeit 相同参数的宏来自 TimerOutputs(例如 @timeit
css - 包装 DIV 的边距问题
我正在尝试包装一个名为 content 的 div与另一个具有不同背景的 div。但是，当将“margin-top”与 content 一起使用时div，似乎包装 DIV 获得了边距顶部而不是 co
.net - 什么是 dnu 包装？
文档不清楚，它似乎允许包装 dll 和 csproj 以在 Asp.Net Core 5 应用程序中使用。它是否允许您在 .Net Core 5 网站中使用针对 .Net Framework 4.6
nservicebus3 - 包装 NServiceBus.IHandleMessages
我被要求开发一个层，该层将充当通用总线，而不直接引用 NServiceBus。到目前为止，由于支持不引人注目的消息，这并不太难。除了现在，我被要求为 IHandleMessages 提供我们自己的定义
javascript - 包装 getServerSideProps 抛出异常
我正在尝试包装 getServersideProps使用身份验证处理程序函数，但不断收到此错误:TypeError: getServerSideProps is not a function我的包装看
scala - 定制 SBT 包装
我有一个项目，它在特定位置(不是/src/resources)包含资源(模板文件)。我希望在运行 package-bin 时将这些资源打包。我看到了 package-options 和 packag
javascript - 优化 Jade 包装
我正在寻找打印从一系列对象中绘制的 div。我可以通过使用下面的管道语法来实现这一点。 each i, key in faq if (key == 0) |
javascript - 包装 Collection.insert
我在 Meteor.js“main.js - Server”中有这个方法。 Meteor.methods({ messageSent: function (message) { var a
dart - 包装 polymer 元素纸张输入的验证错误
我注意到，如果我的自定义Polymer 1.x元素的宽度比纸张输入元素上的验证错误消息的宽度窄，那么错误将超出自定义元素的右边界。参见下图: 有没有一种机制可以防止溢出，例如在到达自定义元素的边界时自

首页

博学

6Ren·AI

商城

python-3.x - 使用 Asyncio 的 Run_In_Executor 包装 Selenium 驱动程序(和其他阻塞调用)