gpt4 book ai didi

python-2.7 - 将 phantomjs 用于具有 scrapy 和 selenium 可能竞争条件的动态内容

转载 作者:行者123 更新时间:2023-12-03 23:43:59 24 4
gpt4 key购买 nike

首先,这是来自此处的后续问题:Change number of running spiders scrapyd

我使用 phantomjs 和 selenium 为我的 scrapy 项目创建下载器中间件。当我在本地一次运行一个蜘蛛时,它运行良好并且并没有真正减慢速度。

但就在最近,我在 AWS 上安装了一个 scrapyd 服务器。我注意到一种可能的竞争条件,当多个蜘蛛同时运行时,它似乎会导致错误和性能问题。我觉得这个问题源于两个不同的问题。

1) 蜘蛛试图同时使用 phantomjs 可执行文件。

2) 蜘蛛试图同时登录到phantomjs 的ghostdriver 日志文件。

在这里猜测,性能问题可能是蜘蛛试图等到资源可用(这可能是因为我也有一个 sqlite 数据库的竞争条件)。

以下是我得到的错误:

exceptions.IOError:[Errno 13] 权限被拒绝:'ghostdriver.log'(日志文件竞争条件?)

selenium.common.exceptions.WebDriverException:消息:“无法连接到 GhostDriver”(可执行的竞争条件?)

我的问题是:

我对问题的分析是否正确?

除了限制一次可以运行的蜘蛛数量之外,是否有任何已知的解决方案?

还有其他方法可以处理javascript吗? (如果您认为我应该创建一个全新的问题来讨论使用 scrapy 处理 javascript 的最佳方法,请告诉我,我会的)

这是我的下载器中间件:

class JsDownload(object):

@check_spider_middleware
def process_request(self, request, spider):
if _platform == "linux" or _platform == "linux2":
driver = webdriver.PhantomJS(service_log_path='/var/log/scrapyd/ghost.log')
else:
driver = webdriver.PhantomJS(executable_path=settings.PHANTOM_JS_PATH)
driver.get(request.url)
return HtmlResponse(request.url, encoding='utf-8', body=driver.page_source.encode('utf-8'))

注意:_platform 代码是一个临时解决方法,直到我将此源代码部署到静态环境中。

我在 SO 上找到了针对 javascript 问题的解决方案,但它们是基于蜘蛛的。这让我很困扰,因为这意味着每个请求都必须在下载器处理程序中发出一次,然后在蜘蛛中再次发出。这就是为什么我决定将我的实现为下载器中间件。

最佳答案

尝试使用 webdriver 与 phantomjs 交互
https://github.com/brandicted/scrapy-webdriver

关于python-2.7 - 将 phantomjs 用于具有 scrapy 和 selenium 可能竞争条件的动态内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24962520/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com