- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
首先,这是来自此处的后续问题:Change number of running spiders scrapyd
我使用 phantomjs 和 selenium 为我的 scrapy 项目创建下载器中间件。当我在本地一次运行一个蜘蛛时,它运行良好并且并没有真正减慢速度。
但就在最近,我在 AWS 上安装了一个 scrapyd 服务器。我注意到一种可能的竞争条件,当多个蜘蛛同时运行时,它似乎会导致错误和性能问题。我觉得这个问题源于两个不同的问题。
1) 蜘蛛试图同时使用 phantomjs 可执行文件。
2) 蜘蛛试图同时登录到phantomjs 的ghostdriver 日志文件。
在这里猜测,性能问题可能是蜘蛛试图等到资源可用(这可能是因为我也有一个 sqlite 数据库的竞争条件)。
以下是我得到的错误:
exceptions.IOError:[Errno 13] 权限被拒绝:'ghostdriver.log'(日志文件竞争条件?)
selenium.common.exceptions.WebDriverException:消息:“无法连接到 GhostDriver”(可执行的竞争条件?)
我的问题是:
我对问题的分析是否正确?
除了限制一次可以运行的蜘蛛数量之外,是否有任何已知的解决方案?
还有其他方法可以处理javascript吗? (如果您认为我应该创建一个全新的问题来讨论使用 scrapy 处理 javascript 的最佳方法,请告诉我,我会的)
这是我的下载器中间件:
class JsDownload(object):
@check_spider_middleware
def process_request(self, request, spider):
if _platform == "linux" or _platform == "linux2":
driver = webdriver.PhantomJS(service_log_path='/var/log/scrapyd/ghost.log')
else:
driver = webdriver.PhantomJS(executable_path=settings.PHANTOM_JS_PATH)
driver.get(request.url)
return HtmlResponse(request.url, encoding='utf-8', body=driver.page_source.encode('utf-8'))
最佳答案
尝试使用 webdriver 与 phantomjs 交互
https://github.com/brandicted/scrapy-webdriver
关于python-2.7 - 将 phantomjs 用于具有 scrapy 和 selenium 可能竞争条件的动态内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24962520/
假设我正在使用 APC,其中过程和调用代码都使用 SetLastError 和 GetLastError。这会导致 GetLastError 产生不可预测的值。有什么办法可以解决这个问题吗? VOID
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 7年前关闭。 Improve t
任何人都可以,请告诉我,如何在不进行JavaScript轮询/ setInterval的情况下,在完整日历上填充/显示在服务器端动态更新的数据。 grails中提供了Atmosphere插件,但是文档
我正在尝试调整我的代码,从仅在前台使用 WCSessionDelegate 回调到在后台通过 handleBackgroundTasks: 接受 WKWatchConnectivityRefreshB
我正在构建批处理系统。 单位 的批处理数量从 20 到 1000 不等。每个 Unit 本质上都是模型的层次结构(一个主模型和许多子模型)。我的任务涉及将每个模型层次结构作为单个事务保存到数据库中(每
我拍了一张图片并将其切成三 block ,然后将它们向右浮动,让文字围绕它们流动。 HTML 看起来像这样: 在我添加侧边栏并将其 float 到图像的右上方之前,它工作正常,就像这样... T
我正在考虑嵌入式 Linux 项目(还没有硬件)中即将出现的情况,其中两个外部芯片需要共享一条物理 IRQ 线。这条线在硬件中能够实现边沿触发,但不能实现电平触发中断。 查看 Linux 中的共享 i
我观察到,当 linux futexes 发生争用时,系统会在自旋锁上花费大量时间。我注意到即使不直接使用 futex 也是一个问题,但在调用 malloc/free、rand、glib 互斥调用和其
我终于能够获得一些工具提示,最终可以使用以下代码: Hover over me 然后 $('[rel=tooltip]').tooltip(); 我遇到的问题是它使用 jQueryUI 工
我是一名优秀的程序员,十分优秀!