gpt4 book ai didi

selenium - headless 浏览器和抓取 - 解决方案

转载 作者:行者123 更新时间:2023-12-03 03:57:41 31 4
gpt4 key购买 nike

关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。












想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。

6年前关闭。



Improve this question




我正在尝试为浏览器自动测试套装和能够抓取的 headless 浏览器平台列出可能的解决方案列表。

浏览器测试/抓取:

  • Selenium - 多语言 浏览器自动化的旗舰,Python、Ruby、JavaScript、C#、Haskell 等的绑定(bind),Firefox 的 IDE(作为扩展)以加快测试部署。可以充当服务器并具有大量功能。

  • JAVASCRIPT
  • PhantomJS - JavaScript ,具有屏幕捕获和自动化功能的 headless 测试,使用 网络套件 .从 1.8 版 Selenium 的 WebDriver API 开始实现,因此您可以使用任何 WebDriver 绑定(bind)并且测试将与 Selenium 兼容
  • SlimerJS - 类似于 PhantomJS,使用 壁虎 (Firefox) 而不是 WebKit
  • CasperJS - JavaScript ,建立在 PhantomJS 和 SlimerJS 之上,具有额外的特性
  • Ghost Driver - JavaScript 的实现WebDriver Wire 协议(protocol) PhantomJS .
  • 新品 PhantomCSS - CSS 回归测试。 CasperJS 模块,用于使用 PhantomJS 和 Resemble.js 自动化视觉回归测试.
  • 新品 WebdriverCSS - 插件 Webdriver.io用于自动化视觉回归测试
  • 新品 PhantomFlow - 通过测试描述和可视化用户流程。 Web 用户界面测试的实验方法。
  • 新品 trifleJS - 移植 PhantomJS API 以使用 Internet Explorer 引擎。
  • 新品 CasperJS IDE (商业)

  • NODE.JS
  • Node-phantom - 弥补了 之间的差距PhantomJS node.js
  • WebDriverJs - Selenium 团队针对 node.js 的 Selenium WebDriver 绑定(bind)
  • WD.js - WebDriver/Selenium 2 的节点模块
  • yiewd - 使用最新的 Harmony 生成器的 WD.js 包装器!用 摆脱回调金字塔产量
  • ZombieJs - 使用 进行疯狂快速、 headless 的全栈测试node.js
  • NightwatchJs - 基于 Node JS 的测试解决方案,使用 Selenium Webdriver
  • Chimera - Chimera:可以做 phantomJS 能做的一切,但在完整的 JS 环境中
  • Dalek.js - 通过 Selenium Webdriver 使用 JavaScript 进行自动化跨浏览器测试
  • Webdriver.io - 通过预定义的 50 多个操作更好地实现 WebDriver 绑定(bind)
  • Nightmare - 具有高级 API 的电子桥。
  • jsdom - 专为网页抓取而设计。一个在 Node.js 中实现的非常轻量级的 DOM,它支持带有 javascript 的页面。
  • 新品 Puppeteer - 提供高级 API 来控制 Chrome 或 Chromium 的节点库。 Puppeteer 默认 headless 运行。

  • 网页抓取/挖掘
  • Scrapy - python ,主要是一个爬虫/矿工 - 速度快,有据可查,并且可以与 Django Dynamic Scraper 链接用于不错的挖矿部署,或 Scrapy Cloud用于 PaaS(无服务器)部署,在终端或服务器独立进程中工作,可与 一起使用 celery , 建立在 之上扭曲
  • Snailer - node.js 模块,尚未测试。
  • Node-Crawler - node.js 模块,尚未测试。

  • 在线工具
  • 新品 Web Scraping Language - 抓取网页的简单语法
  • 新品 Online HTTP client - 专门的 SO 答案
  • 死了 CasperBox - 运行 CasperJS 在线脚本

  • Android 自动化工具
  • 新品 Mechanica Browser App

  • 相关链接和资源
  • Comparsion of Webscraping software
  • 新品 Resemble.js : 图片分析对比

  • 问题:
  • 任何纯 Node.js 解决方案或 Nodejs 到 PhantomJS/CasperJS 模块的实际工作和记录?

  • 答案:奇美拉似乎朝那个方向走,结帐 Chimera
  • 其他能够比 Selenium 更容易注入(inject) JavaScript 的解决方案?
  • 你认识什么纯 ruby 解决方案?

  • 答案:使用基于 ruby​​ 的解决方案检查 rjk 创建的列表
  • 你知道任何相关的技术或解决方案吗?

  • 随意编辑此问题并根据需要添加内容! 感谢你的贡献!

    最佳答案

    如果你喜欢 Ruby,你也可以尝试:

  • https://github.com/chriskite/anemone (开发停止)
  • https://github.com/sparklemotion/mechanize
  • https://github.com/postmodern/spidr
  • https://github.com/stewartmckee/cobweb
  • http://watirwebdriver.com/ ( Selenium )

  • 此外,Nokogiri gem 可用于刮削:
  • http://nokogiri.org/

  • 有一本关于如何利用 nokogiri 通过 packt 发布进行抓取的专门书

    关于selenium - headless 浏览器和抓取 - 解决方案,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18539491/

    31 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com