gpt4 book ai didi

javascript - 可以解释JavaScript的网络爬虫

转载 作者:行者123 更新时间:2023-12-02 04:34:04 31 4
gpt4 key购买 nike

我想编写一个可以解释JavaScript的网络爬虫。基本上它是一个 Java 或 PHP 程序,将 URL 作为输入并输出 DOM 树,类似于 Firebug HTML 窗口中的输出。最好的例子是 Kayak.com,当您“查看源代码”时,您无法看到浏览器上显示的结果 DOM,但可以通过 Firebug 保存结果 HTML。

我该如何去做呢?有哪些工具可以帮助我?

最佳答案

Ruby 的 Capybara是一个集成测试库,但它也可用于编写独立的网络爬虫。鉴于它使用 Selenium 或 headless WebKit 等后端,它可以开箱即用地解释 javascript:

require 'capybara/dsl'
require 'capybara-webkit'

include Capybara::DSL
Capybara.current_driver = :webkit
Capybara.app_host = "http://www.google.com"
page.visit("/")
puts(page.html)

关于javascript - 可以解释JavaScript的网络爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56559524/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com