gpt4 book ai didi

ruby - 如何使用 Ruby 或 Nokogiri 获取页面的原始 HTML 源代码?

转载 作者:数据小太阳 更新时间:2023-10-29 07:50:39 26 4
gpt4 key购买 nike

我正在使用 Nokogiri (Ruby Xpath 库)grep 网页上的内容。然后我发现一些网页有问题,例如 Ajax 网页,这意味着当我查看源代码时,我不会看到确切的内容,例如 <table>。等

如何获取实际内容的 HTML 代码?

最佳答案

如果您想要网页的原始资源,则根本不要使用 Nokogiri。直接将网页作为字符串获取,然后不要将其提供给 Nokogiri。例如:

require 'open-uri'
html = open('http://phrogz.net').read
puts html.length #=> 8461
puts html #=> ...raw source of the page...

另一方面,如果您想要页面的 JavaScript 修改后内容(例如执行 JavaScript 代码以获取新内容和更改页面的 AJAX 库),则不能使用 Nokogiri。您需要使用 Ruby 来控制网络浏览器(例如,阅读有关 Selenium 或 Watir 的内容)。

关于ruby - 如何使用 Ruby 或 Nokogiri 获取页面的原始 HTML 源代码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10919422/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com