gpt4 book ai didi

ruby - 使用 Nokogiri 解析大型 HTML 文件

转载 作者:数据小太阳 更新时间:2023-10-29 08:43:59 25 4
gpt4 key购买 nike

我正在尝试解析 http://www.pro-medic.ru/index.php?ht=246&perpage=all与 Nokogiri,但不幸的是我无法从页面中获取所有项目。

我的简单测试代码是:

require 'open-uri'
require 'nokogiri'

html = Nokogiri::HTML open('http://www.pro-medic.ru/index.php?ht=246&perpage=all')
p html.css('ul.products-grid-compact li .goods_container').count

它仅返回 83 个项目,但实际计数约为 186。

我认为问题可能出在 open 中,但似乎函数正确读取了 HTML 页面。

有人遇到过同样的问题吗?

最佳答案

该文件似乎超出了 Nokogiri 的解析器限制。您可以通过添加 HUGE 放宽限制标志:

require 'open-uri'
require 'nokogiri'

url = 'http://www.pro-medic.ru/index.php?ht=246&perpage=all'
html = Nokogiri::HTML(open(url)) do |config|
config.options |= Nokogiri::XML::ParseOptions::HUGE
end
html.css('ul.products-grid-compact li .goods_container').count
#=> 186

注意|=是按位或赋值运算符,不要和逻辑运算符||=混淆了

根据 Parse Options , 你也可以通过 config.huge

设置这个标志

关于ruby - 使用 Nokogiri 解析大型 HTML 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37542491/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com