gpt4 book ai didi

html - 使用 ruby​​ 核心库解析 HTML? (即不需要 gem )

转载 作者:太空宇宙 更新时间:2023-11-03 16:34:49 25 4
gpt4 key购买 nike

我和一些 friend 一直在研究一组脚本,使在大学的机器上工作更容易。其中一个工具目前使用 Nokogiri,但为了让这些工具以尽可能少的设置在所有机器上运行,我们一直在尝试寻找一个“本地”html 解析器,而不是要求用户安装 RVM 和自定义 gems(由于大多数用户的磁盘空间限制)。

我们是否非常局限于 Nokogiri/Hpricot/?我们是否应该考虑只编写适合我们需要的自定义解析器?

干杯。

编辑:如果这里有我在搜索中遗漏的帖子,请告诉我!所以。有时太大而无法有效地找到东西......

最佳答案

ruby 标准库中没有html解析器
html 解析器必须比 xml 解析器更能容忍错误的标记

你可以运行 html 虽然整洁 (http://tidy.sourceforge.net)
整理 html 并生成有效标记
现在可以通过 stdlib 中的 rexml 读取 :-)

rexml 比 nokogiri 慢很多,最后一次检查是在 2009 年
不过,Sam Ruby 一直致力于使 rexml 更快

更好的方法是进行更好的部署
看看http://gembundler.com/bundle_package.html并使用 capistrano(或类似的)来配置服务器

关于html - 使用 ruby​​ 核心库解析 HTML? (即不需要 gem ),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9445254/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com