ruby - 如何让 Nokogiri 的 SAX 解析器不那么严格？-6ren

ruby - 如何让 Nokogiri 的 SAX 解析器不那么严格？

转载作者：数据小太阳更新时间：2023-10-29 08:08:52

26

4

我正在处理非常大的 XML 文件，所以我需要使用 SAX/evented XML 解析器。 Nokogiri::XML::SAX 似乎是一个显而易见的选择，但是，SAX 解析器似乎会因小错误而窒息，即使是常规 XML 解析器也可以轻松恢复的错误。

在下面的示例中，url <property> 的属性有一个 &那真的应该转义到& . Nokogiri::XML 仍然能够解析 <property> 中的元素但是 Nokogiri::XML::SAX 似乎只是放弃并且从不触发 <property> 中元素的事件.

require 'nokogiri'

class Doc < Nokogiri::XML::SAX::Document
  include Enumerable

  def initialize(xml)
    @xml = xml
  end

  def each(&block)
    @on_record = block
    parse(@xml)
  end

  def parse(xml)
    parser = Nokogiri::XML::SAX::Parser.new(self)
    parser.parse(xml)
  end

  def end_element(name)
    @on_record.call(name) if name == "details"
  end

  def error(str)
    puts str
  end
end

xml = <<XML
<?xml version="1.0" encoding="UTF-8"?>
<streeteasy version="1.5">
  <properties>
    <property url="http://example.com/?foo=bar&yin=yang">
      <location>Somewhere</location>
      <details>Information goes here</details>
    </property>
  </properties>
</streeteasy>
XML

puts Doc.new(xml).count # => 0, but should be 1
puts Nokogiri::XML(xml).xpath("//details").count # => 1

上面的脚本应该输出:

1
1

但是，我得到:

EntityRef: expecting ';'
0
1

有没有办法让 Nokogiri 忽略这些小错误？在 Ruby 中是否有更好的 SAX/push/pull/evented XML 解析选项可以忽略此类错误？

最佳答案

改用 Nokogiri 的 HTML SAX 解析器。

改变这一行

parser = Nokogiri::XML::SAX::Parser.new(self)

到这一行

parser = Nokogiri::HTML::SAX::Parser.new(self)

HTML 解析器显然在恢复模式下运行 libxml，并且能够从错误中恢复。这允许该示例输出所需的 1/1，尽管有一些关于非标准“html”标签的提示。

Tag streeteasy invalid
Tag properties invalid
htmlParseEntityRef: expecting ';'
Tag property invalid
Tag location invalid
Tag details invalid
1
1

更新

事实证明这适用于我设计的示例，但是一旦 Nokogiri::HTML::SAX::Parser#parse 被传递给 IO 而不是String 就像 XML 版本一样，它会因错误而窒息。我无法将文件加载到内存中……这违背了使用 SAX 解析器的全部目的。所以，不接受我自己的回答。

关于ruby - 如何让 Nokogiri 的 SAX 解析器不那么严格？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22874615/

26

4

0

文章推荐： ruby C 扩展 : Is there a way to finalize?

文章推荐： iphone - 使iOS block 同步执行

文章推荐： iphone - Objective-C 中的 “category” 是什么？

文章推荐： ruby - Mailchimp 订阅元数据

javascript - AngularJS 严格 DI 模式有什么好处？
最近我遇到了 AngularJS Strict DI 模式。使用它的目的和好处是什么？通过在移动设备上使用它，我们会获得显着的性能提升吗？我尝试将它应用到我的代码中，并且在编写代码时我没有做任何注释
javascript - 如何在复制的文本中(严格)保留 HTML？
要在复制文本的底部添加额外信息 - 我想使用以下 JS: document.addEventListener('copy', (event) => { const pagelin
java - Java 是否有一个好的*严格*日期解析器？
Java 是否有一个好的、严格的日期解析器？我可以访问 Joda-Time，但我还没有看到这个选项。我发现了“Is there a good date parser for Java”这个问题，虽然
HTML 严格 & CSS : How do I close the gap?
在下面的网页中，图像和 div 之间有几个像素的间隙。 (我已经在 Firefox 3 和 Safari 4 中测试过。) 我怎样才能缩小差距？ body { background-color:
css - 严格/过渡 DOCTYPE 之间的浏览器呈现差异
前段时间我遇到了一个“问题”，但我一直没有弄清楚。希望有人能照亮它。当我将 DOCTYPE 从严格更改为过渡时，是什么导致某些浏览器(Chrome、Opera 和 Safari)以不同方式呈现页面。我
php - PHP中的类型杂耍和(严格)大于/小于比较
PHP 以其类型杂耍而闻名。我必须承认这让我很困惑，而且我很难在比较中找出基本的逻辑/基本内容。例如:如果 $a > $b 为真且 $b > $c 为真，是否意味着 $a > $c总是也是真的吗？
新 String ("a") 对象的 JavaScript(严格)相等
有在ECMAScript Language Specification11.9.1 等于运算符 (==): NOTE 3 The equality operator is not always tra
haskell - 为什么 foldr' 不如 foldl' 严格？
考虑这些不同的尝试，比如 last : Prelude> import Data.Foldable Prelude Data.Foldable> foldr const undefined (reve
jquery - 将 JSON 对象存储在标签的类属性中是否会验证(XHTML 严格)？
我正在考虑使用 jQuery 元数据插件。看起来很有趣，但是... ... alert($('li.someclass').metadata().some); 这段代码有效吗？更新当然这是一个老例
google-chrome - 对本地开发禁用 chrome 严格 MIME 类型检查
我有一个 CSS 文件，我的本地开发服务器(webpack)正在提供一个显然错误的 mime 类型。 Refused to apply style from 'http://localhost:100
google-chrome - 为点击的链接阻止 cookie 有什么好处？ (同一站点=严格)
因此对于 Google Chrome 和 Opera，cookie 具有 SameSite 属性，该属性可以具有以下两个值之一:strict 或 lax。它们之间的一些区别之一是 SameSite=
node.js - Mongoose {严格: throw} doesn't throw error
我试图到处寻找这个问题的答案，但似乎我运气不好。我有一个非常简单的 Mongoose 模型 var userObject = { profile: { username: {
javascript - XHTML 1.0 严格 : Problems with form/javascript
我正在为必须使用 XHTML 1.0 Strict 进行验证的类编写程序。根据 w3 的验证程序，我的页面通过了验证。我还有一个 HTML5 版本(这是原始版本)，它可以按应有的方式进行验证和工作。
html - XHTML 严格 : br tag inside p tag
我得到了很多 validation errors因为在里面。如果我删除 br 标签，那么它工作正常。为什么会产生问题？最佳答案不是br在p里面，而是你没有结束 br与 /特点。你有在代码中
html - 围绕 100% 主体高度和宽度的边框(HTML 4.01 严格)
好吧，这让我抓狂。我想在我的文档周围加上边框。它应该很好地绕过整个窗口/视口(viewport)。所以我定义: body { border: 1px solid red; } 当我的文档处于 q
mysql - 当在 mysql 5.6 严格 sql 模式下不起作用时，按情况分组
我在 MySql 服务器上运行的查询遇到问题。这是查询: SELECT itms.Gender,itms.Age, (CASE WHEN (plv.Discount = 0 OR t1.EverGre
带有 jQuery 的 Safari 和 Firefox 中的 Javascript(严格)错误
我有以下 javascript 函数，如果所有必填字段都不完整并且是我使用 Google Apps 脚本创建的表单的一部分，它会阻止表单提交。请注意，#submitbutton 实际上是一个常规按钮，

首页

博学

6Ren·AI

商城

ruby - 如何让 Nokogiri 的 SAX 解析器不那么严格？