gpt4 book ai didi

xml-parsing - 创建 `Nokogiri::XML` 或 `Nokogiri::HTML` 对象时如何避免创建不重要的空白文本节点

转载 作者:行者123 更新时间:2023-12-03 16:44:13 27 4
gpt4 key购买 nike

在解析缩进的 XML 时,不重要的空白文本节点是从结束标记和开始标记之间的空白创建的。例如,来自以下 XML:

<note>
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don't forget me this weekend!</body>
</note>

其字符串表示如下,
 "<note>\n  <to>Tove</to>\n  <from>Jani</from>\n  <heading>Reminder</heading>\n  <body>Don't forget me this weekend!</body>\n</note>\n"

以下 Document创建:
#(Document:0x3fc07e4540d8 {
name = "document",
children = [
#(Element:0x3fc07ec8629c {
name = "note",
children = [
#(Text "\n "),
#(Element:0x3fc07ec8089c {
name = "to",
children = [ #(Text "Tove")]
}),
#(Text "\n "),
#(Element:0x3fc07e8d8064 {
name = "from",
children = [ #(Text "Jani")]
}),
#(Text "\n "),
#(Element:0x3fc07e8d588c {
name = "heading",
children = [ #(Text "Reminder")]
}),
#(Text "\n "),
#(Element:0x3fc07e8cf590 {
name = "body",
children = [ #(Text "Don't forget me this weekend!")]
}),
#(Text "\n")]
})]
})

在这里,有很多类型为 Nokogiri::XML::Text 的空白节点。 .

我要数 children Nokogiri XML 中的每个节点 Document , 并访问第一个或最后一个 child ,不包括不重要的空格。我不想解析它们,也不想区分那些重要的文本节点,例如元素 <to> 中的那些节点。 , 喜欢 "Tove" .这是我正在寻找的rspec:
require 'nokogiri'
require_relative 'spec_helper'

xml_text = <<XML
<note>
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don't forget me this weekend!</body>
</note>
XML

xml = Nokogiri::XML(xml_text)

def significant_nodes(node)
return 0
end

describe "Stackoverflow Question" do
it "should return the number of significant nodes in nokogiri." do
expect(significant_nodes(xml.css('note'))).to eq 4
end
end

我想知道如何创建 significant_nodes功能。

如果我将 XML 更改为:
<note>
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don't forget me this weekend!</body>
<footer></footer>
</note>

然后当我创建 Document ,我仍然希望页脚代表;使用 config.noblanks不是一个选择。

最佳答案

您可以使用 NOBLANKS option要解析 XML 字符串,请考虑以下示例:

require 'nokogiri'

string = "<foo>\n <bar>bar</bar>\n</foo>"
puts string
# <foo>
# <bar>bar</bar>
# </foo>

document_with_blanks = Nokogiri::XML.parse(s)

document_without_blanks = Nokogiri::XML.parse(s) do |config|
config.noblanks
end

document_with_blanks.root.children.each { |child| p child }
#<Nokogiri::XML::Text:0x3ffa4e153dac "\n ">
#<Nokogiri::XML::Element:0x3fdce3f78488 name="bar" children=[#<Nokogiri::XML::Text:0x3fdce3f781f4 "bar">]>
#<Nokogiri::XML::Text:0x3ffa4e15335c "\n">

document_without_blanks.root.children.each { |child| p child }
#<Nokogiri::XML::Element:0x3f81bef42034 name="bar" children=[#<Nokogiri::XML::Text:0x3f81bef43ee8 "bar">]>
NOBLANKS不应该删除空节点:
doc = Nokogiri.XML('<foo><bar></bar></foo>') do |config|
config.noblanks
end

doc.root.children.each { |child| p child }
#<Nokogiri::XML::Element:0x3fad0fafbfa8 name="bar">

正如 OP 指出的,Nokogiri 网站(以及 libxml website )上关于解析器选项的文档非常神秘,遵循 NOBLANKS 的行为规范。选项:
require 'rspec/autorun'
require 'nokogiri'

def parse_xml(xml_string)
Nokogiri.XML(xml_string) { |config| config.noblanks }
end

describe "Nokogiri NOBLANKS parser option" do

it "removes whitespace nodes if they have siblings" do
doc = parse_xml("<root>\n <child></child></root>")
expect(doc.root.children.size).to eq(1)
expect(doc.root.children.first).to be_kind_of(Nokogiri::XML::Node)
end

it "doesn't remove whitespaces nodes if they have no siblings" do
doc = parse_xml("<root>\n </root>")
expect(doc.root.children.size).to eq(1)
expect(doc.root.children.first).to be_kind_of(Nokogiri::XML::Text)
end

it "doesn't remove empty nodes" do
doc = parse_xml('<root><child></child></root>')
expect(doc.root.children.size).to eq(1)
expect(doc.root.children.first).to be_kind_of(Nokogiri::XML::Node)
end

end

关于xml-parsing - 创建 `Nokogiri::XML` 或 `Nokogiri::HTML` 对象时如何避免创建不重要的空白文本节点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21114933/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com