gpt4 book ai didi

html - 在文档片段中查找注释或文本节点

转载 作者:数据小太阳 更新时间:2023-10-29 08:43:31 24 4
gpt4 key购买 nike

我必须清理 Nokogiri::HTML::DocumentFragment 文档(删除仅包含空格的注释节点和文本节点)。这是一个例子:

html = "<p>paragraph</p><!-- comment --><p>paragraph</p>   <p>paragraph</p>"
doc = Nokogiri::HTML::DocumentFragment.parse html

文档片段如您所料:

#(DocumentFragment:0x3fc65f9f5870 {
name = "#document-fragment",
children = [
#(Element:0x3fc65f9f5064 { name = "p", children = [ #(Text "paragraph")] }),
#(Comment " comment "),
#(Element:0x3fc65f9f4f60 { name = "p", children = [ #(Text "paragraph")] }),
#(Text " "),
#(Element:0x3fc65f9f4e48 { name = "p", children = [ #(Text "paragraph")] })
]
})

如何找到此文档片段中的所有评论或所有文本节点?

以下内容不起作用,因为它不是完整文档而是文档片段:

doc.search('//text()')
doc.search('//comment()')

最佳答案

想通了:

doc.search('.//text()')
doc.search('.//comment()')

关于html - 在文档片段中查找注释或文本节点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40787659/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com