gpt4 book ai didi

ruby - 在 Nokogiri HTML 中保留自定义元素的命名空间

转载 作者:太空宇宙 更新时间:2023-11-03 18:30:39 26 4
gpt4 key购买 nike

我有一个示例 HTML,我用一些特殊标签标记了这些标签,这些标签将被不同的程序使用,下面是一个 html 示例。您应该注意 <START:organization>..<END>元素。

<html>
<head/>
<body>
<ul>
<li> <START:organization> Advanced Integrated Pest Management <END> </li>
<li> <START:organization> American Bakers Association <END> </li>
</ul>
</body>
</html>

我想使用 Nokogiri 预处理 HTML 以轻松删除不相关的标签,如 <script> .我为 Nokogiri 文档类创建了以下扩展:

module Nokogiri
module HTML
class Document
def prepare_html
xpath("//script").remove
to_html.remove_new_lines
end
end
end
end

问题是 Nokogiri 正在更改 <START:organization>元素到 <organization> .

无论如何,我可以保留 HTML 来维护我的自定义标记吗?

最佳答案

就像其他两个所说的那样,如果您的输入不是标准的 XML 或 HTML,您就不能真正期望为此设计的解析器能够工作。

不过,您可以执行以下操作之一:

  1. 破解 Nokogiri 为此工作案例
  2. 改变你的其他程序使用(好奇它是什么)来遵守标准
  3. 写一个单独的您正在使用的 DSL 的解析器

关于ruby - 在 Nokogiri HTML 中保留自定义元素的命名空间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4912157/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com