ruby - 为什么 REXML 不能解析前面有换行符的 CDATA？

转载作者：数据小太阳更新时间：2023-10-29 02:17:42

24

4

我是 Ruby 的新手，正在尝试使用 REXML 解析 XML 文档，该文档之前已经(通过 REXML)漂亮地打印出来，但结果有些不稳定。

一些 CDATA 部分在开始 XML 标记之后但在 CDATA block 开始之前有一个换行符，在这些情况下，REXML 将标记的文本解析为空。

是否可以让 REXML 读取这些行？
如果没有，我可以事先用正则表达式或其他东西重写它们吗？
这甚至是有效的 XML 吗？

这是一个示例 XML 文档(删节很多):

<?xml version="1.0" encoding="utf-8"?>
<root-tag>
    <content type="base64"><![CDATA[V2VsbCBkb25lISBJdCB3b3JrcyA6KQ==]]></content>
    <content type="base64">
        <![CDATA[VGhpcyB3b250IHdvcms=]]></content>

    <content><![CDATA[This will work]]></content>
    <content>
        <![CDATA[This will not appear]]></content>

    <content>
        Seems happy</content>
    <content>Obviously no problem</content>
</root-tag>

这是我的 Ruby 脚本(提炼成一个最小的例子):

require 'rexml/document'
require 'base64'
include REXML

module RexmlSpike
  file = File.new("ex.xml")
  doc = Document.new file
  doc.elements.each("root-tag/content") do |contentElement|
    if contentElement.attributes["type"] == "base64"
      puts "decoded: " << Base64.decode64(contentElement.text)
    else
      puts "raw: " << contentElement.text
    end
  end
  puts "Finished."
end

我得到的输出是:

>> ruby spike.rb
  decoded: Well done! It works :)
  decoded:
  raw: This will work
  raw:

  raw:
          Seems happy
  raw: Obviously no problem
  Finished.

我在 OSX Lion 上使用 Ruby 1.9.3p392。练习的目的最终是将某些 BlogML 中的评论解析为 Disqus 使用的自定义导入 XML。

最佳答案

为什么

在 <![CDATA[]]> 之前有任何覆盖 <![CDATA[]]> 中的任何内容.从字母到换行符(如您所见)或单个空格的任何内容。这是有道理的，因为您的示例正在获取 text元素，空格算作文本。在您能够访问的示例中 <![CDATA[]]> , 这是因为文本为零。

解决方案

如果您查看 documentation for Element ，您会看到它有一个名为 cdatas() 的函数那:

Get an array of all CData children. IMMUTABLE.

因此，在您的示例中，如果您对 contentElement.cdatas() 执行内部循环您会看到所有丢失的标签的内容。

关于ruby - 为什么 REXML 不能解析前面有换行符的 CDATA？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18005250/

24

4

0

文章推荐： javascript - 将 XML jQuery 对象转换为字符串

文章推荐： xml - 遍历 XML 文件元素

文章推荐： xcode - 轻松构建与 MacPorts 捆绑的 Mac OS X .app

文章推荐： python - OpenERP fields.reference 是什么意思？

xml - <![CDATA[<![CDATA[some text]]]]><![CDATA[>]]> 在 XML 中是什么意思？
这个问题在这里已经有了答案: What does in XML mean? (13 个答案) 关闭 8 年前。我不熟悉 XML 及其相关技术。这个 CDATA 标签总是在开头，然后是一些东西
xml - 在另一个 CDATA 中使用 CDATA
我遇到了这种困难的情况，我需要在另一个 CDATA 标签中使用 CDATA 标签。不过，这种情况很容易解释。我有以下东西: ]]> 出于显示目的，我也需要将我的 Javascript 包装
javascript -/*<![CDATA[*/和//<![CDATA[ 之间的区别
我是 Blogger 博客用户。我曾经看到一个在 CDATA 标记内定位脚本的模板，如下所示: /**/ 虽然，我之前看到过类似的代码，如下所示: // 唯一不同的是/*
cdata - 我应该在 HTML5 中使用 <![CDATA[...]]> 吗？
我很确定节可以在 XHTML5 中使用，但是 HTML5 呢？最佳答案 CDATA structure 根本不是针对 HTML 的，它是针对 XML 的。人们有时会在 XHTML 里面使用它们 s
java - 替换 ![CDATA[xxx]] 中所有匹配 [.*] 的内容，而不替换 CDATA
我正在尝试删除字符串中的所有 [.*]，但不删除 ![CDATA[xxx]]。我期待以下结果 """![CDATA[please remove[macro]]]""" .replaceAll(
xml - 在 <![CDATA[ block 中处理 "<![CDATA["的首选方式是什么？
不允许在内堵塞。这是可以理解的。现在，我必须在中传输用户输入的数据堵塞。恶意用户可能会输入或两者兼而有之。问题是:处理这种情况的首选方法是什么？剥离？用空格替换它？用错误消息打
java - 如何在 XSD 中定义 CDATA 类型，以便用户不必转义字符或使用 "<![CDATA"标记？
我有一个定义元素“密码”的 XSD。我想允许任何角色存在。目前，我将元素定义为 xs:string用户必须转义字符串(例如 myP&ssword )或将其包含在 CDATA 标记中(例如 )
java - 如何通过带有 CDATA 中的 CDATA 的 SOAP UI 向 Java 应用程序发送请求？
我在解析 XML 时遇到以下异常 org.xml.sax.SAXParseException: The processing instruction target matching "[xX][mM]
cdata-section的powershell解析
我正在尝试使用 powershell 读取 rss 提要，但无法在提要中提取 cdata 部分这是提要的片段(为了节省空间，剪掉了一些项目): ... text 2011-11-28T
19、XML CDATA
XML文档中的所有文本均会被解析器解析只有CDATA 区段中的文本会被解析器忽略 PCDATA - 被解析的字符数据 XML解析器通常会解析 XML 文档中所有的文本当某个XML 元素被解
javascript - 从字符串中清除 CDATA
我需要使用 Javascript 清除该文本 block 的部分内容: Lorem Ipsum is simply dummy text of the printing and typesetting
c# - 是否可以有条件地序列化 CDATA？
我看到了 solution让 XmlSerializer 输出 CDATA 部分，但是是否可以根据另一个值有条件地实现这一点？下面的代码演示了我想要的结果: enum LogItemType {
javascript - CDATA 在发送前被删除
我正在 Angular 应用程序中进行 soap 调用。我需要为其中一个调用的有效载荷部分传递 CDDATA angular.forEach(contactsCollection, function
perl 文件中的正则表达式 cdata
请帮帮我在终端中: C no longer supported in regex; marked by / 我的文件 perl 中的代码 if ($html =~ //) 解决这个问题的最佳方法是什
c# - 从输入中删除 CDATA
我得到一个包含 CDATA 的字符串，我想删除它。 Input : "" Output I want : Hello World 我想获取之间的所有数据和并将其添加到
Javascript CDATA 部分
最近，我正在创建一个模块来将谷歌再营销标签添加到网上商店。根据文档，我已经为不同类型的页面(产品、类别、购物车等)准备了 google_tag_params。一切顺利，直到客户使用 Chrome 的
java - CDATA 部分的创建令人困惑
我试图在描述字段中创建 CDATA 部分，但失败了。代码非常简单，但在生成的 XML 中没有出现 CDATA 部分!! Node de = document.createElement("descri
sql - CDATA 部分真的没有必要吗？
这个问题是由开发人员 Michael Rys 相当激进地拒绝将 CDATA 部分的解析包含到 FOR XML PATH 中引起的，因为 "There is no semantic difference
xml - CDATA 的正则表达式是什么
您好，我这里有一个 CDATA 示例和我的 CDATA 正则表达式无法识别这个 "])*"]]>" 这也行不通 "][^\]]*[\]]{2,})*">" 有人可以给我一个的正则表达式吗？
javascript - CDATA 真的有必要吗？
我经常使用内联 Javascript，通常是在我制作的 WordPress 主题中。我没有听说过在 // 中包装内联 Javascript直到几个月前，几年来我一直在以相当的能力水平做这件事。我四处

首页

博学

6Ren·AI

商城

ruby - 为什么 REXML 不能解析前面有换行符的 CDATA？

为什么

解决方案