XML 规范和 UTF-16-6ren

XML 规范和 UTF-16

转载作者：数据小太阳更新时间：2023-10-29 01:47:29

35

4

Section 4.3.3和 Appendix F的 XML 1.0 spec谈谈UTF-16 , byte order mark (BOM)在 UTF-16 编码的数据流中，以及 XML 编码声明。从这些部分的信息来看，UTF-16 文档似乎需要字节顺序标记。但是附录F中的总结图给出了一个UTF-16输入没有Byte order mark的场景，但是这个场景有xml声明。根据 4.3.3 节，UTF-16 编码的文档不需要编码声明(在这种情况下，XML 声明本身是可选的)。

根据此信息，如果文档的其余部分是格式正确的，那么一个既没有 BOM 也没有 XML 声明且缺少外部提供的编码信息的 UTF-16 xml 文档是否被认为格式正确？

最佳答案

来自 Unicode 6.2 规范(第 99 页):

The UTF-16 encoding scheme may or may not begin with a BOM. However, when there is no BOM, and in the absence of a higher-level protocol, the byte order of the UTF-16 encoding scheme is big-endian.

因此 UTF-16 文档中不需要 BOM。但是可能会有一个“更高级别的协议(protocol)”，例如 XML 规范来指示对于没有 BOM 的 UTF-16 XML 文档需要做什么。

XML 1.0 规范中的第 4.3.3 节说:

Entities encoded in UTF-16 MUST and entities encoded in UTF-8 MAY begin with the Byte Order Mark described by Annex H of [ISO/IEC 10646:2000], section 16.8 of [Unicode] (the ZERO WIDTH NO-BREAK SPACE character, #xFEFF).

让我们稍后回到上面。附录 F 描述了在 BOM 不存在的情况下检测字符编码的方法。但是我认为该部分与您的问题无关，因为您在询问没有 BOM 和没有 XML 声明的 UTF-16 XML 文档是否“格式正确”并且附录 F 是规范的非规范部分。

因此，回到规范，如果“作为一个整体，它与生产标签文档相匹配”，则该文档是良构的。 (第 2.1 节)。查看 document 表明 XML 声明是可选的(这也在第 2.8 节中提到)。所以有可能没有 XML 声明的格式良好的文档；这回答了你一半的问题。

另一半是没有 XML 声明但也没有 BOM 的 UTF-16 XML 文档是否仍然是格式良好的。在第 4.3.3 节中它说(强调我的):

In the absence of information provided by an external transport protocol (e.g. HTTP or MIME), it is a fatal error for an entity including an encoding declaration to be presented to the XML processor in an encoding other than that named in the declaration, or for an entity which begins with neither a Byte Order Mark nor an encoding declaration to use an encoding other than UTF-8.

基于此，没有 BOM 和编码声明(它是 XML 声明的一部分)的 UTF-16 XML 文档不是格式正确的文档(因为 fatal error 违反了格式正确性，请参阅格式正确性的定义1.2 节中的约束)在没有外部信息的情况下。这也符合前面 4.3.3 节中关于 UTF-16 的 BOM 要求的内容。

关于XML 规范和 UTF-16，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20692447/

35

4

0

文章推荐： SQL 服务器 : FOR XML sorting control by attribute

文章推荐： MongoDB $ifNull 条件与 mgo

文章推荐： xml - IXMLDocument 排除 xml 声明

文章推荐： go - 是否可以从 Go 调用 WebAssembly 函数？

Java静态分析器自定义模板/规范
我们有一个 Java 项目，每天晚上使用 TeamCity 对 Java 类进行静态分析，以查找代码中容易出现的错误。我们想告诉 TeamCity 寻找开发人员可能引入的与 == 与 .equals
Promise/A+规范-中文版本
Promises/A+ 这是一个开放标准，旨在让不同开发者实现的 JavaScript Promise 能够无缝衔接并应用——由前辈们制定，为其他后来者提供参考一个 promise 所
【规范】Git分支管理，看看我司是咋整的
前言 🍊缘由 Git分支管理好，走到哪里都是宝 🏀事情起因：最近翻看博客中小伙伴评论时，发现文章【规范】看看人家Git提交描述，那叫一个规矩一条回复：本狗亲测在我司中使用规范
Clojure 规范 - 命名实体关键字
使用带有不存在的命名空间的命名空间限定关键字来定义规范是否被认为是不好的做法？我想在公共(public) domain 命名空间中定义实体映射...所以为了避免在合并规范时丢失数据，我使用约定 :en
Clojure 规范 - 覆盖谓词的检查生成器
有没有办法在调用 clojure.spec.test.alpha/check 时覆盖核心谓词函数的生成器？可以通过 s/gen 中的路径覆盖谓词生成器: (gen/generate (s/gen
RPM 规范 - 如何允许多个版本
以内核 rpm 为例，它允许在一个系统上同时安装多个版本。规范文件中究竟是什么允许的？我想打包一个已经存在的具有不同安装前缀的多个版本的项目。最佳答案百胜找到了让 yum 安装而不是更新的方法
PDF 规范 - 以点为单位获取字体大小
我正在尝试用 C# 编写 PDF 解析器，但我遇到了一个问题，我不确定如何解释规范。除非另有说明，否则 PDF 文档中的用户空间为 1/72 英寸(即 1pt)。 Tf 运算符提供的比例将字体从标准
用于附加的 PDF 规范
我正在编写一些代码，需要能够获取两个 pdf 并将它们附加到页面级别(例如，如果它们都是 2 页文档，则有一个 4 页文档，其中所有 4 页都与原始文档相同). 在不使用库的情况下，最好的方法是什么？
prolog - 是否有序言语言语法/规范？
是否有序言语言语法，或接近它的通常用作引用的东西？我正在使用 SWI-prolog，所以有一个适合这种风格的会很好，否则一般的 prolog 语言语法/规范也能工作。最佳答案自 1995 年起，P
Spring 规范 - 谓词的结合
我需要一个函数来过滤参数和构建查询。我有 4 个参数，因此如果我尝试为每个条件实现查询，我将不得不写 16 (2^4)实现 - 这不是一个好主意。我尝试使用界面改进我的代码 Specificatio
PDF 规范 - ExtGState
这个 ExtGState 对象对图像做了什么: > 我有 PDF 规范，但一点也不清楚。显然，这将身份函数(什么的身份？单位矩阵？)从 [0.0 1.0] 映射到 [0.0 1.0](相同)，这是没有
需要澄清 ePub 规范
只是想获得有关 ePub 规范的一些帮助。toc.ncx 是否必须具有 src(即 xhtml)。我观察到 .opf 文件中也提供了相同的内容 src。最佳答案是的，这是强制性的，这是一个设计问题
具有非关键字键的映射的 Clojure 规范
让我们看看莱宁根项目 map 的真实示例 :global-vars : ;; Sets the values of global vars within Clojure. This example
c# - 规范#:它对我有好处吗？
我正在开发一个 LOB 框架，它具有 SL 和 MVC 前端、WCF 后端以及在服务器上运行的几个服务模块。我一直在查看 Spec#，看它是否对我有任何帮助。不可空类型和检查异常本身非常好，但我还没有
javascript - 了解Promises/A +规范
Promises/A+规范是最小的规范之一。因此，实现它是理解它的最佳方法。福布斯·林德赛(Forbes Lindesay)的以下回答将引导我们完成实现Promises / A +规范Basic Ja
MySQL DEFINER 规范
哪个文档指定了 MySQL definer 格式？具体来说，definer admin@% 中的 % 是什么意思(以及为什么使用这个符号)？最佳答案这里MySQL使用的格式定义在the MySQ
Javascript 超时 - 规范
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
CSS 规范 : what has more "weight"
在 css 规范中，什么会影响更多的 inline 样式或外部 !important 外部“style.css”: #di{color: green!important;} div 文本颜色是红色还
CSS 规范 - 原子内联水平框
我正在努力思考 CSS 的一些细节，我从 W3 CSS Visual Formatting Spec 9.2.2 中找到了这部分摘录。特别迟钝: Inline-level boxes that are
HTML 5 规范
这个问题在这里已经有了答案: Are (non-void) self-closing tags valid in HTML5? (8 个答案) 关闭 9 年前。在 HTML5 中你应该使用或

首页

博学

6Ren·AI

商城

XML 规范和 UTF-16