附加到末尾时文件中间的python utf-8-sig BOM-6ren

附加到末尾时文件中间的python utf-8-sig BOM

转载作者：太空狗更新时间：2023-10-29 22:26:25

26

4

我最近注意到，当使用 utf-8-sig 编码附加到文件时，Python 的行为方式并不明显。见下文:

>>> import codecs, os
>>> os.path.isfile('123')
False
>>> codecs.open('123', 'a', encoding='utf-8-sig').write('123\n')
>>> codecs.open('123', 'a', encoding='utf-8-sig').write('123\n')

以下文本以文件结尾:

<BOM>123
<BOM>123

这不是一个错误吗？这太不合逻辑了。谁能向我解释为什么这样做？为什么他们不设法仅在文件不存在且需要创建时才添加 BOM？

最佳答案

不，这不是错误；这是完全正常的预期行为。编解码器无法检测到文件中已经写入了多少；例如，您可以使用它附加到预先创建但空的文件。该文件不会是新的，但也不包含 BOM。

还有其他用例，其中编解码器用于流或字节串(例如，不使用 codecs.open())，那里根本没有文件 进行测试，或者开发人员希望始终在输出开始时强制执行 BOM。

仅在新文件上使用utf-8-sig；编解码器将始终在您使用时写出 BOM。

如果您直接使用文件，您可以自己开始测试；使用 utf-8 并手动编写 BOM，这只是一个编码的 U+FEFF ZERO WIDTH NO-BREAK SPACE :

import io

with io.open(filename, 'a', encoding='utf8') as outfh:
    if outfh.tell() == 0:
        # start of file
        outfh.write(u'\ufeff')

我使用了较新的 io.open()而不是 codecs.open()； io 是为 Python 3 开发的新 I/O 框架，根据我的经验，在处理编码文件方面比 codecs 更健壮。

请注意，UTF-8 BOM 几乎毫无用处，真的。 UTF-8 没有可变字节顺序，所以只有一个字节顺序标记。另一方面，UTF-16 或 UTF-32 可以用两种不同的字节顺序之一编写，这就是需要 BOM 的原因。

Microsoft 产品主要使用 UTF-8 BOM 来自动检测文件的编码(例如，不是遗留代码页之一)。

关于附加到末尾时文件中间的python utf-8-sig BOM，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23154355/

26

4

0

文章推荐： python - 在命名元组列表中索引和查找值

文章推荐： python - 包含1的随机数函数python？

文章推荐： python - Selenium - 获取页面中的所有 iframe(甚至是嵌套的)？

java - 如何使用 BOM 输入流排除 BOM
我试图弄清楚如何在使用 Apache 给出的示例时简单地排除 BOM。我正在从内部存储读取文件，并首先将其转换为字符串。然后我将其转换为 ByteArray，以便获得 InputStream。然后我使
mysql - 跟踪如何获取 BOM 及其子 BOM( Material list )的过程
我想从 Material list 中获取递归数据，但在此之前，我需要找到表之间的关系。我不知道如何获取 BOM 及其子 BOMS(基于下表)。表格是: 零件:ID(pk)、DefaultBOMID
php - 如何使用 PHP 读取 UTF8+BOM 文件而不将 BOM 显示为内容？
问题的意思差不多。我发现了很多关于如何在读入文本后去除字节顺序标记的建议，但这似乎是错误的。语言中是否没有一种标准方法可以通过正确识别和处理 BOM 来读取 Unicode 文件？最佳答案遇到了同
php - 如何使用 PHP 读取 UTF8+BOM 文件而不将 BOM 显示为内容？
问题的意思差不多。我发现了很多关于如何在读入文本后去除字节顺序标记的建议，但这似乎是错误的。语言中是否没有一种标准方法可以通过正确识别和处理 BOM 来读取 Unicode 文件？最佳答案遇到了同
python - 在 Python 中将带 BOM 的 UTF-8 转换为不带 BOM 的 UTF-8
这里有两个问题。我有一组通常是带有 BOM 的 UTF-8 文件。我想将它们(理想情况下)转换为没有 BOM 的 UTF-8。似乎 codecs.StreamRecoder(stream, encod
python - 带有 BOM 的 UTF-8 HTML 和 CSS 文件(以及如何使用 Python 删除 BOM)
首先，介绍一些背景知识:我正在使用 Python 开发 Web 应用程序。我所有的(文本)文件目前都以 UTF-8 格式存储在 BOM 中。这包括我所有的 HTML 模板和 CSS 文件。这些资源作为
azure - 如何在 Azure 数据工厂 V1/V2 中将带 BOM 的 UTF-8 编码文件转换为不带 BOM 的 UTF-8 编码文件？
我目前有一个 V2 数据工厂，它将带有 BOM 的 UTF-8 编码文件复制到存储位置，我想删除 BOM 作为标准复制事件的一部分。有办法做到这一点吗？最佳答案事实证明，这实际上非常简单。在输出
Since Compose BOM 2023.08.00, instrumented tests are failing, because lazy list changes seem to be leaving old nodes in the hierarchy(自Compose BOM 2023.08.00以来，插装测试失败，因为惰性列表更改似乎在层次结构中留下了旧节点)
Jetpack Compose版本：Compose BOM 2023.08.00。使用的Jetpack组合组件(S)：基础、材质、动画、实况数据、UI工具、视图模型。Kotlin版本：1.9.10。复
dependencies - 什么是发布火车 Bom？
我正在处理 Spring Cloud 契约(Contract)文档，我看到了来自 Spring cloud documentation 的依赖评论。并想知道这究竟是什么最佳答案 BOM 是的首字母
unicode - 为什么要使用Unicode签名字节序标记(BOM)？
这些已经过时了吗？它们似乎是有史以来最糟糕的想法-在您的文件内容中嵌入任何人都看不到的内容，但会影响文件的功能。我不明白为什么我想要一个。最佳答案在某些情况下，它们是必需的，是的，因为存在UTF-
unicode - 从文件中删除多个 BOM
我使用的 Javascript 文件是其他 JavaScript 文件的串联。不幸的是，将这些 JavaScript 文件连接在一起的人在读取文件时没有使用正确的编码，并允许将每个 JavaScri
c# - 克隆编码但关闭 BOM
假设我有一个编码: Encoding enc; 当这个编码被传递给我时，它被设置为发出一个 BOM。我对 BOM 不感兴趣。我系统中的编码是用 header 处理的。假设编码是不可变的...我想创建
c# - 克隆编码但关闭 BOM
假设我有一个编码: Encoding enc; 当这个编码被传递给我时，它被设置为发出一个 BOM。我对 BOM 不感兴趣。我系统中的编码是用 header 处理的。假设编码是不可变的...我想创建
java - 从多模块项目发布 bom
我们是一家大公司，拥有大约 2000 个独立的 Java 项目。由于历史原因，我们没有多模块项目，但我们想介绍一下。从逻辑上讲，我们已经有了项目“组”，即有人负责(比方说)50 个密切相关的项目。这
c# - 如何从字节数组中删除 BOM
我在 byte[] byteArray 中有 xml 数据，它可能包含也可能不包含 BOM。 C# 中是否有任何标准方法可以从中删除 BOM？如果不是，处理所有情况(包括所有类型的编码)的最佳方法是什
用PHP去掉文件头的Unicode签名(BOM)方法
废话不多说，直接上代码 ? 1
适用于UTF-16LE和UTF32-LE的Unicode BOM
似乎在用于UTF16-LE和UTF-32LE的字节顺序标记之间存在歧义。特别是，请考虑一个包含以下8个字节的文件: FF FE 00 00 00 00 00 00 我怎么知道这个文件是否包含: UTF
iphone - 将 BOM 与文件一起保存
有人可以告诉我如何用文件保存字节顺序标记(BOM)吗？例如，我现在保存一个文本文件，如下所示: NSString *currentFileContent = @"This is a string of
java - 项目和 BOM 依赖项之间有什么区别？
我注意到 Kubernetes 客户端的 fabric8.io 有两个以项目和 BOM 结尾的依赖项。我注意到的唯一区别是它首先有一个分布式版本。同样根据 apache 指南，bom 通常用作项目的
maven - gradle:导入本地 bom
我们有一个多模块项目，所有依赖版本都列在顶层 pom.xml 中。 .有什么方法可以让 Gradle 使用它，而不必将此 bom 安装到本地 maven repo 中？更具体地说:有一个 pom.x

首页

博学

6Ren·AI

商城

附加到末尾时文件中间的python utf-8-sig BOM