gpt4 book ai didi

java - 如何从 Java 中的 XML 文件中删除 BOM

转载 作者:IT老高 更新时间:2023-10-28 20:33:42 38 4
gpt4 key购买 nike

我需要有关如何从 UTF-8 文件中删除 BOM 并创建 xml 文件其余部分的副本的建议。

最佳答案

根据我的经验,由于 UTF-8 文件中的 BOM 而导致工具损坏是非常常见的事情。我不知道为什么会有这么多反对票(但它让我有机会尝试获得足够的选票来赢得特殊的 SO 徽章;)

更严重的是:UTF-8 BOM 通常没有那么大的意义它在规范中是完全有效的(尽管不鼓励)。现在的问题是,很多人不知道 BOM 在 UTF-8 中有效,因此编写了无法正确处理这些文件的损坏工具/API。

现在您可能有两个不同的问题:您可能希望从 Java 处理文件,或者您需要使用 Java 以编程方式创建/修复其他(损坏的)工具所需的文件。

我曾在一次咨询工作中遇到过这样的案例,在该案例中,帮助台会不断收到来自用户的消息,这些用户对某些文本编辑器有问题,这些文本编辑器会弄乱由 Java 生成的完全有效的 UTF-8 文件。所以我必须通过确保从我们处理的每个 UTF-8 文件中删除 BOM 来解决这个问题。

如果您想从文件中删除 BOM,您可以创建一个新文件并跳过前三个字节。例如:

... $  file  /tmp/src.txt 
/tmp/src.txt: UTF-8 Unicode (with BOM) English text

... $ ls -l /tmp/src.txt
-rw-rw-r-- 1 tact tact 1733 2012-03-16 14:29 /tmp/src.txt

... $ hexdump -C /tmp/src.txt | head -n 1
00000000 ef bb bf 50 6f 6b 65 ...

如您所见,文件以“ef bb bf”开头,这是(完全有效的)UTF-8 BOM。

这是一个获取文件并通过跳过前三个字节来复制它的方法:

 public static void workAroundbrokenToolsAndAPIs(File sourceFile, File destFile) throws IOException {
if(!destFile.exists()) {
destFile.createNewFile();
}

FileChannel source = null;
FileChannel destination = null;

try {
source = new FileInputStream(sourceFile).getChannel();
source.position(3);
destination = new FileOutputStream(destFile).getChannel();
destination.transferFrom( source, 0, source.size() - 3 );
}
finally {
if(source != null) {
source.close();
}
if(destination != null) {
destination.close();
}
}
}

请注意,它是“原始的”:您通常需要先确保您有一个 BOM,然后再调用它或“Bad Thinks May Happen”[TM]。

之后您可以查看您的文件:

... $  file  /tmp/dst.txt 
/tmp/dst.txt: UTF-8 Unicode English text

... $ ls -l /tmp/dst.txt
-rw-rw-r-- 1 tact tact 1730 2012-03-16 14:41 /tmp/dst.txt

... $ hexdump -C /tmp/dst.txt
00000000 50 6f 6b 65 ...

BOM 不见了……

现在,如果您只是想透明地删除损坏的 Java API 的 BOM,那么您可以使用此处描述的 pushbackInputStream:why org.apache.xerces.parsers.SAXParser does not skip BOM in utf8 encoded xml?

private static InputStream checkForUtf8BOMAndDiscardIfAny(InputStream inputStream) throws IOException {
PushbackInputStream pushbackInputStream = new PushbackInputStream(new BufferedInputStream(inputStream), 3);
byte[] bom = new byte[3];
if (pushbackInputStream.read(bom) != -1) {
if (!(bom[0] == (byte) 0xEF && bom[1] == (byte) 0xBB && bom[2] == (byte) 0xBF)) {
pushbackInputStream.unread(bom);
}
}
return pushbackInputStream; }

请注意,这可行,但绝对可以解决更严重的问题,即工作链中的其他工具无法正确处理具有 BOM 的 UTF-8 文件。

这里有一个问题的链接,该问题的答案更完整,也涵盖了其他编码:

Byte order mark screws up file reading in Java

关于java - 如何从 Java 中的 XML 文件中删除 BOM,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9736999/

38 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com