gpt4 book ai didi

java - 从带有 UTF-16 BOM 字符的文件中读取文本

转载 作者:行者123 更新时间:2023-11-30 07:31:38 25 4
gpt4 key购买 nike

我正在尝试制定一种从文件中获取文本的通用方法。相当简单,只是要求它应丢弃前导 BOM 字符。对于 UTF-8 我得到了这个工作。我为此使用了正则表达式模式:

Pattern LEADING_BOM_PATTERN = Pattern.compile("^\uFEFF+");

Charset encoding; // This is given.
InputStream input; // This is created.

// Remove the leading BOM characters.
String text = IOUtils.toString(input, encoding);
text = LEADING_BOM_PATTERN.matcher(text).replaceFirst("");

现在我的问题是:这对于 UTF-8 BOM 字符(EF BB BF)非常有效,但不适用于任何其他字符。然而,正如它所说的here :

The exact bytes comprising the BOM will be whatever the Unicode character U+FEFF is converted into by that transformation format.

这让我假设“\uFEFF”字符适用于所有 BOM 字符。事实证明,事实并非如此。

经过更多研究,结果发现“FE FF”和“FF FE”BOM 字符都被 Java 读取为 char 65533,而“\uFEFF”字符串解析为 char 65279。这确实清楚了原因字符没有被删除,但我不认为这是预期的行为。

任何人都可以阐明为什么会这样做,或者更确切地说如何解决它?谢谢:)

最佳答案

事实证明这只是一个非常愚蠢的错误。我没有将正确的编码传递给 IOUtils。因此它不会返回正确的字符。当传递 UTF-16 字符集时,它工作正常。我傻了...

关于java - 从带有 UTF-16 BOM 字符的文件中读取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36030828/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com