gpt4 book ai didi

java - 从 UTF-8 文件读取时字符数字不正确

转载 作者:行者123 更新时间:2023-11-30 08:55:50 24 4
gpt4 key购买 nike

所以我正在使用扫描仪来读取文件。但是我不明白如果文件是 UTF-8 文件,并且在遍历文件时正在读取的当前行包含数字,方法 Character.isDigit(line.charAt(0)) 返回错误。但是,如果文件不是 UTF-8 文件,则该方法返回 true。

这是一些代码

File theFile = new File(pathToFile);
Scanner fileContent = new Scanner(new FileInputStream(theFile), "UTF-8");
while(fileContent.hasNextLine())
{
String line = fileContent.nextLine();
if(Character.isDigit(line.charAt(0)))
{
//When the file being read from is NOT a UTF-8 file, we get down here
}

当使用调试器并查看 line 字符串时,我可以看到在这两种情况下(UTF-8 文件或非 UTF-8 文件)字符串似乎保持相同,一个数字。为什么会这样?

最佳答案

通过交换评论最终发现,您的文件包含 BOM。这通常不推荐用于 UTF-8 文件,因为 Java 不期望它并将其视为数据。

所以你有两个选择:

  1. 如果您控制该文件,请在没有 BOM 的情况下复制它

  2. 如果不存在,则检查文件是否存在 BOM 并将其删除,然后再进行其他操作。

这里是一些开始的代码。它宁愿跳过而不是删除 BOM。随意修改你喜欢的。它在我几年前写的一些测试实用程序中:

private static InputStream filterBOMifExists(InputStream inputStream) throws IOException {
PushbackInputStream pushbackInputStream = new PushbackInputStream(new BufferedInputStream(inputStream), 3);
byte[] bom = new byte[3];
if (pushbackInputStream.read(bom) != -1) {
if (!(bom[0] == (byte) 0xEF && bom[1] == (byte) 0xBB && bom[2] == (byte) 0xBF)) {
pushbackInputStream.unread(bom);
}
}
return pushbackInputStream;
}

关于java - 从 UTF-8 文件读取时字符数字不正确,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28864510/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com