gpt4 book ai didi

Java 代码错误地读取 UTF-8 文本

转载 作者:行者123 更新时间:2023-11-30 11:21:19 29 4
gpt4 key购买 nike

我在读取代码(在 Eclipse 上运行)中的 UTF-8 字符时遇到问题。

我有一个文件text,里面有几行,例如:

אך  1234

注意:单词前有一个\t,单词应该出现在左边,数字出现在右边……我不知道如何在这里反转它们,抱歉。

也就是说,一个希伯来语单词,然后是一个数字。

我需要以某种方式将单词与数字分开。我试过这个:

        BufferedReader br = new BufferedReader(new FileReader(text));
String content;

while ((content = br.readLine()) != null)
{
String delims = "[ ]+";
String[] tokens = content.split(delims);
}

问题是由于某种原因,代码读取 content(文件中的第一行)如下:

אך\t1234

...意味着空间不在正确的位置。

我想我可以使用 \t 标记文本,但我不确定我应该这样做,因为文件没有被正确读取...

有人知道为什么会这样吗?

非常感谢:-)

最佳答案

我认为你在匹配一个空格,但实际上那里有一个制表符?

你能试试这个吗:

BufferedReader br = new BufferedReader(new FileReader(text));
String content;

while ((content = br.readLine()) != null)
{
String delims = "\\s";
String[] tokens = content.split(delims);
}

关于Java 代码错误地读取 UTF-8 文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22290449/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com