gpt4 book ai didi

java - 拆分UTF-8字符串的正确方法

转载 作者:塔克拉玛干 更新时间:2023-11-02 08:02:08 25 4
gpt4 key购买 nike

我想拆分一个 utf-8 字符串。

我尝试了 StringTokenizer 但它失败了。

标题应为“0”,但显示为“عُدي_صدّام_حُسين”。

    String test = "en.m عُدي_صدّام_حُسين 1 0";

StringTokenizer stringTokenizer = new StringTokenizer(test);
String code = stringTokenizer.nextToken();
String title = stringTokenizer.nextToken();

enter image description here拆分 utf-8 字符串的正确方法是什么?

最佳答案

这里的问题是阿拉伯语文本不在字符串的“末尾”。

例如,如果我选择字符串文字的内容(在 Chrome 中),将鼠标从左向右移动,它首先选择 en.m,然后选择所有阿拉伯语文本,然后是 0 1。文本只是看起来“在末尾”,因为这就是它的呈现方式。

在您的 Java 源代码中指定的字符串实际上确实具有 عُدي_صدّام_حُسين 作为第二个标记。所以,您正确地拆分了它,只是没有拆分您认为正在拆分的内容。

关于java - 拆分UTF-8字符串的正确方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48418302/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com