Android，日文字 rune 件名比较问题-6ren

Android，日文字 rune 件名比较问题

转载作者：行者123 更新时间：2023-11-29 00:47:07

25

4

我正在尝试将搜索字符串与文件名与 Android 上的递归目录搜索相匹配。问题是字符是日语，在某些情况下不匹配。例如，我试图匹配文件名开头的搜索字符串是“呼ぶ”。当我从 file.getName() 打印文件名时，这会准确反射(reflect)出来，例如打印到控制台的文件名以“呼ぶ”开头。但是当我对搜索字符串进行匹配时，例如fileName.startwith(“呼ぶ”)，不匹配。

事实证明，当我打印正在搜索的文件名的子字符串时，第二个字符不同——单词是“呼ふ”而不是“呼ぶ”。如果我提取字节并打印十六进制字符，最后一个字节会相差 1——大概是“ぶ”和“ふ”之间的区别。

这是用来显示差异的代码:

    String name = soundFile.getName();
    String string1 = question.kanji;


    Log.d(TAG, "searching for : s1:" + question.kanji + " + " + question.hiragana + " + " + question.english);
    Log.d(TAG, "name is: " + name);

    Log.d(TAG, "question.kanaji.length(): " + question.kanji.length());
    Log.d(TAG, "question.hiragana.length(): " + question.hiragana.length());


    String compareStart = name.substring(0, string1.length() );

    Log.d(TAG, "string1.length(): " + string1.length());
    Log.d(TAG, "compareStart.length(): " + compareStart.length());      

        byte[] nameUTF8 = null; 
    byte[] s1UTF8 = null;
    byte[] csUTF8 = null;

    nameUTF8 = name.getBytes();
    s1UTF8 = string1.getBytes();
    csUTF8 = compareStart.getBytes();


    Log.d(TAG, "nameUTF8.length: " + s1UTF8.length);            
    Log.d(TAG, "s1UTF8.length: " + s1UTF8.length);
    Log.d(TAG, "csUTF8.length: " + csUTF8.length);

    for (int i = 0; i < s1UTF8.length; i++) {
        Log.d(TAG, "s1UTF8[i]: " + Integer.toString(s1UTF8[i] & 0xff, 16).toUpperCase());
    }

    for (int i = 0; i < csUTF8.length; i++) {
        Log.d(TAG, "csUTF8[i]: " + Integer.toString(csUTF8[i] & 0xff, 16).toUpperCase());
    }

    for (int i = 0; i < nameUTF8.length; i++) {
        Log.d(TAG, "nameUTF8[i]: " + Integer.toString(nameUTF8[i] & 0xff, 16).toUpperCase());
    }

部分输出如下:

D/AnswerView(12078): searching for : s1:呼ぶ + よぶ + to call out,to invite
D/AnswerView(12078): name is: 呼ぶ                                                     よぶ                 to call out,to invite.mp3
D/AnswerView(12078): question.kanaji.length(): 2
D/AnswerView(12078): question.hiragana.length(): 2
D/AnswerView(12078): string1: 呼ぶ
D/AnswerView(12078): compareStart: 呼ふ
D/AnswerView(12078): string1.length(): 2
D/AnswerView(12078): compareStart.length(): 2
D/AnswerView(12078): string1.length(): 2
D/AnswerView(12078): compareStart.length(): 2
D/AnswerView(12078): nameUTF8.length: 6
D/AnswerView(12078): s1UTF8.length: 6
D/AnswerView(12078): csUTF8.length: 6
D/AnswerView(12078): s1UTF8[i]: E5
D/AnswerView(12078): s1UTF8[i]: 91
D/AnswerView(12078): s1UTF8[i]: BC
D/AnswerView(12078): s1UTF8[i]: E3
D/AnswerView(12078): s1UTF8[i]: 81
D/AnswerView(12078): s1UTF8[i]: B6
D/AnswerView(12078): csUTF8[i]: E5
D/AnswerView(12078): csUTF8[i]: 91
D/AnswerView(12078): csUTF8[i]: BC
D/AnswerView(12078): csUTF8[i]: E3
D/AnswerView(12078): csUTF8[i]: 81
D/AnswerView(12078): csUTF8[i]: B5
D/AnswerView(12078): nameUTF8[i]: E5
D/AnswerView(12078): nameUTF8[i]: 91
D/AnswerView(12078): nameUTF8[i]: BC
D/AnswerView(12078): nameUTF8[i]: E3
D/AnswerView(12078): nameUTF8[i]: 81
D/AnswerView(12078): nameUTF8[i]: B5
D/AnswerView(12078): nameUTF8[i]: E3
D/AnswerView(12078): nameUTF8[i]: 82
D/AnswerView(12078): nameUTF8[i]: 99
D/AnswerView(12078): nameUTF8[i]: 20
D/AnswerView(12078): nameUTF8[i]: 20
D/AnswerView(12078): nameUTF8[i]: 20
D/AnswerView(12078): nameUTF8[i]: 20

显示提取的文件名子字符串的第六个字节以及文件名本身是“B5”而不是搜索字符串中的“B6”。但是，正确显示打印的文件名。我很难过。当底层字符不同时，为什么文件名可以正确显示到控制台？为什么在文件名的开头有额外的 3 个非空白字节 - 在搜索字符串中不需要以某种方式表示“ぶ”字符？

最佳答案

问题看起来是规范化形式之一。我知道，例如，在 Mac 上，文件系统总是在 NFD 中。但是您发布的字符串在 NFC 中。观看:

% cat /tmp/u
呼ぶ

% uwc /tmp/u
   Paras    Lines    Words   Graphs    Chars    Bytes File
       0        1        1        3        3        7 /tmp/u

% uniquote -v  /tmp/u
\N{CJK UNIFIED IDEOGRAPH-547C}\N{HIRAGANA LETTER BU}

% nfd /tmp/u | uniquote -v
\N{CJK UNIFIED IDEOGRAPH-547C}\N{HIRAGANA LETTER HU}\N{COMBINING KATAKANA-HIRAGANA VOICED SOUND MARK}

% nfc /tmp/u | uniquote -v
\N{CJK UNIFIED IDEOGRAPH-547C}\N{HIRAGANA LETTER BU}

所以我认为您将不得不考虑转换为 NFD。

顺便说一句，U+547C CJK 代码点恰好是来自 Unihan 数据库的:

 呼 U+547C Lo Han    CJK UNIFIED IDEOGRAPH-547C
  Mandarin     hu1 xu1
  Cantonese    fu1
  JapaneseKun  yobu
  JapaneseOn   ko
  Korean       ho
  HanyuPinlu   hu1(378) hu5(107)
  Vietnamese   hô

关于Android，日文字 rune 件名比较问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5784518/

25

4

0

文章推荐： android - 在同一个 Activity 中的两个 GridView 之间切换

文章推荐： mysql - 使用 mySQL JOIN CASE 选择 "friends"

文章推荐： ios - 如何在 SpriteKit 中从 Web API 加载 Sprite 表

文章推荐： android - 数 45 秒，暂停 20 秒，然后以不同的标题重复

go - 不能在追加中使用类型 []rune 作为类型 rune
package main var lettersLower = []rune("abcdefghijklmnopqrstuvwxyz") var lettersUpper = []rune("ABCD
c# - Java 字 rune 字到 C# 字 rune 字
我正在维护一些 Java 代码，我目前正在将它们转换为 C#。 Java 代码是这样做的: sendString(somedata + '\000'); 在 C# 中，我正在尝试做同样的事情: sen
string - 如何将 utf8 文字(即 '\u1F606' )转换为 rune ？ (不要从 rune 中获取 UTF8!)
我正在尝试使用 utf8 十六进制代码生成连续字符。例如第一部分，我称之为“基本”代码:259第二部分，我称之为“结束”代码:1(或，2，或 A，或 F，等等) 这些以字符串的形式出现。一旦我附加了结
go - rune 文字中不止一个字符
我有一个字符串 MyString我想在这个数据中附加如下内容: MYString ("1", "a"), ("1", "b") //END result 我的代码是这样的: query :=
string - 如何将字符串转换为 rune ？
这是我的代码段: var converter = map[rune]rune {//some data} sample := "⌘こんにちは" var tmp string for _, runeVa
go - rune 与字符串范围内的字节
根据https://blog.golang.org/strings在我的测试中，看起来当我们 range 一个字符串时，我们得到的字符是 rune 类型，但是如果我们通过 str[index] 获取它
python记录分隔 rune 件迭代
我有一个非常非常大的文本文件(比内存大得多)。我想做的是使用类似于: for record in myFile: process_record(); 添加的技巧是我的记录由空行分隔(中间有各种东西)
将字符串文字与字 rune 字连接起来
我想连接一个字符串文字和一个字 rune 字。由于语法不正确，"abc"'d' "efg" 会导致编译器错误: x.c:4:24: error: expected ',' or ';' before
将字符串文字与字 rune 字连接起来
我想连接一个字符串文字和一个字 rune 字。由于语法不正确，"abc"'d' "efg" 会导致编译器错误: x.c:4:24: error: expected ',' or ';' before
golang rune() 函数是如何工作的
我在网上看到一个使用 golang 中的 rune() 函数的函数，但我很难找到它是什么。我正在阅读教程并且对文档没有经验，所以很难找到我要找的东西。具体来说，我想看看为什么会失败...... fm
go - 如何返回空白 rune
我正在查看 string.Map 函数，它必须采用返回 rune 的映射函数。我想通过调用来消除解析为 false 的 rune :unicode.IsPrint() func Map(映射 func
string - 去整理一片 rune ？
我在按字符排序字符串时遇到问题(要检查两个字符串是否是字谜，我想对它们都进行排序，并检查是否相等)。我可以像这样得到字符串 s 的 []rune 表示: runes := make([]rune,
go - 什么是 rune ？
什么是rune在围棋？我一直在谷歌搜索，但 Golang 只说一行: rune是 int32 的别名. 但是整数怎么会像交换案例一样到处使用呢？下面是一个函数swapcase。什么是<=和 - ?
go - 遍历 []rune |在泛型中传递的字符串
我正在使用具有此约束规则的泛型: type LineParser[T []rune | string] struct { } 我有那个结构的通用方法: func (it *LineParser[T])
sas - 在SAS中导入波兰语字 rune 件
我有一个包含波兰语字符的 csv，但是当我在 SAS 中导入时，某些波兰语字符被替换为“？”或任何其他随机变量，我该如何处理。我有一个所有可能的波兰语字符的列表，我不介意它被它的英语对应字符取代最佳
java - 字 rune 字错误中的字符太多
我正在创建一个时尚的文本应用程序，但在某些地方出现错误(“字 rune 字中的字符太多”)。我只写了一个字母，但是当我粘贴它时，它会转换成许多这样的字母:“\uD83C\uDD89”，原始字母是“🆉
rust - 是否有以十六进制表示法声明字 rune 字的语法？
有点像 const X: char = '0x10FFFC'; 最佳答案是的，使用\u{..}: const X: char = '\u{10FFFC}'; Playground 这种情况下的一个技
javascript - 双字节字 rune 件名显示不正确
我有一个名为“ roケールストリングのキャッシュ最适化-v3-20160202_1047.pdf”的pdf文件。使用Google标记管理器从下载URL获取文件名时，我得到的值为“％E4％BE％9B
arrays - 有没有办法将 rune 打印为单个字符？
程序目的: rune 密码最终编辑: 我现在(感谢非常有用的由 Extremely 提供的答案了不起的人 )完成了我一直在从事的项目；并且 - 对于 future 的读者，我还提供了完整的代码
scala - 垂直制表符的字 rune 字？
如何在Scala中为垂直制表符('\v'，ASCII 11)编写字 rune 字？ '\v'不起作用。 (无效的转义字符)'\11'应该是，但是... scala> '\11'.toInt res13

首页

博学

6Ren·AI

商城

Android，日文字 rune 件名比较问题