gpt4 book ai didi

在不知道语言的情况下大小写 UTF-8

转载 作者:太空狗 更新时间:2023-10-29 15:05:05 24 4
gpt4 key购买 nike

我正在尝试评估不区分大小写的 UTF-8 字符串比较的不同策略。

我阅读了 Unicode 联盟的一些 Material ,对 ICU 进行了试验,并尝试提出各种实现质量的替代方案。

我曾多次看到简单案例映射和完整案例映射之间的文本不同,我想确保我完全理解其中的区别。

正如我所读,简单案例映射是“上下文无关”的,即不需要知道有效负载是什么语言。由于突厥语“I/ı/İ/i”崩溃,这将给出近似结果。

另一方面,完整案例映射需要知道负载的语言才能执行映射。有了这些额外的信息,它可以采取特殊措施来涵盖以下情况:作为突厥语字符串的“Kim”应该变成大写的“KİM”,而作为英语字符串的“Kim”应该变成大写的“KIM”。

我做对了吗?

是否还有针对不同语言以不同方式折叠的“多面”代码点的其他示例?

谢谢!

更新:提到简单案例映射作为独立于语言的来源之一是 ICU's documentation .我将其解释为 Unicode 事实,但也许它只是实现的声明?

最佳答案

不,“完整大小写映射”是一种大小写,其中一个代码点需要被多个新代码点替换。一个简单的案例映射是一个单一的代码点替换。

如果您想自己实现它,那么 Unicode CaseFolding.txt文件对于正确执行此操作至关重要。请注意状态字段代码“T”,专门用于处理土耳其语 I 问题。

关于在不知道语言的情况下大小写 UTF-8,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1795504/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com