gpt4 book ai didi

c++ - 对 UTF-8 字符串进行排序?

转载 作者:塔克拉玛干 更新时间:2023-11-03 01:08:34 31 4
gpt4 key购买 nike

我的 std::strings 是用 UTF-8 编码的,所以 std::string < 运算符不会剪切它。我如何比较 2 个 utf-8 编码的 std::strings?

它不切的地方是重音,é 出现在 z 之后,它不应该出现

谢谢

最佳答案

如果您不想要字典顺序(这是按字典顺序对 UTF-8 编码字符串进行排序的结果),那么您需要将 UTF-8 编码字符串解码为 UCS-2 或 UCS-4,如下所示合适的,并应用您选择的合适的比较函数。

重申一下,UTF-8 编码机制设计得很巧妙,如果您通过查看每个 8 位编码字节的数值进行排序,您将得到与以下内容相同的结果如果您首先将字符串解码为 Unicode 并比较每个代码点的数值。

更新:您更新的问题表明您想要一个比纯粹的字典排序更复杂的比较函数。您需要解码 UTF-8 字符串并比较解码后的字符。

关于c++ - 对 UTF-8 字符串进行排序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4611302/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com