internationalization - ICU 的整理器假设 "a"和 "ą"是相同的-6ren

internationalization - ICU 的整理器假设 "a"和 "ą"是相同的

转载作者：行者123 更新时间：2023-12-02 00:21:43

25

4

我正在使用立陶宛语 ( lt_LT) 语言的 ICU。该语言的字母表如下:a ą b c č d e ę ė <...> v z ž

但是，在排序时，ICU 的整理器假定，例如，a和 ą (a 与 ogonek)是等价的，因此立陶宛语单词列表按如下方式排序:

a, ą, ab, aba, abadas, <...>, b, ba, <...>`

当预期结果是:

a, ab, aba, abadas, <...>, ą, <...>, b, ba, <...>

其他“重音”字母( e - ę - ė , z - ž 等)也是如此

更具体的测试用例:运行 source/samples/coll/coll -locale lt_LT -source ą -target aa决定source is less than target当情况并非如此时(如果需要，请参阅 coll.cpp)。

这种行为是预期的吗？这是错误还是功能？如果是这样，我该如何防止 ICU 的整理器将“相似”字母对齐在一起？

最佳答案

这些字母在 CLDR 剪裁中被列为次要差异，因此它们将排序 like so .如果这是错误的，请将其提交至 CLDR ，不是 ICU 问题。 Mimer同意。

关于internationalization - ICU 的整理器假设 "a"和 "ą"是相同的，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10668574/

25

4

0

文章推荐： networking - 如何区分 UDP 广播和单播？

文章推荐： ruby-on-rails - Ruby on Rails 最好的 Wiki Gem 是什么？

文章推荐： r - 使用 R、Hyndman 预测包和 quantmod

icu - 如何在 ICU 中表达列表
我正在尝试学习 ICU 语法并希望能够表达在 ICU message format 中列出. 例如，给定数据: items: - cool - handy - neat 我希望能够生成如下
string - ICU 中正确的标题大小写 [ICU 有非大写单词列表吗？]
是否可以获得适当的大写，例如使用 ICU4C 的英文文本但没有构建任何自定义的非大写单词集？比如说，鉴于对峡湾的渴望，我希望获得对峡湾的渴望。使用 ucasemap_utf8ToTitle() 和
sqlite - 编译静态链接到 icu 的 icu sqlite 扩展
我想编译 icu sqlite extension静态链接到 icu . 这是我试过的，也许错误对你来说是显而易见的。 > cd icu/source> ./runConfigureIcu Linux
node.js - Node : could not initialize ICU (check NODE_ICU_DATA or --icu-data-dir parameters)
我试图将我们 CI 环境中的 Node 版本从 Node 6 升级到 Node 8。我也更新了完整的 icu 版本。 $NODE_ICU_DATA 设置为 /usr/lib/node_modules/
android - 注意 : android. support.v4.text.ICUCompatIcs : can't find dynamically referenced class libcore. icu.ICU
我今天开始使用最新的 Android Build Tools (ABT) v19.0.3 收到消息。乍一看，我认为这可能是 ABT 的问题。然而，更仔细的调查显示这条消息: android.suppo
icu - unicode 归类排序背后的理论是什么
unicode 排序背后的理论是什么？我明白它是如何工作的，但我不明白为什么 they决定采用此标准进行归类排序。似乎当您有两个字符串要比较时，例如使用 ucol_strcolliter(): uc
internationalization - ICU 是否处理不同语言的字符串列表的整理？
我的应用程序可能在一个列表中包含由不同字母/语言组成的字符串。我似乎无法找到有关对这些进行排序的正确方法应该是什么的任何信息，或者任何表明 ICU 支持此功能的迹象。示例列表: 苹果 яблоко
ios - 使用XCode构建Sqlite ICU
如何在iPhone应用程序的工作区中使用ICU(Unicode国际组件)将sqlite编译为项目？我之前已经编译了sqlite合并，但是我不确定应该下载哪些文件以及需要将哪些脚本添加到xcode中-
java - ICU 音译片假名过滤器不适用于半角片假名浊音标记
我正在尝试使用 ICU 音译器对某些文本进行非常具体的转换，如 here 所述. 我的文本包含半角片假名字符和常规拉丁字符。我想将半角片假名转换为全角片假名，同时保持非片假名字符不变。我想简单地应用
c++ - ICU 探测所有货币符号
有没有办法探测ICU library对于所有 UChar's表示库支持的货币符号？我当前的解决方案是遍历所有语言环境并针对每个语言环境，执行如下操作: const DecimalFormatSymb
c++ - ICU 和字符串比较
谁能解释为什么下面的比较不相等？ void CompareTest() { UErrorCode status = U_ZERO_ERROR; UChar ruleset[500]; *rul
c++ - ICU 货币区域获取面额
有没有办法探测 ICU最小面额的货币区域设置？例如，美国为 0.01 美元，韩国 (ko_KR) 为 ₩1。我想在 DecimalFormat object 上调用 getRoundingIncrem
c++ - ICU:创建不区分大小写的排序规则
我正在创建 SQLite3 的自定义构建，我想实现不区分大小写的文本列。是否可以创建不区分大小写的排序规则？最佳答案你可能想调用 ucol_setStrength具有 UCOL_PRIMARY
c++ - ICU 无法解析的外部符号
我们有使用 ICU 库处理 Unicode 字符串的代码。当我们尝试构建它时，没有出现编译错误，但链接失败了。我用以下代码创建了一个小测试程序: #define U_STATIC_IMPLEMENTA
c++ - ICU 添加自定义字符集检测
有人知道 ICU 字符集检测器的数据是如何构建的吗？添加其他语言是否困难？例如，我在错误跟踪器中看到，自 2007 年以来就打开了检测泰语的票证，但直到今天都没有新内容。谢谢最佳答案我会在 I
c++ - 如何在like查询中使用sqlite icu
您好，我将我的sql语句修改为 CREATE VIRTUAL TABLE [v_fts] USING fts4 ( [title], tokenize=icu )" 但是当我尝试插入数据时出现错误
c++ - ICU 迭代代码点
我的目标是逐个字符地迭代 Unicode 文本字符串，但下面的代码迭代的是代码单元而不是代码点，即使我使用的是 next32PostInc () 应该迭代代码点: void iterate_codep
php - ICU:音译然后删除所有非字母数字字符
是否可以在不退回到正则表达式的情况下使用 ICU 完成？目前我规范化文件名是这样的: protected function normalizeFilename($filename) { $t
php - ICU 资源包是否用于消息翻译资源
我了解 ICU 的本地化部分 - 日期、时间和货币格式、整理等。在消息翻译方面，我看到有人说 ICU 不提供消息翻译功能 - 例如查看 this SOF question . 但是，在查看 ICU 文
c++ - ICU 正则表达式引用
我想知道是否有一种方法可以在 ICU (c++) 库中引用字符串。存在 "\Q"+ string + "\E"但我生成的输入作为提供的字符串输入。似乎没有任何 ICU 引用正则表达式方法。只需将字符串

首页

博学

6Ren·AI

商城

internationalization - ICU 的整理器假设 "a"和 "ą"是相同的