java - 中文字母顺序 - java.text.Collator-6ren

java - 中文字母顺序 - java.text.Collator

转载作者：塔克拉玛干更新时间：2023-11-01 22:50:50

26

4

我一直在测试中文的字母排序(如果我可以这样称呼的话)。这是 Excel 对一些示例词进行排序的方式:

啊<波<词<的<俄<佛<歌<和<及<课<了<馍<呢<票<气<日<四<特<瓦<喜<以<只

0<2<85<!<@<版本<标记<成员<错误<导出<导航<Excel 文件<访问<分类<更改<规则<HTML<基本<记录<可选<快捷方式<类别<历史记录<密码<目录<内联<内容<讨论<文件<页面<只读

这就是 Collections.sort(list, simplified_chinese_collator_comparator) 的结果(第一个违规字符以粗体显示):

啊<波<词<的<俄<佛<歌<和<及<课<了<呢<票<气<日<四<特<瓦<喜<以<只<馍

!<@<0<2<85<Excel 文件<HTML<版本<标记<成员<错误<导出<导航<访问<分类<更改<规则<基本<记录 <可选<快捷方式<类别<历史记录<密码<目录<内联<内容<讨论<文件<页面<只读

我对中文一窍不通。有谁知道为什么 Collator 输出不同，或者它基于什么？

是否有任何其他库用于基于语言的排序？

最佳答案

为什么不一样？因为有几种不同的方法可以对表意字符甚至整个单词进行排序。留在我脑海中的是:

按笔画数
通过使用拉丁音译然后“自然地”排序(当然是根据中文特定的规则)

还有其他方法，例如Unicode Technical Report #35提到了其中一些(更多是巧合，不是故意的)，但你必须有足够的时间来完成它。

要回答您的问题，为什么这些排序顺序不同，这只是因为 Java 包含自己的排序规则并且它不依赖于操作系统的排序规则(如 Excel 那样)。这些规则可能不同。您可能还想试试 ICU ，它是 Java 中类和规则的来源(通常比 JDK 领先一步)。

关于java - 中文字母顺序 - java.text.Collator，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13285727/

26

4

0

文章推荐： java - 在单个线程上发出通知会唤醒所有等待的线程

文章推荐： java - 在 Java 中拆分数学表达式

文章推荐： java - 在 Chrome 中打开 JNLP - 阻止文件下载对话框？

sql-server - COLLATE 子句不能用于包含 COLLATE 子句的表达式
我有两个表:tab1 和 tab2。每个表只有一个 VARCHAR(MAX) 列。我只需要获取那些值对，它们是相等的，但只有大小写不同。示例输入: tab1.t1 tab2.t2 ----
iphone - "Creating precompiled collator because collator is out of date"
我正在尝试通过执行 [[self navigationController] popViewControllerAnimated:YES] 来“自毁” View Controller 。在我这样做之
sql-server - SQL Server 错误 "Implicit conversion of because the collation of the value is unresolved due to a collation conflict."
我在开发存储过程时收到此错误 Implicit conversion of varchar value to varchar cannot be performed because the colla
collation - icu归类支持哪些语言？
我正在浏览ICU源代码(http://icu-project.org/)，但是找不到用于排序的开箱即用语言。有人可以帮我吗？最佳答案编辑:请注意，此列表是几年前写的。单击链接以获取更新的列表。 C
mysql - django扩展查询条件 `COLLATION`
django==1.11.9 mysql版本5.6.38 +----------------------+-----------------+ | Variable_name | Val
collation - 使用 Couchbase 查看整理
我们使用 couchbase 作为我们的 nosql 存储并喜欢它的功能。然而，我们在创建关联时遇到了一个问题通过 View 整理。这可以被认为类似于连接操作。虽然我们的数据集是 secret
collation - Perl 6 可以根据排序规则进行排序或比较吗？
cmp operator适用于代码编号，或者至少我认为它是这样做的，因为文档没有明确说明并且没有提及任何本地化内容。我可以让它按其他排序规则排序吗？我知道我告诉 sort如何比较，但我认为它必须已经
delphi - 如何获取打印机驱动程序的 COLLATE 设置？
我需要捕获 Windows 计算机已设置的打印机驱动程序设置，以确定它们是否已为特定打印机打开逐份打印功能。我知道如何使用传入 DC_COLLATE 的 DeviceCapability 调用来获取
collation - 如何使用 Phinx 更改列的排序规则
我刚刚开始学习Phinx，我需要将列的排序规则更改为latin1_swedish_ci。我没有找到有关如何执行此操作的文档。我假设它类似于: ->addColumn('text_two', 'stri
sql - 为什么不显式 COLLATE 覆盖数据库排序规则？
我在 SQL Server 2008 R2 dev 上，服务器默认排序规则是 Cyrillic_General_CI_AS 在 SSMS 中执行选择 'éÉâÂàÀëËçæà' COLLATE La
MySQL错误: Illegal Mix of Collations
我收到以下错误消息 [Err] 1267 - Illegal mix of collations (latin1_swedish_ci,IMPLICIT) and (utf8_general_ci,C
mysql - 创建表时每列使用 COLLATE 有什么意义吗？
我刚刚导出了一个 MySQL 数据库，以便在另一台服务器上复制它。查看 sql 脚本，我看到以下内容: CREATE TABLE `X` ( `id` int(11) unsigned NOT N
php - 字符串与不同 COLLATION 的比较
MYSQL 数据库数据库 1 - 表 - 表 1 id - 整数标题 - utf8_general_ci 值(value)观 - 1、Bienvenue Chez les Châtis 2、基础知
mysql - [MySQL] : What is collation method?
当我使用 phpMyAdmin 查看我的在线表格时，它使用整理方法“latin_swedish_ce”。为什么？默认值是多少？以及，使用什么整理方法？最佳答案 MySQL 中的一个字符串有一个cha
mysql - 我应该设置什么 COLLATE 来使用所有可能的语言？
我有一个名为 username 的列，我希望用户能够插入日语、罗马语、阿拉伯语、韩语以及所有可能的文本，包括特殊字符 [ https://en.wiktionary.org/wiki/Index:Al
unicode - SQLite 字符串比较的本地化 COLLATE
我想比较 SQLite 数据库中的两个字符串而不关心重音和大小写。我的意思是“Événement”应该等于“evenèment”。在 Debian Wheezy 上，SQLite 包不提供 ICU。
sql - Postgresql ORDER_BY ... COLLATE 不同的值返回相同的输出
我在本地机器上使用提供的 COLLATE 值进行排序时遇到问题(在服务器上一切正常)。似乎没有任何效果。使用 en_US COLLATE 的示例 SQL 代码: SELECT username FR
oracle - Oracle 中的重音和不区分大小写的 COLLATE 等价物
在 Microsoft SQL Server 中，如果我想在区分大小写的数据库中不区分大小写搜索，可以运行以下 SQL: SELECT * FROM MyTable WHERE MyField = '
mongodb - 蒙哥错误: server does not support collation
我正在使用 mongoose paginate v2 从版本 3.2.7 的 mongodb 集合中检索文档。 var options = { page, limit }; Schema.pagina
sql - SQLite IN 子句上的 COLLATE NOCASE
有没有办法在 SQLITE 中使用“IN”子句，该子句将敏感地将列与 in 子句中的所有元素进行匹配。我有一个疑问 select * from Table where table.column in

首页

博学

6Ren·AI

商城