java - 如何为索引准备 Unicode 字符串？-6ren

java - 如何为索引准备 Unicode 字符串？

转载作者：塔克拉玛干更新时间：2023-11-02 20:02:42

24

4

这个问题是指在索引中存储本地名称的国际字符规范化。我想大体讨论这个问题，也想听听 Java 中可能的现有解决方案(类/库)。

在全局应用程序中，用户输入他们的姓名，应用程序将每个姓名写入搜索索引，以便其他用户可以搜索姓名并找到用户。在英语中微不足道，但在许多其他语言中和/或在全局范围内并不那么微不足道，因为特定字母需要音译和/或可以以多种形式书写。例如，德语名称 Häußler 可以写成

Häußler(德国)
Haeussler(德国，国际音译)
Häussler(瑞士)
豪斯勒(英文音译)

Java 有

    Normalizer.normalize(entry, Normalizer.Form.NFD) // NFC

类，但这在许多情况下似乎不起作用和/或我不知道如何正确使用它。好书也在这里http://en.wikipedia.org/wiki/Unicode_equivalence但我找不到足够的关于这个主题的捆绑信息。

有没有人知道现有的开源项目中有人已经解决了这个问题？任何可以使用的库？网站？

你们日本人、中国人、阿拉伯人等如何将你们的语言音译成英语？像 Facebook 这样的大型社交网络如何音译他们的用户名以确保他们可以在国际上找到？

最佳答案

您走在正确的轨道上 - 您可能想要添加的一个搜索词是“规范的”。

我相信ICU project是处理此问题的最强大的开源软件。对 normalization components 特别感兴趣，特别是 NFKC_Casefold 的实现，它处理德语 ß 示例等。

关于java - 如何为索引准备 Unicode 字符串？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26685725/

24

4

0

文章推荐： android - 装载机 : onLoadFinished called only once

文章推荐：操作栏中的 Android 中心自定义 View

文章推荐： ios - 同一应用中的多个 NSHTTPCookieStorage

MySQL 准备 -> 字段列表中的未知列
我一直在试图找出为什么这会给我一个错误: PREPARE test FROM 'SELECT t.blah FROM (SELECT ? AS blah) t;'; ERROR 1054 (42S22
去 channel 准备
我想了解 Go 中的 channel 。我读过默认情况下发送和接收 block ，直到发送方和接收方都准备好。但是我们如何确定发送方和接收方的准备情况。例如在下面的代码中 package main
pytorch 准备、训练和测试自己的图片数据的方法
大部分的pytorch入门教程，都是使用torchvision里面的数据进行训练和测试。如果我们是自己的图片数据，又该怎么做呢？ 1、我的数据我在学习的时候，使用的是fashion-mnis
swift 准备(: segue) not called
在我的 Storyboard中，controller1 有 natigationController 和 segues 到 controller 2。奇怪的是 Segue 工作正常但是 overrid
openshift - 准备/活跃度探针失败。杀荚
我正在尝试使用Openshift在线从我的仓库中放入一些代码。我的构建编译正常，但是部署失败: error: update acceptor rejected nodejs-mongo-persis
magento - 准备 Magento 前端认证
已结束。此问题不符合 Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是无关紧要的，
sql - 防止目标数据库处于还原模式时出错(sql 准备)
我有一个每晚运行的存储过程。它从链接服务器中提取一些数据并将其插入到运行 sql 代理作业的服务器上的表中。在运行 INSERT 语句之前，该过程检查链接服务器上的数据库是否联机 (STATE =
PHP:准备 PDO 数据库语句的更简洁方法？
我对 PDO 准备好的语句比较陌生。我忍不住觉得必须有一种更简单、更整洁的方法来执行以下操作:我无论如何都将所有内容加载到一个数组中，然后必须将整个内容重写为一组 ':blah '=>$found[
python - 准备 pandas 数据框以使用误差条进行绘图
我正在准备一个 pandas 数据框，用于在 R 的 ggplot2 中绘制带有误差条的图，这需要计算列的统计数据。误差条需要最小值(平均值 - 标准偏差)和最大值(平均值+标准差)。我使用 grou
ios - 准备 Segue 函数无法正确传递数据
我的 prepareForSegue 方法没有将数据传递到目标 View Controller 。 var buttonsDictionary = [Int: UIButton]() func cre
mysql - 准备 stmt 行抛出错误
需要帮助来完成这个简单的任务。该 sp 应该提供一个结果集，并将从 MS-Access-Database 报告目的中调用。表名可变，但以数字 (lsid) 结尾。使用串联。max_prepared_
php - 准备 SQL 语句并仅在不重复时输入
我正在为我工作的小型企业创建销售订单表单。我有一个表单连接到数据库以获取下拉菜单，然后连接到文本框以在需要时添加新数据。如果前面的部分中的所有数据框均已填写，还会出现另外四个部分。链接到数据库的
php - PDO 准备()仅在一台服务器上失败
以下代码: class Database { (...) public function query($query){ $this->stmt = $this->dbh
php - 准备($ sql)函数不适用于一个脚本
我正在开展一个学校项目，涉及一个具有数据库集成的网站。目前正致力于通过它向网站添加新内容(文本、标题、图像)。我已经可以通过网站向数据库添加新用户，但由于某种原因，相同的代码和逻辑不适用于内容。我注
PHP MySQLi Stmt 准备
我如何mysqli::stmt->bind_param在mysql中被视为NULL的东西？我目前正在使用 $stmt->bind_param('s', 'NULL'); 最佳答案 bind_para
mysql - 准备 STMT 语句给出语法错误
我在此处运行准备 stmt 时遇到语法错误。我尝试手动执行 @c 中的查询并且它有效。不知道为什么 stmt 会给出这个错误。这是我正在使用的代码。 SET @i=24; SET @Bill_mont
php - PDO - 准备，选择
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
PHP - 准备 VS 未准备查询
我想知道准备好的查询是否与未准备的查询一样安全。下面是两个示例，一个用于 SELECT，一个用于 UPDATE。第一行是未准备的查询，第二行是准备好的查询。选择示例: $userDetails =
ios 准备 segue 导致崩溃
我是 ios 开发的新手，在我尝试做的事情上遇到了障碍。我的方法中有这段代码，旨在将特定的 NSObject 从这个 View 传递到下一个 View ，但是它总是让我的应用程序崩溃。 -(void
ios - 准备 segue 函数不加载新值
自上次调用 segue 以来，我的 UIButton 类的 statValue 属性已更新，但 segue 仍发送旧的原始值。有没有办法刷新 prepare 函数(如下)，以便它发送新值？ overr

首页

博学

6Ren·AI

商城

java - 如何为索引准备 Unicode 字符串？