- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这主要是一个我很好奇的理论问题。 (我不是想通过自己编码或任何东西来做到这一点,我不是在重新发明轮子。)
我的问题是大写/小写等价表如何适用于 Unicode。
例如,如果我必须在 ASCII 中执行此操作,我会取一个字符,如果它落在 [a-z] 范围内,我会将 A 和 a 之间的差相加。
如果它不在该范围内,我会为 10 个左右的重音字符加上 ñ 提供一个小的等价表。
(或者,我可以拥有一个包含 256 个条目的完整等价数组,其中大部分与输入相同)
但是,我猜测有一种更好的方法来指定 Unicode 中的等价物,因为有数十万个字符,而且理论上可以添加一种新语言或一组字符(我期待您发生这种情况时不需要修补窗口)。
Windows 是否为每个字符都有一个巨大的硬编码等价表?或者这是如何实现的?
一个相关的问题是 SQL Server 如何实现基于 Unicode 的不区分重音和不区分大小写的查询。它是否有一个内部表告诉它 é ë è E É È 和 Ë 都等价于“e”?
在比较字符串时,这听起来不是很快。
它如何快速访问索引?它是否已经将索引值转换为它们的“基本”字符,对应于该字段的排序规则?
有谁知道这些东西的内部结构?
谢谢!
最佳答案
我将解决这个问题的 MS SQL Server 部分,但“正确”答案实际上取决于支持的语言和应用程序。
在 SQL Server 中创建表时,每个文本字段都具有隐式或显式指定的排序规则。这会影响排序顺序和比较行为。对于大多数英语(美国)语言环境,默认值为 Latin1_General_CI_AS,或 Latin 1,不区分大小写,区分重音。这意味着,例如,a=A,但是 a!=Ä 和 a!=ä。您还可以使用不区分重音的 (Latin1_General_CI_AI),它将“A”的所有变音符号视为相等。
一些语言环境支持其他类别的比较;例如,法语对包含变音符号的单词的排序与德语的排序略有不同。土耳其语认为无点 i 和带点 i 在语义上是不同的,因此如果您使用土耳其语、不区分大小写、区分重音的排序规则,即使不区分大小写的比较,I 和 i 也不匹配。
您可以更改每个数据库、每个表、每个字段的排序规则,并且有一定的成本,甚至每个查询。我的理解是索引根据指定的排序规则进行标准化,这意味着索引基本上保持原始字符串的扁平版本。例如,对于不区分大小写的排序规则,Apple 和 apple 存储为 apple。查询在搜索之前使用相同的排序规则进行展平。
在日语中,还有另一类规范化,其中全角和半角字符如 ア=ア,在某些情况下,两个半角字符被展平为一个语义等效的字符 (バ=バ)。最后,对于某些语言,还有另一个带有复合字符的蜡球,其中孤立的变音字符可以与其他字符组合(例如,ä 中的变音符号是一个字符,由简单的形式 a 组合而成)。越南语、泰语和其他一些语言都属于此类别的变体。如果存在规范形式,Unicode 规范化允许将组合形式和分解形式视为等效形式。通常在进行任何比较之前应用 Unicode 规范化。
总而言之,对于不区分大小写的比较,您执行的操作与比较 ASCII 范围字符串时非常相似:将比较的左侧和右侧展平为“小写”(例如),然后将数组作为二进制进行比较大批。不同之处在于你需要
1) 将字符串规范化为相同的 unicode 形式(kC 或 kD)
2)根据该语言环境的规则将字符串规范化为相同的大小写
3)根据重音敏感规则对重音进行标准化
4) 根据二进制比较进行比较
4)如果适用,例如在排序的情况下,使用附加的二级和三元排序规则进行比较,其中包括类似于某些语言中“M”之前的“Mc”排序的东西。
是的,Windows 存储所有这些规则的表。默认情况下,您不会在每个安装中都获得所有这些,除非您通过控制面板的东亚语言支持和复杂脚本支持添加对它们的支持。
关于unicode - 如何在 Unicode 中将字符串设置为大写/小写?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/297703/
这个问题已经有答案了: Is there any way to accept only numeric values in a JTextField? (20 个回答) It's possible i
我使用戴尔 XPS M1710。笔记本电脑的盖子、侧面扬声器和前置扬声器都有灯(3 组灯可以单独调节)和鼠标垫下方的灯。在 BIOS 中,我可以更改这些灯的颜色,至少是每个组。另外,我可以在鼠标垫下打
我知道我可以使用 在 iOS 5 中打开设置应用 [[UIApplication sharedApplication] openURL:[NSURL URLWithString:@"prefs://"
我有一个 Django 应用程序,我正在尝试为其设置文档。目录结构如下: - doc - project | - manage.py 我已经设置了路径以便 Sphinx 可以看到东西,但是当我尝试使用
我正在使用 768mb ram 运行 centos 5.5。我一直在日志中获取 server reached MaxClients setting, consider raising the MaxC
我在具有以下配置的服务器内运行了 Drupal 安装: StartServers 5 MinSpareServers 5 MaxSpareServers 15 MaxClien
是否可以使用 Microsoft.Web.Administration 包为给定的 location 配置 asp 设置? 我想以编程方式将以下部分添加到本地 IIS applicationHost.
我一直在阅读为 kube-proxy 提供参数的文档,但没有解释应该如何使用这些参数。我使用 az aks create 创建我的集群使用 azure-cli 程序,然后我获得凭据并使用 kubect
我想知道与在 PHP 中使用 setcookie() 函数相比,在客户端通过 JavaScript 设置一些 cookie 是否有任何明显的优势?我能想到的唯一原因是减少一些网络流量(第一次)。但不是
我有一个按钮可以将 body class 设置为 .blackout 我正在使用 js-cookie设置cookie,下面的代码与我的按钮相关联。 $('#boToggle').on('click'
我有一堆自定义的 HTML div。我将其中的 3 存储在具有 slide 类的 div 中。然后,我使用该幻灯片类调用 slick 函数并应用如下设置: $('.slide').slick({
我正在创建一个应该在 Windows 8(桌面)上运行的应用 我需要: 允许用户使用我的应用启动“文件历史记录”。我需要找到打开“文件历史记录”的命令行。 我需要能够显示“文件历史记录”的当前设置。
我刚买了一台新的 MacBook Pro,并尝试在系统中设置 RVM。我安装了 RVM 并将默认设置为 ➜ rvm list default Default Ruby (for new shells)
由于有关 Firestore 中时间戳行为即将发生变化的警告,我正在尝试更改我的应用的初始化代码。 The behavior for Date objects stored in Firestore
在 ICS 中,网络 -> 数据使用设置屏幕中现在有“限制后台数据”设置。 有没有办法以编程方式为我的应用程序设置“限制后台数据”? 或 有没有办法为我的应用程序调出具有选项的“数据使用”设置? 最佳
我正在尝试使用 NextJS 应用程序设置 Jest,目前在 jest.config.js : module.exports = { testPathIgnorePatterns: ["/.n
我最近升级到 FlashDevelop 4,这当然已经将我之前的所有设置恢复到原来的状态。 我遇到的问题是我无法在新设置窗口的哪个位置找到关闭它在方括号、大括号等之前插入的自动空格的选项。 即它会自动
有没有办法以编程方式访问 iPhone/iPod touch 设置? 谢谢。比兰奇 最佳答案 大多数用户设置可以通过读取存储在 /User/Library/Preferences/ 中的属性列表来访问
删除某些值时,我需要选择哪些设置来维护有序队列。我创建了带有自动增量和主键的 id 的表。当我第一次插入值时,没问题。就像 1,2,3,4,5... 当删除某些值时,顺序会发生变化,例如 1,5,3.
我正在尝试设置示例 Symfony2 项目,如此处所示 http://symfony.com/doc/current/quick_tour/the_big_picture.html 在访问 confi
我是一名优秀的程序员,十分优秀!