gpt4 book ai didi

unicode - 为什么 Unicode 以它的方式实现土耳其语 I?

转载 作者:行者123 更新时间:2023-12-03 19:34:03 27 4
gpt4 key购买 nike

土耳其语将带点和不带点的 I 作为两个单独的字符,每个字符都有自己的大写和小写形式。

Uppercase  Lowercase
I U+0049 ı U+0131
İ U+0130 i U+0069

而在其他使用拉丁字母的语言中,我们有

Uppercase  Lowercase
I U+0049 i U+0069

现在,Unicode 联盟本可以将其实现为六个 不同的字符,每个字符都有自己的大小写规则,但决定只使用四个,在不同的语言环境中使用不同的大小写规则。这对我来说似乎很奇怪。 该决定背后的理由是什么?

具有六个不同字符的可能实现:

Uppercase  Lowercase
I U+0049 i U+0069
I NEW ı U+0131
İ U+0130 i NEW

当前使用的代码点:

U+0049 ‹I› \N{LATIN CAPITAL LETTER I}
U+0130 ‹İ› \N{LATIN CAPITAL LETTER I WITH DOT ABOVE}
U+0131 ‹ı› \N{LATIN SMALL LETTER DOTLESS I}
U+0069 ‹i› \N{LATIN SMALL LETTER I}

最佳答案

有一个理论原因和一个实际原因。

理论是大多数拉丁字母表的 i 和土耳其语和阿塞拜疆语字母表的 i 是相同的,而且大多数拉丁字母表的 I 和土耳其语和阿塞拜疆语的 I 是相同的.字母表之间的关系也不同。人们可以很容易地争辩说它们实际上是不同的(正如您提出的编码对待它们一样),但这就是语言委员会在定义 1920 年代土耳其的字母表和正字法时考虑它们的方式,而阿塞拜疆语在 1990 年代的使用复制了这一点。

(相比之下,有一些基于拉丁文的脚本,其中 i 应该被认为在语义上与 i 相同,尽管从未用点绘制[只是对不同形状的字形使用不同的字体],特别是那些日期早于 Carolingian 或派生自一个,例如盖尔文是如何从岛屿文派生的。事实上,特别重要的是永远不要用盖尔文写爱尔兰语,在 i 上加一个点,这可以与所使用的正字法的 sí buailte 变音符号进行比较不幸的是,许多尝试使用此脚本的字体不仅会添加一个点,而且会导致更严重的拼写错误,使其成为笔画,因此会与 fada 变音符号混淆,因为它可能出现在 i 而 sí buailte 不能,因此使单词的拼写出现错误。有此错误的“爱尔兰”字体可能比没有错误的多。

实际原因是现有的土耳其字符编码,如 ISO/IEC 8859-9、EBCDIC 1026 和 IBM 00857,它们具有与 ASCII 或 EBCDIC 相同的子集,已经将 iI 视为与 ASCII 或 EBCDIC 中的相同(也就是说,大多数拉丁字母表中的那些)和 ıİ 作为单独的字符,它们是大小写更改的等价物;与现在的 Unicode 完全一样。与此类脚本的兼容性需要继续这种做法。

关于unicode - 为什么 Unicode 以它的方式实现土耳其语 I?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48067545/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com