gpt4 book ai didi

unicode - 检查 Unicode 中字符组合的算法

转载 作者:行者123 更新时间:2023-12-02 17:31:39 26 4
gpt4 key购买 nike

我打算标准化为 Form C,然后分为“显示单元”,基本上是一个字形加上所有后续组合字符。目前,我只是想处理基于拉丁语的脚本。

要确定代码点是否是组合字符,检查它是否在这些范围内就足够了吗?

  • 组合变音标记 (0300–036F)
  • 组合变音符补充 (1DC0–1DFF)
  • 组合符号的变音标记 (20D0–20FF)
  • 组合半分 (FE20–FE2F)

阿拉伯语、希伯来语和各种印度文字正在等待中...

最佳答案

这些是 Unicode 点的所有范围,其名称包含单词“组合”(例如 301 COMBINING ACUTE ACCENT):

300-36F
483-489
7EB-7F3
135F-135F
1A7F-1A7F
1B6B-1B73
1DC0-1DE6
1DFD-1DFF
20D0-20F0
2CEF-2CF1
2DE0-2DFF
3099-309A
A66F-A672
A67C-A67D
A6F0-A6F1
A8E0-A8F1
FE20-FE26
101FD-101FD
1D165-1D169
1D16D-1D172
1D17B-1D182
1D185-1D18B
1D1AA-1D1AD
1D242-1D244

我使用 Python 脚本编译了此列表,并使用了 unicodedata 模块。我不知道这到底是什么版本的 Unicode,但我认为它是最新的。

但是,我不知道您是否已经了解了严格意义上的“组合”字符,因为 Unicode 中还有“修饰符字母”等。

关于unicode - 检查 Unicode 中字符组合的算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17051732/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com