gpt4 book ai didi

unicode - 通常用于书写的 Unicode 子集?

转载 作者:行者123 更新时间:2023-12-01 00:05:25 29 4
gpt4 key购买 nike

通常用于书写的 Unicode 字符的子集是什么——例如那些通常会在报纸文章中找到的字符?

例如,在英语中,[a-zA-Z0-9] 范围内的字符,加上一些标点符号,对于大多数写作来说就足够了。

但我想支持使用 ASCII 范围之外的字符的语言,同时排除非打印字符或装饰字符。

目标是限制用户对应用程序的输入,使其只能使用书面语言中合法使用的代码点。因为用户输入将被保存和显示,我不想让恶作剧者输入完全由变音符号、Unicode 组合字符、Unicode 流控制字符等组成的文本。

遗憾的是,我并不精通 Unicode 中的每一种语言。是否有人编制了一份通常用于书写的所有 Unicode 字符子集的列表?

最佳答案

Unicode 代码点的官方列表是 UnicodeData.txt .这是一个纯文本文件,每个代码点一行;它很容易被机器阅读。例如:

0022;QUOTATION MARK;Po;0;ON;;;;;N;;;;;

第三个以分号分隔的字段是“常规类别”的缩写名称。这在 chapter 4 of the Unicode Standard 中有进一步解释。 ,具体在第 4.5 节;请参阅第 131 页的表格(PDF 文件的第 12 页)。例如,“Lu”是大写字母,“Ll”是小写字母,Pc、Pd、Ps,是各种标点符号。 (双字母缩写的首字母代表字母、数字、标点符号等更高级的类别)

请注意,某些代码点范围并未明确列出。例如CJK(中日韩)表意文字的范围表示为:

4E00;<CJK Ideograph, First>;Lo;0;L;;;;;N;;;;;
9FCC;<CJK Ideograph, Last>;Lo;0;L;;;;;N;;;;;

我认为 unicode.org 上还有其他文件可以填补这些空白。

我仍然不是 100% 清楚您要定义的子集,但您可以将其定义为一组特定的常规类别值。

关于unicode - 通常用于书写的 Unicode 子集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11597985/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com