gpt4 book ai didi

unicode - 简体中文Unicode表

转载 作者:行者123 更新时间:2023-12-03 12:26:06 24 4
gpt4 key购买 nike

在哪里可以找到仅显示简体中文字符的 Unicode 表?
我到处搜索,但找不到任何东西。

更新:
我发现还有另一种称为 GB 2312 的编码 -
http://en.wikipedia.org/wiki/GB_2312
- 仅包含简化字符。
我当然可以用它来得到我需要的东西吗?

我还发现了这个将 GB2312 映射到 Unicode 的文件 -
http://cpansearch.perl.org/src/GUS/Unicode-UTF8simple-1.06/gb2312.txt
- 但我不确定它是否准确。

如果该表不正确,也许有人可以将我指向一个正确的表,或者只是一个包含 GB2312 字符的表以及一些转换它们的方法?

更新 2:
本站还提供了GB/Unicode表,甚至提供了生成文件的Java程序
使用所有 GB 字符以及 Unicode 等效字符:
http://www.herongyang.com/gb2312/

最佳答案

Unihan database在文件 Unihan_Variants.txt 中包含此信息.例如,一对繁体/简体字符是:

U+673A  kTraditionalVariant     U+6A5F
U+6A5F kSimplifiedVariant U+673A

在上面的例子中,U+6A5F 是机,机的传统形式(U+673A)。

另一种方法是使用 CC-CEDICT项目,出版汉字和复合词(繁体和简体)词典。每个条目看起来像:

宕機 宕机 [dang4 ji1] /to crash (of a computer)/Taiwanese term for 當機|当机[dang4 ji1]/



第一列是繁体字,第二列是简体字。

要获取所有简化字符,请阅读此文本文件并列出第二列中出现的每个字符。请注意,某些字符可能不会单独出现(仅在复合词中),因此仅查看单字符条目是不够的。

关于unicode - 简体中文Unicode表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4596576/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com