gpt4 book ai didi

unicode - 实际使用中最常见的非 BMP Unicode 字符有哪些?

转载 作者:行者123 更新时间:2023-12-03 04:49:05 27 4
gpt4 key购买 nike

根据您的经验,到目前为止,BMP(基本多语言平面)之外的哪些 Unicode 字符、代码点和范围是最常见的?这些是需要 UTF-8 中的 4 个字节或 UTF-16 中的代理项。

我本以为答案是名称中使用的中文和日文字符,但不包含在最广泛的 CJK 多字节字符集中,但在我从事最多工作的项目(英语维基词典)中,我们发现Gothic alphabet到目前为止更为常见。

更新

我编写了几个软件工具来扫描整个维基百科中的非 BMP 字符,令我惊讶的是,即使在日语维基百科中,哥特字母也是最常见的。中文维基百科也是如此,但其中也有许多汉字被使用了 50 或 70 次,包括“𨭎”、“𠬠”和“𩷶”。

最佳答案

表情符号现在是迄今为止最常见的非 BMP 字符。 😂,也称为 U+1F602 FACE With TEARS OF JOY,是 Twitter 公共(public)流中最常见的一张。它比波形符出现的频率更高!

关于unicode - 实际使用中最常见的非 BMP Unicode 字符有哪些?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5567249/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com