- Java锁的逻辑(结合对象头和ObjectMonitor)
- 还在用饼状图?来瞧瞧这些炫酷的百分比可视化新图形(附代码实现)⛵
- 自动注册实体类到EntityFrameworkCore上下文,并适配ABP及ABPVNext
- 基于Sklearn机器学习代码实战
如果你现在使用的是chrome查看那么你是看不到我标题中的汉字的,显示为一个小方框,但是你使用edge查看的话,这个字就能正常的显示出来,不信你试试! 。
本故事源于我在做数据过程中遇到Unicode编码中的私人使用区PUA编码的汉字,然后导入到产品端后他们说有些汉字是乱码无法显示,然后针对这个问题进行了排查。 首先在我标题中的汉字是如下汉字:
其实我之前的文章都提到过很多编码的问题,平时对编码问题也比较了解,所以拿到这个问题首先我这边数据处理用的utf-8,关于utf-8和unicode的关系就不赘述了。因为我这边能正常在sqlserver里面看到这个字,所以可以确定它不是一个乱码,至少是一个符合规范的unicode编码。然后我用工具查看了这个字的编码为 U+E188 。查看文字的unioncode编码也可以使用在线工具 https://symbl.cc/cn/ 。
关于Unicode的分区:
在Unicode中,码位的总范围为\x0到\x10FFFF,共1,114,112个码位。2048个用于编码代理(UTF-16),66个非字符码位(例如BOM),137,468个预留给私人使用,最终剩余974,530用于普通字符分配.
码位的最大值为\x10FFFF,对应二进制有21位,将2 16个值分为一组,Unicode总共可以分为17份,每一份称之为平面(Plane),每一个平面有65,536(2 16)个码位.
为什么Unicode的最大值为\x10FFFF?因为对于UTF16编码,双字节最多可编码2 20个字符,单字节可编码2 16个字符,加起来共17个平面的字符数.
平面编号 | 码位范围 | 名称简写 | 名称描述 |
---|---|---|---|
Plane 0 | 0000–FFFF | BMP | 基础多语言平面(Basic Multilingual Plane) |
Plane 2 | 10000–1FFFF | SMP | 补充多语言平面(Supplementary Multilingual Plane) |
Plane 2 | 20000–2FFFF | SIP | 补充表意语言平面(Supplementary Ideographic Plane) |
Plane 3 | 30000–3FFFF | TIP | 第三表意语言平面(Tertiary Ideographic Plane) |
Planes 4–13 | 40000–DFFFF | - (未分配) | - (未分配) |
Plane 14 | E0000–EFFFF | SSP | 补充特殊用途平面(Supplementary Special-purpose Plane) |
Planes 15–16 | F0000–10FFFF | SPUA-A/B | 补充私有使用区平面(Supplementary Private Use Area planes) |
通过这个平面表我们可以看到该字的编码在BMP中,Unicode中,私人使用区(PUA)是一系列代码点,根据定义,Unicode 联盟不会为其分配字符,定义了二个私人使用区域:一个位于基本多语言平面( U+E000-U+F8FF),一个位于并几乎覆盖平面 15 和 16(U+F0000-U+FFFFD ,U+ 100000-U+10FFFD )即SPUA。这些区域中的代码点不能被视为 Unicode 本身的标准化字符.
Windows 允许 在双字节字符集中 (DBCS) 和 Unicode 中对非标准字符进行本地定义。 对于 DBCS,这些非标准字符称为最终用户定义字符, (EUDC) 。 Unicode 通过其专用区域 (PUA) 提供类似的功能。 应用程序通过使用关联的 DBCS 或 Unicode 字符值来标识指定的字符.
可以分配的 DBCS 字符值取决于指定的字符集。 每个东亚 Windows 代码页 至少有一个保留值范围用作 EUDC。 范围由 EUDCCodeRange 注册表项定义。 用于此目的的 Unicode 值始终来自 Unicode PUA,值 U+E000 到 U+F8FF,U+F0000 到 U+FFFFD,U+100000 到 U+10FFFD.
若要创建 EUDC 或 PUA 字符,用户选择指定范围内的字符值,并将 字形 添加到与该字符值相对应的条目中的字体中。 用户使用 EUDC 编辑器或使用从字体供应商处购买的字体包创建字形。 任何 DBCS 字体都可以包含 EUDC,任何 Unicode 字体都可以包含 PUA 字符。 如果字体仅包含 EUDC/PUA,则称为“独立”EUDC/PUA 字体。 如果字体包含标准字符和 EUDC,则为“集成”EUDC/PUA 字体.
系统默认的 EUDC/PUA 字体是操作系统自动与所有 DBCS 和 Unicode 字体关联的字体,但具有显式关联的 EUDC/PUA 字体的字体除外。 应用程序通过在 EUDC 注册表项下设置 SystemDefaultEUDCFont 名称的值来设置系统默认 的 EUDC /PUA 字体。 同样,应用程序可以通过在 EUDC 键下指定字体名称和关联的字体文件,将单独的 EUDC/PUA 字体与相应的字体相关联。 操作系统始终首先尝试查找当前所选字体中的 EUDC/PUA。 如果未找到该字体,则操作系统将在关联的 EUDC/PUA 字体中查找字符(如果已为当前所选字体定义了一个字体)。 如果仍然找不到字符,操作系统将在系统默认的 EUDC/PUA 字体中查找它.
TrueType 字体可以安装为 .ttf 文件或 .tte 文件。 由于操作系统隐藏 .tte 文件,因此应用程序无法使用 GDI API 函数枚举或以其他方式检查已安装的字体。 在许多操作系统上,系统默认的 EUDC/PUA 字体和单独的 EUDC/PUA 字体作为 .tte 文件安装。 EUDC 编辑器和控制面板等应用程序必须使用注册表项来添加、修改和删除此类字体 。
上面描述摘自微软文档 https://learn.microsoft.com/zh-cn/windows/win32/intl/character-sets-and-fonts 。
EUDC 注册表项包含一个或多个子项,这些子项包含的值定义与给定代码页 的最终用户定义字符关联的字体 (EUDC) 。 它具有以下注册表位置: HKEY_CURRENT_USER\EUDC 。
EUDCCodeRange 注册表项 (EUDC) 代码范围 (字符集) 定义最终用户定义字符。 它仅由创建 EUDC 的工具使用,对欧盟发展委员会用户没有直接关系.
所以为啥微软系的应用能够显示这个字呢,上面字符集和字体描述可以看到自己可以定义EUDC,在 微软字符映射表 中有一类叫做“专用字符”,而这个专用字符就是我们自己可以定义的PUA区域。 我们找到系统的字符映射表:
可以看到这个字刚好对应 U+E188 。 我们找到注册表,并查看上面表格中codePage中对应的936为中文简体,看到字体文件位置.
找到对应的字体文件,并引入到html中,我们就能在任何浏览器看到这个字了.
简单的写一个html:
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<style>
@font-face {
font-family: "SGPYEUDC";
src: url("SGPYEUDC_1.TTE") format("truetype");
}
</style>
</head>
<body style="font-family:Microsoft YaHei,SGPYEUDC">
<p></p>
</body>
</html>
最后此篇关于你能看到这个汉字么“”?关于Unicode的私人使用区(PUA)和浏览器端显示处理的文章就讲到这里了,如果你想了解更多关于你能看到这个汉字么“”?关于Unicode的私人使用区(PUA)和浏览器端显示处理的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
关闭。这个问题需要更多 focused .它目前不接受答案。 想改进这个问题?更新问题,使其仅关注一个问题 editing this post . 4年前关闭。 Improve this questi
我已经完成了注册页面,并且运行顺利。 现在我需要弄清楚登录部分。我想要它,所以一旦用户登录,它就会将他们带到私有(private)页面,只有登录的用户才能看到。 它不需要针对每个用户进行个性化设置,只
出于个人好奇心,我目前正在学习区 block 链的工作原理。我正在学习这门类(class),现在我已经使用网络套接字设置了点对点连接。区 block 链应用程序的多个实例现在可以使用这些套接字运行并相
我读过: The blockchain database isn’t stored in any single location, meaning the records it keeps are t
Closed. This question needs to be more focused。它当前不接受答案。 想要改善这个问题吗?更新问题,使它仅关注editing this post的一个问题。
如果我在区块链中进行交易,是否只有在将交易添加到区块链后才会进行比特币转账?如果是这样,挖掘区块可能需要时间,并且无法进行紧急付款。那么这不是区块链的劣势吗? 最佳答案 如果您不重视能够在没有第三方(
Closed. This question needs to be more focused。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题
根据我的理解,我读到的关于区 block 链的所有内容都表明,即使在私有(private)区 block 链上,每个参与者都可以查看所有交易。我看到它提到区 block 链的一个用例可能是共享医疗数据
服务器正在发送消息时,如何阻止连接到服务器的一个IP地址。我的发送消息选项程序如下所示。 private void buttonSendMsg_Click(对象发送者,EventArgs e) {
iam正在hadoop apache 2.7.1上工作 和iam添加大小不超过100 Kb的文件 所以如果我将块大小配置为1 mb或默认值是 128兆字节 不会影响我的文件,因为它们只会保存在一个块中
我有一个docker-compose文件here。我可以连接到7051并注册我的chaincode客户端,但是当我尝试连接到localhost:7050时,我得到一个错误,该错误在使用curl测试时如
从数据类型来看,区 block 链是单链表吗?因为每个 block 都使用哈希引用前一个 block 。 或者它是某种树? 最佳答案 区 block 链表示为单链表的方式。每个 block 都有前一个
我无法理解给定代码片段的 hashcode() 部分。 我尝试过搜索它,但我无法弄清楚。 this.hash = Arrays.hashCode(new Integer[]{data.has
已关闭。这个问题是 not about programming or software development 。目前不接受答案。 这个问题似乎不是关于 a specific programming
我正在通过一些在线示例学习区 block 链。我有这个高级代码,我用以前的哈希创建一个新 block ,然后向它添加一个事务,然后生成 block 的困难哈希(有 8 个前导零) Block blo
我们有一个包含一些数字商品的网站。从那里购买的用户需要用 BTC 购买一些信用。在他购买信用卡后,脚本必须将他用 BTC 购买的货币 (USD) 数量加载到他的账户中。 所以这里我们有 HTML 表单
我目前正在使用 enumerateObjectsUsingBlock block 在 subview 下进行枚举,我怎样才能确定 block 的完成? 下面是区 block 内容 [self.view
我通常将显示 block 放在链接上,以使按钮的所有 div 都处于事件状态,而不仅仅是文本。但在这种情况下,我需要在 ul li 中使用 display:inline-block 我认为这会禁用其他
我正在尝试创建付款账单并通过电报机器人发送给我的客户:我正在使用区 block 链 API V2-https://blockchain.info/api/api 接收。我的代码是: xpub='***
有个面试题:区 block 链和不可变链表有什么区别? 我回答他们是相同的技术,然后没有通过测试。请纠正我的错误。 最佳答案 链表中的每一项通常通过指针或内存地址指向链表中的下一项。 区 block
我是一名优秀的程序员,十分优秀!