gpt4 book ai didi

html - 常用的非打印字符有多少?

转载 作者:行者123 更新时间:2023-12-04 07:02:30 24 4
gpt4 key购买 nike

在为 PDF、HTML 和其他文档编写解释器时,我们需要处理各种空白字符和额外的非打印字符。 ANSI 的定义很好,但在实践中可能会发现多少其他的?一个典型的例子是 ISO10646 中的集群(我认为):

                     en space
        em space
        thin space
‌ ‌ ‌ ‌ zero width non-joiner
‍ ‍ ‍ ‍ zero width joiner
‎ ‎ ‎ ‎ left-to-right mark
‏ ‏ ‏ ‏ right-to-left mark

(出于显而易见的原因,字符没有出现在上面!)。

最佳答案

Unicode 将在很长一段时间内以越来越多的方式与我们同在。如果 HTML 或 XML 文档是用 UTF-8 编码的 Unicode 编写的,那么您应该期望出现所有这些。

在 Unicode(Unicode 字符数据库)中,以下代码点被定义为空格:

U+0009–U+000D (control characters, containing Tab, CR and LF)
U+0020 SPACE
U+0085 NEL (control character next line)
U+00A0 NBSP (NO-BREAK SPACE)
U+1680 OGHAM SPACE MARK
U+180E MONGOLIAN VOWEL SEPARATOR
U+2000–U+200A (different sorts of spaces)
U+2028 LS (LINE SEPARATOR)
U+2029 PS (PARAGRAPH SEPARATOR)
U+202F NNBSP (NARROW NO-BREAK SPACE)
U+205F MMSP (MEDIUM MATHEMATICAL SPACE)
U+3000 IDEOGRAPHIC SPACE

关于html - 常用的非打印字符有多少?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1627481/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com