- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
《我的世界》 ้้้ก็็็็็็็็็็็็็็็็็็็็ก็็็็็็็็็็็็็็็ ็็็็็ กิิิิิิิิิิิิิิิิิิิิก้้้้้้้้้้้้้้ ้้้้้้ ก็็็็็็็็็็็็็็็็็็็็ กิิิิิิิิิิิิ ิิิิิิิิก้้้้้้้้้้้้้้้้้้้้กิิิิิิิิิิ ิิิิิิิิิิก้้้้้้้้้้้้้้้้้้้้ก็็็็็็็็็ ็็็็็็็็็็็ ก็็็็็็็็็็็็็็็็็็็็ กิิิิิิิ ิิิิิิิิิิิิิก้้้้้้้้้้้้้้้้้้้้้้้ก็็็็็ ็็็็็็็็็็็็็็็กิิิิิิิิิิิิิิิิิิิิก้้้้ ้้้้้้้้้้้้้้้้
这些最近出现在 Facebook 评论部分。
我们如何清理它?
最佳答案
What's up with these unicode characters?
这是一个带有一系列combining characters的角色。因为所讨论的组合字符想要高于基本字符,所以它们堆叠起来(字面意思)。例如,
...这是一个 ก(泰语字符 ko kai)( U+0E01 ),后跟 20 个泰语组合字符 mai tho ( U+0E49 ) .
How can we sanitize this?
您可以预处理文本并限制可应用于单个字符的组合字符的数量,但这种努力可能不值得。您需要所有当前字符的数据表,以便您知道它们是否组合或是什么,并且您需要确保至少允许一些字符,因为某些语言是在一个基础上使用多个变音符号编写的。现在,如果您想将注释限制为拉丁字符集,这将是一个更容易的范围检查,但当然,如果您想将注释限制为几种语言,那么这只是一个选项。更多信息、代码表等,请访问 unicode.org .
顺便说一句,如果你想知道某个字符是如何组成的,对于最近的另一个问题,我编码了一个 quick-and-dirty "Unicode Show Me" page在 JSBin 上。您只需将文本复制并粘贴到文本区域中,它就会显示文本组成的所有代码点(~字符),以及描述每个字符的页面的链接,例如上面的链接。它仅适用于 U+FFFF 及以下范围内的代码点,因为它是用 JavaScript 编写的,并且要在 JavaScript 中处理 U+FFFF 以上的字符,您必须做比我想要为该问题做的更多工作(因为在 JavaScript 中, “字符”总是 16 位,这意味着对于某些语言,一个字符可以分为两个单独的 JavaScript“字符”(我没有考虑到这一点),但它对于大多数文本来说都很方便。 .
关于unicode - 这些 Unicode 组合字符是怎么回事?我们如何过滤它们?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10414864/
我是一名优秀的程序员,十分优秀!