gpt4 book ai didi

unicode - 这些 Unicode 组合字符是怎么回事?我们如何过滤它们?

转载 作者:行者123 更新时间:2023-12-03 05:02:04 26 4
gpt4 key购买 nike

《我的世界》 ้้้ก็็็็็็็็็็็็็็็็็็็็ก็็็็็็็็็็็็็็็ ็็็็็ กิิิิิิิิิิิิิิิิิิิิก้้้้้้้้้้้้้้ ้้้้้้ ก็็็็็็็็็็็็็็็็็็็็ กิิิิิิิิิิิิ ิิิิิิิิก้้้้้้้้้้้้้้้้้้้้กิิิิิิิิิิ ิิิิิิิิิิก้้้้้้้้้้้้้้้้้้้้ก็็็็็็็็็ ็็็็็็็็็็็ ก็็็็็็็็็็็็็็็็็็็็ กิิิิิิิ ิิิิิิิิิิิิิก้้้้้้้้้้้้้้้้้้้้้้้ก็็็็็ ็็็็็็็็็็็็็็็กิิิิิิิิิิิิิิิิิิิิก้้้้ ้้้้้้้้้้้้้้้้

这些最近出现在 Facebook 评论部分。

我们如何清理它?

最佳答案

What's up with these unicode characters?

这是一个带有一系列combining characters的角色。因为所讨论的组合字符想要高于基本字符,所以它们堆叠起来(字面意思)。例如,

...这是一个 ก(泰语字符 ko kai)( U+0E01 ),后跟 20 个泰语组合字符 mai tho ( U+0E49 ) .

How can we sanitize this?

可以预处理文本并限制可应用于单个字符的组合字符的数量,但这种努力可能不值得。您需要所有当前字符的数据表,以便您知道它们是否组合或是什么,并且您需要确保至少允许一些字符,因为某些语言是在一个基础上使用多个变音符号编写的。现在,如果您想将注释限制为拉丁字符集,这将是一个更容易的范围检查,但当然,如果您想将注释限制为几种语言,那么这只是一个选项。更多信息、代码表等,请访问 unicode.org .

顺便说一句,如果你想知道某个字符是如何组成的,对于最近的另一个问题,我编码了一个 quick-and-dirty "Unicode Show Me" page在 JSBin 上。您只需将文本复制并粘贴到文本区域中,它就会显示文本组成的所有代码点(~字符),以及描述每个字符的页面的链接,例如上面的链接。它仅适用于 U+FFFF 及以下范围内的代码点,因为它是用 JavaScript 编写的,并且要在 JavaScript 中处理 U+FFFF 以上的字符,您必须做比我想要为该问题做的更多工作(因为在 JavaScript 中, “字符”总是 16 位,这意味着对于某些语言,一个字符可以分为两个单独的 JavaScript“字符”(我没有考虑到这一点),但它对于大多数文本来说都很方便。 .

关于unicode - 这些 Unicode 组合字符是怎么回事?我们如何过滤它们?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10414864/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com