gpt4 book ai didi

python - 如何检查是否分配了 Unicode 代码点?

转载 作者:行者123 更新时间:2023-12-05 04:42:50 26 4
gpt4 key购买 nike

我正在使用 Python 3,我对 hexintchrord'\uxxxx' 转义和 '\U00xxxxxx' 转义并且 Unicode 有 1114111 个代码点...

如何检查 Unicode 代码点是否有效?也就是说,它被明确映射到权威定义的字符。

例如,codepoint 720 是有效的;十六进制为0x2d0,U+02D0指向ː:

In [135]: hex(720)
Out[135]: '0x2d0'

In [136]: '\u02d0'
Out[136]: 'ː'

888 无效:

In [137]: hex(888)
Out[137]: '0x378'

In [138]: '\u0378'
Out[138]: '\u0378'

127744 是有效的:

In [139]: chr(127744)
Out[139]: '🌀'

并且 0xe0000 无效:

In [140]: '\U000e0000'
Out[140]: '\U000e0000'

我想出了一个相当棘手的解决方案:如果代码点有效,尝试将其转换为字符将导致解码字符或 '\xhh' 转义序列,否则它将返回与原始完全相同的未解码转义序列,我可以检查 chr 的返回值并检查它是否以 '\u''\你'...

现在是 hacky 部分,chr 不会解码无效代码点,但它也不会引发异常,并且转义序列的长度将为 1,因为它们被视为单个字符,我必须 repr 返回值并检查结果...

我已经使用这种方法来识别所有无效代码点:

In [130]: invalid = []

In [131]: for i in range(1114112):
...: if any(f'{chr(i)!r}'.startswith(j) for j in ("'\\U", "'\\u")):
...: invalid.append(i)

In [132]: from pathlib import Path

In [133]: invalid = [(hex(i).removeprefix('0x'), i) for i in invalid]

In [134]: Path('D:/invalid_unicode.txt').write_text(',\n'.join(map(repr, invalid)))
Out[134]: 18574537

谁能提供更好的解决方案?

最佳答案

我认为最直接的方法是使用 unicodedata.category()。OP 中的示例是未分配的代码点,其类别为 Cn(“其他,未分配”)。

>>> import unicodedata as ud
>>> ud.category('\u02d0')
'Lm'
>>> ud.category('\u0378') # unassigned
'Cn'
>>> ud.category(chr(127744))
'So'
>>> ud.category('\U000e0000') # unassigned
'Cn'

它也适用于 ASCII 范围内的控制字符:

>>> ud.category('\x00')
'Cc'

无效代码点的其他类别(根据评论)是Cs(“其他,代理”)和Co(“其他,私有(private)使用”):

>>> ud.category('\ud800')  # lower surrogate
'Cs'
>>> ud.category('\uf8ff') # private use
'Co'

因此代码点有效性的函数(根据 OP 的定义)可能如下所示:

def is_valid(char):
return ud.category(char) not in ('Cn', 'Cs', 'Co')

重要警告:Python 的 unicodedata 模块嵌入了特定版本的 Unicode,因此该信息可能已过时。例如,在我安装的 Python 3.8 中,Unicode 版本是 12.1.0,因此它不知道在更高版本的 Unicode 中分配的代码点:

>>> ud.unidata_version
'12.1.0'
>>> ud.category('\U0001fae0') # melting face emoji added in Unicode v14
'Cn'

如果您需要比 Python 版本更新的 Unicode 版本,您可能需要直接从 Unicode 获取适当的表。

关于python - 如何检查是否分配了 Unicode 代码点?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69778194/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com