python - 是否有用于 Unicode 空白的 Python 常量？-6ren

python - 是否有用于 Unicode 空白的 Python 常量？

转载作者：IT老高更新时间：2023-10-28 21:03:29

28

4

string 模块包含一个 whitespace 属性，该属性是一个字符串，由所有被视为空白的 ASCII 字符组成。是否有相应的常量也包含 Unicode 空格，例如 no-break space (U+00A0) ?我们可以从问题“strip() and strip(string.whitespace) give different results”中看到，至少 strip 知道额外的 Unicode 空白字符。

此问题被识别为与 In Python, how to list all characters matched by POSIX extended regex [:space:]? 重复，但该问题的答案确定了搜索空格字符以生成您自己的列表的方式。这是一个耗时的过程。我的问题是关于一个常量。

最佳答案

Is there a Python constant for Unicode whitespace?

简短回答:否。我个人在 Python 代码库中对这些字符(特别是数字代码点)进行了 grep，但不存在这样的常量。

以下部分解释了为什么不需要它，以及在没有此信息作为常量可用的情况下如何实现它。但是拥有这样一个常数也是一个非常糟糕的主意。

如果 Unicode 联盟添加了另一个语义空白字符/代码点，Python 的维护者将在继续支持语义不正确的代码或更改常量和可能破坏可能(不建议) 假设常数不变。

它如何添加这些字符代码点？ Unicode 中有 1,111,998 个可能的字符。但截至 version 8 仅占用 120,672 个.每个新版本的 Unicode 都可能添加额外的字符。其中一个新字符可能是一种空格。

信息存储在动态生成的 C 函数中

确定什么是unicode中的空白的代码是下面动态生成的code .

# Generate code for _PyUnicode_IsWhitespace()
print("/* Returns 1 for Unicode characters having the bidirectional", file=fp)
print(" * type 'WS', 'B' or 'S' or the category 'Zs', 0 otherwise.", file=fp)
print(" */", file=fp)
print('int _PyUnicode_IsWhitespace(const Py_UCS4 ch)', file=fp)
print('{', file=fp)
print('    switch (ch) {', file=fp)
for codepoint in sorted(spaces):
    print('    case 0x%04X:' % (codepoint,), file=fp)
print('        return 1;', file=fp)
print('    }', file=fp)
print('    return 0;', file=fp)
print('}', file=fp)
print(file=fp)

这是一个 switch 语句，它是一个常量代码块，但是这个信息不像字符串模块那样作为一个“常量”模块可用。相反，它隐藏在从 C 编译的函数中，不能从 Python 直接访问。

这可能是因为随着更多代码点被添加到 Unicode 中，出于向后兼容性的原因，我们将无法更改常量。

生成的代码

这是当前生成的代码at the tip :

int _PyUnicode_IsWhitespace(const Py_UCS4 ch)
{
    switch (ch) {
    case 0x0009:
    case 0x000A:
    case 0x000B:
    case 0x000C:
    case 0x000D:
    case 0x001C:
    case 0x001D:
    case 0x001E:
    case 0x001F:
    case 0x0020:
    case 0x0085:
    case 0x00A0:
    case 0x1680:
    case 0x2000:
    case 0x2001:
    case 0x2002:
    case 0x2003:
    case 0x2004:
    case 0x2005:
    case 0x2006:
    case 0x2007:
    case 0x2008:
    case 0x2009:
    case 0x200A:
    case 0x2028:
    case 0x2029:
    case 0x202F:
    case 0x205F:
    case 0x3000:
        return 1;
    }
    return 0;
}

制作自己的常量:

以下代码(来 self 的回答 here )在 Python 3 中生成一个全空格常量:

import re
import sys

s = ''.join(chr(c) for c in range(sys.maxunicode+1))
ws = ''.join(re.findall(r'\s', s))

作为一种优化，您可以将其存储在代码库中，而不是在每个新进程中自动生成它，但我会告诫不要假设它永远不会改变。

>>> ws
'\t\n\x0b\x0c\r\x1c\x1d\x1e\x1f \x85\xa0\u1680\u2000\u2001\u2002\u2003\u2004\u2005\u2006\u2007\u2008\u2009\u200a\u2028\u2029\u202f\u205f\u3000'

(链接的问题的其他答案显示如何为 Python 2 获取该问题。)

请记住，在某一时刻，有些人可能认为 256 个字符编码就是我们所需要的全部。

>>> import string
>>> string.whitespace
' \t\n\r\x0b\x0c'

如果您坚持在代码库中保留常量，只需为您的 Python 版本生成常量，并将其存储为文字:

unicode_whitespace = u'\t\n\x0b\x0c\r\x1c\x1d\x1e\x1f \x85\xa0\u1680\u2000\u2001\u2002\u2003\u2004\u2005\u2006\u2007\u2008\u2009\u200a\u2028\u2029\u202f\u205f\u3000'

u 前缀使其在 Python 2 中成为 unicode(2.7 恰好也将上面的整个字符串识别为空格)，而在 Python 3 中它被忽略，因为默认情况下字符串文字是 unicode。

关于python - 是否有用于 Unicode 空白的 Python 常量？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37903317/

28

4

0

文章推荐： java - BasicDatasource 和 PoolingDatasource 的区别

文章推荐： java - String.subString() 和 String.subSequence() 有什么区别

Python 是否
我有一个 if 语句，如下所示 if (not(fullpath.lower().endswith(".pdf")) or not (fullpath.lower().endswith(tup
php - 是否/是否有任何浏览器允许控制流构造在脚本标签中存活？
然而，在 PHP 中，可以: only appears if $foo is true. only appears if $foo is false. 在 Javascript 中，能否在一个脚
binary - 是否(曾经有过)为任意二进制格式创建模式语言的努力？
XML有很多好处。它既是机器可读的，也是人类可读的，它具有标准化的格式，并且用途广泛。它也有一些缺点。它是冗长的，不是传输大量数据的非常有效的方法。 XML最有用的方面之一是模式语言。使用模式，您可
sql-server - 是否 CTE
由于长期使用 SQL2000，我并没有真正深入了解公用表表达式。我给出的答案here (#4025380)和 here (#4018793)违背了潮流，因为他们没有使用 CTE。我很欣赏它们对于递
java - 是否 hibernate 分离对象的默认乐观锁定？
我有一个应用程序: void deleteObj(id){ MyObj obj = getObjById(id); if (obj == null) { throw n
mysql - 是否 hibernate 关闭连接？
我的代码如下。可能我以类似的方式多次使用它，即简单地说，我正在以这种方式管理 session 和事务: List users= null; try{ sess
android - 是否/是否有适用于Android的标准程序包结构/层次结构做法？
在开发J2EE Web应用程序时，我通常会按以下方式组织我的包结构 com.jameselsey.. 控制器-控制器/操作转到此处服务-事务服务类，由控制器调用域-应用程序使用的我的域类/对象 D
c++ -/是否/memmove 使用中间缓冲区？
这更多是出于好奇而不是任何重要问题，但我只是想知道 memmove 中的以下片段文档: Copying takes place as if an intermediate buffer were us
algorithm - 在联合查找算法中，是否/如何调整节点在路径压缩中的等级
路径压缩涉及将根指定为路径上每个节点的新父节点——这可能会降低根的等级，并可能降低路径上所有节点的等级。有办法解决这个问题吗？有必要处理这个吗？或者，也许可以将等级视为树高的上限而不是确切的高度？谢
C++ 是否 reinterpret_cast 总是返回结果？
我有两个类，A 和 B。A 是 B 的父类，我有一个函数接收指向 A 类型类的指针，检查它是否也是 B 类型，如果是将调用另一个函数，该函数接受一个指向类型 B 的类的指针。当函数调用另一个函数时，我
c++ - Valgrind 是否/可以使用多个处理器？
有没有办法让 valgrind 使用多个处理器？我正在使用 valgrind 的 callgrind 进行一些瓶颈分析，并注意到我的应用程序中的资源使用行为与在 valgrind/callgrind
haskell - 是否/应该将函数包装到 monad 转换器中被视为不好的做法？
假设我们要使用 ReaderT [(a,b)]超过 Maybe monad，然后我们想在列表中进行查找。现在，一个简单且不常见的方法是: 第一种可能性 find a = ReaderT (looku
jQuery 检查 attr 是否=值
我的代码似乎有问题。我需要说的是: if ( $('html').attr('lang').val() == 'fr-FR' ) { // do this } else { // do
azure - AKS 是否/是否支持跨更新域传播 Pod？
根据this文章(2018 年 4 月)AKS 在可用性集中运行时能够跨故障域智能放置 Pod，但尚不考虑更新域。很快就会使用更新域将 Pod 放入 AKS 中吗？最佳答案当您设置集群时，它已经自
php - 查询以检查同一表中的 row1 = row2 是否
course | section | type comart2 : bsit201 : lec comart2 :
android - AAR 依赖项 - 是否 bundle ？
我正在开发自己的 SDK，而这又依赖于某些第 3 方 SDK。例如 - OkHttp。我应该将 OkHttp 添加到我的 build.gradle 中，还是让我的 SDK 用户包含它？在这种情况下，
functional-programming - Rust 是否/将支持函数式编程习惯用法？
随着 Rust 越来越充实，我对它的兴趣开始激起。我喜欢它支持代数数据类型，尤其是那些匹配的事实，但是对其他功能习语有什么想法吗？例如标准库中是否有标准过滤器/映射/归约函数的集合，更重要的是，您能
html - h1 :before{ } work for seo? 是否
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 9 年前。 Improve
php - 是否/为什么 php 强制您使用对象构造函数
我一直在研究 PHP 中的对象。我见过的所有示例甚至在它们自己的对象上都使用了对象构造函数。 PHP 会强制您这样做吗？如果是，为什么？例如: firstname = $firstname;
php - PHP 是否(在内部)以不同方式处理数字索引数组？
...比关联数组？关联数组会占用更多内存吗？ $arr = array(1, 1, 1); $arr[10] = 1; $arr[] = 1; // <- index is 11; does the

首页

博学

6Ren·AI

商城