- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
string
模块包含一个 whitespace
属性,该属性是一个字符串,由所有被视为空白的 ASCII 字符组成。是否有相应的常量也包含 Unicode 空格,例如 no-break space (U+00A0) ?我们可以从问题“strip() and strip(string.whitespace) give different results”中看到,至少 strip
知道额外的 Unicode 空白字符。
此问题被识别为与 In Python, how to list all characters matched by POSIX extended regex [:space:]
? 重复,但该问题的答案确定了搜索空格字符以生成您自己的列表的方式。这是一个耗时的过程。我的问题是关于一个常量。
最佳答案
Is there a Python constant for Unicode whitespace?
简短回答:否。我个人在 Python 代码库中对这些字符(特别是数字代码点)进行了 grep,但不存在这样的常量。
以下部分解释了为什么不需要它,以及在没有此信息作为常量可用的情况下如何实现它。但是拥有这样一个常数也是一个非常糟糕的主意。
如果 Unicode 联盟添加了另一个语义空白字符/代码点,Python 的维护者将在继续支持语义不正确的代码或更改常量和可能破坏可能(不建议) 假设常数不变。
它如何添加这些字符代码点? Unicode 中有 1,111,998 个可能的字符。但截至 version 8 仅占用 120,672 个.每个新版本的 Unicode 都可能添加额外的字符。其中一个新字符可能是一种空格。
确定什么是unicode中的空白的代码是下面动态生成的code .
# Generate code for _PyUnicode_IsWhitespace()
print("/* Returns 1 for Unicode characters having the bidirectional", file=fp)
print(" * type 'WS', 'B' or 'S' or the category 'Zs', 0 otherwise.", file=fp)
print(" */", file=fp)
print('int _PyUnicode_IsWhitespace(const Py_UCS4 ch)', file=fp)
print('{', file=fp)
print(' switch (ch) {', file=fp)
for codepoint in sorted(spaces):
print(' case 0x%04X:' % (codepoint,), file=fp)
print(' return 1;', file=fp)
print(' }', file=fp)
print(' return 0;', file=fp)
print('}', file=fp)
print(file=fp)
这是一个 switch 语句,它是一个常量代码块,但是这个信息不像字符串模块那样作为一个“常量”模块可用。相反,它隐藏在从 C 编译的函数中,不能从 Python 直接访问。
这可能是因为随着更多代码点被添加到 Unicode 中,出于向后兼容性的原因,我们将无法更改常量。
这是当前生成的代码at the tip :
int _PyUnicode_IsWhitespace(const Py_UCS4 ch)
{
switch (ch) {
case 0x0009:
case 0x000A:
case 0x000B:
case 0x000C:
case 0x000D:
case 0x001C:
case 0x001D:
case 0x001E:
case 0x001F:
case 0x0020:
case 0x0085:
case 0x00A0:
case 0x1680:
case 0x2000:
case 0x2001:
case 0x2002:
case 0x2003:
case 0x2004:
case 0x2005:
case 0x2006:
case 0x2007:
case 0x2008:
case 0x2009:
case 0x200A:
case 0x2028:
case 0x2029:
case 0x202F:
case 0x205F:
case 0x3000:
return 1;
}
return 0;
}
以下代码(来 self 的回答 here )在 Python 3 中生成一个全空格常量:
import re
import sys
s = ''.join(chr(c) for c in range(sys.maxunicode+1))
ws = ''.join(re.findall(r'\s', s))
作为一种优化,您可以将其存储在代码库中,而不是在每个新进程中自动生成它,但我会告诫不要假设它永远不会改变。
>>> ws
'\t\n\x0b\x0c\r\x1c\x1d\x1e\x1f \x85\xa0\u1680\u2000\u2001\u2002\u2003\u2004\u2005\u2006\u2007\u2008\u2009\u200a\u2028\u2029\u202f\u205f\u3000'
(链接的问题的其他答案显示如何为 Python 2 获取该问题。)
请记住,在某一时刻,有些人可能认为 256 个字符编码就是我们所需要的全部。
>>> import string
>>> string.whitespace
' \t\n\r\x0b\x0c'
如果您坚持在代码库中保留常量,只需为您的 Python 版本生成常量,并将其存储为文字:
unicode_whitespace = u'\t\n\x0b\x0c\r\x1c\x1d\x1e\x1f \x85\xa0\u1680\u2000\u2001\u2002\u2003\u2004\u2005\u2006\u2007\u2008\u2009\u200a\u2028\u2029\u202f\u205f\u3000'
u
前缀使其在 Python 2 中成为 unicode(2.7 恰好也将上面的整个字符串识别为空格),而在 Python 3 中它被忽略,因为默认情况下字符串文字是 unicode。
关于python - 是否有用于 Unicode 空白的 Python 常量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37903317/
我有一个 if 语句,如下所示 if (not(fullpath.lower().endswith(".pdf")) or not (fullpath.lower().endswith(tup
然而,在 PHP 中,可以: only appears if $foo is true. only appears if $foo is false. 在 Javascript 中,能否在一个脚
XML有很多好处。它既是机器可读的,也是人类可读的,它具有标准化的格式,并且用途广泛。 它也有一些缺点。它是冗长的,不是传输大量数据的非常有效的方法。 XML最有用的方面之一是模式语言。使用模式,您可
由于长期使用 SQL2000,我并没有真正深入了解公用表表达式。 我给出的答案here (#4025380)和 here (#4018793)违背了潮流,因为他们没有使用 CTE。 我很欣赏它们对于递
我有一个应用程序: void deleteObj(id){ MyObj obj = getObjById(id); if (obj == null) { throw n
我的代码如下。可能我以类似的方式多次使用它,即简单地说,我正在以这种方式管理 session 和事务: List users= null; try{ sess
在开发J2EE Web应用程序时,我通常会按以下方式组织我的包结构 com.jameselsey.. 控制器-控制器/操作转到此处 服务-事务服务类,由控制器调用 域-应用程序使用的我的域类/对象 D
这更多是出于好奇而不是任何重要问题,但我只是想知道 memmove 中的以下片段文档: Copying takes place as if an intermediate buffer were us
路径压缩涉及将根指定为路径上每个节点的新父节点——这可能会降低根的等级,并可能降低路径上所有节点的等级。有办法解决这个问题吗?有必要处理这个吗?或者,也许可以将等级视为树高的上限而不是确切的高度? 谢
我有两个类,A 和 B。A 是 B 的父类,我有一个函数接收指向 A 类型类的指针,检查它是否也是 B 类型,如果是将调用另一个函数,该函数接受一个指向类型 B 的类的指针。当函数调用另一个函数时,我
有没有办法让 valgrind 使用多个处理器? 我正在使用 valgrind 的 callgrind 进行一些瓶颈分析,并注意到我的应用程序中的资源使用行为与在 valgrind/callgrind
假设我们要使用 ReaderT [(a,b)]超过 Maybe monad,然后我们想在列表中进行查找。 现在,一个简单且不常见的方法是: 第一种可能性 find a = ReaderT (looku
我的代码似乎有问题。我需要说的是: if ( $('html').attr('lang').val() == 'fr-FR' ) { // do this } else { // do
根据this文章(2018 年 4 月)AKS 在可用性集中运行时能够跨故障域智能放置 Pod,但尚不考虑更新域。很快就会使用更新域将 Pod 放入 AKS 中吗? 最佳答案 当您设置集群时,它已经自
course | section | type comart2 : bsit201 : lec comart2 :
我正在开发自己的 SDK,而这又依赖于某些第 3 方 SDK。例如 - OkHttp。 我应该将 OkHttp 添加到我的 build.gradle 中,还是让我的 SDK 用户包含它?在这种情况下,
随着 Rust 越来越充实,我对它的兴趣开始激起。我喜欢它支持代数数据类型,尤其是那些匹配的事实,但是对其他功能习语有什么想法吗? 例如标准库中是否有标准过滤器/映射/归约函数的集合,更重要的是,您能
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 9 年前。 Improve
我一直在研究 PHP 中的对象。我见过的所有示例甚至在它们自己的对象上都使用了对象构造函数。 PHP 会强制您这样做吗?如果是,为什么? 例如: firstname = $firstname;
...比关联数组? 关联数组会占用更多内存吗? $arr = array(1, 1, 1); $arr[10] = 1; $arr[] = 1; // <- index is 11; does the
我是一名优秀的程序员,十分优秀!