python - 如何在 Python 中仅使用 "A-Z","a-z","0-9"和 "

python - 如何在 Python 中仅使用 "A-Z","a-z","0-9"和 "_"对 UTF-8 字符串进行编码

转载作者：行者123 更新时间：2023-11-28 21:50:20

26

4

我需要构建一个 python 编码器，以便我可以像这样重新格式化字符串:

import codecs
codecs.encode("Random 🐍 UTF-8 String ☑⚠⚡", 'name_of_my_encoder')

这甚至是我要问堆栈溢出的原因是，编码的字符串需要通过此验证函数。这是一个硬约束，没有灵 active ，这是由于必须如何存储字符串。

from string import ascii_letters
from string import digits

valid_characters = set(ascii_letters + digits + ['_'])

def validation_function(characters):
    for char in characters:
        if char not in valid_characters:
            raise Exception

制作一个编码器似乎很容易，但我不确定这个编码器是否让构建解码器变得更加困难。这是我编写的编码器。

from codecs import encode
from string import ascii_letters
from string import digits

ALPHANUMERIC_SET = set(ascii_letters + digits)

def underscore_encode(chars_in):
    chars_out = list()
    for char in chars_in:
        if char not in ALPHANUMERIC_SET:
            chars_out.append('_{}_'.format(encode(char.encode(), 'hex').decode('ascii')))
        else:
            chars_out.append(char)
    return ''.join(chars_out)

这是我写的编码器。我只是出于示例目的将其包括在内，可能有更好的方法来执行此操作。

编辑 1 - 有人明智地指出对整个字符串使用 base32，我绝对可以使用。但是，最好有一些“有点可读”的东西，所以像 https://en.wikipedia.org/wiki/Quoted-printable 这样的转义系统或 https://en.wikipedia.org/wiki/Percent-encoding将是首选。

编辑 2 - 建议的解决方案必须适用于 Python 3.4 或更新版本，适用于 Python 2.7 也不错，但不是必需的。我添加了 python-3.x 标签来帮助澄清这一点。

最佳答案

这似乎可以解决问题。基本上，字母数字字母被单独留下。 ASCII 集中的任何非字母数字字符都被编码为 \xXX 转义码。所有其他 unicode 字符都使用 \uXXXX 转义码进行编码。但是，您说过不能使用 \，但可以使用 _，因此所有转义序列都被翻译为以 _ 开头>。这使得解码极其简单。只需将 _ 替换为 \ ，然后使用 unicode-escape 编解码器。编码稍微困难一些，因为 unicode-escape 编解码器单独保留 ASCII 字符。所以首先你必须转义相关的 ASCII 字符，然后通过 unicode-escape 编解码器运行字符串，最后将所有 \ 转换为 _ .

代码:

from string import ascii_letters, digits

# non-translating characters
ALPHANUMERIC_SET = set(ascii_letters + digits)    
# mapping all bytes to themselves, except '_' maps to '\'
ESCAPE_CHAR_DECODE_TABLE = bytes(bytearray(range(256)).replace(b"_", b"\\"))
# reverse mapping -- maps `\` back to `_`
ESCAPE_CHAR_ENCODE_TABLE = bytes(bytearray(range(256)).replace(b"\\", b"_"))
# encoding table for ASCII characters not in ALPHANUMERIC_SET
ASCII_ENCODE_TABLE = {i: u"_x{:x}".format(i) for i in set(range(128)) ^ set(map(ord, ALPHANUMERIC_SET))}



def encode(s):
    s = s.translate(ASCII_ENCODE_TABLE) # translate ascii chars not in your set
    bytes_ = s.encode("unicode-escape")
    bytes_ = bytes_.translate(ESCAPE_CHAR_ENCODE_TABLE)
    return bytes_

def decode(s):
    s = s.translate(ESCAPE_CHAR_DECODE_TABLE)
    return s.decode("unicode-escape")

s = u"Random UTF-8 String ☑⚠⚡"
#s = '北亰'
print(s)
b = encode(s)
print(b)
new_s = decode(b)
print(new_s)

哪些输出:

Random UTF-8 String ☑⚠⚡
b'Random_x20UTF_x2d8_x20String_x20_u2611_u26a0_u26a1'
Random UTF-8 String ☑⚠⚡

这适用于 python 3.4 和 python 2.7，这就是为什么 ESCAPE_CHAR_{DE,EN}CODE_TABLE 有点乱 bytes on python 2.7 is an alias for str，与 python 3.4 上的 bytes 不同。这就是使用 bytearray 构建表的原因。对于 python 2.7，encode 方法需要一个 unicode 对象而不是 str。

关于python - 如何在 Python 中仅使用 "A-Z","a-z","0-9"和 "_"对 UTF-8 字符串进行编码，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32035520/

26

4

0

文章推荐： python - Lasagne/Theano 维数错误

文章推荐： oracle - 热重新部署和 Oracle 数据库的 Permgen 内存泄漏

文章推荐： python - 为任何架构获得尽可能高的 gmtime

文章推荐： python的seaborn jointplot，每个直方图的颜色不同

c++ - #define for(int z=0;z<2;++z)for(int z=0;z<2;++z)for 中的第三个 'for' 是什么意思
我在一个C++程序中找到了一段代码，好像每隔for()循环两次。在这个程序中循环，但为什么在这样的预处理器定义中需要第三个 for 呢？ #define for for(int z=0;z<2;++z
java - 为什么 [a-z][A-Z] 给出的结果与 [ą-ž][Ą-Ž] 不同？
我正在尝试分割其中有一个小写字母后跟一个大写字母的文本。假设文本是: “Įvairių rūšiųSkinti kardeliai” 我想在“ųS”处拆分它，但是以下正则表达式“[ą-ž][Ą-Ž]
java - [a-z][a-z]* 和 [a-z]+ 正则表达式之间的区别
这个问题在这里已经有了答案: Reference - What does this regex mean? (1 个回答) 关闭 2 年前。下面的正则表达式有什么区别。对我来说，它们都是一样的 [
java正则表达式 [A-Z]{6}-[A-Z]{4}-[A-Z]{4}
我正在尝试用 Java 编写一个正则表达式: "/[A-Z]{6}-[A-Z]{4}-[A-Z]{4}/" 但是它不起作用。例如 "AASAAA-AAAA-AAAA".matches("/[A-Z]{
java - 测试字符串是否为 Java 变量标识符 : (a-z, A-Z,_,$) 后跟 (a-z,A-Z,0-9,_,$)
我需要确定一个字符串是否是一个变量标识符。即(a-z,A-Z,,$) 后跟 (a-z,A-Z,0-9,,$) 我知道我可以使用手动配置的 reg exp 来完成它，但必须有一个更紧凑的内置函数我可以
algorithm - 三个正数 x、y、z 的组合，使得 x + y、x - y、y + z、y - z、x + z 和 x - z 是完全平方数
早上好，我是新来的，我带来了一个小问题。我无法针对以下问题开发有效的算法:我需要找到三个正数 x、y 和 z 的组合，以便 x + y、x - y、y + z、y - z、x + z 和 x - z
c - 返回 z < 0 是什么？ z + y : z mean?
这个问题已经有答案了: How does the ternary operator work? (12 个回答) 已关闭 6 年前。我发现了一种不同的返回值的方式，并且很兴奋。它到底是什么意思？如
正则表达式 a-zA-Z 或 a-zA-Z 后跟 - 和 a-zA-Z
我需要以下正则表达式，允许 [a-zA-Z]+ 或 [a-zA-Z]+[ \\-]{0,1}[a-zA-Z]+ 所以我想在 a-zA-Z 字符之间允许无限的减号和空格示例: sdfsdfdsf-sf
python - 将多项式 w(z) 转换为 w((1-z)/(1+z))
我正在编写一个代码，它以“代码”(编码理论)作为输入，并且我已经计算了它的权重枚举器。我想使用 MacWilliams Identity 找到双代码的权重枚举器. 我有W(z) ，代码的权重枚举器，我
mysql - 如何通过 Alpha 集(a-z，a-z，a-z ...)制作简单的 MySQL Order
我已经编写了一个 child 文字游戏，现在我正在尝试优化性能。游戏以一种特殊的方式从数据库中挑选关键词，我想做得更好。给定一个按字母数字排序的 MySQL 关键字字段: keyword s
javascript - 如何使用正则表达式从字符串中去除 [a-z]/[a-z]/？
假设一个字符串是abc/xyz/IMPORTANT/DATA/@#!%@!%，我只想要IMPORTANT/DATA/!%#@%!#% 我对正则表达式很烂，而且真的还没学过 JavaScript API
JS中产生20位随机数以0-9为例也可以是a-z A-Z
JS代码： ? 1
python - 切片 : Generates a list of lists [a, b,c,...z] = [z], [y,z]
大家晚上好我想知道有没有更快的方法来生成以下形式的列表？ [a,b,c,…,z] → [[z], [y,z], [x,y,z], … , [a,b,…,y,z]] 我知道切片是最好的方法之一，但没有更
javascript - Firefox 上的嵌套 z-index 问题，较高的 z-index 落后于较低的 z-index
我在 Firefox 和其他浏览器上遇到嵌套 z-index 的问题，我有一个 div，z-index 为 30000，位于 label 下方> zindex 为 9000。我认为这是由 z-inde
jquery - z-index:20 出现在 z-index:10 下面，即使它的 z 索引更大
我正在尝试制作一个灯泡。这是代码 JSfiddle HTML 查询 $('.button').click(function() { $('#add').show();
python - "from x.y import z"和 "import x.y.z as z"之间的区别
在您想将嵌套模块导入命名空间的情况下，我总是这样写: from concurrent import futures 不过，我最近意识到这也可以使用“as”语法来表达。请参阅以下内容: import c
c++ - 在 C++ 中创建一个执行 Matlab 操作 [z;z] 的函数，其中 z 是矩阵或 vector
我正在尝试创建一个基本上复制 matlab 命令的函数:[z;-z] 其中 z = randn(m,n) 返回一个 m -by-n 随机条目矩阵。我能够在 C++ 中为下面的 randn 函数创建一个
c - char * x,y,z;char* x,y,z;char (*)x,y,z; 和有什么区别？
好吧，我迷失在这些指针中，有人能准确地告诉我 char * x,y,z; 和 char* x,y,z 之间的区别是什么; 和 char (*)x,y,z; ？如果可以，请为您的答案或其他内容提供资源。
mysql - 如果 xy 决定 z，那么 x 决定 z 和 y 决定 z 吗？
这是一道函数依赖题。我知道当 x->yz 然后 x->y 和 x->z 时。但是上面的依赖关系可能吗？最佳答案 If xy determines z can x determine z and y
python - 映射和使用 (X, Y)、(X,Z) 和 (Y,Z) 对以及关联的 X、Y 或 Z 坐标
我有一个列表列表 nLedgers - 一个 3D 点云: [nodeID, X, Y, Z] 多行。一些节点将具有相同的 X 和 Y 坐标以及不同的 Z 坐标。我想首先确定具有相同 X 和 Y 坐

首页

博学

6Ren·AI

商城

python - 如何在 Python 中仅使用 "A-Z","a-z","0-9"和 "_"对 UTF-8 字符串进行编码