gpt4 book ai didi

python - 如何在 Python 中仅使用 "A-Z","a-z","0-9"和 "_"对 UTF-8 字符串进行编码

转载 作者:行者123 更新时间:2023-11-28 21:50:20 26 4
gpt4 key购买 nike

我需要构建一个 python 编码器,以便我可以像这样重新格式化字符串:

import codecs
codecs.encode("Random 🐍 UTF-8 String ☑⚠⚡", 'name_of_my_encoder')

这甚至是我要问堆栈溢出的原因是,编码的字符串需要通过此验证函数。这是一个硬约束,没有灵 active ,这是由于必须如何存储字符串。

from string import ascii_letters
from string import digits

valid_characters = set(ascii_letters + digits + ['_'])

def validation_function(characters):
for char in characters:
if char not in valid_characters:
raise Exception

制作一个编码器似乎很容易,但我不确定这个编码器是否让构建解码器变得更加困难。这是我编写的编码器。

from codecs import encode
from string import ascii_letters
from string import digits

ALPHANUMERIC_SET = set(ascii_letters + digits)

def underscore_encode(chars_in):
chars_out = list()
for char in chars_in:
if char not in ALPHANUMERIC_SET:
chars_out.append('_{}_'.format(encode(char.encode(), 'hex').decode('ascii')))
else:
chars_out.append(char)
return ''.join(chars_out)

这是我写的编码器。我只是出于示例目的将其包括在内,可能有更好的方法来执行此操作。

编辑 1 - 有人明智地指出对整个字符串使用 base32,我绝对可以使用。但是,最好有一些“有点可读”的东西,所以像 https://en.wikipedia.org/wiki/Quoted-printable 这样的转义系统或 https://en.wikipedia.org/wiki/Percent-encoding将是首选。

编辑 2 - 建议的解决方案必须适用于 Python 3.4 或更新版本,适用于 Python 2.7 也不错,但不是必需的。我添加了 python-3.x 标签来帮助澄清这一点。

最佳答案

这似乎可以解决问题。基本上,字母数字字母被单独留下。 ASCII 集中的任何非字母数字字符都被编码为 \xXX 转义码。所有其他 unicode 字符都使用 \uXXXX 转义码进行编码。但是,您说过不能使用 \,但可以使用 _,因此所有转义序列都被翻译为以 _ 开头>。这使得解码极其简单。只需将 _ 替换为 \ ,然后使用 unicode-escape 编解码器。编码稍微困难一些,因为 unicode-escape 编解码器单独保留 ASCII 字符。所以首先你必须转义相关的 ASCII 字符,然后通过 unicode-escape 编解码器运行字符串,最后将所有 \ 转换为 _ .

代码:

from string import ascii_letters, digits

# non-translating characters
ALPHANUMERIC_SET = set(ascii_letters + digits)
# mapping all bytes to themselves, except '_' maps to '\'
ESCAPE_CHAR_DECODE_TABLE = bytes(bytearray(range(256)).replace(b"_", b"\\"))
# reverse mapping -- maps `\` back to `_`
ESCAPE_CHAR_ENCODE_TABLE = bytes(bytearray(range(256)).replace(b"\\", b"_"))
# encoding table for ASCII characters not in ALPHANUMERIC_SET
ASCII_ENCODE_TABLE = {i: u"_x{:x}".format(i) for i in set(range(128)) ^ set(map(ord, ALPHANUMERIC_SET))}



def encode(s):
s = s.translate(ASCII_ENCODE_TABLE) # translate ascii chars not in your set
bytes_ = s.encode("unicode-escape")
bytes_ = bytes_.translate(ESCAPE_CHAR_ENCODE_TABLE)
return bytes_

def decode(s):
s = s.translate(ESCAPE_CHAR_DECODE_TABLE)
return s.decode("unicode-escape")

s = u"Random UTF-8 String ☑⚠⚡"
#s = '北亰'
print(s)
b = encode(s)
print(b)
new_s = decode(b)
print(new_s)

哪些输出:

Random UTF-8 String ☑⚠⚡
b'Random_x20UTF_x2d8_x20String_x20_u2611_u26a0_u26a1'
Random UTF-8 String ☑⚠⚡

这适用于 python 3.4 和 python 2.7,这就是为什么 ESCAPE_CHAR_{DE,EN}CODE_TABLE 有点乱 bytes on python 2.7 is an alias for str,与 python 3.4 上的 bytes 不同。这就是使用 bytearray 构建表的原因。对于 python 2.7,encode 方法需要一个 unicode 对象而不是 str

关于python - 如何在 Python 中仅使用 "A-Z","a-z","0-9"和 "_"对 UTF-8 字符串进行编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32035520/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com