python - 将数据压缩成最小数量的文本？-6ren

python - 将数据压缩成最小数量的文本？

转载作者：太空狗更新时间：2023-10-30 02:51:12

24

4

我有要转换为可以复制/粘贴/通过电子邮件发送的文本的数据(主要是一系列的numpy数组)。我创建了执行此操作的以下公式。

def convert_to_ascii85(x):
    p = pickle.dumps(x)
    p = zlib.compress(p)
    return b64.b85encode(p)

我的问题是它产生的字符串比需要的更长，因为它仅使用字母，数字和符号的子集。如果我能够使用unicode进行编码，我觉得它可以产生较短的字符串，因为它可以访问更多字符。有没有办法做到这一点？

编辑以澄清:
我的目标不是最小的数据/信息/字节数。 我的目标是减少字符的数量。原因是我通过其发送数据的 channel 是用字符(准确地说是100k)而不是字节(奇怪，我知道)限制的。我已经测试过可以发送100k unicode字符，但是我不知道如何将字节转换为unicode。

最佳答案

更新:我刚刚看到您更改了问题，以澄清您关心的是字符长度而不是字节长度。这是一个非常奇怪的约束。我从来没有听说过。我不知道该怎么做。但是，如果这是您的需要，并且您想要可预测的阻止行为，那么我认为您的问题非常简单。只需选择可以表示最多可能的唯一字符的兼容字符编码，然后在该字符集上映射二进制文件的块，以使每个块都是最长的块，但其位数少于您的可表示字符的位数字符编码。每个这样的块然后成为单个字符。由于这种约束有点奇怪，所以我不知道是否有图书馆可以做到这一点。

UPDATE2:我对以上内容感到好奇，我只是Google搜索并找到了这个文件:https://qntm.org/unicodings。如果您的工具和通讯 channel 可以处理UFT-16或UTF-32，那么您可能会寻求使用它。如果是这样，我希望本文能为您提供所需的解决方案。我认为本文仍在针对字节长度与字符长度进行优化，因此也许这将无法提供最佳解决方案，但它只能提供帮助(每个字符32个潜在位，而不是7或8)。我找不到任何试图在字符数上进行优化的东西，但是也许像Base65536这样的UTF-32方案是您的答案。 checkout https://github.com/qntm/base65536。

如果您关心的是字节长度，并且想要坚持使用通常所说的“可打印字符”或“普通可打印文本”，那么这就是我的原始答案...

有一些选项可以从Base85以外的编码中获得更好的“可读文本”编码空间效率。还存在放弃更多空间效率并选择Base64的情况。在这里，我将同时使用Base85和Base64。如果您可以使用Base85，则二进制文件的膨胀只会降低25％，这样做可以省去很多麻烦。

如果试图将任意二进制编码为“纯文本”，Base85几乎是您将要做的最好的事情；如果您希望“纯文本”编码可以从逻辑上分解为有意义的东西，Base85是您可以做的最好的事情。，可预测的块。从理论上讲，您可以使用在高ASCII范围内使用可打印字符的字符集，但是经验表明，如果许多工具和通讯 channel 无法处理直接二进制，则它们不能很好地处理高ASCII。尝试使用每4个二进制字节中额外的5位，则没有太多的额外空间节省，因此使用256位高ASCII与128位ASCII可能会使用这些额外空间。

对于任何BaseXX编码，该算法都会采用传入的二进制位，并使用其可使用的XX可打印字符对它们进行尽可能严格的编码。 Base85将比Base64紧凑，因为它使用的打印字符(85)比Base64(64个字符)更多。

标准ASCII中有95个可打印字符。因此，存在一个Base95，它是使用所有可打印字符的最紧凑的编码。但是尝试使用所有95位都很麻烦，因为这会导致传入位的阻塞不均匀。每4个二进制字节映射到少于5个字符的小数部分。

原来，您需要将85个字符编码为4个字节，恰好将其编码为5个可打印字符。许多人会选择增加大约10％的额外长度，以达到每4个编码字节导致精确5个ASCII字符的事实。这只是二进制文件大小的25％膨胀。对于它所节省的所有头痛，这根本不是一件坏事。因此，Base85背后的动机。

Base64用于生成更长但问题更少的编码。不使用对各种文本文档造成麻烦的字符，例如HTML，XML，JSON等。这样，Base64在几乎任何上下文中都可以使用，而无需进行任何转义。您必须更加小心使用Base85，因为它不会抛出任何这些有问题的字符。为了提高编码/解码效率，它使用从33(而不是32)开始的范围从33(“!”)到117(“u”)，以避免出现经常出现问题的空格字符。 'u'上方不使用的字符没什么特别的。

这就是二进制-> ASCII编码方面的故事。另一个问题是在将二进制表示形式编码为ASCII之前，您可以采取什么措施来减小表示形式的大小。您选择使用pickle.dumps()和zlib.compress()。如果这些是您最好的选择，则留给其他讨论...

关于python - 将数据压缩成最小数量的文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56728076/

24

4

0

文章推荐： python - 返回多个函数的装饰器

文章推荐： python - 如何验证 namedtuple 值？

pandas read_json 成 block 但仍然有内存错误
我正在尝试读取和处理一个大的 json 文件(~16G)，但即使我通过指定 chunksize=500 读取小块，它仍然有内存错误。我的代码: i=0 header = True for chunk
css - 成 Angular CSS 分隔符
请看下图... 我想通过 CSS 实现。我现在将此分隔符用作在我的容器内响应的图像 ( jpg )。问题是我似乎无法准确匹配颜色或使白色晶莹剔透。我认为 CSS 是解决这个问题的最佳方式。尺寸为
javascript - 与 Node 成 Angular
所以我正在尝试使用 AngularJS 和 Node.js。我正在尝试设置客户端路由，但遇到一些问题。编辑所以我改变了一些代码如下 https://github.com/scotch-io/sta
html - 元素周围的虚线边框，左边框的顶部倾斜/成 Angular
我想创建如下图所示的边框: 这段代码是我写的 Some Text p{ -webkit-transform: perspective(158px) rotateX(338deg); -webk
forms - Symfony2 选择形式 split 成 Twig
好的，所以我有一个包含 2 个选项的选择表 $builder->add('type', 'choice', array( 'label' => 'User type', 'choice
c# - 图像 split 成 9 block
我的代码: private void pictureBox1_MouseDown(object sender, MouseEventArgs e) { ngr.
c++ - 如何将某些东西 push_back 成 2D Vector
我正在尝试编写 Tic-Tac-Toe 游戏代码，但不知道如何在轮到我时push_back '+' 字符。因此，每当玩家输入例如“Oben 链接”时，这基本上意味着左上角，我希望游戏检查输入是否正确
c# - 如何正确解析 Dictionary 成
我正在研究 HtmlHelper.AnonymousObjectToHtmlAttributes。它适用于匿名对象: var test = new {@class = "aaa", placehol
.htaccess - mod_rewrite/category.htm 成/category
在 stackoverflow 上所有这些 mod 重写主题之后，我仍然没有找到我的问题的答案。我有一个顶级站点，基本上我想做的就是将 /index.php?method=in&cat=Half+Li
css - 成 Angular ，将 CSS 色带包裹在图像上
仅使用 CSS 可以实现此功能区吗？最佳答案 .box { width: 300px; height: 300px; background-color: #a0a0a0;
ruby-on-rails - Jbuilder 转 & 成\u0026
我有一个 jbuilder 模板，它用 json 表示我的一个模型，如下所示: json.(model, :id, :field1, :field2, :url) 如果我只是从控制台访问该字段，则 u
java - F 点与 X 成 90 度
昨天我问了一个问题 - Draw arrow according to path 在那个问题中，我解释说我想在 onTouchEvent 的方向上绘制一个箭头。我在评论中得到了答案，说我应该旋转 Ca
html - 一致的代码 html 内联和与 knitr 成 block
我希望段落中的代码与代码块中显示的代码一致。例如: The formula method for a linear model is lm(y~x, data = dat). For our da
android - WebView 成 fragment (android.support.v4)
我使用 ViewPager 获得了一个选项卡菜单。每个选项卡都包含来自 android.support.v4 包的 fragment (与旧 SDK 的兼容性)。其中一个 fragment 是 Web
c++ - 如何将 boost::serialize 成 sqlite::blob？
我正在从事一项需要多种程序能力的科学项目。在四处寻找可用的工具后，我决定使用 Boost 库，它为我提供了 C++ 标准库不提供的所需功能，例如日期/时间管理等。我的项目是一组命令行，用于处理来自旧
Win7 时代爆火工具「截图」成 Win10 可选组件，支持卸载
外媒 Windows Latest 报道，随着 Windows 10 的不断发展，某些功能会随着新功能的更新而被抛弃或成为可选项。早在 2018 年，微软就确认截图工具将消失，现代的 “截图和草图”
javascript - 如何在 Google map 中创建定向(成 Angular )标记？
我有标记的 Angular ，我只希望标记旋转到那个 Angular 。 marker = new google.maps.Marker({ position: myL
javascript - 影响 ("bleeding"的外部 CSS 成)shadow DOM with Polymer
我一定是遗漏了什么，但我不知道是什么。我有使用 polymer 实现的简单自定义元素: TECK ..
java - 将 Java、XML、JavaScript 等 pretty-print 成 HTML
我有一个关于如何设置我们产品的分步教程。我必须在每个步骤中显示大量示例代码。以下是我必须在页面中显示的代码类型列表。我用什么来格式化所有内容？ Java 代码示例 XML 样本 iOS SDK 文件(
objective-c - 使用 LLVM GCC 4.2 不会让我将 CFStringRef _bridge 成 NSString
我需要在我的 iPad 应用程序中绘制一些图表，所以我遵循了本教程: http://recycled-parts.blogspot.com/2011/07/setting-up-coreplot-in

首页

博学

6Ren·AI

商城

python - 将数据压缩成最小数量的文本？