python - python 中的 UTF-8 兼容压缩-6ren

python - python 中的 UTF-8 兼容压缩

转载作者：太空狗更新时间：2023-10-30 01:56:00

26

4

我想在 json 数据包中包含一个大的压缩字符串，但遇到了一些困难。

import json,bz2
myString = "A very large string"  
zString = bz2.compress(myString)
json.dumps({ 'compressedData' : zString })

这将导致

UnicodeDecodeError: 'utf8' codec can't decode bytes in position 10-13: invalid data

一个明显的解决方案是 bz2'ing 整个 json 结构，但我们假设我正在使用一个执行 json 编码的黑盒 api，它需要一个字典。

此外，我只是以 bz2 为例，虽然我注意到 zlib 有相同的行为，但我并不真正关心实际算法是什么。

我能理解为什么这两个压缩库不能创建 utf-8 兼容的输出，但是有什么解决方案可以有效地压缩 utf-8 字符串吗？这个页面就像一座金矿 http://unicode.org/faq/compression.html但我找不到任何相关的 python 信息。

最佳答案

您的意思是“将压缩为 UTF-8 字符串”？我会假设，因为任何通用压缩器都会压缩 UTF-8 字符串。但是，现实世界中没有任何压缩器会将压缩为 UTF-8 字符串。

不能像UTF-8那样直接在JSON中存储8位数据，因为JSON字符串定义为Unicode。在将数据提供给 JSON 之前，您必须对其进行 base64 编码:

json.dumps({ 'compressedData' : base64.b64encode(zString) })

但是，base64 本身会导致 4/3 的编码开销。如果您正在压缩典型的字符串数据，您可能会获得足够的压缩，这仍然是一个胜利，但这是一个很大的开销。您可能会发现一种开销较少但不会太多的编码。

请注意，如果您使用它向浏览器发送数据，最好让 HTTP 压缩来执行此操作；它得到广泛支持，并且会更加强大。

关于python - python 中的 UTF-8 兼容压缩，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3929301/

26

4

0

文章推荐： Python - 在列表括号内调用的函数。它是如何工作的？

firefox - 升级插件以与 Firefox 4.0 兼容，但也尝试使其与 3.x 兼容。建议？
我有一个为 Firefox 3.6 编写的附加组件，现在我正在将其升级到 Firefox 4.0，同时尝试使其与 3.6 兼容。有没有人有尝试这样做的经验，或者关于如何在代码变得太意大利面条式的情况下
cassandra - 哪个版本的 Astyanax 与 Cassandra 2.0.1 兼容，或者哪些其他 Java 驱动程序与 Cassandra 2.0.1 兼容
我已经安装了 Cassandra 2.0.1 并想在我的应用程序中使用 Astyanax Java API。我在维基上看到了 Cassandra 兼容性表，上面写着 Astyanax 使用 Netfl
vbscript - 如何使我的自定义类与 For Each 兼容？
是否可以使纯粹在 VBScript(无 COM 对象)中实现的自定义容器类与 For Each 语句一起使用？如果是这样，我必须公开哪些方法？最佳答案简而言之，没有为什么？创建一个可枚举的集合类
java - 与哪些变量运算符 >> 兼容
我这里的代码很少 int b=3; b=b >> 1; System.out.println(b); 它工作得很好，但是当我将变量 b 更改为 byte、short、float、double 时它包含
兼容 Java 类名
我们有一个 Java 客户端，它使用 corba 调用多个第三方系统。这些是实现同一组接口(interface)的不同系统。我们获得了使用这些接口(interface)的库(jar 文件)。例如，这些
HTML5 兼容 - 类属性中的尾随空格
我知道从技术上讲 HTML5 是一个“实时规范”，但我想知道它是否符合在类名中添加尾随空格的规定。我没有在规范中看到任何对这种情况的引用，但我的一个队友说它是无效的。也许我错过了什么？修剪这些空间会
multithreading - 使克隆的线程 pthread 兼容
我在 Linux x86-64 上用 C 语言编程。我正在使用一个库，它通过原始 clone 创建多个线程系统调用而不是使用 pthread_create .这些线程运行库内部的低级代码。我想钩住这
assembly - 汇编程序中的低级网络(兼容 x86)
我希望用汇编程序编写一个可启动程序，能够发送和接收网络数据包。我不想使用任何库，我想自己创建它(并在这样做的同时学习)。不幸的是，我无法找到有关最低级别的网卡通信(发送原始套接字)的任何信息。我相信有
具有固定范围的 CoffeeScript 兼容 fork ？
是否有除 fixed scoping 之外没有任何更改的 CoffeeScript 分支，以便它在很大程度上与 CoffeeScript 兼容(如果代码没有外部变量赋值则完全兼容)？我会考虑使用可接受
java - 为什么方法引用与具有不同参数数量的功能接口(interface)兼容？
这个问题已经有答案了: Why is BiConsumer allowed to be assigned with a function that only accepts a single para
java - 兼容 JDBC 的主存独立数据库
我的 Java 应用程序需要一个高性能主内存数据库 1] 请建议数据库 -符合 JDBC -独立(即平面文件) -支持内存表 -高性能 -B-TREE索引 2] JAVA中是否有任何技术可以在程序运行
c++ - 如何使std::string与char *兼容？
我通常会找到一些以char*作为参数的函数，但是我听说在C++中更推荐std::string。如何将std::string对象与以char* s为参数的函数一起使用？到目前为止，我已经知道了c_str
javascript - 如何使这个模块与 requireJS 兼容
我正在移植我的一个旧 javascript 文件以与 requireJS 兼容。这是以前代码的样子。 // effect.js (function(exports){ // shorthand
android - 如何使我的项目与 getMapAsync 兼容？
在今天更新我的 SDK 之前，我有工作代码(为了将来引用，请查看问题询问日期)。 .getMap 曾经发出警告，表明它已被弃用，但现在它甚至不被识别为有效输入。我假设这是因为 API 24(Andro
POSIX 兼容 shell 中的数组
根据 this reference sheet on hyperpolyglot.org , 下面的语法可以用来设置一个数组。 i=(1 2 3) 但是我在 dash 上遇到错误，它是 Ubuntu
mysql - 无效模式--兼容 : mysql40
我的 MacBook 上安装了 MYSQL 8.0.12(下载版本)。当我尝试转储 mysql40 的兼容版本时，收到错误 Invalid mode to --known: mysql40。我 100
testing - 哪些版本控制软件与 remedy 兼容？
您好，我正在更改我的版本控制系统，我调查了 perforce 是否与 bcm 补救措施兼容。有谁知道其他版本的控制系统也与 bcm 补救措施兼容？？最佳答案 BMC Remedy 会更接近 Clea
python - 兼容 Numpy 的图像绘图库
我需要在 python 中的图像上绘制一般坐标网格。我可以计算网格线的像素坐标，因此我只需要一个能够将它们绘制为图像顶部的虚线的模块。图像以 numpy 数组的形式出现，因此我需要能够在这些格式和绘
python - 使文件处理代码与 asyncio 兼容
库接受文件输入的“传统”方式是做这样的事情: def foo(file_obj): data = file_obj.read() # Do other things here 客户端代
css - 我怎样才能使以下代码与 IE6 兼容？
代码 Untitled Document #topDropDownMenu { position: relative;

首页

博学

6Ren·AI

商城

python - python 中的 UTF-8 兼容压缩