- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我对这种压缩算法很感兴趣(查看链接)
https://github.com/bright-tools/varints
特别的问题是 Python 中 bytearray 对象的内存开销对压缩毫无用处。有没有只考虑编码大小而不考虑数据结构大小的解决方案?例如:
>>> import sys
>>> list = []
>>> sys.getsizeof(list)
64
但我会得到类似“0”而不是 64 的东西
如何避免内存开销?请来一些?
最佳答案
如果您尝试创建微型数据结构,Python 不是您想要使用的语言。作为您链接注释的项目的自述文件,如果您可以将大量数据打包到单个字节数组中,则可以使用字节数组(而不是列表)来减少存储开销。但即使是字节数组(如字符串)也是有代价的:64 位 CPython 安装——也就是说,你将获得 x86 Linux 安装的标准 python——每个字节数组至少使用 33 字节的开销。 (我说“至少”是因为 Python 无法测量内存分配开销。)如果需要的话,还有将字节流反序列化为原始对象的计算成本。
由于链接页面生成较小的对象,我断定它的测试一定是在 32 位 Python 安装上完成的,可能是在 Windows 上。因此,这是您可以减少存储使用量的一种方式。
如果你有Python3.3或更高版本(如果没有,就安装它:-)),那么你可以使用array
模块,这可能比一个字节更方便数组,部分原因是您可以创建一个数组,其元素是您需要的大小。参见 the Python manual了解详情。如果您使用 b
或 B
类型修饰符构建一个 array.array
,它将为每个值仅使用一个字节。如果使用 h
或 H
,则可以存储 16 位整数(有符号或无符号),每个整数为两个字节。 array.array
的开销是 64 字节,就像列表一样,但实际元素要紧凑得多。
就个人而言,我不会为这样的东西烦恼,但我想它有它的用途。事实上,引用 README 页面低估了 Python 整数列表的存储消耗,因为它没有考虑整数本身的大小,这是相当大的。
sys.getsizeof
显示的列表大小只是列表本身的大小。它不包括列表中的对象,仅包括对对象的引用(标准 Linux Python 安装中每个对象八个字节)。它还包括列表的对象描述所使用的内存,在相同的标准 Python 安装中为 64 字节。 (这是您的测试中显示的 64 个字节。)
最后,它可能在末尾包含一些额外的空间,以便允许将项目附加到列表而无需重新分配和复制列表。此类额外对象的数量取决于很多因素,包括构建列表的精确方式,但似乎可以通过使用切片复制列表来将此特定开销减少到零:a[:]
.
在 Python 中,整数是成熟的对象,它们占用的空间量惊人。或者,当您认为 Python 整数是大数字时,这并不奇怪,因此它们没有人为的大小限制。根据getsizeof
,绝对值小于230的整数占用28个字节,每增加30位(或部分)占用另外4个字节。 (实际上,您可以将一个由小整数组成的大向量位打包成一个大数,利用左移和右移操作相当快的事实,从而从每个列表中减少几个字节。但是array.array
几乎肯定更容易。)
getsizeof
的一些实验,供引用:
>>> from sys import getsizeof
>>> # Strings occupy 48 bytes plus the length of the string plus one byte (presumably for a NUL)
>>> getsizeof("") # 48 + 0 + 1
49
>>> getsizeof("a") # 48 + 1 + 1
50
>>> getsizeof("abcdefghijklmnopqrstuvwxyz") # 48 + 26 + 1
75
>>> getsizeof("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ") # 48 + 52 + 1
101
>>> But that's not counted in the size of a list. All the lists are the same size:
>>> getsizeof([""])
72
>>> getsizeof(["a"])
72
>>> getsizeof(["abcdefghijklmnopqrstuvwxyz"])
72
>>> getsizeof(["abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"])
72
>>> # Same for a list containing a single number
>>> getsizeof([0])
72
>>> # Lists need 64 bytes plus 8 bytes per element (a pointer to the element):
>>> getsizeof([0,1])
80
>>> getsizeof([0,1,2])
88
>>> getsizeof([0,1,2,3])
96
>>> # When you append to a list, Python leaves some extra space for the next appends
>>> a = [0,1,2,3]
>>> getsizeof(a)
96
>>> # As above, 64 + 4 * 8 bytes. But when we add a single element,
>>> # we get enough room for four elements, so the next three appends
>>> # don't require more space:
>>> a.append(4)
>>> getsizeof(a)
128
>>> a.append(5)
>>> getsizeof(a)
128
>>> a.append(6)
>>> getsizeof(a)
128
>>> a.append(7)
>>> getsizeof(a)
128
>>> # When we append the 9th element, we get room for another four
>>> a.append(8)
>>> getsizeof(a)
192
您可以通过使用元组而不是列表来节省几个字节:元组与字节数组一样是不可变的,但如果您可以忍受无法修改对象,则可以通过使用元组来节省 16 个字节列表的:
>>> getsizeof( (1,2,3) )
72
>>> getsizeof( [1,2,3] )
88
关于Python和压缩算法性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53872699/
我有点想做 the reverse of this. 我不想解压缩并将收集文件添加到 S3 应用户要求: 生成一堆xml文件 使用一些图像(托管在 s3 上的预先存在的图像)压缩 xml 文件 下载
将此添加到域的虚拟主机后 AddOutputFilterByType DEFLATE application/javascript text/javascript text/css 响应头不包含任何内
在 Apache Im 中,通过将以下内容添加到我的 .htaccess 文件来启用输出压缩: # compress text, html, javascript, css, xml: AddOutp
是否可以以压缩格式将请求数据从浏览器发送到服务器? 如果是,我们该怎么做? 最佳答案 压缩从浏览器发送到服务器的数据是不受 native 支持 在浏览器中。 您必须找到一种解决方法,使用客户端语言(可
我正在寻找可以压缩JavaScript源代码的工具。我发现一些网络工具只能删除空格字符?但也许存在更好的工具,可以压缩用户的函数名称、字段名称、删除未使用的字段等。 最佳答案 经常用来压缩JS代码的工
使用赛马博彩场景,假设我有许多单独的投注来预测比赛的前 4 名选手 (superfecta)。 赌注如下... 1/2/3/4 1/2/3/5 1/2/4/3 1/2/4/5 1/2/5/3
我是一名实习生,被要求对 SQL 2008 数据压缩进行一些研究。我们想将 Outlook 电子邮件的几个部分存储在一个表中。问题是我们想将整个电子邮件正文存储在一个字段中,然后又想压缩它。使用 Ch
我目前有一个系统,用户可以在其中上传 MP4 文件,并且可以在移动设备上下载该文件。但有时,这些视频的大小超过 5MB,在我国,大多数人使用 2G。因此,下载大型视频通常需要 15-20 分钟。 有什
假设我有一个带有类型列的简单文档表: Documents Id Type 1 A 2 A 3 B 4 C 5 C 6 A 7 A 8 A 9 B 10 C 用户
我有一个较大字符串中的(子)字符串位置的 data.frame。数据包含(子)字符串的开头及其长度。可以很容易地计算出(子)字符串的结束位置。 data1 start length end #>
我想知道是否 文件加密算法可以设计成它也可以执行文件压缩的事件(任何活生生的例子?)。 我也可以将它集成到移动短信服务中,我的意思是短信吗? 另外我想知道二进制文件...如果纯文本文件以二进制编码
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
我们有几个具有大量 JavaScript 的 Java 项目,目前我们使用的是旧版本的 YUICompressor (2.4.2)。然而,我在这篇博文中发现 YUICompressor 正在 depr
从之前关于尝试提高网站性能的文章中,我一直在研究 HTTP 压缩。我读过有关在 IIS 中设置它的信息,但它似乎是所有 IIS 应用程序池的全局事物,我可能不允许这样做,因为还有另一个站点在其上运行。
我有一个 REST 服务,它返回一大块 XML,大约值(value) 150k。 例如http://xmlservice.com/services/RestService.svc/GetLargeXM
我正在尝试获取一个简单的 UglifyJS (v2.3.6) 示例来处理压缩。 具体来说,“未使用”选项,如果从未使用过,变量和函数将被删除。 这是我在命令行上的尝试: echo "function
我正在开发一个项目,如果我的磁盘出现问题,我将在使用 ZLIB 压缩内存块后将其发送到另一个磁盘。然后我计划下载该转储并用于进一步调试。这种压缩和上传将一次完成一个 block - 比如说 1024
LZW 压缩算法在压缩后增加了位大小: 这是压缩函数的代码: // compression void compress(FILE *inputFile, FILE *outputFile) {
我的问题与如何在 3D 地形上存储大量信息有关。这些信息应该是 secret 的,因为它们非常庞大,也应该被压缩。我选择了文件存储,现在我想知道将对象数据加密/压缩(或压缩/加密)到文件的最佳做法。
我使用以下代码来压缩我的文件并且效果很好,但我只想压缩子文件夹而不是在压缩文件中显示树的根。 public boolean zipFileAtPath(String sourcePath, Strin
我是一名优秀的程序员,十分优秀!