- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
让我澄清一下,我并不是在说一种能够压缩任何给定源 Material 的算法,这是完全不可能的,我意识到这是不可能的。我想要得到的是一种算法,该算法能够将任何位的源字符串编码为由Shannon熵确定的绝对最大压缩状态。
我相信我已经听说过有关霍夫曼编码在某种意义上说是最佳的事情,所以我相信这种加密方案可能基于此,但这是我的问题:
考虑一下位串:a =“101010101010”,b =“110100011010”。
使用普通的香农熵,当我们将位串简单地视为0和1的符号时,这些位串应该具有完全相同的熵,但是这种方法是有缺陷的,因为我们可以直观地看到位串a的熵少于位串b的熵,因为只是重复10的模式。考虑到这一点,我们可以通过计算复合符号00、10、01和11的Shannon熵,更好地了解源的实际熵。
这只是我的理解,我可能完全不了解,但是根据我的理解,遍历源确实是随机的,长度为n的遍历源。所有n个长度的符号组的统计概率必须同等可能。
我想比标题中的问题更具体,主要有三个问题:
使用单一位作为符号的霍夫曼编码是否可以像最佳方式一样压缩位串,即使在我们以2位符号级别分析字符串时也会出现明显的模式?如果不是这样,是否可以通过在霍夫曼编码的不同“级别”(如果我在这里称呼术语为“不同”)循环,直到找到最佳压缩率,来最佳地压缩源?在某些情况下,能否通过霍夫曼编码的不同“回合”进一步提高压缩率? (例如,首先使用5位长的符号进行霍夫曼编码,然后对4位长的符号进行霍夫曼编码?huff_4bits(huff_5bits(bitstring))
)
最佳答案
正如Mark所言,由于Kolmogorov的复杂性,通常的答案是“ no ”。让我扩大一点。
压缩基本上是两个步骤:
1)型号
2)熵
该模型的作用是“猜测”接下来的字节或字段。
模型可以有任何形式,并且对其有效性没有限制。
一个简单的例子是随机数生成器函数:从外部角度看,它看起来像是噪声,因此无法压缩。但是,如果您知道生成函数,则可以将无限长的序列压缩为一小段代码,即生成函数。
这就是为什么“没有限制”的原因,而Kolmogorov的复杂性只是指出:您永远不能保证没有更好的方法来“建模”数据。
第二部分是可计算的:熵是找到“香农极限”的地方。
给定一组符号(通常是模型的输出符号)(它们是字母的一部分),您可以计算最佳成本,并找到达到公认的最终压缩极限(香农极限)的方法。
如果您接受的限制,即每个符号必须使用整数位数进行编码,则霍夫曼在香农限制方面是最佳的。这是接近的,但是不完美的近似。可以使用算术编码器提供的小数位或较新的基于ANS的Finite State Entropy coder来实现更好的压缩。两者都更接近香农极限。
仅当您“单独”对待一组符号时,香农限制才适用。一旦您尝试“组合它们”或找到符号之间的任何相关性,即表示您正在“建模”。这是不可计算的Kolmogorov复杂性领域。
关于compression - 是否有用于 "perfect"压缩的算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21220151/
我有点想做 the reverse of this. 我不想解压缩并将收集文件添加到 S3 应用户要求: 生成一堆xml文件 使用一些图像(托管在 s3 上的预先存在的图像)压缩 xml 文件 下载
将此添加到域的虚拟主机后 AddOutputFilterByType DEFLATE application/javascript text/javascript text/css 响应头不包含任何内
在 Apache Im 中,通过将以下内容添加到我的 .htaccess 文件来启用输出压缩: # compress text, html, javascript, css, xml: AddOutp
是否可以以压缩格式将请求数据从浏览器发送到服务器? 如果是,我们该怎么做? 最佳答案 压缩从浏览器发送到服务器的数据是不受 native 支持 在浏览器中。 您必须找到一种解决方法,使用客户端语言(可
我正在寻找可以压缩JavaScript源代码的工具。我发现一些网络工具只能删除空格字符?但也许存在更好的工具,可以压缩用户的函数名称、字段名称、删除未使用的字段等。 最佳答案 经常用来压缩JS代码的工
使用赛马博彩场景,假设我有许多单独的投注来预测比赛的前 4 名选手 (superfecta)。 赌注如下... 1/2/3/4 1/2/3/5 1/2/4/3 1/2/4/5 1/2/5/3
我是一名实习生,被要求对 SQL 2008 数据压缩进行一些研究。我们想将 Outlook 电子邮件的几个部分存储在一个表中。问题是我们想将整个电子邮件正文存储在一个字段中,然后又想压缩它。使用 Ch
我目前有一个系统,用户可以在其中上传 MP4 文件,并且可以在移动设备上下载该文件。但有时,这些视频的大小超过 5MB,在我国,大多数人使用 2G。因此,下载大型视频通常需要 15-20 分钟。 有什
假设我有一个带有类型列的简单文档表: Documents Id Type 1 A 2 A 3 B 4 C 5 C 6 A 7 A 8 A 9 B 10 C 用户
我有一个较大字符串中的(子)字符串位置的 data.frame。数据包含(子)字符串的开头及其长度。可以很容易地计算出(子)字符串的结束位置。 data1 start length end #>
我想知道是否 文件加密算法可以设计成它也可以执行文件压缩的事件(任何活生生的例子?)。 我也可以将它集成到移动短信服务中,我的意思是短信吗? 另外我想知道二进制文件...如果纯文本文件以二进制编码
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
我们有几个具有大量 JavaScript 的 Java 项目,目前我们使用的是旧版本的 YUICompressor (2.4.2)。然而,我在这篇博文中发现 YUICompressor 正在 depr
从之前关于尝试提高网站性能的文章中,我一直在研究 HTTP 压缩。我读过有关在 IIS 中设置它的信息,但它似乎是所有 IIS 应用程序池的全局事物,我可能不允许这样做,因为还有另一个站点在其上运行。
我有一个 REST 服务,它返回一大块 XML,大约值(value) 150k。 例如http://xmlservice.com/services/RestService.svc/GetLargeXM
我正在尝试获取一个简单的 UglifyJS (v2.3.6) 示例来处理压缩。 具体来说,“未使用”选项,如果从未使用过,变量和函数将被删除。 这是我在命令行上的尝试: echo "function
我正在开发一个项目,如果我的磁盘出现问题,我将在使用 ZLIB 压缩内存块后将其发送到另一个磁盘。然后我计划下载该转储并用于进一步调试。这种压缩和上传将一次完成一个 block - 比如说 1024
LZW 压缩算法在压缩后增加了位大小: 这是压缩函数的代码: // compression void compress(FILE *inputFile, FILE *outputFile) {
我的问题与如何在 3D 地形上存储大量信息有关。这些信息应该是 secret 的,因为它们非常庞大,也应该被压缩。我选择了文件存储,现在我想知道将对象数据加密/压缩(或压缩/加密)到文件的最佳做法。
我使用以下代码来压缩我的文件并且效果很好,但我只想压缩子文件夹而不是在压缩文件中显示树的根。 public boolean zipFileAtPath(String sourcePath, Strin
我是一名优秀的程序员,十分优秀!