compression - 熵与无损压缩率的关系-6ren

compression - 熵与无损压缩率的关系

转载作者：行者123 更新时间：2023-12-04 17:14:14

34

4

来自 Shannon's Source Coding Theorem我们知道压缩字符串的熵受原始字符串熵的限制，如下所示:

H(X) <= L < H(X) + 1/N

其中 H(X) 是源字符串的熵，N 是源字符串的长度，L 是压缩字符串的预期长度。

这必然意味着无损压缩是有限度的。

我想知道的是:

我们可以直接将熵与某些预期的压缩比联系起来吗？

我们可以使用熵来找到压缩比的一些上限吗？

最佳答案

香农定理是根据随机数据和概率定义的。类似地，字符串的熵仅针对随机字符串定义——熵是分布的属性，而不是字符串本身的属性。因此，我们可以非正式地将香农定理重述为:

If you randomly select a string from a given probability distribution, then the best average compression ratio we can get for the string is given by the entropy rate of the probability distribution.

给定任何随机字符串，我可以轻松编写一个压缩算法，将该字符串压缩为 1 位，但我的算法必然会增加其他一些字符串的长度。我的压缩算法的工作原理如下:

如果输入字符串等于某个预先选择的随机字符串，则输出为 1 位字符串“0”

否则，输出为“1”的 N+1 位字符串后跟输入字符串

对应的解压算法为:

如果输入为“0”，则输出为我们之前预选的随机字符串

否则，输出是除了第一个输入位

之外的所有内容。

这里的关键是我们不能写出一种算法，对于来自给定分布的所有字符串，平均以高速率压缩它们。字符串太多了。

如果我们有一个给定的字符串概率分布，我们可以计算该分布的熵率，然后根据分布随机选择一个字符串并尝试使用 对其进行压缩。任何 算法，压缩字符串的相对大小平均永远不会小于熵率。这就是香农定理所说的。

关于compression - 熵与无损压缩率的关系，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/592077/

34

4

0

文章推荐： .net - 是否有 .Net 属性来防止调试器中的属性评估？

文章推荐： ruby-on-rails - heroku 使用 Devise 部署 NameError

文章推荐： WCF 测试客户端错误 : Failed to Invoke the service

文章推荐：带有 OraOLE DB 提供程序的 Oracle 即时客户端？

delphi - 如何在我的应用程序中为新估算的项目设置值(value)率
我使用 QBFC v13 和 Delphi XE6。目标是从我的应用程序创建 Estimate 并将其参数设置到 QuickBooks 中。我从 QBFC13 导入类型库并将其添加到我的项目中。
android - 如何避免谷歌地图中的 QUERY_LIMIT 率
我有一个数据库，其中有很多格式不正确的地址。在这个地址中，我只有一个街道地址或带有城市名称的街道。在我的应用程序中，用户选择一些类别，然后我想在 map 上显示例如 50,100,300 等地址。(不
unit-testing - 降低大型软件开发项目中的缺陷注入(inject)率
在大多数软件项目中，缺陷源自需求、设计、编码和缺陷更正。根据我的经验，大多数缺陷都源于编码阶段。我有兴趣了解软件开发人员使用哪些实用方法来降低缺陷注入(inject)率。我已经看到以下方法的使用取
Instagram 实时 API POST 率
我正在使用实时 API 中的标签订阅构建一个应用程序，并且有一个与容量规划相关的问题。我们可能有大量用户同时发布到订阅的主题标签，因此问题是 API 实际发布到我们的订阅处理端点的频率是多少？例如，如
SQL 率(百分比)计算 - 除以零错误
尝试使用 NULLIF 或 IFNULL 函数，但仍收到被零除的消息。 SELECT client_id ,COUNT(distinct CASE WHEN status = 'failed' THE
Django Rest Framework 对缓存请求的 throttle 率
我目前正在开发一个使用 Django-rest-framework 制作的 API。我必须根据每个用户组设置限制率。我们目前使用默认配置的 memcached 作为缓存后端，即按站点缓存。在使用
tensorflow - 在 tensorflow 训练期间改变 Dropout 率 - 可能吗？
我认为有时在神经网络(特别是一般对抗网络)训练期间改变丢失率可能是一个好主意，从高丢失率开始，然后线性地将丢失率降低到零。您认为这有意义吗？如果是的话，是否有可能在 tensorflow 中实现这一点
windows - 什么是 named.exe 进程以及如何避免消耗高 CPU 率
我有一个 Windows Server 2008，Plesk 运行着两个网站。有时服务器运行缓慢，并且有一个 named.exe 进程使 CPU 峰值达到 100%。它持续很短的时间，过一会儿它又来了
machine-learning - 降低 FP 率 scikit-learn 随机森林
我正在使用 scikit-learn 随机森林分类器，我想通过将成功投票所需的树数量从大于 50% 增加到 75% 来降低 FP 率，在阅读文档后我不这样做确定如何做到这一点。有没有人有什么建议。 (
javascript - 为什么 JavaScript 的 setTimeout 不减慢 keydown 率？
当我连续按下按键事件(字母 k)时，为什么以下按键事件不会减慢 3000 密耳？如果我按住手指，计数会迅速增加，因为 mcount 上没有 setTimeout。这是为什么？每次计数之间应该有延迟，但

首页

博学

6Ren·AI

商城

compression - 熵与无损压缩率的关系