gpt4 book ai didi

algorithm - 有没有一种算法可以找到文本的香农熵?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:30:31 27 4
gpt4 key购买 nike

我知道英语的香农熵是每个字母 1.0 到 1.5 位,有些人说低至每个字母 0.6 到 1.3 位,但我想知道是否有一种方法可以运行一种算法来查看大量文本然后确定集体文本的期望值是集体文本的每个字母 .08 位?

最佳答案

entropy rate of a language 的数学定义是的,如果你有一个用那种语言生成字符串的源,第 nth 符号的熵的限制,条件是前 n-1 个(假设源是 stationary ) .

这种来源的一个足够好的近似是大量的英文文本。 Open national american corpus非常好(100M 字符,涵盖所有类型的书面文本)。然后,近似上述限制的基本算法是,对于给定的 n,查看文本中出现的所有 n-gram,并对出现在条件熵定义中的各种概率建立统计估计熵率的计算。

full source code做到这一点又短又简单(约 40 行 python 代码)。我做了一个 blog post about estimating the entropy rate of English recently这涉及更多细节,包括数学定义和完整实现。它还包括对各种相关论文的引用,包括 Shannon's original article .

关于algorithm - 有没有一种算法可以找到文本的香农熵?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10066502/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com