- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
大家好,我正在实现 Stupid Backoff (第 2 页,等式 5)我正在从事的项目的平滑技术,我对其实现有疑问。这是 NLP 中使用的平滑算法,Good-Turing 是我猜最广为人知的类似算法。
该算法的简要说明是:
当试图找到单词出现在句子中的概率时,它首先会在 n-gram 级别寻找单词的上下文,如果没有那个大小的 n-gram,它将递归到 (n-1)-gram并将其分数乘以 0.4。递归在 unigrams 处停止。
因此,如果我想在“晴天”的上下文中找到“天”的概率,它会首先查看语料库中是否存在三元组“晴天”,如果不存在,则尝试与二元组“晴天”,最后它只会得到“天”的频率除以语料库大小(训练数据中的单词总数)。
我的问题是:每次减少 n-gram 的大小时,我是否将分数乘以 0.4?
因此,在上面的示例中,如果我们无法找到三元组或二元组,则最终分数将是:
0.4 * 0.4 * 频率(天)/语料库大小?
或者我只是在最终级别乘以一次,所以无论我必须进行多少退避,我都只将最终分数乘以 0.4?
最佳答案
基本上我读到了你在上面的数学中描述的等式 5。
因此,对于没有观察到实例的“晴天”,您将计算 S("day"| "a sunly")。找不到三元组“晴天”,您将在等式 5 中采用案例二,并将 S("day"| "a sunny") 估计为 alpha * S("day"| "sunny")。
如果再一次,您没有记录“晴天”的纪念日,您会将 S("day"| "sunny") 近似为 alpha * S("day"),这是终端情况 f("day")/N(观察到的 unigrams 的数量)。
通过将 alpha 设置为 0.4,您将得到上面写的内容。
希望这可以帮助。
-bms20
关于nlp - 愚蠢的退避实现说明,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16383194/
不能制造愚蠢。具有下一个文件夹结构: /flint/double-conversion/src /燧石/愚蠢/愚蠢/ 其中/flint/folly 包含自述文件和许可证。作为in the readme
我有一个小问题,它可能在某个地方很愚蠢,但我仍然有它:) 所以问题是: 通过这样做 round(615.36*0.10, 2, PHP_ROUND_HALF_DOWN); 我希望结果是 61.53,但
我正在寻找一个只是为了大致了解应该如何正确设置标准 C++ 项目。(如果可能的话……:-p) 这是我对这个项目的要求: 基于模块(具有编译成主程序模块的库/模块) 编译跨平台 我想这样做,这样我就可以
我是一名优秀的程序员,十分优秀!