- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
This paper包含噪声 channel 中拼写错误的混淆矩阵。它描述了如何根据条件属性纠正错误。
条件概率计算位于第 2 页左栏。在第 2 页左栏脚注 4 中,作者表示:“字符矩阵可以轻松复制,因此从附录中省略。”我不知道如何复制它们!
如何复制它们?我需要原始语料库吗?或者,作者是否意味着可以根据论文本身的 Material 重新计算它们?
最佳答案
查看论文,您只需使用语料库来计算它们,可以是相同的语料库,也可以是与您的应用程序相关的语料库。
在复制矩阵时,请注意它们隐式定义了两个不同的 chars
矩阵:一个向量和一个 n×n 矩阵。对于每个字符 x
,向量 chars
包含字符 x
在语料库中出现的次数计数。对于每个字符序列 xy
,矩阵 chars
包含该序列在语料库中出现的次数计数。
chars[x]
表示在向量中查找 x
; chars[x,y]
表示在矩阵中查找序列xy
。请注意,chars[x]
= 每个 y
值的 chars[x,y]
之和。
请注意,它们的计数均基于 1988 年美联社新闻专线语料库 ( available from the LDC )。如果您不能使用他们的确切语料库,我认为使用同一流派的另一个文本(即另一个新闻专线语料库)并调整您的计数以使它们适合原始数据并不是不合理的。也就是说,如果一个文本与另一个文本足够相似,给定字符的频率不应有太大差异,因此,如果您有一个包含 2200 万个新闻专线单词的语料库,您可以计算该文本中的字符数,并然后将它们加倍以近似其原始计数。
关于nlp - 如何从混淆矩阵计算概率?需要分母,字符矩阵,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10708852/
假设我们依次应用了 3 个过滤器: b, a = iirfilter(...) # or bilinear(...) or anything else producing b, a y = lfil
该任务要求您加载糖尿病数据集的特征并编写自己的最适合训练数据的行。 我已经编写了最佳拟合算法所需的行,但是当尝试向其中添加训练数据时,我收到此错误: “类型错误:无法将类型‘ndarray’转换为分子
我是一名优秀的程序员,十分优秀!