nlp - 如何从混淆矩阵计算概率？需要分母，字符矩阵-6ren

nlp - 如何从混淆矩阵计算概率？需要分母，字符矩阵

转载作者：行者123 更新时间：2023-11-30 08:29:03

34

4

This paper包含噪声 channel 中拼写错误的混淆矩阵。它描述了如何根据条件属性纠正错误。

条件概率计算位于第 2 页左栏。在第 2 页左栏脚注 4 中，作者表示:“字符矩阵可以轻松复制，因此从附录中省略。”我不知道如何复制它们!

如何复制它们？我需要原始语料库吗？或者，作者是否意味着可以根据论文本身的 Material 重新计算它们？

最佳答案

查看论文，您只需使用语料库来计算它们，可以是相同的语料库，也可以是与您的应用程序相关的语料库。

在复制矩阵时，请注意它们隐式定义了两个不同的 chars 矩阵:一个向量和一个 n×n 矩阵。对于每个字符 x，向量 chars 包含字符 x 在语料库中出现的次数计数。对于每个字符序列 xy，矩阵 chars 包含该序列在语料库中出现的次数计数。

chars[x] 表示在向量中查找 x； chars[x,y] 表示在矩阵中查找序列xy。请注意，chars[x] = 每个 y 值的 chars[x,y] 之和。

请注意，它们的计数均基于 1988 年美联社新闻专线语料库 ( available from the LDC )。如果您不能使用他们的确切语料库，我认为使用同一流派的另一个文本(即另一个新闻专线语料库)并调整您的计数以使它们适合原始数据并不是不合理的。也就是说，如果一个文本与另一个文本足够相似，给定字符的频率不应有太大差异，因此，如果您有一个包含 2200 万个新闻专线单词的语料库，您可以计算该文本中的字符数，并然后将它们加倍以近似其原始计数。

关于nlp - 如何从混淆矩阵计算概率？需要分母，字符矩阵，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10708852/

34

4

0

文章推荐： machine-learning - 尖峰神经网络

文章推荐： java - 在 intellij 12 中找不到 GWT

文章推荐： r - 实现AdaBoost算法的问题

python - 如何获得链式 IIR 滤波器的 b、a(分子/分母)？
假设我们依次应用了 3 个过滤器: b, a = iirfilter(...) # or bilinear(...) or anything else producing b, a y = lfil
python - 将数据集中的特征添加到函数中会导致 "TypeError: can' t 将类型 'ndarray' 转换为分子/分母”
该任务要求您加载糖尿病数据集的特征并编写自己的最适合训练数据的行。我已经编写了最佳拟合算法所需的行，但是当尝试向其中添加训练数据时，我收到此错误: “类型错误:无法将类型‘ndarray’转换为分子

首页

博学

6Ren·AI

商城

nlp - 如何从混淆矩阵计算概率？需要分母，字符矩阵