gpt4 book ai didi

nlp - 如何从混淆矩阵计算概率?需要分母,字符矩阵

转载 作者:行者123 更新时间:2023-11-30 08:29:03 34 4
gpt4 key购买 nike

This paper包含噪声 channel 中拼写错误的混淆矩阵。它描述了如何根据条件属性纠正错误。

条件概率计算位于第 2 页左栏。在第 2 页左栏脚注 4 中,作者表示:“字符矩阵可以轻松复制,因此从附录中省略。”我不知道如何复制它们!

如何复制它们?我需要原始语料库吗?或者,作者是否意味着可以根据论文本身的 Material 重新计算它们?

最佳答案

查看论文,您只需使用语料库来计算它们,可以是相同的语料库,也可以是与您的应用程序相关的语料库。

在复制矩阵时,请注意它们隐式定义了两个不同的 chars 矩阵:一个向量和一个 n×n 矩阵。对于每个字符 x,向量 chars 包含字符 x 在语料库中出现的次数计数。对于每个字符序列 xy,矩阵 chars 包含该序列在语料库中出现的次数计数。

chars[x] 表示在向量中查找 xchars[x,y] 表示在矩阵中查找序列xy。请注意,chars[x] = 每个 y 值的 chars[x,y] 之和。

请注意,它们的计数均基于 1988 年美联社新闻专线语料库 ( available from the LDC )。如果您不能使用他们的确切语料库,我认为使用同一流派的另一个文本(即另一个新闻专线语料库)并调整您的计数以使它们适合原始数据并不是不合理的。也就是说,如果一个文本与另一个文本足够相似,给定字符的频率不应有太大差异,因此,如果您有一个包含 2200 万个新闻专线单词的语料库,您可以计算该文本中的字符数,并然后将它们加倍以近似其原始计数。

关于nlp - 如何从混淆矩阵计算概率?需要分母,字符矩阵,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10708852/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com