statistics - 统计语言模型 : comparing word sequences of different lengths-6ren

statistics - 统计语言模型 : comparing word sequences of different lengths

转载作者：行者123 更新时间：2023-12-02 00:04:59

25

4

我有一个从文本中提取公司名称的算法。它通常做得很好，但是，它有时也会提取看起来像公司名称但显然不是的字符串。例如，“Contact Us”、“Colorado Springs CO”、“Cosmetic Dentist”显然不是公司名称。此类误报太多而无法列入黑名单，因此我想介绍一种对提取的字符串进行排名的算法方法，以便丢弃排名最低的字符串。

目前，我正在考虑使用 statistical language model去做这个。该模型可以根据字符串中每个单词的概率乘积对每个字符串进行评分(考虑最简单的 unigram 模型)。我的问题是:这样的模型可以用来比较不同长度的词序列吗？由于概率根据定义小于 1，因此较长序列的概率通常会小于较短序列的概率。这会使模型偏向于较长的序列，这不是一件好事。

有没有一种方法可以使用这种统计语言模型来比较不同长度的单词序列？或者，是否有更好的方法来实现对序列进行评分？

例如，使用二元模型和一些现有数据，这就是我得到的:

python slm.py About NEC
        <s> about 6
        about nec 1
        nec </s> 1
4.26701019773e-17
python slm.py NEC
        <s> nec 6
        nec </s> 1
2.21887517189e-11
python slm.py NEC Corporation
        <s> nec 6
        nec corporation 3
        corporation </s> 3593
4.59941029214e-13
python slm.py NEC Corporation of
        <s> nec 6
        nec corporation 3
        corporation of 41
        of </s> 1
1.00929844083e-20
python slm.py NEC Corporation of America
        <s> nec 6
        nec corporation 3
        corporation of 41
        of america 224
        america </s> 275
1.19561436587e-21

缩进线显示模型中的二元组及其频率。 <s>和 </s>分别是句子的开头和结尾。问题是，句子越长，它出现的可能性就越小，无论其构成的双字母组在数据库中出现的频率如何。

最佳答案

你能根据句子长度标准化分数，还是使用 EM algorithm在 unigram、bigram 和 trigram 模型上？

9 月 24 日编辑:

您可能可以尝试几种替代方法。一种方法是对 unigram、bigram 和 trigram 模型进行最大似然估计并进行线性插值(参见:http://www.cs.columbia.edu/~mcollins/lm-spring2013.pdf)。对于位置 i 处的每个单词，您可以确定 (i+1) 是否是句子的结尾或最有可能出现的单词。此方法需要您设置训练和测试数据集以评估性能(困惑度)。

我会避免简单地乘以每个单词的概率。当单词不独立时，例如，P (NEC, Corporation) != P (NEC) * P (Corporation)。

关于statistics - 统计语言模型 : comparing word sequences of different lengths，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18928243/

25

4

0

文章推荐： sql - 从多行列创建单列值

文章推荐： sql - *= 和 =* sql 运算符

python - "length and length"与 Python 中的 "length"有什么不同吗？
我找到了以下代码片段: length = length and length or len(string) 在我看来，这应该等同于: length = length or len(string) 我能
python - 一维数组形状 (length,) vs. (length,1) vs. (length)
当我使用 numpy.shape() 检查数组的形状时，我有时会得到 (length,1) 有时会得到 (length,)。看起来区别在于列向量与行向量......但它似乎并没有改变数组本身的任何内容
java - 在 Java 中这是什么意思 "length >= 0 ? length : length * -1"
我正在学习 Java，有一个简单的问题。在设置类的示例中，我看到了这一点: length >= 0 ? length : length * -1 这是什么意思？谢谢。最佳答案这是一种骇人听闻的
ruby - Ruby 的 length 方法是一个符号吗？为什么是:length sometimes the same as length?
我在阅读有关在 Ruby 中重新定义方法有多么容易的文章时遇到了以下问题: class Array alias :old_length :length def length old_l
java - .length() 与 .getText().length() 与 .getText().toString().length()
例如在下面的代码中a和b和c是相等的。 EditText editText; editText = (EditText) findViewById(R.id.edttxt); editText.set
javascript - 为什么 `Array.length` 、 `Function.length` 、 `String.length` 等返回 1？
在昨天教授我的 JavaScript 类(class)时，我和我的学生遇到了一些有趣的功能，我认为这些功能可能值得在一个问题和我得出的答案中捕捉到。在 Chrome 的 JS 控制台中输入 Arra
java - 何时使用 .length 与 .length()
这个问题在这里已经有了答案: How can I get the size of an array, a Collection, or a String in Java? (3 个回答) 3年前关闭。
java - length 和 length() 有什么区别？
这个问题在这里已经有了答案: length and length() in Java (8 个答案) 关闭 6 年前。我注意到在计算数组的长度时，你会这样写: arrayone.length; 但
angular - this.slides.length() 无法读取未定义的属性 'length'
console.log(this.slides.length()); 打印 Cannot read property 'length' of undefined.在 setTimeout 为 100
r - 从CRAN安装软件包时警告 “downloaded length != reported length”
在搜索stackoverflow问题时，我发现了此链接: Error in file.download when downloading custom file。但是，我的情况有些不同(我认为):
r - seq(...) 参数 "length.out"与 "length"
这个问题已经有答案了: Why does R use partial matching? (1 个回答) 已关闭 8 年前。大家。我刚刚开始使用 swirl 学习 R 编程。我刚刚了解到seq 。
r - seq(...) 参数 "length.out"与 "length"
这个问题已经有答案了: Why does R use partial matching? (1 个回答) 已关闭 8 年前。大家。我刚刚开始使用 swirl 学习 R 编程。我刚刚了解到seq 。
java - 使用 .length 和 .length() 求长度有什么区别
这个问题已经有答案了: How can I get the size of an array, a Collection, or a String in Java? (3 个回答) 已关闭 9 年前。
javascript - 在没有 length 属性的变量上使用 .length 会导致崩溃
我有一个大数组，其中包含所有类型( bool 值，数组，null，...)，并且我正在尝试访问它们的属性arr[i].length，但有些其中显然没有长度。我不介意那些缺少长度的人是否返回未定义(我
javascript 测试 .length 和 .length > 0
我在对象的属性中有一些文本。我正在测试对象的属性中是否有要显示的文本；如果没有，那么我显示“-”而不是空白。看起来没有什么区别: if (MyObject.SomeText && MyObject.S
java - String.length() 与 Array.length
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Why is String.length() a method? Java - Array's length
javascript - (obj.length === +obj.length) 比较什么？
这个问题在这里已经有了答案: obj.length === +obj.length in javascript (4 个答案) 关闭 9 年前。我一直在读underscore.js源代码并在 _.
c++ - 两个单词的长度相加产生错误答案(string0.length() + string1.length())
#include using std::cout; using std::cin; using std::string; int main(){ cout > name; cout
javascript - obj.length 什么时候不等于+obj.length？
我正在细读 underscore.js annotated source当我遇到这个时: if (obj.length === +obj.length) {...} 我现在从this stackove
c# - (args 之间的区别是 { Length : > 0}) and args. Length?
我正在查看 dotnet 运行时中的一些代码，我注意到不是这样写的: if (args.Length > 0) 他们使用这个: if (args is { Length: > 0}) 你知道用第二种方

首页

博学

6Ren·AI

商城

statistics - 统计语言模型 : comparing word sequences of different lengths