gpt4 book ai didi

machine-learning - 选择合适的模型来创建语言识别工具

转载 作者:行者123 更新时间:2023-11-30 08:55:32 25 4
gpt4 key购买 nike

我正在开发一种用于给定文本的语言识别的工具,即给定示例文本,识别其所用的语言(例如英语、瑞典语、德语等)。

现在我决定遵循的策略(基于我收集的一些引用资料)如下 -

a) 创建一个字符n-gram模型(n的值是根据一定的启发式和计算确定的)

b) 使用机器学习分类器(例如朴素贝叶斯)来预测给定文本的语言。

现在,我的疑问是 - 创建字符 N 元模型是否必要。例如,简单的词袋策略有什么缺点,即如果我使用相应语言中可能的所有单词来创建预测模型,它可能会失败的情况是什么。

之所以产生这种疑问,是因为我遇到的任何引用文献/研究论文都表明语言识别是一项非常困难的任务。然而,仅仅使用这种使用语言中的单词的策略似乎是一个简单的任务。

编辑:应首选 N-gram 的原因之一是即使存在如所述 here 中所述的拼写错误,也可以使模型稳健。 。谁能指出更多吗?

最佳答案

if I use all the words possible in the respective language to create a prediction model, what could be the possible cases where it would fail

字符 n-gram 模型失败的情况几乎相同。问题是您无法为所有可能的单词找到适当的统计数据。(*) 字符 n 元语法统计数据更容易积累且更可靠,即使对于没有拼写错误的文本也是如此:语言中的单词往往遵循相同的拼写模式。例如。如果您没有找到荷兰语单词“uitbuiken”(一个非常罕见的单词)的统计数据,那么 n 元语法“uit”、“bui”和“uik”的出现仍然是荷兰语单词的有力指标。

(*) 在土耳其语等粘着语言中,可以通过将语素串在一起形成新单词,并且可能的单词数量是巨大的。查看Jurafsky and Martin的前几章,或任何本科语言学文本,对每种语言可能的单词数进行有趣的讨论。

关于machine-learning - 选择合适的模型来创建语言识别工具,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25242967/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com