gpt4 book ai didi

machine-learning - 错误模型语言

转载 作者:行者123 更新时间:2023-11-30 08:50:34 26 4
gpt4 key购买 nike

我必须编写一个正确的名称拼写检查器。

我写了第一部分,语言模型检查器,但现在是最难的部分,误差模型 P(W|C),即当作者指的是 C 时,在文本中键入 W 的概率。

为了解决这个问题,我想出了最简单的解决方案,算法选择具有最小 Damerau–Levenshtein 距离的单词,如果有多个名称,算法必须选择最常见的名称。

该应用程序运行正常,但我想改进它。我想介绍一种电子学习机器算法,它可以从最常见的错误中学习。我必须实现机器学习算法。

所以我开始思考如何做到这一点。

进入错误模型语言是否可以找到一些模式:

  • 单词中间的字母拼写错误是最常见的情况,
  • 将一个元音与另一个元音拼错更容易,
  • ...等等...

我想将所有这些都作为事实来实现。

此外,这个算法可能会用于文本识别或语音识别,因此我必须考虑:

  • 同音字错误,例如将 v 拼写成 f 比将 v 拼写成 q 更常见
  • 拼写错误,例如将 i 拼写为 l 甚至发现!词里面。

为了更好地解释问题:我们可以想象这两种情况。

  • 第一个是使用算法从扫描的纸张中读取时
  • 另一种情况是算法用于语音识别时。

在第一种情况下,更有可能出现诸如发音相似的字母之类的错误,而在第二种情况下,更有可能出现打印错误。由于我不知道我的算法将在什么场景下工作,所以我应该实现一个动态适应场景的算法,我的意思是如果存在诸如g!useppe 的可能性是 Giuseppe ( o.4) geuseppe ( o.6)该算法必须选择第一个,因为 ! 的形状和i类似,我发现了很多类似的错误。

我认为解决方案是一种从错误中学习的机器学习算法。

第一个问题,我是否清楚地解释了我的问题?
如果可以,哪种算法满足我的要求?

我在人工智能和机器学习方面的经验有限。

最佳答案

很难选出一个最有可能正确的拼写,这就是为什么大多数拼写检查器提供多种选项可供选择的原因。如果可能的话,我建议您也这样做。人们甚至可能根本不需要任何统计学习——只需向用户提供每个可能的有效名称,使其与输入之间的编辑距离低于某个给定值 N。

关于machine-learning - 错误模型语言,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12403937/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com