gpt4 book ai didi

text - 用于拼写检查的机器学习算法

转载 作者:行者123 更新时间:2023-11-30 09:23:55 25 4
gpt4 key购买 nike

我有一个药物名称列表(regular_list)和一个新名称列表(new_list)。我想检查 new_list 中的名称是否已经存在于常规_list 中。问题是名称 new_list 可能有一些拼写错误,我希望这些名称被视为与常规列表匹配。我知道使用 stringdist 是问题的解决方案,但我需要机器学习算法

最佳答案

正如这里已经提到的那样machine learning to overcome typo errors ,机器学习工具对于此类任务来说太多了,但最简单的可能性是合并这些方法。

一方面,您可以计算 edit distance给定单词 x 之间以及字典中的每个单词d_i 。此外,您可以训练每个单词的分类器

c(d_i, distance(x,d_i)) 

返回True (类 1 )如果已知给定的编辑距离足以考虑 x d_i 的拼写错误版本。这可以为您提供比不使用机器学习更通用的模型,因为您可以为每个字典单词设置不同的阈值(某些单词比其他单词更容易拼写错误),但显然,您必须准备 (misspelled_word, correct_one) 形式的训练集(并添加 (correct_one, correct_one )。

您可以使用任何类型的二元分类器来完成此类任务,它可以处理“真实”输入数据。

关于text - 用于拼写检查的机器学习算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18374749/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com