gpt4 book ai didi

dataset - 二元拼写检查算法的良好测试数据来源?

转载 作者:行者123 更新时间:2023-12-04 05:53:29 25 4
gpt4 key购买 nike

我最近实现了一个拼写检查算法,该算法考虑了二元组频率(即考虑前一个单词到拼错单词以帮助识别正确的拼写更正)。

现在我想了解我的算法的平均性能。为此,我计划在我已经知道正确拼写的情况下为算法提供大量拼写错误的单词,并检查我的算法是否提出了正确的更正。 有谁知道我可以用这种方式评估我的算法的一些拼写错误数据集及其更正?

举几个例子来说明,这是我想要的那种数据,

    buildMap.put("is neccasary", "is necessary");
buildMap.put("was uneque", "was unique");
buildMap.put("of conciderable", "of considerable");
buildMap.put("must rember", "must remember");

这里第一个字符串中的第一个单词是 上下文 词,第二个词是 拼写错误 单词。第二个字符串表示拼错单词的正确拼写版本( 目标 )。

我显然可以以编程方式生成拼写错误(例如计算一到两个编辑距离的字符串)但这并不理想,因为这些拼写错误可能不会遵循现实世界拼写错误的模式(例如一个字符更有可能被另一个直接替换在它旁边的键盘上,而不是必须用另一只手输入)。任何建议将不胜感激。

最佳答案

WikiEdits Corpus是从维基百科的编辑历史汇编的拼写错误的一个很好的列表。

Here is a paper describing the corpus and the file format .

关于dataset - 二元拼写检查算法的良好测试数据来源?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9789875/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com