dataset - 二元拼写检查算法的良好测试数据来源？-6ren

dataset - 二元拼写检查算法的良好测试数据来源？

转载作者：行者123 更新时间：2023-12-04 05:53:29

25

4

我最近实现了一个拼写检查算法，该算法考虑了二元组频率(即考虑前一个单词到拼错单词以帮助识别正确的拼写更正)。

现在我想了解我的算法的平均性能。为此，我计划在我已经知道正确拼写的情况下为算法提供大量拼写错误的单词，并检查我的算法是否提出了正确的更正。 有谁知道我可以用这种方式评估我的算法的一些拼写错误数据集及其更正？

举几个例子来说明，这是我想要的那种数据，

    buildMap.put("is neccasary", "is necessary");
    buildMap.put("was uneque", "was unique");
    buildMap.put("of conciderable", "of considerable");
    buildMap.put("must rember", "must remember");

这里第一个字符串中的第一个单词是 上下文 词，第二个词是 拼写错误 单词。第二个字符串表示拼错单词的正确拼写版本( 目标 )。

我显然可以以编程方式生成拼写错误(例如计算一到两个编辑距离的字符串)但这并不理想，因为这些拼写错误可能不会遵循现实世界拼写错误的模式(例如一个字符更有可能被另一个直接替换在它旁边的键盘上，而不是必须用另一只手输入)。任何建议将不胜感激。

最佳答案

WikiEdits Corpus是从维基百科的编辑历史汇编的拼写错误的一个很好的列表。

Here is a paper describing the corpus and the file format .

关于dataset - 二元拼写检查算法的良好测试数据来源？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9789875/

25

4

0

文章推荐： gwt - RequestFactoryEditorDriver 在刷新后获取已编辑的数据

文章推荐： intellij-idea - IntelliJ Idea 中的 Vaadin 插件

文章推荐： sharepoint - sharepoint 中包含 owssvr.dll 的子目录

powershell - RoboCopy 来源
我正在用 robocopy 编写一个 powershell 脚本来从列表中复制“完整的”unc/文件名路径。我遇到的问题是 robocopy 似乎在我的源路径末尾添加了一个 \。我有一个 C:\te
docker - 来源:守护进程在createContainer中调用libcontainer的位置
我发现守护程序通过这些代码创建了一个容器 // NewBaseContainer creates a new container with its // basic configuration. fu
传单 map 来源
是否有所有潜在 map 源的列表？在示例页面上，可以浏览四种类型的 map 。外面还有什么？ http://tombatossals.github.io/angular-leaflet-directi
传单 map 来源
是否有所有潜在 map 源的列表？在示例页面上，可以浏览四种类型的 map 。外面还有什么？ http://tombatossals.github.io/angular-leaflet-directi
用于多个站点的 Elasticsearch(来源)
我们的网站比较多，第一次使用ElasticSearch不知道应该怎么配置ES: 我们想使用 ES 作为这些网站的唯一搜索引擎，我们是否应该为每个网站设置单独的 ES 实例？ (我想这可能比一个 ES
c++ - 检测录音中的不同声音/来源
我需要一些关于我对 UNI 项目的想法的建议。我想知道是否可以将一个音频文件从不同的音频源分成不同的“流”。例如，将音频文件拆分为:引擎噪音、火车噪音、人声、并非始终存在的不同声音等。我不一定需要
random - 随机性的公共(public)来源
我想设置“公共(public)彩票”，每个人都可以看到选择是随机和公平的。如果我只需要一点，我会使用例如当天收盘道琼斯指数的 LSB。问题是，我需要 32 位。我需要一个来源: 每日可用全世界都可以
python - 不受信任的 pickle 来源
来自 pickle 的 python 文档: Warning The pickle module is not secure. Only unpickle data you trust. 什么是 pi
icecast - 是否可以在特定日期和时间安排 Liquidsoap 来源？
我试图安排一个 liquidsoap 流媒体源在未来的特定日期和时间播放。我相信这可以使用 Liquidsoap switch 命令来完成，但我无法理解此处描述的文档:http://liquidsoa
r - 如果未知路径/来源，如何在Shiny中播放音频文件？
对于Shiny应用程序，我希望能够播放在 session 本身期间生成的音频文件。如果它是我要上传的音频文件，我将使用 tags$audio(src = "www/name.wav", ty
java - 更改 OpenGL 来源
我想更改我的 OpenGL 来源。图片会说明: 现在是这样的: 这就是我想要的: 当前代码 gl.glViewport(0, 0, width, height); gl.glMatrixMode(GL
javascript - 来源 : 'tok_visa' in Stripe
我正在尝试让 Stripe 运行起来，我几乎已经完成了，但有一件令人困惑的事情。 source: 'tok_visa' 部分。看起来它可以是“tok_mastercard”、“bank_account
java - Primefaces 来源 jsf
我已经下载了 primefaces 源代码，看看是否可以从中学习。该 jar 包含一堆使用编写器来处理渲染等的 java 类。我期待找到一些 .xhtml 文件 ... and etc etc
javascript - 不同的 html 来源
如果我查看页面源代码，我会看到 styling += 'ul#topnav a.tabHeader5'; styling += '{'
javascript - 如何根据屏幕尺寸更改来源？
我正在尝试根据显示器的大小更改背景图像。它不在服务器上运行。您可以在 https://github.com/Umpalompa/Umpalompa.github.io 找到我的所有代码. 我尝试同时使
android - 如何从谷歌分析中获取推荐人/Activity 来源
从here的最底部开始.有一个 URL 生成器，我可以使用引荐来源网址在 Google Play 上生成指向我的应用程序的链接。我如何从谷歌分析中提取该 Activity 来源？我一直在谷歌上搜索，但
javascript - 替换给定的来源
我用 Google Weather API 制作了一个插件，目前我正在从 Google 的 API 中提取图像。对于晴天，我正在拉 http://www.google.com//ig/images/w
java - 通过环境变量指定@CrossOrigin 来源
是否可以通过环境变量为 @CrossOrigin 注释指定来源？我想这样做，以便我可以将相同的代码库用于 uat/staging/production。我希望我的 uat/staging 环境可以通过
javascript - $(文档).ready() 来源
我需要等待我的 JavaScript 中的文档准备就绪，才能在正文底部插入一个 div。我想: 使此 JavaScript 文件尽可能小(如果可能，将其编译到 < 1kb) 在闭包中内联提供文档就绪
javascript - 授权的 JavaScript 来源
我正在开发电子邮件服务并想连接到谷歌帐户，是否可以将我的本地主机用作授权的 JavaScript 来源？最佳答案第 1 步:启用 Google+ API http://localhost:4567

首页

博学

6Ren·AI

商城

dataset - 二元拼写检查算法的良好测试数据来源？