gpt4 book ai didi

ocr - 最好的 OCR 开源拼写检查器?

转载 作者:行者123 更新时间:2023-12-03 06:13:12 24 4
gpt4 key购买 nike

我有大量 19 世纪的英文 OCR 文档,并且希望使用上下文拼写检查器(例如 Peter Norvig 在 http://norvig.com/spell-correct.html 中提出的拼写检查器)来清除一些 OCR 错误。 。我的主要目标是能够使用概率模型(与 ocred 文本数据和适当的大型词典一起)来纠正拼写错误的单词。

我很高兴使用 Norvig 在他的网站中提供的代码并对其进行改进,但在这样做之前,我想问一下是否有一个开源解决方案。 Norivg 本人建议查看 aspell,但我不认为 aspell 是上下文拼写检查器,而且我担心它在 OCR 纠错方面可能效果不佳。

最佳答案

那么,您正在寻找一个拼写检查器,每当出现不理解的短语或单词时,它都会替换最可能的选择?对于 19c 文本来说,这似乎是一个坏主意,除非您有大量此类文本的语料库,并且这些文本已经经过手工拼写检查。那些当时司空见惯但现在很少见的词语将在你不知情的情况下被取代。我敢说,你可能会发现一个受过现代用语训练的上下文拼写检查器会被你的 19 世纪用语彻底排除。 ☺

如果您有这样一个语料库,或者您准备创建一个语料库,那么有一个强大的基于 Python 的 OCR 和分析工具,名为 OCRopus 。它使用自然语言处理、神经网络和许多其他流行语——我想我在待办事项列表上看到了“深度学习”。它看起来并不容易使用,尽管我承认我自己从未尝试过。它似乎需要命令行和 Python 编程技能。如果您仍然不畏惧,那么它可能正是您正在寻找的。

另一方面,如果您正在寻找更简单的东西,请考虑使用带有标准拼写检查器的程序。例如,gImageReader它可以读取您的 PDF 文件,对其进行 OCR,并让您更正和添加它不认识的单词。我建议在搜索更复杂的内容之前至少尝试一个简单的拼写检查器。

Screenshot of gImageReader spellchecking the word "?RND(1);"

关于ocr - 最好的 OCR 开源拼写检查器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42334193/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com