gpt4 book ai didi

unicode - 教 OCR 理解 NSA 和 FISC 修订

转载 作者:行者123 更新时间:2023-12-01 06:32:18 25 4
gpt4 key购买 nike

我正在维护来自外国情报监视法庭的大量编辑文件的文件。

它们带有大段文本,如下所示:

screenshot of redacted text

当 OCR 尝试处理此问题时,您会收到如下文本:

production of this data on a daily basis for a period of 90 days. The sole purpose of this

production is to obtain foreign intelligence information in support of

individual authorized investigations to protect against international terrorism and



所以在 OCRed 版本中,有黑点的地方,只是缺少单词。有时,缺失的单词会创建一个具有不同/奇怪含义的语法正确的句子(如上)。其他时候,由此产生的句子毫无意义,但无论哪种方式都是一个问题。如果 OCR 引擎可以为这些点返回 X 或 Unicode 方块(如 ▮▮▮▮),那就更好了。

我想要的结果是这样的:

production of this data on a daily basis for a period of 90 days. The sole purpose of this

production is to obtain foreign intelligence information in support of XXXXXXXXXXX

individual authorized investigations to protect against international terrorism and



我的问题是如何获得这些 X。有没有办法分析图像以识别黑点?有没有办法用 X 或一些更好的 unicode 字符替换它们?我愿意接受任何想法以使这看起来正确,但图像编辑对我来说不是强项,也不是在 OCR 引擎中深入进行黑客攻击。

最佳答案

您可能想为那些长 Blob 训练 Tesseract。根据 blob 的长度,您可以分配不同数量的“X”字符。阅读 TrainingTesseract3用于训练过程。

关于unicode - 教 OCR 理解 NSA 和 FISC 修订,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18860940/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com