gpt4 book ai didi

image - 与 OCR 逆向工程作斗争

转载 作者:行者123 更新时间:2023-12-02 17:50:20 27 4
gpt4 key购买 nike

我指的是基于软件的 OCR?图像到文本引擎的转换工具,stackoverflow 上有大量关于构建 OCR 的帖子,但我的看法恰恰相反,就像关于如何保护我的图像免受逆向工程的任何指导。

例如,我有只包含文本的图像,我怎样才能让任何人都难以解码数据,是否有任何所需的图像格式可以做到这一点?或者我们可以混淆图像?

使用特殊字体或失真能否保证 OCR 保护?尽管我的要求不允许提供太多扭曲的文本。

任何方向都会很有帮助

最佳答案

据我所知,您收集了一些受版权保护的文本,这些文本应该可供人类清晰阅读,但您不希望它以电子形式从您的服务器中泄露。我认为混淆文本使其更难进行 OCR 不是一个好主意,因为它会使人类无法阅读,尤其是在文本非常长的情况下。基本上,人类容易阅读的内容可以完美地进行 OCR 编辑。 OCR 困难的事情对人来说也很困难。在最坏的情况下,攻击者可能会雇用一家印度公司来手动重新输入文本,这实际上并没有那么昂贵。

我会建议你寻找其他方面来做好保护。您的用例如何?为什么用户可以在他们的 PC 上将您的文本作为图像获取?他们下载的是 PDF 还是图像文件?在这种情况下,与下载文件的可能性作斗争而不是使其不可读会简单得多。

例如,您可能会考虑不立即授予对整个文件的访问权限,而是逐页显示它,并需要人工交互才能进入下一页。您甚至可能会扰乱您的 Web 界面,使其无法通过典型的站点下载实用程序下载所有内容。每个页面都应显示在相同的 URL 上,但实际导航应使用 AJAX 或什至某些专有接口(interface)与服务器通信。

另一种方法是在每个页面上制作许多人类不可见的虚假链接,但它们会误导下载实用程序,使他们下载大量错误的内容,或以错误的顺序下载使其无法使用。

如果您能成功地对抗自动下载,您甚至不必以图像形式提供您的内容,它可以是纯文本,但只是其中的一小部分。它无论如何都无法使用。

希望这能让您知道该走哪条路。

关于image - 与 OCR 逆向工程作斗争,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9138333/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com