gpt4 book ai didi

python - 如何使 Tesseract 更快

转载 作者:行者123 更新时间:2023-11-27 22:49:13 24 4
gpt4 key购买 nike

<分区>

这是一个远景,但我不得不问。我需要任何可能使 Tesseract OCR 引擎更快的想法。我正在处理由大约 2000 万页文本组成的 200 万个 PDF,我需要尽可能地提高性能。目前估计,如果我什么都不做,这将需要大约一年的时间才能完成。

我已经调整了输入图像以获得一些提升,但我需要考虑其他方法。我认为目前对图像的改进不会让我有任何帮助。

例如:

  • Tesseract 可以用优化标志或类似的东西重新编译吗?
  • 能否将共享 CPU 内存或 GPU 付诸实践?
  • 我能以某种方式告诉 Tesseract 使用更多内存吗(我有很多内存)?
  • 是否有任何其他方法可以使受 CPU 限制的 C++ 程序更快?

目前,Tesseract 由我们的任务运行器 Celery 运行,它使用多处理来完成它的工作。这样,我可以让服务器看起来像这样:

enter image description here

我(很明显?)不知道我在说什么,因为我是一名 Python 开发人员,而 Tesseract 是用 C++ 编写的,但如果有任何方法可以在这里得到提升,我会很乐意提供想法。

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com