ocr - tesseract 5.0 bazaar + 用户词配置不起作用-6ren

ocr - tesseract 5.0 bazaar + 用户词配置不起作用

转载作者：行者123 更新时间：2023-12-04 17:43:43

27

4

我试图强制 tesseract 在执行 OCR 时只使用我的单词列表。
首先，我将集市文件复制到 /usr/share/tesseract-ocr/5/tessdata/configs/ .这是我的集市文件:

load_system_dawg F
load_freq_dawg F
user_words_suffix user-words

然后，我创建了 eng.user-words在 /usr/share/tesseract-ocr/5/tessdata .这是我的用户词文件:

Items
VAT
included
CASH

然后我通过命令对这个图像执行 ocr: tesseract -l eng --oem 2 test_small.jpg stdout bazaar .

这是我的结果:

2 Item(s) (VAT includsd) 36,000
casH 40,000
CHANGE 4. 000

如您所见， includsd不在我的用户词文件中，它应该被“包含”。此外，即使不使用 bazaaz 我也得到了相同的结果在命令中配置。看起来我的 bazaar和 eng.user-words config 对 OCR 输出没有任何影响。那么如何使用 bazaar和 user-words配置，以获得想要的结果？

最佳答案

您需要做的就是对图像进行上采样。
如果你上采样两次

现在阅读:

2 Item(s) (VAT included) 36,000
CASH 40,000
CHANGE 4,000

代码:

import cv2
import pytesseract

# Load the image
img = cv2.imread("4nGXo.jpg")

# Convert to the gray-scale
gry = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# Up-sample
gry = cv2.resize(gry, (0, 0), fx=2, fy=2)

# OCR
print(pytesseract.image_to_string(gry))

# Display
cv2.imshow("", gry)
cv2.waitKey(0)

关于ocr - tesseract 5.0 bazaar + 用户词配置不起作用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59307205/

27

4

0

文章推荐： clojure - 如何在 Clojure 中忘记延迟序列的 head(GC'd)？

文章推荐： java - Kafka : Single consumer group in multiple instances

文章推荐： crystal-lang - Crystal Lang 编译速度

文章推荐： prolog - Prolog 不擅长什么？

bazaar - bazaar 可以忽略分支中已经存在的文件吗？
在我的本地机器上，配置与测试和生产服务器不同。每次我想提交我的本地代码时，它都会注意到(Bazaar Explorer)我编辑了配置文件。现在我在每次提交时都明确地忽略了这个文件。然而，这偶尔会出错
bazaar - Bazaar 有没有办法自动检测和应用在工作目录中所做的更改？
Bazaar 有没有办法自动检测对部分工作目录所做的更改(添加、删除、重命名等)并自动应用它们？我的存储库中有一个目录树，它是由另一个进程生成的，所以我不能执行所有的 bzr add、bzr del
bazaar - 如何导出子文件夹的 Bazaar 历史记录
我正在编写一个框架以及一个使用该框架的项目。该项目是一个 Bazaar 存储库，框架位于项目下方的子文件夹中。我想为框架提供一个自己的 Bazaar 存储库。我该怎么做？最佳答案您使用 spli
bazaar - 如何告诉 Bazaar 文件是二进制的
这是为了避免在存在冲突时该文件中出现一些 >>。如果存在冲突，我只想要一条消息告诉我存在冲突，并且 bazaar 不应该弄乱该文件。使用 subversion，您可以修改 svn:mime-typ
bazaar - 删除 Bazaar 中的父分支
给定以下场景: $ bzr init-repo foo $ bzr init foo/bar $ cd foo/bar $ echo 'some text' > a_file $ bzr add a_
bazaar - 如何通过 HTTP 代理使用 Bazaar？
如何通过 HTTP 代理使用 Bazaar？我在他们的文档中找不到任何内容。最佳答案设置 http_proxy指向您的代理的环境变量，例如。 (在 Windows 上): set http_pro
linux - 如何避免创建 .bzr.log(bazaar 日志文件)或将其配置为位于 ~/.bazaar/而不是 ~/？
有没有办法告诉 bzr 不要将所有内容都记录到 ~/.bzr.log 或者配置它以将日志文件放入 ~/.bazaar/` 而不是？最佳答案 environment variable BZR_LOG允
bazaar - 如何撤消bzr添加
有时，我键入bzr add并没有注意到我不在分支的根目录中，而是被忽略的子文件夹。然后，这会将所有文件添加到该文件夹中-通常是一个包含很多文件的build文件夹。因此出现了一个问题:如何撤消bzr
bazaar - 有没有办法找出集市更新会做什么
有没有办法找出 bzr 更新会在不实际执行的情况下进行哪些更改。具体来说，如果发生冲突，我想发出一点警告。最佳答案不是我直接知道的，这就是 bzr revert是为了。但是，有一种常见的方法可以
bazaar - 删除市集中的未知文件
我的Bazaar工作树中有一堆我不再想要的未知文件。我可以使用bzr stat获得它们的列表，但是我想要一种简单的方法来摆脱它们。 (我希望bzr revert有一个选项可以做到这一点，但我找不到。)
bazaar - 启动板拉取请求
我想提议对 Launchpad 中托管的项目的源代码进行更改。问题是:我不知道如何使用 bazaar 版本控制系统，我从来没有使用过 Launchpad，那么发出 Github pull reque
bazaar - 从早期的集市提交中删除更改
我正在集市的一个功能分支上工作。为了在本地构建项目，我在本地修改了一个文件 (build)，尽管我不希望此更改包含在我的提交中。大多数时候我记得从 bzr commit 中排除该文件，或者在看到摘要时
bazaar - 是否可以使用集市在代码中自动插入版本号？
我目前正在使用 bzr (bazaar) 源代码管理软件进行编码项目。我想在我的项目的文件代码中包含版本号这样我就可以调用变量“VERSION”并回显我当前的工作版本。在代码中能够做到这一点: va
bazaar - 我可以建立一个集市分支并将其作为我的主要共享存储库吗？
我在共享服务器上有一个集市存储库。我想清理 repo 并从头开始设置它，但要保留我的历史记录。我不知道最初是如何创建存储库的(有没有办法找出来？)。我可以建立一个分支并将其添加到我的主要共享存储库中
ignore - Bazaar:忽略本地文件但不在集中存储库中？
我们有一个集中式开发服务器，每个人都在本地结账处工作。我们如何仅忽略本地存储库中的特定目录，而不忽略集中存储库中的特定目录？一些背景资料: 该项目是一个Drupal站点，该站点的文件目录一直在变化。
directory - Bazaar 存储库因移动而损坏
我已经使用 the instructions 获得了 OpenERP 源代码. 我已经搬了整个source在我的其他地方的目录 home . 现在，当我尝试 pull更改它会引发错误: shahar@
file - Bazaar:提交时自动修改文件并提交修改
我希望 bazaar 在提交时写入修订号到已提交分支中的文件，以便此修改包含在提交中。我查看了钩子(Hook)，但 pre_commit 钩子(Hook)仅在创建变更集后运行，因此它执行的修改不会提
python - Bazaar:添加工作树特定元数据
我希望能够设置/获取与 bzr 中的工作树相关的一些自定义属性。当我在特定工作树中开始构建源代码时，可以使用这些属性。例如，我们的软件使用 PostgreSQL 数据库实例，每个构建(在工作树/分支内
bazaar - 试图了解 BZR 存储库
我使用 Bazaar，我喜欢它。一般来说，我只是创建不同的分支并分别管理它们。我刚刚发现所有这些分支都可以放入存储库中。如果我理解正确，这应该可以节省内存并提高速度，因为分支之间的一些共同祖先是共享的
repository - 使用 bazaar 删除文件历史记录
有人将所有二进制文件提交到我们的 bazaar 主干，我想摆脱它。 `bzr del file' 只从当前修订版中删除文件，而不是文件的历史记录。有没有办法可以删除文件历史记录，这样我们就不必下载数

首页

博学

6Ren·AI

商城

ocr - tesseract 5.0 bazaar + 用户词配置不起作用