python-3.x - Image_to_string 不使用 pytesseract 从 tiff 或 tif 文件中读取文本-6ren

python-3.x - Image_to_string 不使用 pytesseract 从 tiff 或 tif 文件中读取文本

转载作者：行者123 更新时间：2023-12-03 22:19:19

24

4

我正在尝试从 tif 或 tiff 图像文件中读取文本。这些文件有多个页面。

当我打印数组时，我只得到 true，然后没有文本。但是，当我使用 .png 文件时，我能够打印文本。

下面是我的代码。

from PIL import Image, ImageSequence
import pytesseract
from pytesseract import image_to_string
import numpy as np
import cv2
test = Image.open(r'C:\Python\BG36820V1.tiff')
#test1 = Image.open(r'C:\Users\Documents\declaration.png')
testarray = np.array(test)
print(testarray)
print(pytesseract.image_to_string(Image.fromarray(testarray))

这是测试文件的输出:

[[ True  True  True ...  True  True  True]
 [ True  True  True ...  True  True  True]
 [ True  True  True ...  True  True  True]
 ...
 [ True  True  True ...  True  True  True]
 [ True  True  True ...  True  True  True]
 [ True  True  True ...  True  True  True]]

但是这对 test1 工作正常。

[[[242 242 242 255]
  [242 242 242 255]
  [242 242 242 255]
  ...
  [242 242 242 255]
  [242 242 242 255]
  [242 242 242 255]]

 [[182 180 182 255]
  [182 180 182 255]
  [182 180 182 255]
  ...
  [182 180 182 255]
  [182 180 182 255]
  [182 180 182 255]]
g Request 4042337300021 submitted sucessfully

x
TYPE

我尝试用 opencv 读取 tiff 文件，但格式不受支持。

如何打印 tiff 或 tif 文件中的文本。

有什么建议吗？

问候，任.

最佳答案

修改了我的整个代码并将 tiff 文件转换为 jpeg 文件，它能够读取文本。

from PIL import Image, ImageSequence
import pytesseract
from pytesseract import image_to_string
import numpy as np
import cv2
import os
yourpath = r'C:\Python\'
for root, dirs, files in os.walk(yourpath, topdown=False):
    for name in files:
        print(os.path.join(root, name))
        if os.path.splitext(os.path.join(root, name))[1].lower() == ".tiff":
            if os.path.isfile(os.path.splitext(os.path.join(root, name))[0] + ".jpg"):
                print ("A jpeg file already exists for %s" % name)
            # If a jpeg is *NOT* present, create one from the tiff.
            else:
                outfile = os.path.splitext(os.path.join(root, name))[0] + ".jpg"
                try:
                    im = Image.open(os.path.join(root, name))
                    print ("Generating jpeg for %s" % name)
                    im.thumbnail(im.size)
                    im.save(outfile, "JPEG", quality=100)
                except Exception as e:
                    print (e)

test = Image.open(r'C:\Python\BG96254V1.jpeg')

testarray = np.array(test)
print(testarray)
print(pytesseract.image_to_string(Image.fromarray(testarray)))

这只阅读第一页而不是页面列表。关于如何进行更改以阅读所有页面的任何建议。

谢谢。

关于python-3.x - Image_to_string 不使用 pytesseract 从 tiff 或 tif 文件中读取文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52430601/

24

4

0

文章推荐： sql-server - SQL 服务器 : loading database file

文章推荐： typo3 - 将参数添加到 typescript 中的链接

文章推荐： r - 给定一个有限的调色板，如何从热到冷排序，即发散

文章推荐： elm - 如何从 Http.Error 中获取错误消息？

java - 如何将多个多页 tif 文件合并为一个 tif
我正在尝试获取多个多页 .tif 文件并将它们组合成一个多页 tif 文件。我在这个 question 中找到了一些代码, 但它似乎只占用每个单独的 .tif 文件的第一页，并用这些第一页创建新的多
pdf - 如何将多个 tif 文件合并为单个 tif 文件？
我有很多 tif 文件，我想转换成一个。我在 Ubuntu 11.04 上，我该怎么做？我尝试将 tif 转换为单个 pdf，但是在将 pdf 转换为 tif 时卡住了，我使用 ghoscript 和
python - 将原始数据保存为 tif
我需要分析在一个 tif 文件中选作子矩阵的图像的一部分。我想要原始格式的图像，没有多余的装饰(缩放、轴、标签等)...我该怎么做？这是我现在使用的代码: submatrix = im[x_min
Java 处理 TIF 图像
我的问题是，如何才能将 .tif 文件成功加载到 Java 中的 Image 实例中？现在让我详细介绍一下。我已经阅读了很多关于如何在 Java 中处理/转换 TIF 图像的 stackoverfl
javascript - 客户端解析 TIF 文件
我需要在客户端解析 tiff 文件，因此使用一些 JQuery 库、JS 或 HTML5。我已经搜索过，但找不到我需要的东西。我无法使用任何服务器端技术或浏览器插件。我尝试过 tiff.js http
java - 如何处理 .tif 图像？
这个问题已经有答案了: Can't read and write a TIFF image file using Java ImageIO standard library (5 个回答) 已关闭 4
java - 打印 .TIF 文件
我可以使用以下代码片段成功打印 .GIF、.JPG 或 .PNG，但它不适用于 .TIF 文件。即使添加了 chromaticity.color 属性后，我也无法获取颜色。 public class
java - 无法获取 .tif 文件的页数
我有 tiff 文件，我想获取页数。我已被关注this问题，但我无法获得页数。没有错误，我尝试调试问题但找不到原因。 import java.io.File; import java.io.IOExc
Python - 将两个 Tif 文件附加到特定文件中
Python - 将两个 TIF 文件附加到特定文件我的要求是将两个单分页器 TIF 文件附加到具有两页的单个 TIF 文件中。我知道存在append_images参数并尝试按如下方式实现它: im
python - 如何从多波段 tif 文件生成原始文件？
我尝试打开每像素 16 位和多波段的 tif 图像，将其转换为原始文件。我在接下来的命令 i = Image.open('image.tif') 和使用 rawData = i.tostring()
C# - 从 tif 文件中删除属性标签项
我正在尝试从 tif 文件中清除一些属性标签项。我的测试代码是: Image sourceImg = new Bitmap("A10034.tif"); Image img = (Image)sou
Java读取不同类型的图片格式jpg,tif,gif,png
我正在尝试读取一些图像文件 jpg、tif、gif、png 并且需要保存文件和创建图标。我收到 UnsupportedTypeException。 ImageIO.read(file); 如果我使用下
python - 如何在不丢失数据的情况下更改 .tif 光栅文件的分辨率
例如，一个 400*200 大小的 .tiff 文件，我可以在 python 中将其读取为二维数组 (400 x 200)。我想将 tiff 大小更改为 200 x 100 或其他比例。如何在 P
python - 如何对相关的 .tif 文件进行分组？
我正在尝试对与 .tif 图像关联的相关文件进行分组。从列表中可以看到，每组有 7 个相关文件。我正在寻找一种对这些文件进行分组的方法，以便我可以通过 shutil.move() 将它们移动到各个文件
c# - 如何从 Tif 文件中获取颜色图
我的 tif 文件的索引为 8 bpp，并与颜色图一起保存。有什么方法可以从 C# 文件中恢复该颜色图？默认情况下，picturebox 会自动显示这样的颜色图，最左边和最右边分别代表 0 和 2
windows - 如何替换资源管理器的 TIF 图像处理程序？
我为 Windows 资源管理器创建了一个缩略图图像处理程序(shell 扩展)，用于处理多种 TIF/TIFF 图像格式。我知道 Explorer 已经包含 TIFF 支持(由 Windows XP
python - 创建多帧 .tif 文件
我有像素数据，我想用它来创建具有多个帧的新 .tif 图像。我该怎么做呢？我已经尝试过 python PIL，但是我只发现它支持多帧读取而不是写入。请参阅下文，了解我的失败尝试。 new_Image
c# - 使用 .tif 图像前进到下一页时提高性能
我正在使用 WinForms。在我的表单中，我有一个打开按钮和一个下一步按钮。我的应用程序将 .tif 图像打开到一个图片框中。我使用的所有 .tif 图像都有多个页面。下一个按钮用于转到 tif 图
python - 与 tif 一起保存图像元数据的最佳方法是什么？
在我作为研究生的工作中，我捕捉显微镜图像并使用 python 将它们保存为原始 tif。我想添加元数据，例如我正在使用的显微镜的名称、放大倍数和成像激光波长。这些细节对于我如何对图像进行后处理都很
wpf - 如何处理 WPF 中的巨大 tif？
我有一个 14406x9606 像素的 8 位 tiff，当通过 BitmapImage 加载时会抛出 System.OutOfMemoryException。作为全深度位图，其大小约为 400 兆。

首页

博学

6Ren·AI

商城

python-3.x - Image_to_string 不使用 pytesseract 从 tiff 或 tif 文件中读取文本