作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用以下代码在图像文本上绘制矩形以匹配日期模式及其工作正常。
import re
import cv2
import pytesseract
from PIL import Image
from pytesseract import Output
img = cv2.imread('invoice-sample.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
keys = list(d.keys())
date_pattern = '^(0[1-9]|[12][0-9]|3[01])/(0[1-9]|1[012])/(19|20)\d\d$'
n_boxes = len(d['text'])
for i in range(n_boxes):
if int(d['conf'][i]) > 60:
if re.match(date_pattern, d['text'][i]):
(x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i])
img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 255, 0), 2)
cv2.imshow('img', img)
cv2.waitKey(0)
img.save("sample.pdf")
最佳答案
有一个名为 pdf2image 的库。您可以使用“pip install pdf2image”安装它。然后您可以使用以下内容将pdf的页面转换为所需格式的图像:
from pdf2image import convert_from_path
pages=convert_from_path("pdf_file_to_convert")
for page in pages:
page.save("page_image.jpg","jpg")
from io import BytesIO
from PIL import Image
with BytesIO as f:
page.save(f,format="jpg")
f.seek(0)
img_page=Image.open(f)
关于python - 如何将PDF转换为opencv-python可读的图像?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61832964/
我是一名优秀的程序员,十分优秀!