python - 将图形从扫描的文档转换为数据-6ren

python - 将图形从扫描的文档转换为数据

转载作者：行者123 更新时间：2023-12-02 16:52:58

25

4

我目前正在尝试写一些可以从书中一些不常见的图形中提取数据的东西。我扫描了这本书的页面，并通过使用opencv来检测图形中的某些功能，以便将其转换为可用数据。在左图中，我在寻找“三角形”的高度，在右图中，是从中心到虚线与灰色区域相交的点的距离。在这两种情况下，我都希望将这些值转换为数字数据以备将来使用。

我想到的第一件事是检测图表的线，希望我能以某种方式测量其长度或位置。为此，我使用了霍夫线变换。以下代码片段显示了我已经走了多远。

import numpy as np
import cv2

# Reading the image
img = cv2.imread('test2.jpg')
# Convert the image to grayscale
gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
# Apply edge detection
edges = cv2.Canny(gray,50,150,apertureSize = 3)

# Line detection
lines = cv2.HoughLinesP(edges,1,np.pi/180,100,minLineLength=50,maxLineGap=20)

for line in lines:
    x1,y1,x2,y2 = line[0]
    cv2.line(img,(x1,y1),(x2,y2),(0,0,255),2)

cv2.imwrite('linesDetected.jpg',img)

唯一的问题是这种检测算法根本不准确。至少不适合我。为了从图表中提取一些数据，线条的检测应该有些准确。他们有什么办法可以做到吗？还是我的检测线策略刚开始是错误的？我是否应该开始检测其他东西，例如圆形，对象大小，轮廓或颜色？

最佳答案

使用颜色分割是将图形转换为数据的简便方法。此方法确实需要一些手动注释。分割图后，计算每种颜色的像素。在OpenCV库中包含的演示文件中查看“分水岭”演示:

import numpy as np
import cv2 as cv
from common import Sketcher

class App:
    def __init__(self, fn):
        self.img = cv.imread(fn)
        self.img = cv.resize(self.img, (654,654))
        h, w = self.img.shape[:2]
        self.markers = np.zeros((h, w), np.int32)
        self.markers_vis = self.img.copy()
        self.cur_marker = 1
        self.colors = np.int32( list(np.ndindex(2, 2, 3)) ) * 123
        self.auto_update = True
        self.sketch = Sketcher('img', [self.markers_vis, self.markers], self.get_colors)

    def get_colors(self):
        return list(map(int, self.colors[self.cur_marker])), self.cur_marker

    def watershed(self):
        m = self.markers.copy()
        cv.watershed(self.img, m)
        cv.imshow('img', self.img)        
        overlay = self.colors[np.maximum(m, 0)]
        vis = cv.addWeighted(self.img, 0.5, overlay, 0.5, 0.0, dtype=cv.CV_8UC3)
        cv.imshow('overlay', np.array(overlay, np.uint8))
        cv.imwrite('/home/stephen/Desktop/overlay.png', np.array(overlay, np.uint8))
        cv.imshow('watershed', vis)

    def run(self):
        while cv.getWindowProperty('img', 0) != -1 or cv.getWindowProperty('watershed', 0) != -1:
            ch = cv.waitKey(50)
            if ch >= ord('1') and ch <= ord('9'):
                self.cur_marker = ch - ord('0')
                print('marker: ', self.cur_marker)
            if self.sketch.dirty and self.auto_update:
                self.watershed()
                self.sketch.dirty = False
            if ch == 27: break
        cv.destroyAllWindows()


fn = '/home/stephen/Desktop/test.png'
App(cv.samples.findFile(fn)).run()

输出将是这样的图像:

您可以使用以下代码计算每种颜色的像素:

# Extract the values from the image
vals = []
img = cv.imread('/home/stephen/Desktop/overlay.png')
# Get the colors in the image
flat = img.reshape(-1, img.shape[-1])
colors = np.unique(flat, axis=0)
# Iterate through the colors (ignore the first and last colors)
for color in colors[1:-1]:
    a,b,c = color
    lower = a-1, b-1, c-1
    upper = a+1,b+1,c+1
    lower = np.array(lower)
    upper = np.array(upper)
    mask = cv.inRange(img, lower, upper)
    vals.append(sum(sum(mask)))
    cv.imshow('mask', mask)
    cv.waitKey(0)
cv.destroyAllWindows()

并使用以下代码打印输出数据:

names = ['alcohol', 'esters', 'biter', 'hoppy', 'acid', 'zoetheid', 'mout']
print(list(zip(names, vals)))

输出为:

[('alcohol', 22118), ('esters', 26000), ('biter', 16245), ('hoppy', 21170), ('acid', 19156), ('zoetheid', 11090), ('mout', 7167)]

关于python - 将图形从扫描的文档转换为数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56344651/

25

4

0

文章推荐： python - OpenCV 检测具有多个边界框的单个符号

文章推荐： angular - 操作已正确分派(dispatch)，但 reducer 未被调用

文章推荐： eclipse - 无法安装asm框架和字节码大纲插件

latex - 如何正确插入图像/图形，并在 latex 中使文本 "flow around"成为图像/图形？
我一直在为此而苦苦挣扎。我想插入一个图像，并将其“靠近”讨论该图像的文本，但是该页面上的文本将围绕图像环绕/流动。我已将图像转换为eps格式。最初，我尝试使用图形环境(\begin {figure}
azure - 使用 Microsoft 图形 API 或 Azure AD 图形 api 从用户界面删除应用程序对用户的访问权限
我在用户界面中创建了管理控制台，管理员可以在其中执行所有操作，例如创建、删除用户、向用户分配应用程序以及从用户界面删除用户的应用程序访问权限我厌倦了使用 Microsoft 图形 API 和 Azu
azure - 使用 Microsoft 图形 API 或 Azure AD 图形 api 从用户界面删除应用程序对用户的访问权限
我在用户界面中创建了管理控制台，管理员可以在其中执行所有操作，例如创建、删除用户、向用户分配应用程序以及从用户界面删除用户的应用程序访问权限我厌倦了使用 Microsoft 图形 API 和 Azu
图形/视觉有趣的话题
我想为计算机图形学类(class)做一个有趣的项目。我知道那里有很多文献(即 SIGGRAPH session 论文)。我对计算机图形学(即图像处理、3D 建模、渲染、动画)兴趣广泛。但是，我只学了
JavaScript 图形
我试图在 MaterializeCSS 网站上创建一些类似于这个的图形，但我不知道它来自哪里，我查看了整个 MaterializeCSS 网站，它不是框架的一部分，我找不到在代码中他们使用的是什么我
安卓绘图/图形
我有一个包含 1 到 6 之间的各种数字的 TextView ，每个数字在每一行上代表一次，例如 123456 213456 214356 ...... 我希望能够绘制一条蓝线来跟随单个数值在列表中向
Cygwin 图形？
我目前在 Windows 7 上使用 Netbeans 和 Cygwin，我希望用 C 语言编写一个简单的 2D 游戏。我设法找到的大多数教程都使用 Turbo C 提供的 graphics.h，C
Python seaborn 图形
亲爱的，我正在尝试将 kaggle 教程代码应用于 Iris 数据集。不幸的是，当我执行图表的代码时，我只能看到这个输出而看不到任何图表: matplotlib.axes._subplots.Axe
performance - 图形:浮点累积图像的最佳性能
我需要加快我正在处理的一些粒子系统的视觉效果。令人眼前一亮的是添加混合、积累以及粒子上的轨迹和发光。目前我正在手动渲染到浮点图像缓冲区，在最后一分钟转换为无符号字符，然后上传到 OpenGL 纹理。为
networking - 生成图形的图片/图形
在研究跨网络的最短路径算法时，我想生成网络图片。我想代表节点(圆圈)、链接(线)、遍历链接的成本(链接线中间的数字)和链接的容量(链接线上它代表的节点旁边的数字)在这张图中。是否有任何库/软件可以帮助
Azure 图形 API
尽管我已将应用程序从库添加到 Azure AD，但我无法看到何时尝试提取数据。但我可以看到添加的自定义应用程序。就像我添加了 7 个应用程序一样； 2 个来自图库(Google 文档、一个驱动器)和
elasticsearch - 图形，文本和分析组合搜索
因此，我正在构建一个系统，该系统具有“人员”，“银行帐户”和“银行帐户交易”。我需要能够回答以下问题: “将所有与1/2/3度有联系的人归还给特定的人”， “返回年龄在40岁以上的所有人” “从德国
java JFrame 图形
我在 JFrame 构造函数中有以下简单代码 super(name); setBounds(0,0,1100,750); setLayout(null); setVis
java 图形 - 具有两种颜色的形状
(这是java)我有一个椭圆形，代表一个单位。我希望椭圆形的颜色代表单位的健康状况。因此，一个完全健康的单位将是全绿色的。随着单位生命值的降低，椭圆形开始从底部填充红色。因此，在 50% 生命值下，椭
Java 图形 JApplet
我目前正在开发一个学校项目。我们必须制作一个Applet，我选择了JApplet。由于某种原因，我用来显示特定字符串的面板将不会显示。这里可能有什么问题？请指出我正确的方向。另外，我看了一些教程，
java - 两行代码之间的延迟 - 图形
我正在尝试创建一个 Simon game 。我正在编写游戏程序，但遇到了问题。我希望程序从队列中读取游戏中之前存在的所有值，并以正确的顺序将它们的颜色变为闪烁(我选择将它们变为灰色，然后在第二秒后恢复
Java 图形、图形面板和按钮面板
我正在尝试创建一个框架，该框架在同一框架的顶部有一个图形面板(通过布局)，在其下方有一个按钮/标签面板。到目前为止，我似乎已经能够将它们放在同一个框架上，但与按钮/标签面板相比，图形面板非常小....
Java Swing 图形
我用 Java 编写了一个解决数独问题的代码，并使用 Java Applet 来设计它。现在，我尝试使用 Java Swing 使其看起来更好，并添加一些功能，例如“保存”数独板等。不幸的是，我对 J
Java 图形用户界面/图形
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
c - 图形(二维旋转)
我现在尝试了 8 个多小时来解决这个问题，但无法弄清楚，请帮助找出我的代码有什么问题。 int main() { int gd = DETECT, gm; float ANGLE =

首页

博学

6Ren·AI

商城

python - 将图形从扫描的文档转换为数据