gpt4 book ai didi

excel - 使用机器学习解析Excel文件并提取表数据而不涉及命名表?如果是这样,我该如何开始?

转载 作者:行者123 更新时间:2023-11-30 08:43:20 25 4
gpt4 key购买 nike

我读过几篇有关机器学习的文章。

一个例子是 https://medium.com/technology-invention-and-more/how-to-build-a-simple-neural-network-in-9-lines-of-python-code-cc8f23647ca1并想知道是否可以修改代码来执行下面的用例。

假设机器有一个只有 1 张纸的 Excel 文件(假设为 .xlsx)。

工作表内将有一个表格(定义为具有标题行和至少 2 个数据行,并且将被阅读该文件的常识人员认可为表格。不是 MS 定义的命名表格或对象Excel)

以下内容是事先未知的:

  • table 的位置
  • 行数和列数
  • 表中的数据类型

Excel 文件中的此表也 named or identified beforehand以任何方式。 此 Excel 文件中没有对象。没有命名表。

如果我尝试使用 VBA 列出对象,我将收到此错误消息

enter image description here

此表格之外至少还有 1 个其他单元格将包含一些文本或值。

如何或使用什么软件库使用什么算法训练机器来识别表格的开始和结束位置?

例如

表格第一个单元格(标识为标题行中最左上角的单元格)是 A4,表格最后一个单元格(标识为最右下角的单元格)是 G12

机器能够读取 Excel 文件并说表格位于 A4:G12,即使表格外还有其他单元格包含数据。

我的各种谷歌搜索涉及“Excel和机器学习”或“识别Excel中的表格”,往往会为我提供有关如何使用Excel文件将数据提供给机器学习软件或如何查找/命名在中命名的数据表的文章Excel。 我想强调表数据没有命名。

还遇到过answers谈论从 PDF 中提取此类表格数据。但我的重点是 Excel。

我读到机器学习可以用来读取图像。因此,我想象尝试“读取”一个高度结构化的 Excel 文件,只是为了找到表格所在的位置。

以下是一些示例屏幕截图

enter image description here

enter image description here

这里是 Excel 文件的链接

https://www.dropbox.com/s/l3vjjsgunp0zu23/A4toG12.xlsx?dl=0

https://www.dropbox.com/s/nwzw0211ruhwvf0/G7toN19.xlsx?dl=0

请注意,这些是虚拟文件,用于说明我关于识别表数据的观点。

  • 第一个应标识为 A4 至 G12
  • 第二个应标识为 G7 至 N19

JanLauGe的评论关于 ctrl + a 很有趣,请参阅 Using machine learning to parse excel file and extract table data with no named tables involved? If so, how do I get started?

我在 google 上搜索了 VBA 中的等效内容,但没有成功。

我尝试过的

我按照 Scott Craner 的建议编写了一个脚本来查找具有我得到的值的所有单元格。

多亏了他的评论,我才得以成功。

Public Sub LookForCells()
For Each block In ActiveSheet.Columns("A:Z").SpecialCells(xlCellTypeConstants, 23).Areas
MsgBox block.Count
Next block
End Sub

您应该看到以下内容

enter image description here

最佳答案

我意识到这是一个老问题,但在考虑这个主题并进行从 Excel 文件中提取表格数据的练习时发现了它。我们还得出结论,机器学习不是正确的答案,至少目前如此,但基于规则的方法更好。

我们制定的规则是识别表格“角”,这些角在上方和左侧具有空白单元格或工作表边界,它们是至少 2x2 密集或稀疏数据矩阵的一部分。

第二件事是贪婪地提取,并依靠过滤来缩小我们感兴趣的数据范围。

如果你仍然对这个主题感兴趣,我在GitHub上发布了一个Python工具和 PyPI (称为“eparse”),它抓取 Excel 电子表格的文件系统,从中解析表格数据,并将解析后的表格数据注入(inject)数据库。我还写了一个article关于它。

关于excel - 使用机器学习解析Excel文件并提取表数据而不涉及命名表?如果是这样,我该如何开始?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47595396/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com