parsing - 用于解析草率/古怪/"almost structured"数据的背景阅读？-6ren

parsing - 用于解析草率/古怪/"almost structured"数据的背景阅读？

转载作者：行者123 更新时间：2023-12-01 22:27:37

24

4

我正在维护一个程序，需要解析以“几乎结构化”的文本形式存在的数据。即，生成它的各种程序使用稍微不同的格式，它可能已被打印出来并通过 OCR 重新输入(是的，我知道)，但有错误等，所以我需要使用启发式方法来猜测它是如何生成的并应用不同的怪癖模式等。这是令人沮丧的，因为如果事情表现良好，我对解析的理论和实践有些熟悉，并且那里有很好的解析框架等，但是数据的不可靠性导致我写了一些非常草率的临时代码。目前还可以，但我担心当我将其扩展以处理更多变化和更复杂的数据时，事情会失控。所以我的问题是:

由于有相当多的现有商业产品可以做相关的事情(网络浏览器中的“怪异模式”，编译器中的错误解释，甚至自然语言处理和数据挖掘等)，我相信一些聪明的人已经知道了对此进行了思考，并试图发展一种理论，那么以尽可能有原则的方式解析无原则数据的背景阅读的最佳来源是什么？

我意识到这有点开放式，但我的问题是我认为我需要更多背景知识才能知道要问的正确问题是什么。

最佳答案

如果要在你的建议和双手被绑在背后与生牛肉味果酱战斗饥饿的鳄鱼之间做出选择，我会选择...

好吧，更严肃地说，如果您有不遵守任何“理智”结构的数据，您必须研究数据并找到其中的怪癖频率，并将给定上下文的数据关联起来(即它是如何生成的)

打印到 OCR 来获取数据几乎总是会导致心碎。我工作的公司雇佣了一支名副其实的人员队伍，他们手动阅读此类文档，并对已知有问题的 OCR 场景的数据进行手动“编码”(即手动输入)，或者我们的客户检测到原始 OCR 失败的文档。

至于利用“解析框架”，这些框架往往期望数据始终遵循您制定的语法规则。您所描述的数据没有这样的保证。如果您走这条路，请为意外的(尽管并不总是显而易见的)失败做好准备。

如果有任何可能的方式来获取原始数据文件，请务必这样做。或者，如果您可以要求提供数据的人员将其数据采用单一定义良好的格式，那就更好了。 (它可能不是“您的”格式，但至少它是您可以转换的常规且可预测的格式)

关于parsing - 用于解析草率/古怪/"almost structured"数据的背景阅读？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1369073/

24

4

0

文章推荐：安装后 MSBuild 15 丢失

文章推荐： knex.js 连接两个子查询(嵌套查询)

文章推荐： graphviz - 在 Graphviz 中围绕一组顶点绘制边框

我的其他页面的 CSS 背景 : want a diff. 背景
我正在使用 CSS background: url(stuffhere.jpeg)对于我的背景，但是当你点击其他视频时，“元素”不是页面，背景不会改变。我试过了和，并尝试为#home 和#pr
css - 背景:无 vs 背景:透明有什么区别？
这两个 CSS 属性有区别吗: background: none; background: transparent; 它们都有效吗？应该使用哪一个，为什么？最佳答案它们之间没有区别。如果您没有
csslint 警告回退背景(十六进制或 RGB)应在 RGBA 背景 ."evidence="背景 : rgba(0, 0, 0, 0.8 之前)；
csslint 警告回退背景(十六进制或 RGB)应该在 RGBA 背景之前。"evidence="background: rgba(0, 0, 0, 0.8);/* FF3+,Saf3+,Opera
jquery翻转!背景
我在我正在制作的新网站上使用 Flip 插件: http://www.concept-it.be/padre (点击联系人，然后点击电子邮件地址)。正如你所看到的，当翻转开始后，div 的背景变成灰
javascript - “before and after” 背景
有没有办法使用“前后”图像作为全尺寸背景？我想会很棒!我正在尝试将此类示例用作整页大小的图像； http://www.catchmyfame.com/2009/06/25/jquery-beforea
CSS 背景 - 包含但有点小？
我认为答案是否定的，但是... 有没有办法说: background-size: contain 90% 所以它的作用正是 contain 会做的，但是然后将它调整得更小一些？最佳答案理想的解决方
javascript - 将鼠标悬停在每个字母上时如何更改字体系列 + 背景
将鼠标悬停在给定文本的每个字母上将更改文本的整个字体 + 正文背景颜色。我试过了，但我的尝试失败了。相反，字体只在被悬停的字母之后发生变化，我什至不知道如何从 div 选择器中影响正文背景颜色。 .h
iPhone - UITableView 背景
我想给我的 UITableView 提供背景图片，所以我尝试了这个方法: - (void)viewDidLoad { [super viewDidLoad]; // Do any additional
Python - 背景/非事件窗口的屏幕截图
我正在尝试使用 Python 3.6 使用 PIL/Numpy(每个屏幕截图~0.01s)快速截取准备处理的屏幕截图。理想情况下，窗口不需要位于前台，即即使另一个窗口覆盖它，屏幕截图仍然成功。到目前
CSS3 背景 - 多个背景大小属性
我正在尝试做一些可能不可能的事情，但让我们看看你怎么想。这是我的代码: html { background: url(../img/pattern.png) repeat, url(../im
具有线性彩色径向线的 CSS 背景
一位设计师想出了这种类型的背景，如下图所示。我想避免使用图像背景。因此，如果可以使用 CSS background 属性复制它，我会努力思考。最底层只是一个线性渐变，没有问题。但是在其之上分层的圆形
WPF TreeViewItem 背景
当 TreeView(或应用程序)失去焦点时，如何更改所选 TreeViewItem 的背景。在这种情况下，默认情况下选定的项目具有浅灰色背景。编辑:第一个答案后的尝试:但是找不到带有 Target
具有线性彩色径向线的 CSS 背景
一位设计师想出了这种类型的背景，如下图所示。我想避免使用图像背景。因此，如果可以使用 CSS background 属性复制它，我会努力思考。最底层只是一个线性渐变，没有问题。但是在其之上分层的圆形
css - 背景 - 单斜条纹
我需要有一个带有 CSS 的背景作为附加的图像我不能让它与线性渐变一起工作。我正在尝试以下操作，但我无法仅创建 1 个白色条纹。 div { background: #5cbcb0; bac
java - ListView 背景
我有一个ListView，它有一个页眉和页脚。它们在 CardView 中的布局。以及其中必须为背景的内容列表。这是一张可以清楚看到的图片:我现在是这样的: 以及如何做: 我这样做了，ScrollVi
JQUERY CSS 背景
我目前有一个 DIV，其背景图像设置如下: background: url(../images/site/common/body-bannar-bkground.png) repeat 0 0; 如何
javascript - slider 背景
我有一个 slider ，需要在不使用 .style.backgroundImage 的情况下更改背景。那么我该如何通过向 slider 或其他东西添加一些类来做到这一点呢？ 'use strict'
c++ - LibPng 背景
好的，所以在 photoshop 中，我创建了一个具有透明背景和一些文本的 8 位彩色图像。然后我创建了一个具有透明背景和一些文本的 16 位颜色的图像。当我右键单击两个图像并转到属性时，它显示两个
android - Activity 背景
我有一个问题困扰着我，我似乎在 Google 上找不到答案。我用一段代码创建了一个小型测试应用程序，它执行如下操作: 在 MainActivity 中，我创建了一个 SomeClass 的实例，它有一
android - AppBarLayout 背景
我想做这个，在 Android Studio 的预览中看起来不错，但在运行时我得到这个正如您在屏幕开头看到的那样，颜色是白色，我想添加我自己的颜色，在本例中为绿色。最初它使用的是 Cordina

首页

博学

6Ren·AI

商城

parsing - 用于解析草率/古怪/"almost structured"数据的背景阅读？