gpt4 book ai didi

parsing - 用于解析草率/古怪/"almost structured"数据的背景阅读?

转载 作者:行者123 更新时间:2023-12-01 22:27:37 24 4
gpt4 key购买 nike

我正在维护一个程序,需要解析以“几乎结构化”的文本形式存在的数据。即,生成它的各种程序使用稍微不同的格式,它可能已被打印出来并通过 OCR 重新输入(是的,我知道),但有错误等,所以我需要使用启发式方法来猜测它是如何生成的并应用不同的怪癖模式等。这是令人沮丧的,因为如果事情表现良好,我对解析的理论和实践有些熟悉,并且那里有很好的解析框架等,但是数据的不可靠性导致我写了一些非常草率的临时代码。目前还可以,但我担心当我将其扩展以处理更多变化和更复杂的数据时,事情会失控。所以我的问题是:

由于有相当多的现有商业产品可以做相关的事情(网络浏览器中的“怪异模式”,编译器中的错误解释,甚至自然语言处理和数据挖掘等),我相信一些聪明的人已经知道了对此进行了思考,并试图发展一种理论,那么以尽可能有原则的方式解析无原则数据的背景阅读的最佳来源是什么?

我意识到这有点开放式,但我的问题是我认为我需要更多背景知识才能知道要问的正确问题是什么。

最佳答案

如果要在你的建议和双手被绑在背后与生牛肉味果酱战斗饥饿的鳄鱼之间做出选择,我会选择...

好吧,更严肃地说,如果您有不遵守任何“理智”结构的数据,您必须研究数据并找到其中的怪癖频率,并将给定上下文的数据关联起来(即它是如何生成的)

打印到 OCR 来获取数据几乎总是会导致心碎。我工作的公司雇佣了一支名副其实的人员队伍,他们手动阅读此类文档,并对已知有问题的 OCR 场景的数据进行手动“编码”(即手动输入),或者我们的客户检测到原始 OCR 失败的文档。

至于利用“解析框架”,这些框架往往期望数据始终遵循您制定的语法规则。您所描述的数据没有这样的保证。如果您走这条路,请为意外的(尽管并不总是显而易见的)失败做好准备。

如果有任何可能的方式来获取原始数据文件,请务必这样做。或者,如果您可以要求提供数据的人员将其数据采用单一定义良好的格式,那就更好了。 (它可能不是“您的”格式,但至少它是您可以转换的常规且可预测的格式)

关于parsing - 用于解析草率/古怪/"almost structured"数据的背景阅读?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1369073/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com