gpt4 book ai didi

data-modeling - 从数百万个简单但不一致的文本文件中提取信息

转载 作者:行者123 更新时间:2023-12-01 23:25:41 25 4
gpt4 key购买 nike

我们有数以百万计的简单 txt 文档,其中包含我们从 pdf 中提取的各种数据结构,文本是逐行打印的,因此所有格式都丢失了(因为当我们尝试使用工具来维护格式时,它们只是把它搞砸了)。我们需要从该文本文档中提取字段和值,但这些文件的结构存在一些变化(这里和那里换行,某些工作表上有噪音,因此拼写不正确)。

我在想我们会创建某种模板结构,其中包含有关关键字和值的坐标(行,字/字数)的信息,并使用这些信息来定位和收集关键字值,例如使用各种算法来弥补格式不一致。

是否有执行此操作的任何标准方法,是否有任何可能有帮助的链接?还有其他想法吗?

最佳答案

可以使用像 agrep 这样的模糊文本匹配工具来纠正或忽略噪音:http://www.tgries.de/agrep/但是,额外换行的问题仍然存在。

我建议的一种技术是以类似于编译器的方式限制错误传播。例如,您尝试匹配您的模板或模式,但您无法做到。稍后在文本中有一个确定的匹配,但它可能是当前未匹配模式的一部分。在这种情况下,应该接受确定的匹配,并且应该将不匹配的文本 block 放在一边以供将来处理。这将使您能够跳过难以解析的错误。

关于data-modeling - 从数百万个简单但不一致的文本文件中提取信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5916901/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com