gpt4 book ai didi

database - 从数百个 Word 文档中抓取结构化信息?

转载 作者:搜寻专家 更新时间:2023-10-30 19:49:39 25 4
gpt4 key购买 nike

我的任务是从数百个人类可读文档(主要是 MS Word)中提取一些结构化信息,并将其放入数据库中。数据几乎嵌入整个文档的表格中,但表格之间有很多文本,尽管文档在结构上非常相似,但还是有一些差异。文档经常更改(我们每隔几个月就会得到一个更新版本)

到目前为止,我能想到的唯一可行的选择是手动浏览所有文档并插入/更新信息,但我想我会在这里问是否有人认为可以通过某种方式抓取文档?

哦,数据必须相当正确......

最佳答案

我使用 converter from RTF to FO 做了类似的工作(尽管没有表格) .

您已将文档转换为 RTF,然后再转换为 FO,这为您提供了文档的良好 XML 结构。然后您可以轻松地解析它并抓取数据。

关于database - 从数百个 Word 文档中抓取结构化信息?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4202800/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com