gpt4 book ai didi

python - 如何在Python中将从PDF中提取的文本格式化为json

转载 作者:太空宇宙 更新时间:2023-11-03 21:08:58 28 4
gpt4 key购买 nike

我使用 pyPDF2 提取了一些文本格式的发票 PDF。我想将此文本文件转换为仅包含重要关键字和标记的 json 文件。

输出应该类似于:

#PurchaseOrder

{

"doctype":"PO",

"orderingcompany":"Demo Company",

"suppliercompany":"Demo Company",

"shipto":"Test Customer",

"ponum":"PO1234",

"podate":"01-01-2019",

"totalamount":"$1234.50",

"currency":"SGD"

}

我从 pdf 中获得的示例文本是:

PACE 成员(member)软件房子

4115松语圈

大草原城,德克萨斯州 75051

972

336

7141

56929268

采购订单

致:

埃尔默·华

A+投资

塞鲁洛路1223号

列克星敦,肯塔基州 40507

[电话号码]

运送至:

严月桂

步伐成员(member)仓库

4115松语圈

大草原城,德克萨斯州 75051

972

336

7141

邮政信箱数量:

PO/18

19081

[邮政信箱数量必须出现在所有相关的信件、运输文件和发票]

订单日期

申请人

通过运送

离岸价要点

条款

2006年7月15日

数量

单位

描述

单价

总计(新元)

100.00

1

互锁漂移圆领,ILRN

13.50

1,350.00

小计

1,350.00

销售税

200.00

1.

请发送两份您的发票。

2.

根据价格、条款、上面列出了交付方式和规范。

3.

如果您无法按照以下方式发货,请立即通知我们指定。

4.

将所有信件发送至:

严月桂

4115松语圈

格拉德克萨斯州普雷里市 75051

972

336

7141

56929268

运输和处理G

其他

总计

1,550.00

授权人严月桂

2006年7月15日

最佳答案

您已经提供了文本,最好编辑您的帖子以删除地址

要回答您的问题,您必须逐行循环此文本并记录您需要的部分并将它们保存到 json。

如果您只想按位置获取页面的子集,那么之前已经问过这个问题 How to extract text from a Specific Area in a PDF using Python?

关于python - 如何在Python中将从PDF中提取的文本格式化为json,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55197191/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com