gpt4 book ai didi

python - 寻找有关如何将 PDF 转换为结构化格式的建议

转载 作者:太空狗 更新时间:2023-10-29 21:08:48 25 4
gpt4 key购买 nike

我想对即将举行的拍卖中列出的一些特性进行一些分析。不幸的是,进行拍卖的城市并未以结构化格式发布信息,而是提供了一个700+ page PDF。的属性(property)正在拍卖。

我想知道社区是否有关于如何将所述 PDF 解析为结构化格式以插入数据库或创建属性电子表格的任何想法。

这是每个页面代表的图像: Property Guide

这是一个列出了一些属性的页面: Sample List of Properties

我对 python 和 ruby​​ 很满意,所以我在编写解决方案脚本时没有任何问题,但是因为“列”和这些列中的数据没有必要捆绑在一起,所以看起来这将是一个可疑的提议。

任何想法将不胜感激。

最佳答案

在处理了 3 个小时之后,我能够从数据中创建一个可解析的 XML 文档。不幸的是,我没有成功将一套完全可重用的步骤组合在一起,我可以将这些步骤用于 future 的拍卖出版物。

顺便说一句,我曾尝试打电话询问洛杉矶县是否可以提供另一种可供拍卖的特性格式(excel 等),但答案是否定的。这就是你的政府。

这是我的方法的高级 View :

我用了http://xmlbeautifier.com/作为我的 XML 美化器/验证器,因为它速度很快,并且提供准确的错误报告,包括行号。

使用Homebrew为 Mac 安装 Poppler:

brew install poppler

安装 Poppler 后,您应该可以访问 pdftotext 实用程序来转换 PDF:

pdftotext -layout -f 24 -l 687 AuctionBook2013.pdf auction_book.txt

这是 XML 的预览 (Click here for full XML):

<?xml version="1.0" encoding="UTF-8"?>
<listings>
<item id="1">
<nsb>536</nsb>
<minbid>3,422</minbid>
<apn>2006 003 001</apn>
<delinquent_year>03</delinquent_year>
<apn_old>2006 003 001</apn_old>
<description>LICENSED SURVEYOR'S MAP
AS PER BK 25 PG 28 OF L S LOT 1
BLK 1 ASSESSED TO J AND S
LIMITED LLC C/O DUNA CSARDAS -
JULIUS JANCSO LOCATION COUNTY OF
LOS ANGELES</description>
<address>VACANT LOT</address>
</item>

编辑:添加我编写的用于将 XML 转换为 CSV 的 Ruby。

require 'rexml/document'
require 'CSV'

class Auction

def initialize

f = File.new('AuctionBook2013.xml', 'r')
doc = REXML::Document.new(f)

CSV.open("auction.csv", "w+b") do |csv|
csv << ['id', 'minbid', 'apn', 'delinquent_year', 'apn_old', 'description', 'address']

doc.elements.each('/listings/item') do |item|
csv << [item.attributes['id'],
item.elements['minbid'].text,
item.elements['apn'].text,
item.elements['delinquent_year'].text,
item.elements['apn_old'].text,
item.elements['description'].text,
item.elements['address'].text]
end
end
end
end

a = Auction.new()

Link to Final CSV

关于python - 寻找有关如何将 PDF 转换为结构化格式的建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18320932/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com