gpt4 book ai didi

html - 将 PDF 转换为 HTML,保持布局

转载 作者:太空宇宙 更新时间:2023-11-04 14:48:47 25 4
gpt4 key购买 nike

有哪些方法可以将 PDF 转换为 HTML?它可以是任何东西——在线服务、软件、图书馆。 (首选开源。在最后一种情况下,首选 php 或 python。)它必须保持原始布局(包括页码、脚注等),保持图像(将它们组合成每页一个背景图像是可以接受的)并保留链接。它应该最好输出有效的 XHTML 并清除连字等 PDF 功能,但如果需要进行一些后期处理,我可以接受。具有干净、相对语义化的 HTML 输出的东西会很棒。

我找到的最接近的是 zamzar.org ,但它在链接上窒息了。 (此外,HTML 输出是一堆丑陋的绝对定位的 div,并且由于编码问题需要进行后处理。)

最佳答案

我知道两个选择。两者在视觉上看起来非常相似,但输出肯定不是语义的。

Python:PyMuPDF

安装 PyMuPDF:pip install pymupdf

import fitz

def to_html(filepath: str):
doc = fitz.open(filepath)
for i, page in enumerate(doc):
text = page.getText("html")
with open(f"pymupdf-page-{i}.html", "w") as fp:
fp.write(text)
doc.close()

pdftohtml

在 debian 源代码中 ( this one )

pdftohtml -c

关于html - 将 PDF 转换为 HTML,保持布局,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2794269/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com