gpt4 book ai didi

pdf - 有没有好的 PDF 到 XHTML 严格转换器

转载 作者:行者123 更新时间:2023-12-04 13:53:00 24 4
gpt4 key购买 nike

基本上都在标题中,我需要拿一堆大的 PDF 并将它们放在 XHTML 1.0 严格中,关闭就足够了,然后我可以清理它。谢谢

最佳答案

这是一个复杂的请求,因为它是否可以完成取决于 PDF 本身(及其创建方式)。作为第一次尝试,我会尝试使用 adobe 自己的在线 PDF 到 HTML 转换器

http://www.adobe.com/products/acrobat/access_onlinetools.html

然后在事后尝试用 tidy 之类的东西修复 HTML

http://tidy.sourceforge.net/

如果 PDF 是通过扫描图像创建的,那么可能根本没有与之关联的文本 - 那么您能做的最好的办法就是将页面切开并将它们转换为 JPG 文档,或者使用某种 OCR 软件在 PDF 本身上。

我警告您,即使 PDF 是手动创建的,因此其中包含文本信息,转换过程中也可能很多错误,必须由手。我开发的产品基本上是为公司年度报告/等执行此过程,我们最终决定将页面切割成 JPG/GIF 图像和 HTMLing,因为我们尝试的其他过程引入了太多错误,而且劳动强度太大修复它们。

关于pdf - 有没有好的 PDF 到 XHTML 严格转换器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/632202/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com